|
|
|
| Всем привет!!!
Сталкнулся с такой проблеой. Написал скрипт для извлечения данных из *.mht документа, работает норально все извлекает. Но если сохранить Веб Архив в Word 2003, то он крилицу забивает спецсимволами: "чи". В браузере все работает и оображается нормально. Просто мне нужно конвертировать символы в нормальный алфавит для дальнейшей онипуляции с текстом. Подскажите какой-нибудь сайт, где можно узнать каждое обозначение символа, а код конвертации я сам набью, а если с помошью PHP его можно конвертировать, то как?
Всем заранее СПАСИБО!! | |
|
|
|
|
|
|
|
для: Staglu
(20.10.2007 в 21:46)
| | Попробуйте пропустить текст через функцию html_entity_decode(). | |
|
|
|
|
|
|
|
для: Drago
(20.10.2007 в 22:25)
| | Не не помогло!!! | |
|
|
|
|
|
|
|
для: Staglu
(20.10.2007 в 22:34)
| | iconv("UTF-8", "WINDOWS-1251", $str); | |
|
|
|
|
|
|
|
для: sim5
(20.10.2007 в 22:56)
| | Как не странно, тоже не помогло!!! | |
|
|
|
|
|
|
|
для: Staglu
(20.10.2007 в 23:29)
| | Раз подобное появляется, значит, что в текущей кодировке (windows-1251, возможно), нет таких символов (либо есть, но автор HTML-кода либо от незнания, либо для подстраховки использовал подобный способ отображения символов).
http://www.columbia.edu/kermit/utf8-t1.html
P.S. Если будет проблемно доставать, то могу поделится таблицей (SQL) с этими же символами, их hex/dec-представлениями и описанием. Не так давно самому нужно было. | |
|
|
|
|
|
|
|
для: Unkind
(20.10.2007 в 23:43)
| | >P.S. Если будет проблемно доставать, то могу поделится таблицей (SQL) с этими же символами, их hex/dec-представлениями и описанием. Не так давно самому нужно было.
Если можно, скиньте на e-mail или киньте на форум. | |
|
|
|
|
|
|
|
для: Staglu
(20.10.2007 в 23:45)
| | Оно и не поможет. Вы просили: Подскажите какой-нибудь сайт, где можно узнать каждое обозначение символа, а код конвертации я сам набью. Что проще, видя на экране текст и имея исходное под рукой, получить нужное. Можете вообще зайти в Ворд, выполнить "Вставить символ", и вы получите шестнадцатеричные представления символа юникода. Можете набрать алфавит в обеих регистрах и сохранить как веб-документ в кодировке UTF-8, получите десятеричные представления нужного вам. | |
|
|
|
|
|
|
|
для: sim5
(20.10.2007 в 23:57)
| | >Можете вообще зайти в Ворд, "Вставить символ", и вы получите шестнадцатеричные представления символа юникода.
Можно и так, но мне нужно было знать, вдруг в PHP есть функция конвертации. Просто не хотелось писать свою функцию, если есть встроенная функция в PHP. | |
|
|
|
|
|
|
|
для: sim5
(20.10.2007 в 23:57)
| | У меня все получилось! И через WORD, и через предложенную базу http://unhost.ru/trash/unicode_table.txt
Всем спасибо за помошь!!! | |
|
|
|
|
|
|
|
для: Staglu
(21.10.2007 в 00:09)
| | Ну а функция, наверное тогда mb_convert_encoding(). | |
|
|
|
|
|
|
|
для: sim5
(21.10.2007 в 00:15)
| | Я короче все забацал через регулярные выражения и функцию preg_replace. | |
|
|
|
|