|
|
|
| собственно сабж.
Можно ли осуществить такую задачу.
пока новичок. Может подскажете где найти инфу или сами что расскажите.
Спасибо. | |
|
|
|
|
|
|
|
для: bublik
(01.01.2009 в 16:59)
| | Помоему с этими форматами просто стараются не работать.
ms-DOC вообще закрытый формат, засекреченый )
Вот откуда-то вырезал
форматы обладают рядом негативных черт. Основные из них - их закрытость (DOC), и ориентация на полиграфическую разметку текста в ущерб логической (DOC, RTF). Эти характеристики ставят серьезные барьеры автоматической обработке документов. RTF [3] (Rich Text Format) имеет открытую спецификацию. Тем не менее, полиграфическая направленность делает невозможным реализацию "интеллектуальных" сервисов, работающих с документами. Они порождают то, что Сент-Лорейн в 1999 г. назвал WYSIWYG-кошмаром (WYSIWYG disaster). "Простой текст, пусть и слишком примитивный, обрабатывается намного легче, чем результат работы среднего редактора текстов, либо настольной издательской системы. На практике девиз WYSIWYG превращается в WYSIAYG - "What you see is ALL you get" ("получишь только то, что видишь"). Текст настолько перегружен форматирующими тегами, что совершенно не остается места для семантики и прагматики документа" [4]. К RTF это относится в полной мере.
Кроме word-документов, большой объем научных и образовательных ресурсов разработан в формате издательской системы TeX/LaTeX
И спецификаций rtf несколько http://ru.wikipedia.org/wiki/Rich_Text_Format | |
|
|
|
|
|
|
|
для: bublik
(01.01.2009 в 16:59)
| | Если есть возможность конвертировать или сразу сохранять в .mht, то можно довольно серьёзно облегчить исходник с помощью регулярок. Хотя мусору всё равно остается прилично. Оч. непредсказуемый формат. | |
|
|
|