2012-03-02 4 views
0

Может они должны быть отдельные вопросы, по одному для каждого формата, но ...PDF, PPT, DOC, и т.д., чтобы TEXT

Каковы наиболее НАДЕЖНЫЕ библиотеки (на любом языке), двоичные файлы (для любой платформы) или webservices (бесплатно или бесплатно) для конвертирования разнообразных «текстовых» форматов в простой текст?

Надежный, я имею в виду около 100% -ную возможность извлекать ВСЕГО текст, читаемый человеком,, а НЕ ВЫЗЫВАЕТ «код» или «разметку».

По текст, содержащий форматы, я имею в виду: все самые распространенные вещи, как PDF, PPT, DOC, DOCX, RTF, HTML, ".стр", ".KEYNOTE", ODT, и т.д. и т.п.

Пожалуйста, предложите обе эти пакеты/услуги, которые поддерживают многие этих форматов, а также те, которые только поддерживают один. Кроме того, есть ли программное обеспечение «стеки», которые «связывают вместе» множество пакетов/услуг с целью преобразования в текст?

ответ

0

http://www.filebuzz.com/files/Ascii_Convert/1.html < --Эта ссылка приведет вас к списку конвертеров, которые могут конвертировать PDF-файлы и другие типы файлов в формат ASCII (обычный текст). Для документов Word вы можете сделать это без программного обеспечения. Например, для документов Word, когда вы нажимаете «Сохранить как», он откроет диалоговое окно с раскрывающимся списком «Сохранить как тип». Выберите «Обычный текст * .txt», и он сохранит ваш файл в виде обычного текста. Удачи!

0

В Java Apache Tika toolkit обнаруживает и извлекает метаданные и структурированное текстовое содержимое из различных документов, используя существующие библиотеки парсеров.

0

Если вы используете Ruby, взгляните на Yomu. Это оболочка для Apache TIKA и поддерживает множество форматов документов, который включает в себя следующее:

  • Microsoft Office Форматы OLE 2 и Office Open XML (.doc, .docx, .xls, .xlsx, .ppt, .pptx)
  • OpenOffice.org OpenDocument форматов (ODT, ODS, .odp)
  • компании Apple IWORKS Форматы
  • Rich Text Format (.rtf)
  • Portable Document Format (PDF)
0

Вы можете попробовать Extract Text.

Из описания: «Извлечь текст из таких документов, как файлы PDF и Microsoft Word, сохранить извлеченный текст в файле. Работает с .pdf, .doc, .docx, .xls, .xlsx, .ppt , и многое другое ». Требуется Microsoft.NET Framework 4.0.

Смежные вопросы