Я здание ИПС, что поиск текст в нескольких форматах файлов, я Пробовал EPocalipse IFilter Lirary но через исключение при попытке читать DOCX файлов, и я попытался Toxy библиотеки это хотя исключение для DOC арабских файлов, наконец, я попытался TikaOnDotNet Libray но нужно Java работать, и мне нужно поставить систему онлайн на хостинг, что дон на сервере не установлена javaТекста Извлечение библиотеки из различных типов файлов, PDF, DOC, DOCX, TXT C#
ответ
Что об использовании таких библиотек:
Для DOC/DOCX: http://www.dotnetperls.com/word
Для PDF: https://github.com/itext/itextsharp
Для TXT: https://msdn.microsoft.com/en-us/library/ms143368(v=vs.110).aspx
библиотека, которая способна извлечь все текстовые данными из файлов любого типа является Apache Tika library. Он может даже извлекать метаданные (если есть) из нетекстовых файлов, таких как файлы изображений и видео. Примеры использования показаны here.
Спасибо, мой друг, я попытался включить TikaOnDotNet в мой C# проект, я включаю dll-файл в качестве ссылки в проекте и устанавливаю и включаю зависимости, но его пространство имен не может использовать. Я пытался решить проблему, но я не могу включить событие в проект с помощью NuGet. Если у вас есть идея решить эту проблему, пожалуйста, поделитесь ею со мной –
Если у вас возникли проблемы с остановкой TikaOnDotnet от GitHub и откройте проблему. Я был бы рад взглянуть. https://github.com/KevM/tikaondotnet/issues/ – KevM
- 1. Извлечение текста из PDF-файлов в C#
- 2. Извлечение текста из файла PDF
- 3. Извлечение файлов .docx
- 4. Извлечение текста из .doc-файлов python
- 5. Чтение файлов DOC и DOCX в C#
- 6. Node.js - PDF, DOC, DOCX to PNG
- 7. Извлечение текста из PDF-файлов в PHP
- 8. php upload pdf, doc, docx
- 9. Carrierwave различных ограничений размера для различных типов файлов
- 10. Как отображать документы (pdf, doc, docx, txt) внутри веб-формы?
- 11. Создание pdf из библиотеки библиотеки docx issue
- 12. Извлечение текста из файла PDF
- 13. Извлечение текста из PDF
- 14. Предварительный просмотр файлов .doc/.docx/.pdf перед загрузкой на сервер
- 15. Проблема открытия файлов doc/docx/excel в браузере (Asp.net, C#)
- 16. Извлечение адреса электронной почты из файлов Txt, PDf, Doc на Google Диске
- 17. Извлечение текста внутри файла docx
- 18. Разрешить только формат pdf, doc, docx для загрузки файлов?
- 19. Извлечение различных типов данных из строки
- 20. Преобразование .doc в .docx с использованием C#
- 21. Извлечение текста из документа PDF - C#
- 22. Тип несоответствия конвертировать .doc/docx в PDF?
- 23. Откройте API или библиотеки для создания эскизов? (.psd, .pdf, .docx)
- 24. PHP Загрузить форму, PDF, Doc и Docx
- 25. Создание файлов .txt из pdf-файлов
- 26. iTextSharp - Преобразование слова doc/docx в pdf
- 27. Преобразование файлов TEX в PDF или DOCX?
- 28. извлечение данных из файлов docx в python
- 29. Форматирование выходного текста в .doc/.docx
- 30. Создание системы, которая может отображать doc, docx, pdf в браузере
Я предполагаю, что вы не хотите платить за стороннюю библиотеку - это было бы тривиально, если бы вы это сделали. Но если ваш единственный блокиратор - файлы .docx, [посмотрите на это простое решение C#] (https://code.msdn.microsoft.com/office/CSOpenXmlGetPlainText-554918c3) – Crowcoder