2016-07-03 3 views
4

Я здание ИПС, что поиск текст в нескольких форматах файлов, я Пробовал EPocalipse IFilter Lirary но через исключение при попытке читать DOCX файлов, и я попытался Toxy библиотеки это хотя исключение для DOC арабских файлов, наконец, я попытался TikaOnDotNet Libray но нужно Java работать, и мне нужно поставить систему онлайн на хостинг, что дон на сервере не установлена ​​javaТекста Извлечение библиотеки из различных типов файлов, PDF, DOC, DOCX, TXT C#

+0

Я предполагаю, что вы не хотите платить за стороннюю библиотеку - это было бы тривиально, если бы вы это сделали. Но если ваш единственный блокиратор - файлы .docx, [посмотрите на это простое решение C#] (https://code.msdn.microsoft.com/office/CSOpenXmlGetPlainText-554918c3) – Crowcoder

ответ

2

библиотека, которая способна извлечь все текстовые данными из файлов любого типа является Apache Tika library. Он может даже извлекать метаданные (если есть) из нетекстовых файлов, таких как файлы изображений и видео. Примеры использования показаны here.

+0

Спасибо, мой друг, я попытался включить TikaOnDotNet в мой C# проект, я включаю dll-файл в качестве ссылки в проекте и устанавливаю и включаю зависимости, но его пространство имен не может использовать. Я пытался решить проблему, но я не могу включить событие в проект с помощью NuGet. Если у вас есть идея решить эту проблему, пожалуйста, поделитесь ею со мной –

+0

Если у вас возникли проблемы с остановкой TikaOnDotnet от GitHub и откройте проблему. Я был бы рад взглянуть. https://github.com/KevM/tikaondotnet/issues/ – KevM

Смежные вопросы