Текста Извлечение библиотеки из различных типов файлов, PDF, DOC, DOCX, TXT C#

Я здание ИПС, что поиск текст в нескольких форматах файлов, я Пробовал EPocalipse IFilter Lirary но через исключение при попытке читать DOCX файлов, и я попытался Toxy библиотеки это хотя исключение для DOC арабских файлов, наконец, я попытался TikaOnDotNet Libray но нужно Java работать, и мне нужно поставить систему онлайн на хостинг, что дон на сервере не установлена javaТекста Извлечение библиотеки из различных типов файлов, PDF, DOC, DOCX, TXT C#

источник

2016-07-03 Alaa M. Tekleh

Я предполагаю, что вы не хотите платить за стороннюю библиотеку - это было бы тривиально, если бы вы это сделали. Но если ваш единственный блокиратор - файлы .docx, [посмотрите на это простое решение C#] (https://code.msdn.microsoft.com/office/CSOpenXmlGetPlainText-554918c3) – Crowcoder

Что об использовании таких библиотек:

Для DOC/DOCX: http://www.dotnetperls.com/word

Для PDF: https://github.com/itext/itextsharp

Для TXT: https://msdn.microsoft.com/en-us/library/ms143368(v=vs.110).aspx

источник

2016-07-03 01:04:01

библиотека, которая способна извлечь все текстовые данными из файлов любого типа является Apache Tika library. Он может даже извлекать метаданные (если есть) из нетекстовых файлов, таких как файлы изображений и видео. Примеры использования показаны here.

источник

2016-07-03 10:48:37 Debasis

Спасибо, мой друг, я попытался включить TikaOnDotNet в мой C# проект, я включаю dll-файл в качестве ссылки в проекте и устанавливаю и включаю зависимости, но его пространство имен не может использовать. Я пытался решить проблему, но я не могу включить событие в проект с помощью NuGet. Если у вас есть идея решить эту проблему, пожалуйста, поделитесь ею со мной –

Если у вас возникли проблемы с остановкой TikaOnDotnet от GitHub и откройте проблему. Я был бы рад взглянуть. https://github.com/KevM/tikaondotnet/issues/ – KevM

Текста Извлечение библиотеки из различных типов файлов, PDF, DOC, DOCX, TXT C#

ответ

Смежные вопросы