2009-10-31 2 views
5

Есть ли библиотека, которая имеет класс для извлечения текста из pdf-файла в C# .net? Я пробовал несколько, но документация ужасна, поэтому я не смог ее снять. Также, если он предоставляет класс для извлечения изображений, которые будут плюсом. Какие-либо предложения? Thx заранее.Преобразование PDF в рабочий текст с использованием C#

Также мне нужно иметь возможность реализовать его в существующем приложении.

ответ

3

Вы попробовали PDFKit.NET? У этого есть разумные документы и некоторые хорошие примеры. Он разработан для серверной среды, поэтому он немного дороже.

EDIT Здесь находится библиотека с открытым исходным кодом на SourceForge под названием iTextSharp. Он бесплатный для проектов с открытым исходным кодом. Я не использовал его, но выглядит многообещающим. Here is a tutorial для этого есть много примеров кода.

+1

+1 свободный - это хорошо. –

0

Мы использовали программное обеспечение для снегоочистки на работе для преобразования изображений. он, видимо, поддерживает и text extraction. однако, это не бесплатно.

+0

не уверен, почему ссылка не будет работать. но вы можете перейти на snowbound.com -> решения -> извлечение текста –

1

Есть несколько способов, которыми вы можете пойти здесь - многое из этого будет зависеть от того, хотите ли вы сохранить форму (например, абзацы и другие элементы макета) исходного PDF.

Если вы рассматриваете коммерческие решения, мы предлагаем два продукта, которые могут удовлетворить ваши требования. Одним из них является EasyPDF SDK, который имеет однократные вызовы ExtractText() и ExtractText2(), которые вытягивают текст из ваших PDF-файлов в виде обычного текста.

Обратите внимание, что вывод этих вызовов довольно упрощен, и вы потеряете много оригинальных элементов макета. Они хороши для простого извлечения текста, но могут быть неудобны, если ваш PDF содержит табличные данные.

Если вы имеете дело со столами, более приятной альтернативой может стать вытащить ее как богатый текст. У нас есть инструмент под названием EasyConverter SDK, предназначенный для бизнес-документов, который делает это только с помощью одного вызова функции.

С помощью EasyConverter SDK формат вашего оригинального PDF-файла будет сохранен.

Оба поддерживают C#, поэтому не стесняйтесь проверить версии eval на сайте www.pdfonline.com, если вам интересно. Я действительно работаю с продавцом, поэтому сделайте это предложение как мать, любящую своего собственного ребенка :-) Я долго просматривал stackoverflow.com для фрагментов кода, но только недавно начал публиковать, так что если у вас есть любые вопросы с API просто дайте мне знать, и я могу помочь. Ура!

1

Docotic.Pdf library может извлекать текст и изображения из файлов PDF.

Вы можете извлечь текст из целого документа только с некоторых страниц. Библиотека может извлекать простой текст, а также текстовые фрагменты с координатами.

Вы можете извлечь изображения из файлов PDF (в виде файлов JPEG и TIFF).

Вот несколько образцов для вашей задачи:

Отказ от ответственности: Я работаю Bit Miracle, поставщик библиотеки.

Смежные вопросы