Есть несколько способов, которыми вы можете пойти здесь - многое из этого будет зависеть от того, хотите ли вы сохранить форму (например, абзацы и другие элементы макета) исходного PDF.
Если вы рассматриваете коммерческие решения, мы предлагаем два продукта, которые могут удовлетворить ваши требования. Одним из них является EasyPDF SDK, который имеет однократные вызовы ExtractText() и ExtractText2(), которые вытягивают текст из ваших PDF-файлов в виде обычного текста.
Обратите внимание, что вывод этих вызовов довольно упрощен, и вы потеряете много оригинальных элементов макета. Они хороши для простого извлечения текста, но могут быть неудобны, если ваш PDF содержит табличные данные.
Если вы имеете дело со столами, более приятной альтернативой может стать вытащить ее как богатый текст. У нас есть инструмент под названием EasyConverter SDK, предназначенный для бизнес-документов, который делает это только с помощью одного вызова функции.
С помощью EasyConverter SDK формат вашего оригинального PDF-файла будет сохранен.
Оба поддерживают C#, поэтому не стесняйтесь проверить версии eval на сайте www.pdfonline.com, если вам интересно. Я действительно работаю с продавцом, поэтому сделайте это предложение как мать, любящую своего собственного ребенка :-) Я долго просматривал stackoverflow.com для фрагментов кода, но только недавно начал публиковать, так что если у вас есть любые вопросы с API просто дайте мне знать, и я могу помочь. Ура!
+1 свободный - это хорошо. –