2009-05-11 2 views

ответ

0

Lucene - хороший выбор - для ASP.NET, используя Lucene.NET - лучший выбор. Lucene - это движок индексирования, то есть вам придется предоставить его текст из PDF. Если у вас есть доступ к веб-серверу, вы можете установить для него IFilter (я рекомендую фильтр Foxit's PDF). В противном случае вам нужно будет получить код, который будет использоваться на вашем веб-сайте, для анализа и фильтрации PDF.

0

Docotic.Pdf library может помочь с такой задачей.

Библиотеку можно использовать для extract text (с форматированием или без него). Выделенный текст можно использовать для создания индекса. Вы даже можете использовать метод String.IndexOf, если хотите просто узнать, содержит ли PDF-файл данный текст.

Библиотека также может retrieve a collection of words с их ограничивающими прямоугольниками из PDF-файлов. Это может быть полезно, если вам нужно знать точное положение текста в файле.

Отказ от ответственности: Я работаю для поставщика библиотеки.

Смежные вопросы