2012-05-16 3 views
0

Помимо использования ADO, есть ли другой способ извлечения данных из файла PDF с помощью VB6? Мне удалось открыть PDF-файл с использованием VB6 без использования Acrobat Reader, но следующий шаг в моем проекте требует чтения PDF-файла и поиска данных из него. Например, какие страницы показывают слово «цемент»?Как прочитать файл PDF

+1

Err, ADO и PDFs ?? – Deanna

+1

Разбор в формате PDF [очень сложный действительно] (http://stackoverflow.com/questions/1251956/is-there-a-pdf-parser-for-php), по-видимому (это для PHP, но даст вам представление о сложности). Между тем: VB6 ?! – halfer

+0

Вы искали здесь: http://stackoverflow.com/questions/7784235/read-pdf-file-contents-in-vb – thejartender

ответ

1

В общем, вам нужно будет полагаться на внешнюю библиотеку. Чистое решение VB (т. Е. Чтение файла как текст и процесс самостоятельно) - это то, что вы не снимаете через неделю.

Вы можете использовать Adobe Acrobat через автоматизацию. Например, чтобы начать работу, например, http://www.freevbcode.com/ShowCode.asp?ID=7066. Обратите внимание, однако, что Adobe Reader недостаточно, вам действительно нужен полный Acrobat. Существуют и другие популярные библиотеки чтения PDF (например, poppler), однако вам может быть трудно использовать те, что в VB6.

В общем замечании, ваши шансы на успех зависят от того, что вы подразумеваете под «извлечением». Проще говоря, PDF - это чисто описательный формат без метаинформации. То есть файл содержит инструкции, такие как «Поместить a at (x1, y1), поставить« foo »в (x2, y2)» и т. д. Чтение таблиц или любая структурированная информация потребуют огромного количества эвристик.

Лучшим способом действий, вероятно, является попытка получить данные, которые вы хотите извлечь, в более подходящем формате данных (открытый текст, XML, что угодно).

Смежные вопросы