2010-06-30 9 views
4

Я делаю небольшое очищение данных, Есть 3 типа файлов, из которых я очищаю данные.

1- HTML
2- PDF
3- Excel (XLS)

Для HTML я комфортно, я использую HTML Agility для этого.

Скребок данных из PDF и Excel

Для PDF и Excel мне нужны предложения от кого-либо.

Заранее благодарен.

ответ

4

Относительно Excel. Если вы находитесь в среде MS, вы можете либо выполнить автоматизацию Office, либо использовать OLEDB. В среде Java посмотрите на Apache POI.

EDIT: Что касается PDF в Java, попробуйте Apache PDFBox. Может также работать в .NET с использованием IKVM

+0

Настоятельно рекомендуем POI, если вы предпочитаете решение Java/Groovy. У Perl также есть неплохие API для электронных таблиц и PDF-файлов –

1

Я могу порекомендовать Cogniview's PDF2XL, недорогой коммерческий продукт, для извлечения данных из таблиц в PDF-файлы в Excel. Мы использовали его с большим успехом.

0

HTML Agility - это библиотека. Его хорошо использовать. Но почему, зачем вам нужны отдельные инструменты для различных целей извлечения данных? Используйте Automation Anywhere для извлечения данных из любого источника. Насколько я знаю, это будет работать для всех трех источников, которые вы указали. Google это.

0

Для этого вы можете использовать UiPath. Он может очищать 100% точные PDF, Excel, HTML, Java, Windows, .NET, WPF, наследие. Также работает с виртуализованными средами, но только с помощью очистки OCR.

Может использоваться из кода (SDK), но также вы можете создавать визуальную автоматизацию (рабочие процессы) с помощью UiPath Studio. Вот учебник по web data extraction

Примечание: Я работаю в UiPath, так что я знаю, что это может сделать эту работу. Вы также должны попробовать другие инструменты визуальной автоматизации, такие как Automation Anywhere, WinAutomation, Jacada, использовать их бок о бок и выбрать тот, который вам подходит лучше всего.