Для этого вы можете использовать UiPath. Он может очищать 100% точные PDF, Excel, HTML, Java, Windows, .NET, WPF, наследие. Также работает с виртуализованными средами, но только с помощью очистки OCR.
Может использоваться из кода (SDK), но также вы можете создавать визуальную автоматизацию (рабочие процессы) с помощью UiPath Studio. Вот учебник по web data extraction
Примечание: Я работаю в UiPath, так что я знаю, что это может сделать эту работу. Вы также должны попробовать другие инструменты визуальной автоматизации, такие как Automation Anywhere, WinAutomation, Jacada, использовать их бок о бок и выбрать тот, который вам подходит лучше всего.
Настоятельно рекомендуем POI, если вы предпочитаете решение Java/Groovy. У Perl также есть неплохие API для электронных таблиц и PDF-файлов –