После очистки папки с файлами HTML с помощью TIDY, как можно извлечь содержимое таблиц для дальнейшей обработки?Каков наилучший способ извлечения содержимого таблицы из группы файлов HTML?
ответ
Зависит от того, какой обработки вы хотите сделать. Вы можете сказать, что Tidy генерирует XHTML, который является типом XML, что означает, что вы можете использовать все обычные инструменты XML, такие как XSLT и XQuery, по результатам.
Если вы хотите обработать их в Microsoft Excel, вы должны будете вырезать таблицу из HTML и поместить ее в файл, а затем открыть этот файл в Excel: он с радостью преобразует таблицу HTML в страницу электронных таблиц. Затем вы можете сохранить его как CSV или как книгу Excel и т. Д. (Вы даже можете использовать это на веб-сервере - верните таблицу HTML, но установите заголовок Content-Type
на application/ms-vnd.excel
: Excel откроет и импортирует таблицу и превратит ее в электронная таблица.)
Если вы хотите, чтобы CSV загружался в базу данных, вы могли бы пройти через Excel по-прежнему, или если вы хотите автоматизировать процесс, вы можете написать программу, в которой используется API-интерфейс для навигации XML вашего выбор для повторения строк таблицы и сохранения их как CSV. Модули Elementtree и CSV Python сделают это довольно простым.
Я использовал BeautifulSoup для таких вещей в прошлом с большим успехом.
В .NET вы можете использовать HTMLAgilityPack.
См. Это previous question на StackOverflow для получения дополнительной информации.
Если вы хотите извлечь контент из разметки HTML, вы должны использовать некоторый тип анализатора HTML. Для этого есть много там, и здесь два, которые могли бы в отели:
http://jtidy.sourceforge.net/
http://htmlparser.sourceforge.net/
После рассмотрения предложений, я закончил с использованием HtmlUnit.
С помощью HtmlUnit я смог настроить код Java для открытия каждого файла HTML в папке, перейти к тегу TABLE, запросить содержимое каждого столбца и извлечь данные, необходимые для создания файла CSV.
итерация по тексту и использовать регулярное выражение :)
- 1. Каков наилучший способ извлечения списка объектов
- 2. Каков наилучший способ извлечения URL-адресов?
- 3. Каков наилучший способ удалить HTML из строки?
- 4. Каков наилучший способ извлечения данных структуры дерева/иерархии из Oracle
- 5. Каков наилучший способ добавления содержимого/просмотра узла
- 6. Каков наилучший способ загрузки содержимого HTML на основе устройства?
- 7. Каков наилучший способ фильтрации содержимого arraylist?
- 8. Каков наилучший способ отображения HTML в Flex?
- 9. Каков наилучший способ извлечения строки версии из файла?
- 10. Каков наилучший способ извлечения релевантной информации из электронной почты?
- 11. Каков наилучший способ извлечения соответствующей строки из двух больших массивов?
- 12. Каков наилучший и быстрый способ извлечения подстроки из строки?
- 13. Каков наилучший способ сравнить равенство файлов?
- 14. Каков наилучший способ разделить макет для нескольких файлов HTML?
- 15. Каков наилучший способ автоматизации переименования файлов?
- 16. Каков наилучший способ кэширования файлов в php?
- 17. Каков наилучший способ создания таблицы HTML со случайными номерами
- 18. Каков наилучший способ хранения загруженных файлов?
- 19. Каков наилучший способ извлечения данных из таблиц wiki и ссылок из этой таблицы в JSON?
- 20. Каков наилучший способ сохранить два значения таблицы?
- 21. Каков наилучший способ создания «версий» загруженных файлов?
- 22. Каков наилучший способ массового сохранения файлов cookie?
- 23. Каков наилучший способ включения экземпляров и файлов?
- 24. Каков наилучший способ слияния больших файлов?
- 25. Каков наилучший способ отображения html через java
- 26. Каков наилучший способ вставки HTML через PHP?
- 27. Каков наилучший способ получить данные из NSUserDefaults?
- 28. Зацикливание элементов для извлечения содержимого таблицы html
- 29. Каков наилучший способ петли над строками таблицы?
- 30. Каков наилучший способ хранения таблицы в C++