2008-09-16 5 views

ответ

1

Зависит от того, какой обработки вы хотите сделать. Вы можете сказать, что Tidy генерирует XHTML, который является типом XML, что означает, что вы можете использовать все обычные инструменты XML, такие как XSLT и XQuery, по результатам.

Если вы хотите обработать их в Microsoft Excel, вы должны будете вырезать таблицу из HTML и поместить ее в файл, а затем открыть этот файл в Excel: он с радостью преобразует таблицу HTML в страницу электронных таблиц. Затем вы можете сохранить его как CSV или как книгу Excel и т. Д. (Вы даже можете использовать это на веб-сервере - верните таблицу HTML, но установите заголовок Content-Type на application/ms-vnd.excel: Excel откроет и импортирует таблицу и превратит ее в электронная таблица.)

Если вы хотите, чтобы CSV загружался в базу данных, вы могли бы пройти через Excel по-прежнему, или если вы хотите автоматизировать процесс, вы можете написать программу, в которой используется API-интерфейс для навигации XML вашего выбор для повторения строк таблицы и сохранения их как CSV. Модули Elementtree и CSV Python сделают это довольно простым.

2

Я использовал BeautifulSoup для таких вещей в прошлом с большим успехом.

1

После рассмотрения предложений, я закончил с использованием HtmlUnit.

С помощью HtmlUnit я смог настроить код Java для открытия каждого файла HTML в папке, перейти к тегу TABLE, запросить содержимое каждого столбца и извлечь данные, необходимые для создания файла CSV.

Смежные вопросы