2010-10-16 3 views
2

Я скрипинг с использованием watir и i скачать файл xls. когда я открываю этот файл в блокноте, я нахожу его просто связкой html-таблиц. есть ли какая-либо функция или драгоценный камень, который преобразует эту страницу в кучу массивов. любые идеи приветствуются.html table to array ruby ​​

+0

Показать код. Что у вас есть и что вы хотели бы получить от него. –

ответ

1
  1. Узкий его до ...
  2. Убирайтесь пробельные
  3. Заменить вкладки с "
  4. Заменить теги с ",
  5. Заменить & & метки с ничего
  6. Заменить метки с |
  7. Разделить ряды с |
  8. Сплит поля с ,

Вы можете упростить это немного больше, но это суть его.

1

В общем, это простое упражнение, чтобы пройти через файл HTML со столом и извлечь строки и столбцы, если они не используют атрибуты colspan или rowspan. Они нарушают логический поток, требующий некоторого ощущения разрывов, которые они вызывают, и необходимость заполнения пробелов повторяющимся значением из * интервалов. How do I parse an HTML table with Nokogiri? может помочь.

От взгляда на файлы XLS на моем рабочем столе я не думаю, что они XML или HTML. Я не уверен, что вы скачали. Я сделал быстрый поиск и roo (http://roo.rubyforge.org/), кажется, хорошей отправной точкой.

1

XLS - это двоичный формат. Если вы видите HTML-таблицы в содержимом файла, это означает, что вы, вероятно, не загрузили файл правильно.

Как файл XLS загружается через Watir? Вам нужно автоматизировать окно загрузки файла, или вы просто следовали ссылке на файл XLS и записывали содержимое в файл?