Извлечение данных из источника с большим количеством белого пространства

Я пытаюсь извлечь данные из: http://www.phillysheriff.com/old_site/properties.html Извлечение данных из источника с большим количеством белого пространства

В идеале я бы смог получить CSV-файл с адресом, приходах, цена и квадратных футов? Есть простой способ сделать это?

источник

2010-06-03 Jeff

Процесс извлечения такой информации из веб-страниц известен в разговорной речи как «очистка». Если бы это был я, я бы использовал язык python и пакет "Beautiful Soup", чтобы сделать это. Тем не менее, Google для «скрипинга экрана» или «веб-царапины» и вашего любимого языка программирования должен найти вам пакет, который сделает вам тяжелую работу.

источник

2010-06-03 12:34:36

Вы можете запустить веб-скребок IRobotSoft, открыть страницу в окне браузера и использовать меню: Design -> Practice HTQL. Дайте следующий HTQL-запрос в поле ввода, чтобы преобразовать страницу в стандартную таблицу HTML:

<hr sep>2-0{ 
a=<center>1 &tx &trim; 
b=<center>1:xx ./'nbsp'/1 &tx &trim('&; '); 
c=<center>1:xx ./'nbsp'/3 ./'\n'/1 &tx &trim('&; '); 
d=<center>1:xx ./'nbsp'/3 ./'Ward'~'BRT#'/1 &tx; 
e=<center>1:xx ./'nbsp'/3 ./'BRT#'~'Improvements:'/1 &tx; 
f=<center>1:xx ./'nbsp'/3 ./'Improvements:'/2 &tx; 
g=<br sep>2. /'nbsp'/1 &tx &trim('&; '); 
h=<br sep>2. /'nbsp'/3 &tx &trim('&; '); 
i=<br sep>2. /'nbsp'/5 &tx &trim('&; '); 
j=<br sep>2. /'nbsp'/7 &tx &trim('&; '); 
}

источник

2010-06-03 20:08:05 seagulf

Извлечение данных из источника с большим количеством белого пространства

ответ

Смежные вопросы