2014-06-08 4 views
0

Я полный новичок. Нет опыта программирования в компьютере. В результате, альтернативная стоимость обучения чему-либо - например, Scrapy - очень высока, поэтому я не хочу тратить часы на тупиковые работы (ex. Я провел весь день, просто установив Scrapy, потому что я идиот).Помощь соскабливания в Интернете

Мое исследование включает сбор данных из базы данных о благотворительных организациях (http://www.charitynavigator.org/). В принципе, моя программа должна иметь возможность просмотреть список ссылок, которые соединяются с «информационным бюллетенем» благотворительности; то программа должна извлекать нужные данные и классифицировать эти данные.

Мой главный технический вопрос является может программа, как Scrapy признать, что ряд (100000) рядом со срочным (активов) означает, что благотворительность имеет 100000 долларов в активах. Или, по крайней мере, поставить 100 000 по категории активов?

Извините, у вас есть тривиальный характер вопроса. Я просто очень устал.

ответ

0

Чтобы ответить на ваш вопрос:

Мой главный технический вопрос, может программа, как Scrapy признать, что ряд (100000) рядом со срочным (активов) означает, что благотворительность имеет 100000 долларов в активах. Или, по крайней мере, поставить 100 000 по категории активов?

Да, может. Я коротко посмотрел на этот сайт, и похоже, что это было бы слишком плохо. Финансовые данные все, кажется, принимает вид:

 <tr> 
     <td>&nbsp;&nbsp;&nbsp;Contributions, Gifts &amp; Grants</td> 
     <td align="right">$186,659,755</td> 
     </tr> 

Как вы можете видеть, все финансовые числа в паре с элементом, описывающим их. Считается, что писать такой скребок (особенно с помощью Scrapy) будет сложно для кого-то, у кого нет опыта программирования.

Предполагая, что вы цените свое время, вам может быть лучше просто скопировать + вставить цифры вручную в электронную таблицу Excel или заплатить кому-то еще за это. Вы также можете подумать о том, чтобы заплатить кому-то, чтобы написать скребок для вас.

Scrapy является удивительным и делает многое более удобным, но есть много когнитивной перегрузки для не-программиста, чтобы научиться просто писать один скребок. Особенно учитывая, что вы не будете много использовать возможности, которые Scrapy добавляет, просто пишу что-то с нуля. Если вы do решите пойти по этому маршруту, я бы рекомендовал использовать lxml для извлечения данных, которые вы хотите со страницы.

Я рекомендую сначала, вы Learn Python, затем learn about generators. (они широко используются во время Scrapy). Как только вы закончите с обоими из них, идите работать через Official Scrapy Tutorial.

Смежные вопросы