2013-07-16 3 views
0

Я слышал, что scrapy не поддерживает javascript. Я хотел знать, могу ли я использовать scrapy для обхода ссылок с помощью crawlspider на нашем сайте интрасети, наш сайт интрасети имеет javascript, и я считаю, что он генерируется при нажатии на ссылку, но я не уверен на 100%.Поддерживает ли Scrapy JavaScript для веб-поиска?

Но источник просмотра составлен из таблицы стилей xml и имеет те же данные, что и html, когда я использую firebug. Я также не могу очистить сайт, используя теги html, мне нужно использовать теги xml, чтобы очистить. Я путаюсь, почему у него есть как html, так и xml и theres данные для обоих и почему я не могу очистить html только xml?

Я знаю, что могу сканировать первую страницу с помощью тегов xml, но могу ли я продолжать следовать ссылке и продолжать сканирование?

Будет ли я по-прежнему использовать scraws crawlspider для сканирования каждой ссылки, или я не могу? Если я не могу, вы можете предложить другой инструмент, который я могу использовать? который поддерживает javascripts и авторизует аутентификацию (https).?

спасибо!

Вот HTML данные, когда я использую поджигатель (те же данные, что и XML)

<tr> 
<td class="crt">1</td> 
<td class="listCell" align="center"> 
<td class="listCell" align="center"> 
<a href="/dis/packages.jsp?view=list&show=perdevice&device_gid=3651746C4173775343535452414567746D75643855673D3D53564A6151624D41716D534C68395A6337634E2F62413D3D&hwdid=probe0&subscrbid=6505550000&mdn=6505550000&maxlength=100">probe0</a> 
</td> 
<td class="listCell" align="center"> 
<a href="/dis/packages.jsp?view=list&show=perdevice&device_gid=3651746C4173775343535452414567746D75643855673D3D53564A6151624D41716D534C68395A6337634E2F62413D3D&hwdid=probe0&subscrbid=6505550000&mdn=6505550000&maxlength=100">6505550000</a> 
</td> 
<td class="listCell" align="center"> 
<a href="/dis/packages.jsp?view=timeline&show=perdevice&device_gid=3651746C4173775343535452414567746D75643855673D3D53564A6151624D41716D534C68395A6337634E2F62413D3D&hwdid=probe0&subscrbid=6505550000&mdn=6505550000&maxlength=100&date=20130716T141624949">2013-07-16 14:16:24.949</a> 
</td> 
<td class="cell" align="center">2013-07-16 14:16:24.949</td> 
<td class="cell" align="left">1 - SMS_PullRequest_CS</td> 
<td class="listCell" align="right"> 
<a href="/dis/profile_download?profileId=4294967295">4294967295</a> 
</td> 
<td class="listCell" align="center"> 
<a href="/dis/sessions.jsp?view=list&device_gid=3651746C4173775343535452414567746D75643855673D3D53564A6151624D41716D534C68395A6337634E2F62413D3D&hwdid=probe0&mdn=6505550000&subscrbid=6505550000&maxlength=100">view sessions</a> 
</td> 
<td class="listCell" align="center"> 
<a href="/dis/errors_agg.jsp?view=list&device_gid=3651746C4173775343535452414567746D75643855673D3D53564A6151624D41716D534C68395A6337634E2F62413D3D&hwdid=probe0&mdn=6505550000&subscrbid=6505550000&maxlength=100">view errors</a> 
</td> 
</tr> 

Вот данные, когда я использую для просмотра исходного XML-таблицы стилей (те же данные, как HTML)

<row> 
<cell type="href" href="/dis/packages.jsp?view=list&show=perdevice&device_gid=3651746C4173775343535452414567746D75643855673D3D53564A6151624D41716D534C68395A6337634E2F62413D3D&hwdid=probe0&mdn=6505550000&subscrbid=6505550000&maxlength=100">6505550000</cell> 
<cell type="href" href="/dis/packages.jsp?view=list&show=perdevice&device_gid=3651746C4173775343535452414567746D75643855673D3D53564A6151624D41716D534C68395A6337634E2F62413D3D&hwdid=probe0&subscrbid=6505550000&mdn=6505550000&maxlength=100">probe0</cell> 
<cell type="href" href="/dis/packages.jsp?view=list&show=perdevice&device_gid=3651746C4173775343535452414567746D75643855673D3D53564A6151624D41716D534C68395A6337634E2F62413D3D&hwdid=probe0&subscrbid=6505550000&mdn=6505550000&maxlength=100">6505550000</cell> 
<cell type="href" href="/dis/packages.jsp?view=timeline&show=perdevice&device_gid=3651746C4173775343535452414567746D75643855673D3D53564A6151624D41716D534C68395A6337634E2F62413D3D&hwdid=probe0&subscrbid=6505550000&mdn=6505550000&maxlength=100&date=20130716T143636194">2013-07-16 14:36:36.194</cell> 
<cell type="plain">2013-07-16 14:36:36.194</cell> 
<cell type="plain">1 - SMS_PullRequest_CS</cell> 
<cell type="href" href="/dis/profile_download?profileId=4294967295">4294967295</cell> 
<cell type="href" href="/dis/sessions.jsp?view=list&device_gid=3651746C4173775343535452414567746D75643855673D3D53564A6151624D41716D534C68395A6337634E2F62413D3D&hwdid=probe0&mdn=6505550000&subscrbid=6505550000&maxlength=100">view sessions</cell> 
<cell type="href" href="/dis/errors_agg.jsp?view=list&device_gid=3651746C4173775343535452414567746D75643855673D3D53564A6151624D41716D534C68395A6337634E2F62413D3D&hwdid=probe0&mdn=6505550000&subscrbid=6505550000&maxlength=100">view errors</cell> 
</row> 

ответ

-1

Я тоже борюсь с js, соскабливающ ... высокий пятерка там.

один быстрый способ, который я знаю, отвечает ли scrapy на js с определенного веб-сайта, - это проверить из scrapy shell. http://doc.scrapy.org/en/latest/topics/shell.html вы можете посмотреть, как scrapy понимает ваш URL запроса через просмотр (ответ).

Например, просмотр (отклик) не содержит отзывов о товаре от bestbuy, но это нормально с обзорами продуктов eBay.

для соответствующего поиска, http://snipplr.com/all/tags/scrapy/ может быть полезно.

это также может быть полезно, если вы разместите своего паука здесь.

удачи! сообщите мне, если вы решите его!

0

Обычно для JS используется браузер без браузера, который будет выполнять ваш javascript. Splash с промежуточным программным обеспечением scrapy-splash и Selenium - два популярных варианта.

Смежные вопросы