Я пытаюсь получить scrapy, чтобы разобрать ссылки на странице, чтобы очистить. К сожалению, ссылки на этой странице заключены в функцию JavaScript onclick. Я хотел бы использовать правило SgmlLinkExtractor, чтобы извлечь ссылку для анализа JavaScript и создать URL-адрес для использования с callback = 'parse_item', если это возможно.Как я могу использовать scrapy для разбора ссылок в JS?
Вот пример каждой ссылки с помощью функции JS:
<a onclick="window.open('page.asp?ProductID=3679','productwin','width=700,height=475,scrollbars,resizable,status');" href="#internalpagelink">Link Text</a>
мне просто нужно ссылку экстрактор для отправки обратного вызова parse_item: http://domain.com/page.asp?ProductID=3679
Как бы я писать правила CrawlSpider делать это?
Если это невозможно, что было бы лучшим способом получить возможность анализировать все страницы, вложенные в этот формат ссылок JavaScript, на определенный набор стартовых страниц?
Спасибо всем.
Просто получите атрибут onclick и проанализируйте его. – aIKid
Да, как говорится в вопросе ** Как ** я бы написал правила CrawlSpider для этого? Как бы выглядело правило для извлечения page.asp?ProductID = 3679 часть функции onClick и возвращает ее как URL-адрес? –