Я оба поражены и очень расстроены Scrapy. Кажется, что слишком много энергии под капотом, что делает его действительно крутой кривой обучения. По-видимому, Scrapy может делать все, что я использовал для программирования самостоятельно, но проблема заключается в том, как заставить его делать то, что я хочу.Ссылка Уборка урожая в Scrapy
На данный момент я пишу простой комбайн. Я хочу экспортировать два файла: один с внутренними ссылками и текстом ссылки, а другой с внешней ссылкой и текстом ссылки.
Я пытаюсь использовать команду -o file.csv, но он объединяет каждый URL-адрес страницы в одну ячейку в виде списка и включает в себя дубликаты.
Альтернатива, которую я имею, это просто написать мой собственный код в «синтаксическом разборе» и вручную создать список ссылок и проверить, существуют ли они в списке перед их добавлением, а затем вручную разобрать URL-адрес, чтобы увидеть если домен во внутреннем или внешнем.
Кажется, что Scrapy следует делать с помощью нескольких команд. Есть ли встроенный метод для этого?
Вот код, с которым я работаю. Я прокомментировал часть заголовка bc. Думаю, мне нужно создать другой объект для них. На данный момент я отказался от этой части.
def parse_items(self, response):
item = WebconnectItem()
sel = Selector(response)
items = []
# item["title"] = sel.xpath('//title/text()').extract()
# item["current_url"] = response.url
item["link_url"] = sel.xpath('//a/@href').extract()
item["link_text"] = sel.xpath('//a/text()').extract()
items.append(item)
return items
можно поделиться кодом? Это поможет вам в решении –
, я предлагаю использовать запросы и beautifulsoup 4. Я пробовал Scrapy, и я чувствовал то же самое, если бы вы захотели, я могу найти простое руководство по этому поводу. – taesu
Я добавил код. Я думаю, что вы можете быть прав насчет запросов и BS4. У меня уже работает мой искатель, но его привлекает все, что может сделать Scrapy. С запросами и BS4 я знаю все, что происходит. С помощью Scrapy я чувствую, что вы вводите код в пустоту, и бог знает, что выйдет. – pekasus