Я пишу код Python, используя lxml, urllib и csv, чтобы очистить речи в a Brazil government site.Извлечение даты и других данных из скребковых элементов
Мне удалось найти название и ссылку для каждой речи, используя XPath, но не точный день, так как для даты речи нет определенного тега.
Когда я использую XPath '//span[@class="summary-view-icon"]/text()
, скребок возвращает день, час и слово «Página» (страница, на португальском языке). Я знаю, что этот Xpath не прав, но я не знаю, как выбрать только день.
Даже с этой ошибкой я смог преобразовать сломанный контент в список и редактировать, чтобы удалить все, кроме дней. Проблема в том, что в конечном списке, как вы можете видеть ниже, есть другие символы, которые я не могу удалить.
Здесь, по-видимому, есть два решения: получить право XPath или отредактировать другие символы в списке. Как я могу сделать любой из них?
['\ n 18/12/2015 \ n', '\ n 21/12/2015 \ n', '\ n 21/12/2015 \ n', '\ n 22/12/2015 \ n ',' \ n 22/12/2015 \ n ',' \ n 22/12/2015 \ n ',' \ n 11/01/2016 \ n ',' \ n 19/01/2016 \ n ' , '\ n 21/01/2016 \ n', '\ n 26/01/2016 \ n', '\ n 27/01/2016 \ n', '\ n 27/01/2016 \ n', ' \ n 28/01/2016 \ n ',' \ n 01/02/2016 \ n ',' \ n 01/02/2016 \ n ',' \ n 02/02/2016 \ n ',' \ n 02/02/2016 \ n ',' \ n 02/02/2016 \ n ',' \ n 03/02/2016 \ n ',' \ n 03/02/2016 \ n ',' \ n 19/02/2016 \ n ',' \ n 1 9/02/2016 \ n ',' \ n 22/02/2016 \ n ',' \ n 26/02/2016 \ n ',' \ n 26/02/2016 \ n ',' \ n 02/03/2016 \ n ',' \ n 03/03/2016 \ n ',' \ n 04/03/2016 \ n ',' \ n 07/03/2016 \ n ',' \ n 04/02/2016 \ n ',' \ n 08/03/2016 \ n ',' \ n 09/03/2016 \ n ',' \ n 17/03/2016 \ n ',' \ n 18/03/2016 \ n ',' \ n 22/03/2016 \ n ',' \ n 23/03/2016 \ n ',' \ n 23/03/2016 \ n ',' \ n 30/03/2016 \ n ' , '\ n 31/03/2016 \ n', '\ n 01/04/2016 \ n']
Просто раздеться белые пространства вокруг '[d.strip() для г в йз]' –