Я пытаюсь очистить некоторые файлы игры от шахматного сайта на Python, и у меня возникла проблема. Мой план состоит в том, чтобы снять все игровые идентификаторы из html и подключить их к некоторому URL-адресу, чтобы загрузить их. Жесткая часть на самом деле получает идентификаторы игры.Игра соскабливает регулярное выражение python
Соответствующий HTML выглядит следующим образом:
<a class="games right-4" href="/livechess/game?id=1012106017"> View</a>
<a class="games right-4" href="/livechess/game?id=982464559"> View</a>
<a class="games right-4" href="/livechess/game?id=1011988271"> View</a>
я заинтересован в id=...
части. Кроме того, нет других событий, начинающихся с /livechess/...
на странице.
Как извлечь эти идентификаторы с помощью регулярных выражений? Я пробовал читать кое-что, но это меня путает больше, чем помогает.
Спасибо, Мартейн! Как бы я использовать BeautifulSoup, чтобы получить HTML-разметку? Первоначально я использовал URLLIB, чтобы открыть URL и читать HTML. – walela
@walela: Я добавил демонстрацию, используя ['запросы'] (http://docs.python-requests.org/en/latest/). –
@walela: также см. [Получение ссылок с веб-страницы с использованием питона и красивого супа] (http://stackoverflow.com/q/1080411) ([мой ответ там] (http://stackoverflow.com/a/22583436) охватывает BeautifulSoup 4). –