2016-01-14 4 views
0

Я использую Python 3.5 и на самом деле я сосредоточен в webscraping с BeautifulSoup/LXML/Selenium/PhantomJSскоблить oddsportal информация

Я просто пытаюсь, чтобы очистить все данные, которые мне нужно просто взломать с кодом Python ,

Я могу легко очистить информацию от статического URL-адреса HTML с помощью BeautifulSoup. Недавно я обнаружил, как получать информацию из динамического URL-адреса, используя вкладку «Сеть» в Chrome и видеть в опции XHR HTTP-запрос, который выходит. Обычно он дает мне html-код, сгенерированный из JS, и в этом случае я могу продолжить регулярное выражение, очищая его с помощью BS4. Но на самом деле я работаю в новом проекте о скользящих коэффициентах с сайта www.oddsportal.com. В этом случае я действительно запутался, как действовать в случае с XHR. Я не могу найти правильную вещь, чтобы продолжать очищать. Попытка и повторить попытку, я понял, что я могу очистить информацию из URL вроде этого:

Например моя ссылка: http://www.oddsportal.com/soccer/england/premier-league/tottenham-sunderland-UBtChnLa/

Ссылка, которую я нашел очень интересное:

http://fb.oddsportal.com/feed/match/1-1-UBtChnLa-1-2-yjc11.dat?_=1452760985069

Здесь вы можете найти все шансы, что мне нужно, но когда я пытаюсь очистить это он дает мне ошибку, как:

globals.jsonpCa llback

Я понимаю, что мне нужно изучить библиотеку json в python, но я действительно запутался в том, как действовать дальше. Можете ли вы мне помочь, объясняя все? Я действительно пытаюсь сосредоточиться на таких проектах, поэтому я хотел бы узнать больше, но я знаю, что мои знания об этом на самом деле довольно низки. Спасибо за любую информацию!

ответ

0

Вы пробовали соскабливать html с помощью xpath? Возможно, вам будет легче, чем использовать регулярное выражение. Также вы можете взглянуть на HtmlAgilityPack для C#, который идеально подходит для веб-соскабливания.

Смежные вопросы