2017-01-20 5 views
0

Я пытаюсь очистить данные с фондового рынка, но я ничего не теряю, когда распечатываю данные. Я хочу цену яблока.Скремблирование данных с веб-сайта с использованием Python 2

import urllib 
import re 



htmlfile = urllib.urlopen("http://finance.yahoo.com/q?s=AAPL&q1=1") 

htmltext = htmlfile.read() 

regex = '<span class="Fw(b) Fz(36px) Mb(-4px)" data-reactid="270">(.+?)</span>' 

pattern = re.compile(regex) 

price = re.findall(pattern,htmltext) 

print price 

ответ

0

Можете ли вы подробно рассказать о том, что именно вы пытаетесь извлечь со страницы? Мне удалось вытащить тэг с помощью кода ниже (Примечание: использует Python 3, BeautifulSoup и запросы, все из которых я рекомендую для веб-очистки, а также для выяснения того, что вам нужно поставить для переменной заголовков, я предлагаю: http://www.whatsmyua.com/)

import requests 
from bs4 import BeautifulSoup 

url = 'http://finance.yahoo.com/q?s=AAPL&q1=1' 

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; InfoPath.3; .NET4.0C; .NET4.0E; rv:11.0) like Gecko'} 

r = requests.get(url, headers=headers) 

soup = BeautifulSoup(r.text, "html.parser") 

for item in soup.find_all('span', {"class":"Fw(500) Pstart(10px) Fz(24px) C($dataRed)"}): 
    print(item) 
+0

Я ищу, чтобы получить цену яблока и каждый раз, когда я бегу код он возвращает пустой список –

+0

Я предлагаю вам взглянуть на эти ответы здесь: http://stackoverflow.com/questions/20045955/регулярное выражение-модель-в-питон-для-синтаксический анализ в HTML-тегов титульного ответа K DAWG объясняет, как регулярное выражение захватывает тега в вашем случае, если вы хотели бы, чтобы <span>, который должен предоставить вам список всех тегов span, которые можно продолжить поиск, чтобы найти нужную вам информацию. – <span class="text-secondary"> <small> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/6705190/">Jcloud</a></span> <span></span> </small> </span> </p> </div> </div> </div> </div> </div> </article> <div> <script async src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="4319274062" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> </div> <div class="clearfix"> </div> <div class="relative-box"> <div class="relative">Смежные вопросы</div> <ul class="relative_list"> <li> 1. <a href="http://ru.voidcc.com/question/p-bnfjonrz-kc.html" target="_blank" title="Скремблирование сгенерированных javascript данных с использованием Python"> Скремблирование сгенерированных javascript данных с использованием Python </a> </li> <li> 2. <a href="http://ru.voidcc.com/question/p-ebtuqwbw-cw.html" target="_blank" title="Скремблирование данных с помощью python таблицы с использованием python"> Скремблирование данных с помощью python таблицы с использованием python </a> </li> <li> 3. <a href="http://ru.voidcc.com/question/p-ndocdbwa-wp.html" target="_blank" title="1 домен 2 вебсайта"> 1 домен 2 вебсайта </a> </li> <li> 4. <a href="http://ru.voidcc.com/question/p-egoxlycc-bcv.html" target="_blank" title="Скремблирование таблицы данных с китайского веб-сайта с использованием Python"> Скремблирование таблицы данных с китайского веб-сайта с использованием Python </a> </li> <li> 5. <a href="http://ru.voidcc.com/question/p-qmrhhdlc-rm.html" target="_blank" title="Скремблирование динамического содержимого с использованием python-Scrapy"> Скремблирование динамического содержимого с использованием python-Scrapy </a> </li> <li> 6. <a href="http://ru.voidcc.com/question/p-xttwdsmp-ts.html" target="_blank" title="Скремблирование данных с помощью Scrapy в Python"> Скремблирование данных с помощью Scrapy в Python </a> </li> <li> 7. <a href="http://ru.voidcc.com/question/p-httyhzdr-bme.html" target="_blank" title="Скремблирование данных из таблиц с использованием python 2.7"> Скремблирование данных из таблиц с использованием python 2.7 </a> </li> <li> 8. <a href="http://ru.voidcc.com/question/p-ndwbwpva-uc.html" target="_blank" title="Скремблирование Javascript с использованием Selenium через Python"> Скремблирование Javascript с использованием Selenium через Python </a> </li> <li> 9. <a href="http://ru.voidcc.com/question/p-xonxwmjf-uq.html" target="_blank" title="Скремблирование страниц ajax с использованием python"> Скремблирование страниц ajax с использованием python </a> </li> <li> 10. <a href="http://ru.voidcc.com/question/p-ghjbgtlt-wy.html" target="_blank" title="Скремблирование созданной javascript страницы с использованием Python"> Скремблирование созданной javascript страницы с использованием Python </a> </li> <li> 11. <a href="http://ru.voidcc.com/question/p-qzdxcpam-u.html" target="_blank" title="BeautifulSoup - Скремблирование данных через разбитый стол с использованием Python"> BeautifulSoup - Скремблирование данных через разбитый стол с использованием Python </a> </li> <li> 12. <a href="http://ru.voidcc.com/question/p-bxqthuxl-bcw.html" target="_blank" title="UnicodeEncodeError: Скремблирование данных с использованием Python и beautifulsoup4"> UnicodeEncodeError: Скремблирование данных с использованием Python и beautifulsoup4 </a> </li> <li> 13. <a href="http://ru.voidcc.com/question/p-ndtturbs-bse.html" target="_blank" title="Скремблирование Javascript с Python"> Скремблирование Javascript с Python </a> </li> <li> 14. <a href="http://ru.voidcc.com/question/p-dwbkzeej-sr.html" target="_blank" title="Скремблирование некоторых данных с использованием PHP"> Скремблирование некоторых данных с использованием PHP </a> </li> <li> 15. <a href="http://ru.voidcc.com/question/p-ybybjruq-bqr.html" target="_blank" title="Скремблирование данных из Facebook с помощью Python"> Скремблирование данных из Facebook с помощью Python </a> </li> <li> 16. <a href="http://ru.voidcc.com/question/p-vbjutyri-rw.html" target="_blank" title="Скремблирование данных HTML с сайта в Python"> Скремблирование данных HTML с сайта в Python </a> </li> <li> 17. <a href="http://ru.voidcc.com/question/p-tvoaddnu-bhg.html" target="_blank" title="Скремблирование веб-данных с помощью Python"> Скремблирование веб-данных с помощью Python </a> </li> <li> 18. <a href="http://ru.voidcc.com/question/p-poycctck-vb.html" target="_blank" title="Python 3.5 | Скремблирование данных с сайта"> Python 3.5 | Скремблирование данных с сайта </a> </li> <li> 19. <a href="http://ru.voidcc.com/question/p-evkzhihy-dz.html" target="_blank" title="Python/Scrapy: Скремблирование данных Nasdaq?"> Python/Scrapy: Скремблирование данных Nasdaq? </a> </li> <li> 20. <a href="http://ru.voidcc.com/question/p-vtyauczm-th.html" target="_blank" title="скремблирование строки с использованием .toCharArray()"> скремблирование строки с использованием .toCharArray() </a> </li> <li> 21. <a href="http://ru.voidcc.com/question/p-rdudapyw-baa.html" target="_blank" title="Скремблирование Текст Javascript с веб-страницы с использованием Python"> Скремблирование Текст Javascript с веб-страницы с использованием Python </a> </li> <li> 22. <a href="http://ru.voidcc.com/question/p-onqylegl-z.html" target="_blank" title="Скремблирование URL-адреса, заканчивающегося на .js с использованием python"> Скремблирование URL-адреса, заканчивающегося на .js с использованием python </a> </li> <li> 23. <a href="http://ru.voidcc.com/question/p-tjjnhxux-bms.html" target="_blank" title="(Python) Скремблирование данных с веб-сайта с тегами 'style: hidden'?"> (Python) Скремблирование данных с веб-сайта с тегами 'style: hidden'? </a> </li> <li> 24. <a href="http://ru.voidcc.com/question/p-kzescezn-md.html" target="_blank" title="Скремблирование данных с помощью php"> Скремблирование данных с помощью php </a> </li> <li> 25. <a href="http://ru.voidcc.com/question/p-novhtgej-ys.html" target="_blank" title="Скремблирование данных с помощью Nokogiri"> Скремблирование данных с помощью Nokogiri </a> </li> <li> 26. <a href="http://ru.voidcc.com/question/p-suadwgvo-bry.html" target="_blank" title="Веб Скремблирование нескольких страниц с использованием Regex в python"> Веб Скремблирование нескольких страниц с использованием Regex в python </a> </li> <li> 27. <a href="http://ru.voidcc.com/question/p-pvgnkzhz-xr.html" target="_blank" title="Скремблирование динамических веб-страниц с использованием Python 3.4 и beautifulsoup"> Скремблирование динамических веб-страниц с использованием Python 3.4 и beautifulsoup </a> </li> <li> 28. <a href="http://ru.voidcc.com/question/p-poiphiqy-nb.html" target="_blank" title="Скремблирование данных с веб-страниц с помощью скроллера с использованием python"> Скремблирование данных с веб-страниц с помощью скроллера с использованием python </a> </li> <li> 29. <a href="http://ru.voidcc.com/question/p-syslgimq-uh.html" target="_blank" title="Скремблирование диаграмм iTunes с использованием Scrapy"> Скремблирование диаграмм iTunes с использованием Scrapy </a> </li> <li> 30. <a href="http://ru.voidcc.com/question/p-pwxdbiic-bhc.html" target="_blank" title="Скремблирование нового сайта ESPN с использованием xpath [Python]"> Скремблирование нового сайта ESPN с использованием xpath [Python] </a> </li> </ul> </div> <div> <script async src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-format="autorelaxed" data-ad-client="ca-pub-6208739752673518" data-ad-slot="3534119089"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="padding-top-10"></div> </div> </div> <script type="text/javascript" src="http://img2.voidcc.com/voidso/script/side.js?t=1652515422009"></script> <script type="text/javascript" src="http://img2.voidcc.com/voidso/plugin/highlight/highlight.pack.js"></script> <link href="http://img2.voidcc.com/voidso/plugin/highlight/styles/docco.css" media="screen" rel="stylesheet" type="text/css" /> <script type="text/javascript"> $('pre').each(function(i, e) { hljs.highlightBlock(e, "<span class='indent'> </span>", false) }); </script> <div class="col-lg-3 col-md-4 col-sm-5"> <div id="rightTop"> <div class="row"> <script async src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <!-- VOIDCC问答侧边栏广告 --> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="3862022848" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="row sidebar panel panel-default"> <div class="panel-heading font-bold"> Последний вопрос </div> <div class="m-b-sm m-t-sm clearfix"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://ru.voidcc.com/question/p-djyhazrg-bgq.html" target="_blank" title="Объект, требуемый по варианту"> Объект, требуемый по варианту </a> </li> <li class="side_article_list_item"> 2. <a href="http://ru.voidcc.com/question/p-hppinubv-bhr.html" target="_blank" title="Файл определения для моего плагина"> Файл определения для моего плагина </a> </li> <li class="side_article_list_item"> 3. <a href="http://ru.voidcc.com/question/p-ylawwpuo-bky.html" target="_blank" title="Полнотекстовый поиск в Google Cloud Spanner"> Полнотекстовый поиск в Google Cloud Spanner </a> </li> <li class="side_article_list_item"> 4. <a href="http://ru.voidcc.com/question/p-dqapyjwr-xn.html" target="_blank" title="Установите горизонтально ориентированные дети WrapPanel, чтобы иметь разную высоту"> Установите горизонтально ориентированные дети WrapPanel, чтобы иметь разную высоту </a> </li> <li class="side_article_list_item"> 5. <a href="http://ru.voidcc.com/question/p-eocseaty-bat.html" target="_blank" title="Как сохранить идентификатор группы для массового создания в mysql"> Как сохранить идентификатор группы для массового создания в mysql </a> </li> <li class="side_article_list_item"> 6. <a href="http://ru.voidcc.com/question/p-wrnleqxh-bam.html" target="_blank" title="копирование базы данных и папок веб-сайта на сервере wampserver"> копирование базы данных и папок веб-сайта на сервере wampserver </a> </li> <li class="side_article_list_item"> 7. <a href="http://ru.voidcc.com/question/p-gmgysisi-baa.html" target="_blank" title="Поддерживает ли сервер Exchange Server (собственный) API-интерфейс REST API?"> Поддерживает ли сервер Exchange Server (собственный) API-интерфейс REST API? </a> </li> <li class="side_article_list_item"> 8. <a href="http://ru.voidcc.com/question/p-vxxwksxm-ym.html" target="_blank" title="Bootstrap 5 элементов, разные расположения на разных устройствах"> Bootstrap 5 элементов, разные расположения на разных устройствах </a> </li> </ul> </div> </div> </div> <p class="article-nav-bar"></p> <div class="row sidebar article-nav"> <div class="row box_white visible-sm visible-md visible-lg margin-zero"> <div class="top"> <h3 class="title"><i class="glyphicon glyphicon-th-list"></i> Смежные вопросы</h3> </div> <div class="article-relative-content"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://ru.voidcc.com/question/p-bnfjonrz-kc.html" target="_blank" title="Скремблирование сгенерированных javascript данных с использованием Python"> Скремблирование сгенерированных javascript данных с использованием Python </a> </li> <li class="side_article_list_item"> 2. <a href="http://ru.voidcc.com/question/p-ebtuqwbw-cw.html" target="_blank" title="Скремблирование данных с помощью python таблицы с использованием python"> Скремблирование данных с помощью python таблицы с использованием python </a> </li> <li class="side_article_list_item"> 3. <a href="http://ru.voidcc.com/question/p-ndocdbwa-wp.html" target="_blank" title="1 домен 2 вебсайта"> 1 домен 2 вебсайта </a> </li> <li class="side_article_list_item"> 4. <a href="http://ru.voidcc.com/question/p-egoxlycc-bcv.html" target="_blank" title="Скремблирование таблицы данных с китайского веб-сайта с использованием Python"> Скремблирование таблицы данных с китайского веб-сайта с использованием Python </a> </li> <li class="side_article_list_item"> 5. <a href="http://ru.voidcc.com/question/p-qmrhhdlc-rm.html" target="_blank" title="Скремблирование динамического содержимого с использованием python-Scrapy"> Скремблирование динамического содержимого с использованием python-Scrapy </a> </li> <li class="side_article_list_item"> 6. <a href="http://ru.voidcc.com/question/p-xttwdsmp-ts.html" target="_blank" title="Скремблирование данных с помощью Scrapy в Python"> Скремблирование данных с помощью Scrapy в Python </a> </li> <li class="side_article_list_item"> 7. <a href="http://ru.voidcc.com/question/p-httyhzdr-bme.html" target="_blank" title="Скремблирование данных из таблиц с использованием python 2.7"> Скремблирование данных из таблиц с использованием python 2.7 </a> </li> <li class="side_article_list_item"> 8. <a href="http://ru.voidcc.com/question/p-ndwbwpva-uc.html" target="_blank" title="Скремблирование Javascript с использованием Selenium через Python"> Скремблирование Javascript с использованием Selenium через Python </a> </li> <li class="side_article_list_item"> 9. <a href="http://ru.voidcc.com/question/p-xonxwmjf-uq.html" target="_blank" title="Скремблирование страниц ajax с использованием python"> Скремблирование страниц ajax с использованием python </a> </li> <li class="side_article_list_item"> 10. <a href="http://ru.voidcc.com/question/p-ghjbgtlt-wy.html" target="_blank" title="Скремблирование созданной javascript страницы с использованием Python"> Скремблирование созданной javascript страницы с использованием Python </a> </li> </ul> </div> </div> </div> </div> </div> </div> </div><!-- wrap end--> <!-- footer --> <footer id="footer"> <div class="bg-simple lt"> <div class="container"> <div class="row padder-v m-t"> <div class="col-xs-8"> <ul class="list-inline"> <li><a href="http://ru.voidcc.com/contact">Свяжитесь с нами</a></li> <li>© 2020 RU.VOIDCC.COM</li> <li><a rel="nofollow" href="https://beian.miit.gov.cn/" target="_blank">沪ICP备13005482号-13</a></li> <li><script type="text/javascript" src="https://s9.cnzz.com/z_stat.php?id=1280098168&web_id=1280098168"></script></li> <li><a href="http://cn.voidcc.com/" target="_blank" title="程序问答园区">简体中文</a></li> <li><a href="http://hk.voidcc.com/" target="_blank" title="程序問答園區">繁體中文</a></li> <li><a href="http://ru.voidcc.com/" target="_blank" title="поле вопросов и ответов">Русский</a></li> <li><a href="http://de.voidcc.com/" target="_blank" title="Frage - und - antwort - Park">Deutsch</a></li> <li><a href="http://es.voidcc.com/" target="_blank" title="Preguntas y respuestas">Español</a></li> <li><a href="http://hi.voidcc.com/" target="_blank" title="कार्यक्रम प्रश्न और उत्तर पार्क">हिन्दी</a></li> <li><a href="http://it.voidcc.com/" target="_blank" title="IL Programma di chiedere Park">Italiano</a></li> <li><a href="http://ja.voidcc.com/" target="_blank" title="プログラム問答園区">日本語</a></li> <li><a href="http://ko.voidcc.com/" target="_blank" title="프로그램 문답 단지">한국어</a></li> <li><a href="http://pl.voidcc.com/" target="_blank" title="program o park">Polski</a></li> <li><a href="http://tr.voidcc.com/" target="_blank" title="Program soru ve cevap parkı">Türkçe</a></li> <li><a href="http://vi.voidcc.com/" target="_blank" title="Đáp ứng viên">Tiếng Việt</a></li> <li><a href="http://fr.voidcc.com/" target="_blank" title="Programme interrogation Park">Française</a></li> </ul> </div> </div> </div> </div> </div> </footer> <!-- / footer --> <script async src="https://www.googletagmanager.com/gtag/js?id=UA-77509369-5"></script> <script> window.dataLayer = window.dataLayer || []; function gtag() { dataLayer.push(arguments); } gtag('js', new Date()); gtag('config', 'UA-77509369-5'); </script> <script> var _hmt = _hmt || []; (function () { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?67d4731349f0b00136755b80364ce381"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> </body> </html>