2016-11-09 2 views
0

Я пытаюсь отфильтровать имя пакета из поиска в GooglePlay. Таким образом, пользователь вводит «Facebook», а мой скрипт распознает имя пакета. Я пытаюсь сделать это с помощью BeautifulSoup4. Я думаю, что это лучшее решение для этого.Имя пакета фильтра Python с выхода GooglePlay

Так .. вот мой код, я попытался

br = mechanize.Browser() 
br.set_handle_robots(False) 
br.addheaders = [('User-agent', 'chrome')] 

term = "faceboook" 
query = "http://play.google.com/store/search?q="+term 

htmltext = br.open(query).read() 

soup = BeautifulSoup(htmltext) 

search = soup.findAll("div", class_="card-content id-track-click id-track-impression") 

print search 

Выход:

[<div class="card-content id-track-click id-track-impression" data-docid="com.facebook.katana" (and so on) 

Как я могу получить только имя пакета? Я действительно не знаю, как это сделать. Я уже читал некоторые документы о BeautifulSoup, но я просто не понимаю, как я использую это расширение.

Благодарим вас за взятку за плохой английский!

ответ

1

Из того, что я понимаю, вы можете/должны получить значение атрибута data-docid:

[item.get("data-docid", "n/a") for item in search] 
+0

Спасибо, но теперь я получаю "[„com.facebook.katana“,«com.facebook.orca ',' com.facebook.Mentions ',' com.htc.sense.socialnetwork.facebook ',' com.twitter.android ',' com.instagram.android '" – Lucas

+0

Как отфильтровать это сейчас? Я не могу использовать split – Lucas

Смежные вопросы