from bs4 import BeautifulSoup
import urllib2
# Imported libraries for future use.
response = urllib2.urlopen('http://www.nytimes.com').read()
soup = BeautifulSoup(response,"lxml")
host = []
#created empty list to append future words extracted from data set.
for story_heading in soup.find_all(class_="story-heading"):
story_title = story_heading.text.replace("\n", " ").strip()
new_story_title = story_title.encode('utf-8')
parts = new_story_title.split()[0]
i=['a','A','an','An','the','The','from','From','to','To','when','When','what','What','on','On','for','For']
if parts not in i:
host.append(parts)
else:
pass
#now i have to calculate the number of repeated words in the file and calcute the number of repeatation.
print host
дайте мне знать, как рассчитать количество повторяющихся слов в списке, который мы создали. На самом деле я довольно смущен о вышеуказанном коде тоже. Если кто-нибудь может объяснить, что я сделал в этом ошибка, было бы признательно.Как считать слова в списке?
Вы можете сделать это с невыполнением [Счетчик] (https://docs.python.org/2/library/collections.html # collections.Counter) – r3ign
Как насчет чувствительности к регистру? «Что» == «что» или они будут рассматриваться как разные значения? –