Python - подсчет повторяющихся строк

Я пытаюсь написать функцию, которая будет подсчитывать количество дубликатов слов в строке и затем возвращать это слово, если количество дубликатов превышает определенное число (n). Вот то, что я до сих пор:Python - подсчет повторяющихся строк

from collections import defaultdict 

def repeat_word_count(text, n): 
    words = text.split() 
    tally = defaultdict(int) 
    answer = [] 

    for i in words: 
    if i in tally: 
     tally[i] += 1 
    else: 
     tally[i] = 1

Я не знаю, куда идти отсюда, когда дело доходит до сравнения словаря значений п.

Как это должно работать: repeat_word_count ("один один был скакун два два был один слишком", 3) должен возвращать [ 'один']

источник

2015-09-12 Saltharion

Вы хотите, чтобы «словарь» как результат с «ключом» - это 'count' и' value' слово? Это то, что вы пытаетесь получить?Итак, если есть слово без дубликатов, 'key' будет' 1', и если будут дубликаты, 'key' будет числом для количества дубликатов? –

Вот способ сделать это:

from collections import defaultdict 
tally = defaultdict(int) 
text = "one two two three three three" 
for i in text.split(): 
    tally[i] += 1 
print tally # defaultdict(<type 'int'>, {'three': 3, 'two': 2, 'one': 1})

Включая это в af :

def repeat_word_count(text, n): 
    output = [] 
    tally = defaultdict(int) 
    for i in text.split(): 
     tally[i] += 1 
    for k in tally: 
     if tally[k] > n: 
      output.append(k) 
    return output 

text = "one two two three three three four four four four" 
repeat_word_count(text, 2) 
Out[141]: ['four', 'three']

источник

2015-09-12 02:23:02

Try

for i in words: 
    tally[i] = tally.get(i, 0) + 1

вместо

for i in words: 
    if i in tally: 
     tally[words] += 1 #you are using words the list as key, you should use i the item 
    else: 
     tally[words] = 1

Если вы просто хотите сосчитать слова, используйте collections.Counter в порядке.

>>> import collections 
>>> a = collections.Counter("one one was a racehorse two two was one too".split()) 
>>> a 
Counter({'one': 3, 'two': 2, 'was': 2, 'a': 1, 'racehorse': 1, 'too': 1}) 
>>> a['one'] 
3

источник

2015-09-12 01:57:24 luoluo

Это сработало для подсчета вопросов - спасибо! Есть ли у вас какие-либо предложения по поводу того, как я должен заниматься остальными? – Saltharion

Если то, что вы хотите это dictionary подсчет слов в строке, вы можете попробовать это:

string = 'hello world hello again now hi there hi world'.split() 
d = {} 
for word in string: 
    d[word] = d.get(word, 0) +1 
print d

Выход:

{'again': 1, 'there': 1, 'hi': 2, 'world': 2, 'now': 1, 'hello': 2}

источник

2015-09-12 02:17:40

Как говорится в luoluo, используйте коллекции.Counter.

Чтобы получить товар (ов) с самым высоким бирке, используйте метод Counter.most_common с аргументом 1, который возвращает список пар (word, tally), чьи вторые координаты все равно макс число. Если «предложение» не пусто, то этот список тоже. Таким образом, следующая функция возвращает некоторое слово, которое происходит, по крайней мере n раз, если есть один, и возвращает None иначе:

from collections import Counter 

def repeat_word_count(text, n): 
    if not text: return None  # guard against '' and None! 
    counter = Counter(text.split()) 
    max_pair = counter.most_common(1)[0] 
    return max_pair[0] if max_pair[1] > n else None

источник

2015-09-12 02:25:54 BrianO

почему бы вам не использовать счетчик класса для этого случая:

from collections import Counter 
cnt = Counter(text.split())

Где элементы хранятся в виде словарных ключей, а их значения хранятся в виде значений словаря. Тогда легко держать слова, что превышает ваши п число с iterkeys() в цикле, как

list=[] 
for k in cnt.iterkeys(): 
    if cnt[k]>n: 
     list.append(k)

В списке вы получили свой список слов.

** Отредактировано: извините, thats, если вам нужно много слов, BrianO имеет право на ваш случай.

источник

2015-09-12 03:30:16 Rulolp

И я думаю, что ваш лучший способ получить все слова, частота которых превышает n. Но вы можете просто сказать 'for k in cnt', не нужно' .iterkeys() '. – BrianO

Спасибо, и могли бы быть в понимании списка, а затем просто вернуть '[k для k в cnt, если cnt [k]> n]', хотя это немного менее понятно. – Rulolp

Да, вот что я буду делать. Я думаю, что это немного * более ясно, на самом деле :), но это я. – BrianO

Python - подсчет повторяющихся строк

ответ

Смежные вопросы