У меня есть список человека «интересов», который выглядит так:Многократные Списки сортировки строк
[u'technology and computing', u'software', u'shareware and freeware']
[u'art and entertainment', u'shows and events', u'festival']
[u'art and entertainment', u'shows and events', u'circus']
[u'technology and computing', u'computer certification']
[u'news']
[u'religion and spirituality', u'islam']
Это таксономия выход из NLP API, и я пытаюсь запустить дальнейший анализ, где я почерпните более высокие выводы о том, какие вещи заинтересованы, на основе таких вещей, как часто появляется item[0]=='art and entertainment'
, и если да, то какие конкретные виды искусства и развлечений кто-то интересует (например, if item[0]=='art and entertainment': return item[:-1]
В любом случае, я мог бы использовать некоторые руководство по хорошему подходу. Моя первая мысль заключалась в том, чтобы рассчитать max(len())
из пункта в списке (в моем случае 5), а затем
for item in list:
append((max(len()) - len(item))*'null,')
для того, чтобы убедиться, что все они имеют одинаковое количество «колонн», а затем преобразовать все это в именованный кортеж и сделать мульти -Спорция на этом. Похоже на раздражающий процесс. Есть ли более простой (но читаемый) способ справиться с этим?
Я думал об использовании NLTK или что-то в этом роде, но это кажется просто большой болью для настройки, даже если это облегчит анализ, как только я это сделаю.
Это, кажется, разорвать связь между между элементами подсписком, хотя. Это «шоу и события» - это, по сути, ребенок из «художественного и развлекательного» узла - это то, что мне нужно сохранить ..., что заставляет меня думать, может быть, я должен сделать анализ с деревьями. – AutomaticStatic
@AutomaticStatic checkout the edit! – Kasramvd