Может ли кто-нибудь сказать мне, как я могу рассматривать слова вокруг данного слова? Пример: Если у нас есть предложение: «Сегодня погода прекрасна, и мы любим ходить». Затем, если размер окна 5, я хотел бы получить следующее:Возьмите несколько слов с центром в указанном
- Сегодня погода (центр: "Сегодня")
- Сегодня погода (в центре: "The")
- Сегодня погода хорошая (в центре: «погода»)
- погода хорошая и (в центре: «есть»)
- погода хорошая, и мы (в центре: «отлично»)
- прекрасно и мы любим (в центре: «и»)
и так далее. Учитывая биграммы не проблема:
bigrams = [p for s in corpus_lemm for p in nltk.bigrams(w for w in s)] #take bigrams inside of each sentence
Но как я могу считать слова заданного размера окна?
Большое спасибо за помощь!
я прошу прощения, но я не понимаю, почему эти строки генерируются, когда размер окна 5 – rassar
Ну, для первого примера, центр «сегодня»: 2 слова, прежде чем ничего, 2 слов после «погода» и «погода». Для второго примера центр - это «the»: 2 слова перед «Сегодня», 2 после: «погода» и «есть». Для третьего примера центр - это «погода». 2 слова до «Сегодня» и «the», 2 после: «is» и «fine». 4-й пример: центр «есть», 2 слова до: «the» и «weather», 2 после: «fine »и« и ». И т. д. – JohnD
Список наименований - самый простой способ. Я оставляю детали вам как упражнение. –