Я просто перечитываю исходный вопрос, и я понимаю ответы, мои включенные вышли из базы. Я думаю, что первоначальный человек просто хотел решить простую проблему программирования, а не искать наборы данных.
Если вы перечислите все отдельные пары слов и посчитаете их, вы можете ответить на свой вопрос простой математикой в этом списке.
Конечно, вам нужно сделать много обработки, чтобы сгенерировать список. Хотя верно, что если общее количество разных слов составляет 30 000, тогда существует миллиард возможных пар, я сомневаюсь, что на практике их так много. Таким образом, вы, возможно, можете сделать программу с огромной хеш-таблицей в памяти (или на диске) и просто посчитать их все. Если вам не нужны незначительные пары, вы можете написать программу, которая периодически отбрасывает менее важные из них во время сканирования. Также вы можете сегментировать список слов и генерировать пары сто слов стихи остальных, затем следующие сотни и так далее, и вычислять в проходах.
Мой первоначальный ответ здесь я ухожу, потому что это мой собственный связанный с этим вопрос:
Я заинтересован в чем-то подобным (я пишу систему входа, которая предложить доработок слова и знаки препинания, и я хотел бы он должен быть многоязычным).
Я нашел страницу загрузки для ngram-файлов Google, но они не так хороши, они полны ошибок сканирования. «я стал» 1, слова бегут вместе и т. д. Надеюсь, Google с тех пор улучшил свою технологию сканирования.
Идея just-download-wikipedia-unpack = it-and-strip-the-xml - это бюст для меня, у меня нет быстрого компьютера (хе, у меня есть выбор между нетбуком с атомами здесь и устройство Android). Представьте, сколько времени мне понадобится, чтобы распаковать 3 гигабайта файла bz2? 100 из xml, затем обработайте его красивым супом и фильтрами, которые он допускает посторонний путь через каждый файл и его необходимо перезапустить.
Для вашей цели (предыдущие и следующие слова) вы можете создать словарь реальных слов и отфильтровать списки ngram, чтобы исключить неверно отсканированные слова. Можно было бы надеяться, что сканирование было достаточно хорошим, чтобы вы могли исключить misscans, используя только самые популярные слова ... Но я видел некоторые признаки постоянных ошибок.
В Ngram наборов данных здесь, кстати http://books.google.com/ngrams/datasets
Этот сайт может иметь то, что вы хотите http://www.wordfrequency.info/
SO - это конкретные вопросы программирования ... то, что вы описываете, является чрезвычайно общим ... в чем именно заключается ваш вопрос? – Yahia
вопрос заключается в том, существует ли какая-либо конкретная услуга или api для этой цели? – MARK
есть организации, которые имеют такие API-интерфейсы, но AFAIK только для внутреннего использования ... Я не знаю о публичных/коммерческих предложениях ... – Yahia