Я разработчик Python, который в настоящее время работает над проектом, который связан с NLP и NLTK. В этом проекте потребуется огромное количество данных для целей анализа инцидентов. Поэтому для этого я дал 2 вопросаscrap Wikipedia, управляйте этими данными с помощью кластеризации
Где я могу найти такой большой объем данных. Мое первое предпочтение - Википедия, но я не знаю, как получить доступ к данным из него? Должен ли я отказаться от Википедии?
Как мне организовать все эти данные, чтобы у меня был лучший результат поиска? Будет ли K-означает кластеризацию?
Извините, но ваши вопросы слишком широки для SO. SO в основном касается вопросов конкретных проблем программирования, связанных с кодом. –
Посмотрите на https://github.com/alvations/SeedLing, чтобы иметь дело с копиями Википедии. – alvas
FYI слово «scrape». – alexis