Я работаю над относительно большой проблемой классификации веб-классификации на основе текста, и я планирую использовать многокомпонентный классификатор Naive Bayes в sklearn в python и структуру scrapy для сканирования , Тем не менее, я немного обеспокоен тем, что sklearn/python может быть слишком медленным для проблемы, которая может включать классификацию миллионов веб-сайтов. Я уже обучил классификатор на нескольких тысячах сайтов из DMOZ. Рамки исследования:Использование sklearn и Python для большого применения классификации/скрещивания приложений
1) Гусеница приземляется на доменное имя и скрежет текста из 20 ссылок на сайте (глубина не более одного). (Количество обозначенных слов здесь, по-видимому, колеблется от нескольких тысяч до 150K для выборочного пробега искателя) 2) Запустите многопользовательский классификатор NB sklearn с около 50 000 функций и запишите доменное имя в зависимости от результата
Вопрос в том, будет ли классификатор на основе Python соответствовать задаче для такого крупномасштабного приложения, или я должен попытаться повторно написать классификатор (а может быть, скребок и токенизатор) в более быстрой среде? Если да, то какова может быть эта среда? Или, возможно, Python достаточно, если он сопровождается некоторой распараллеливанием кода? Благодаря