Я делаю проект для колледжа, который я беру.Обработка текста с PHP
Я использую PHP для создания простого веб-приложения, которое классифицирует твиты как «позитивные» (или счастливые) и «негативные» (или печальные) на основе набора словарей. Алгоритм, о котором я сейчас думаю, - это классификатор Naive Bayes или дерево решений.
Однако я не могу найти какую-либо библиотеку PHP, которая помогла бы мне сделать серьезную обработку языка. Python имеет NLTK (http://www.nltk.org). Есть ли что-то подобное для PHP?
Я планирую использовать WEKA в качестве задней части веб-приложения (вызывая Weka в командной строке из PHP), но это не кажется эффективным.
Вы знаете, что я должен использовать для этого проекта? Или я должен просто переключиться на Python?
Благодаря
Наивные байесовские классификаторы не очень трудно написать самостоятельно, если вы понимаете основные принципы. На самом деле вы могли бы сделать все на PHP. San Jacinto уже охватил все, что я сказал бы о части НЛП. Еще одна вещь, которую я могу рассказать вам из аналогичного проекта, который я сделал всего пару недель назад, - это то, что классификация чувств с использованием стандартного подхода с мешком слов на самом деле не очень хорошо работает. Я не пробовал ничего, как n-граммы, хотя ... У меня есть ощущение, что они будут работать лучше, но, конечно, это даст вам массу дополнительных измерений ... –
Нет никаких указаний ни в ваших пост или тот, с которым вы связаны, почему это подходящее решение. –
PEAR's Text_LanguageDetect может идентифицировать 52 человеческих языка из образцов текста и возвращать оценки доверия для каждого. Разве это не интересный вариант? – nuqqsa