2009-07-03 3 views
1

Мне нужно проанализировать сообщение пользователей и классифицировать его. Например: я должен классифицировать каждый пост как «купить» или пост «продавать» на основе текста - «Я ищу продам мой дом» относится к категории «продавать». Проблема в том, что часто ее не так просто - «Я ищу, чтобы избавиться от своего старого дома» также нужно классифицировать как «продавать». «Я ищу дом» становится «покупать». Я также хотел бы классифицировать эти должности на основе данного вопроса - например, вышеприведенная должность будет отнесена к категории «покупка» и «дом».лучший подход для анализа текста в PHP?

Может ли кто-нибудь рекомендовать хороший подход/хорошую структуру/технику, когда дело доходит до анализа и понимания ввода пользователем? Спасибо.

+0

Почему бы вам не включить комбо? – Residuum

+0

Как я уже сказал, мне нужно не только покупать/продавать, но и какой тип товара он есть. Я мог бы добавить переключатели и выпадающие списки, но мне нужно было что-то более умное. Может быть, как резерв, если система не поняла, что написал парень. – daniel

ответ

2

Вы правы; это сложно сделать.

Yahoo! Упрощенный расчет! имеет Term Extraction API/веб-сервис, который вы можете использовать. Это довольно хороший способ использовать анализ языка на вашем собственном тексте, не написав миллион строк кода, чтобы сделать это самостоятельно. Я не использовал его, поэтому я понятия не имею, насколько хорошо он работает с похожими значениями, как задает ваш вопрос.

3

Что вы говорите, это в основном Bayesian filtering problem, также используемый для фильтрации спама. См. Также this talk. Это довольно сложная область.

Смежные вопросы