2017-02-04 2 views
0

Какие ML-алгоритмы можно использовать для обучения фраз действия в данном Приговоре.NLP & ML Phrase Extraction

Sentence1:I want to play cricket 
Label1: play cricket 

Sentence2: Need to wash my clothes 
Label2: wash clothes 

У меня есть данные о некоторых ~ 2k наказаний & соответствующие фразы действий (Labels) и нужно предсказать еще кучу предложений, основанных на них. Может ли кто-нибудь помочь мне в этом, используя NLP/ML? Какой Алго использовать для этого? (предпочтительно python)

ответ

0

Посмотрите на N, , это многоклассы, и вы можете напрямую комбинировать пары предложений/ярлыков.

NaiveBayesClassifier.train() будет нуждаться в учебных возможностях, я бы начал с функциями, просто являющимися словами в каждом предложении. Вы можете изменить выбор функции с помощью более сложных методов, пока не получите желаемые результаты.

Вы можете использовать nltk.classify.util.accuracy, чтобы оценить результаты. Не забудьте разделить свои предложения на учебные и тестовые данные.

1

Вот процесс классификации предложений:

1) Нормализация текст - привести весь текст в нижний регистр

2) Удалить все стоп-слова - гарантирует, что только соответствующие функции оставлены

3) Токенизировать предложения для токенов униграмм

4) Примените технику штока - попробуйте использовать другие модели/lemmatizer, чтобы привести слова к их базовому слову. Посмотрите, какой из них лучше всего подходит для вашего дела. Например: воспроизведение, воспроизведение, воспроизведение будет преобразовано в базовое слово «play». Этот шаг уменьшает количество функций.

5) Создайте матрицу документов для всех предложений. Каждая строка TDM соответствует предложению, и каждый столбец TDM соответствует токену предложения. (Существует другой способ представления текста в виде матрицы, называемой Tf-Idf).

6) Теперь эта матрица терминов содержит маркеры в виде столбцов. У вас уже есть ярлыки на месте. Теперь вы можете начать обучение моделей ML. Я предполагаю, что вы знаете, как сделать эту часть.