2013-03-07 3 views
2

Я делаю анализ настроений для арабского языка, я хочу создать свой собственный корпус, чтобы сделать это, я собираю 300 статусов из facebook, и я классифицирую их на положительные и отрицательные, теперь я хочу сделать токенизация этого статуса, чтобы получить список слов, и курировать генерации униграмм и биграмм, триграмм и использовать проверку кросс-фола, я использую на данный момент nltk python, это программное обеспечение, способное выполнить эту задачу fr арабский язык или рапид Миннер будет лучше работать, как вы думаете, и мне интересно, как генерировать биграммы, триграммы и использовать проверку кросс-фолда, есть ли какая-то идея?создание арабского corpus

+1

Если вы используете правильный токенизатор, NLTK может обрабатывать арабский язык. См. Http://stackoverflow.com/questions/13035595/tokenization-of-arabic-words-using-nltk. – verbsintransit

+0

Мне повезло с MALLET. Я согласен с вышеприведенным комментарием. Правильный токенизатор может обрабатывать арабский язык. После того, как вы добавили текст, остальная часть конвейера не изменится. – Shane

ответ

0

Ну, я думаю, что quickminer очень интересен и может справиться с этой задачей. Он содержит несколько операторов, занимающихся текстовой обработкой. Кроме того, он позволяет создавать новые операторы с высокой пропускной способностью.

Смежные вопросы