Я делаю анализ настроений для арабского языка, я хочу создать свой собственный корпус, чтобы сделать это, я собираю 300 статусов из facebook, и я классифицирую их на положительные и отрицательные, теперь я хочу сделать токенизация этого статуса, чтобы получить список слов, и курировать генерации униграмм и биграмм, триграмм и использовать проверку кросс-фола, я использую на данный момент nltk python, это программное обеспечение, способное выполнить эту задачу fr арабский язык или рапид Миннер будет лучше работать, как вы думаете, и мне интересно, как генерировать биграммы, триграммы и использовать проверку кросс-фолда, есть ли какая-то идея?создание арабского corpus
2
A
ответ
0
Ну, я думаю, что quickminer очень интересен и может справиться с этой задачей. Он содержит несколько операторов, занимающихся текстовой обработкой. Кроме того, он позволяет создавать новые операторы с высокой пропускной способностью.
Смежные вопросы
- 1. Создание арабского алфавита для SVG
- 2. Создание арабского PDF с помощью текстового редактора
- 3. Ресурс CORPUS
- 4. named entity tagged corpus
- 5. Большой документ классификации corpus
- 6. Moses Training Data -Corpus
- 7. Загружаемый HTML Test Corpus
- 8. Редактирование NLTK Corpus
- 9. corpus method in r
- 10. Построение собственного текста corpus
- 11. Big Text Corpus breaks tm_map
- 12. DynamoDB Поддержка арабского языка
- 13. IOS регулярного выражения арабского
- 14. Кодировка арабского символа
- 15. Идентификация арабского номера
- 16. MySQL Кодировка арабского символа
- 17. GWT арабского рендеринг
- 18. Python NLTK Классифицированный Corpus Creation
- 19. Wordnet (Word Sense Annotated) Corpus
- 20. Русско-английский параллельный Word Corpus?
- 21. понимание semcor corpus structure h
- 22. Импорт и использование NLTK corpus
- 23. Twitter/общая категоризация training corpus
- 24. Удаление не ASCII из corpus
- 25. R break corpus в предложения
- 26. Ошибка Wordcloud + corpus в R
- 27. чтение Tamil corpus in R
- 28. сохранение арабского языка в mysql
- 29. Как добавить локало для арабского
- 30. Добавление арабского текста в jQuery
Если вы используете правильный токенизатор, NLTK может обрабатывать арабский язык. См. Http://stackoverflow.com/questions/13035595/tokenization-of-arabic-words-using-nltk. – verbsintransit
Мне повезло с MALLET. Я согласен с вышеприведенным комментарием. Правильный токенизатор может обрабатывать арабский язык. После того, как вы добавили текст, остальная часть конвейера не изменится. – Shane