Моя цель: Я пытаюсь распознать местоположение в твиттере (если он существует).Именованное распознавание сущности для твитов с использованием R
Я попытался с помощью пакета OpenNLP и врезался в «из памяти ошибки» несколько раз, несмотря на увеличение размера кучи памяти. Код заканчивается после определения местоположения для 6-8 твитов.
Меня интересует только 100-150 мест (список областей), но соответствие каждого слова в твите со списком для коллекции твитов крайне неэффективно.
Я хотел знать, есть ли любые подходящие пакеты, которые могут включать NER для данных твиттера, используя R, кроме «NLP»?
Также был бы наиболее эффективный способ выполнить эту процедуру?
Я не очень хорошо знакомы с питоном/Java, следовательно, хотел бы использовать R.
Спасибо.
Используйте регулярное выражение. вероятно, будет выглядеть примерно так: # [A-Za-z] [a-z] + ([A-Z] [a-z] +) * " – yeedle