Я использую токенизатор NLP, однако я не уверен в поведении, когда дело касается мест. Если я дам Нью-Йорк или Мехико, токенизатор разделяет это на Нью и Йорк соответственно.Tokenizing place like New York
Однако я хочу, чтобы это был только Нью-Йорк. Есть ли какие-то токенизаторы для достижения этого, а если нет, как достичь этого результата?
Благодаря
Если вы хотите автоматически открывать такие вещи, как «Нью-Йорк», без необходимости поддерживать словарь (таблицу поиска), то, возможно, вам стоит попробовать распознать имя и название. Компонент NER будет использовать модель для поиска местоположений (даже многословных) в ваших токенах на основе модели. – markg