Я делаю приложение для обработки естественного языка на Java, я использую данные из IMDB и Amazon.Заменить несколько последовательных вхождений символа с одним вхождением
Я столкнулся с определенным набором данных, который имеет такие слова, как partyyyyy
. Эти слова не подходят для моего алгоритма классификации. Поэтому, я хочу их удалить и добавить party
вместо partyyyyyyy
.
Как я могу это сделать?
«Посмотрите, действительно ли сформировано правильное слово», как я могу проверить, верно ли слово или нет? –
Предположительно, у вас есть словарь, с которым вы сравниваете. Если нет, то нет! – supergra
Обратите внимание, что ответ Pshemo хорош, но он не может разрешить определенные двусмысленности, такие как «stoop» vs. «stop», которые являются действительными словами! – supergra