У меня есть список имен медикаментов (regular_list) и список новых имен (new_list). Я хочу проверить, присутствуют ли имена в new_list в регулярном списке или нет. что имена new_list могут иметь некоторые опечатки, и я хочу, чтобы это имя считалось совпадением с обычным списком. Я знаю, что с помощью stringdist является решением проблемы, но я нужен алгоритм машинного обученияалгоритм машинного обучения для проверки орфографии
ответ
Как уже упоминался здесь machine learning to overcome typo errors, машинное обучение инструментов слишком много для такой задачи, но простая возможность будет сливаться эти подходы.
С одной стороны, вы можете вычислить edit distance
между данным словом x
и каждым словарным словом d_i
. Additionaly, вы можете TRAING за слово классификаторов
c(d_i, distance(x,d_i))
возвращение True
(класс 1
), если данное расстояние редактирования было изучено, чтобы быть достаточно, чтобы рассмотреть x
в missspelled версию d_i
. Это может дать вам более общую модель, а не использование машинного обучения, так как у вас могут быть разные пороговые значения для каждого словаря (некоторые слова чаще всего ошибочно написаны, а затем другие), но, очевидно, вам необходимо подготовить обучающий набор в форме (misspelled_word, correct_one)
(и добавьте также (correct_one, correct_one
).
Для такой задачи можно использовать любой тип бинарного классификатора, который может работать с «реальными» входными данными.
продолжение проблемы выше. В моем регулярном списке базы данных около 150 000 слов, тогда как новый список насчитывает около 350 000 слов. Для вычисления расстояния между двумя элементами потребуется (150 000 * 350 000 запросов). Его работа очень очень медленная. Я могу найти лучший способ. – rohit
Есть десятки способов ускорить процесс. Вы можете создавать различные типы индексирования, которые отсекают части базы данных, для которых расстояние слишком велико, чтобы быть рассмотренным (что может быть сделано в постоянное время, например, хеширование 3-х буквенных префиксов и 3-буквенных суксифов и просмотр только тех, чей префикс или суффикс соответствует perfercly). Для большого поиска вам следует использовать существующие поисковые системы, например, например. lucene http://lucene.apache.org/core/ – lejlot
может быть использована любая база данных для решения этой проблемы. предположим, что я помещаю эти две таблицы как regular_list и новый _list. то через запрос я могу сравнить вышеупомянутое расстояние и позволить базе данных соответственно вернуть решение ???? – rohit
- 1. Алгоритм машинного обучения Проверка орфографии Android и автокоррекция
- 2. Подходящий алгоритм машинного обучения для многокондиционных переменных?
- 3. Алгоритм машинного обучения для одноранговых узлов
- 4. Алгоритм машинного обучения для прогнозирования порядка событий?
- 5. реализует алгоритм проверки орфографии
- 6. Какой алгоритм машинного обучения был бы уместным?
- 7. Алгоритм классификации машинного обучения с «неизвестным» классом
- 8. Человеко-интерпретируемый контролируемый алгоритм машинного обучения
- 9. Модель машинного обучения экспорта
- 10. Оценка алгоритмов машинного обучения
- 11. Преобразование данных для машинного обучения
- 12. Требуется стратегия машинного обучения
- 13. Выбор алгоритма машинного обучения
- 14. Предложение алгоритма машинного обучения?
- 15. простой машинного обучения программа
- 16. Использование машинного обучения для дедупликации данных
- 17. Какой алгоритм машинного обучения подходит для этого сценария
- 18. Каков подходящий алгоритм машинного обучения для прогноза продаж ресторана?
- 19. Какой алгоритм машинного обучения подходит для съемки баскетбола?
- 20. Каков подходящий алгоритм машинного обучения для этого сценария?
- 21. Алгоритм машинного обучения для смешанных категориальных и числовых признаков
- 22. Алгоритм машинного обучения для прогнозирования температуры в помещении
- 23. Алгоритмы машинного обучения: какой алгоритм для решения проблемы?
- 24. Какой алгоритм машинного обучения для этой простой оптимизации?
- 25. Каков правильный алгоритм машинного обучения для этой задачи?
- 26. Лучший алгоритм машинного обучения для обнаружения пожара в OpenCV
- 27. Внешний GPU для машинного обучения
- 28. Импорт Python для машинного обучения
- 29. Архив чата для машинного обучения
- 30. Использование JavaScript для машинного обучения
Возможный дубликат [машинное обучение для преодоления ошибок типографии] (http://stackoverflow.com/questions/18329826/machine-learning-to-overcome-typo-errors) –