Я новичок в обучении машинам, и я ищу технику для изучения строковых шаблонов на основе набора данных обучения.Техника машинного обучения для изучения шаблонов строк
Моя проблема: У меня разные слова, относящиеся к разным категориям. Каждая категория имеет некоторый характер своего шаблона (например, у одного есть фиксированная длина только с особыми символами, другая существует из других символов, которые встречаются только в этой категории «слова»).
Например:
"ABC" -> type1
"ACC" -> type1
"a8 219" -> type2
"c 827" -> type2
"ASDF 123" -> type2
...
Я ищу технику машинного обучения, чтобы узнать эти картины на своем собственном, основанные на обучение. Я уже пытался определить некоторые предикторные переменные (например, wordlength, количество специальных символов ...) сам по себе, а затем использовал Neural-Networks для изучения и прогнозирования категории. Но это не то, что я хочу. Мне нужна техника, чтобы самостоятельно изучить шаблон для каждой категории - даже для изучения моделей, о которых я никогда не думал.
Я хочу дать алгоритму данные обучения (состоящие из примеров категории слов) и хочу, чтобы он изучал шаблоны для каждой категории, чтобы предсказать категорию из похожих или равных слов позже на производстве.
Есть ли современный способ сделать это?
Спасибо за вашу помощь
Большого спасибо за хорошо структурированный и ясный ответ. Я уже пробовал это с помощью weka GUI, но не очень хорошо. Я думаю, что одной из причин может быть то, что мои слова не являются естественными языковыми словами, они больше похожи на отдельные случайные текстовые идентификаторы. – chresse