У меня есть проблема в руке, и мне нужно знать, можно ли ее решить путем машинного обучения или нет. Это выглядит следующим образом: -Ограничения классификации с несколькими метками с набором динамических классов
У меня есть система, в которой пользователь может загружать документы, так скажем, у нас есть файл с именем xxxZxxx.xxx
Пользователь проходит несколько уровней в структуре папок системы и помещает файл, (скажем) A/B/C/D/Z/xxxZxxx.xxx
Нам необходимо создать систему, которая считывает имя файла и предлагает путь , где должен быть помещен ,
В этом случае имя файла содержит последнюю часть пути, которая является каталогом бизнес-объектов, но может не содержать. У нас есть такие пути и документы в порядке 10^5.
И новые пути, т.е. бизнес-объекты могут быть добавлены со временем, , что делает это мульти-класс классификации с приблизительно 10^5 классов, которые продолжают увеличиваться
Является ли это решаемая?
Я попытался использовать мешок символов (вдохновленный сумкой слов) как вектор функции, который не удался.
Любые комментарии к любому подходу, который может быть применен для этого? Дайте мне знать, нужна ли какая-либо другая информация. Я отредактирую вопрос или измените теги.
Привет, я воспользовался вариантами, которые вы упомянули. Пользователь может или не может указывать имя файла в качестве дочерней папки, хотя он будет только одним. Это не проблема, которую можно позаботиться об использовании reg-ex. Мы пытаемся найти образец в соглашении об именах людей, если это станет более ясным. – divyenduz
Итак, вы говорите, что пользователь может указать имя, которое может совпадать с уже существующим каталогом или вообще может быть другим именем. И вы не знаете соглашение об именах пользователей, поэтому вы не знаете, какой шаблон искать. Если вышеуказанное верно и вы хотите превратить его в проблему с ML, тогда это должно быть контролируемое обучение. У вас есть предыдущие пользовательские данные, где вы уже знаете, какой пользователь дал имя файла corressponds для какой структуры каталогов? Если это есть, тогда мы можем думать дальше о том, чтобы положить это как проблему с ML, иначе вся надежда потеряна, я думаю, что это проблема ML. –
Почему очень сложно сказать, что проблема неконтролируемого обучения связана с тем, что вы ожидаете (или есть) 100% правильный ответ для каждого имени файла, которое пользователь бросает на вас.Таким образом, у вас есть отдельная метка (структура каталогов) для каждого datapoint (имя файла) –