2014-09-05 2 views
0

У меня есть проблема в руке, и мне нужно знать, можно ли ее решить путем машинного обучения или нет. Это выглядит следующим образом: -Ограничения классификации с несколькими метками с набором динамических классов

У меня есть система, в которой пользователь может загружать документы, так скажем, у нас есть файл с именем xxxZxxx.xxx

Пользователь проходит несколько уровней в структуре папок системы и помещает файл, (скажем) A/B/C/D/Z/xxxZxxx.xxx

Нам необходимо создать систему, которая считывает имя файла и предлагает путь , где должен быть помещен ,

В этом случае имя файла содержит последнюю часть пути, которая является каталогом бизнес-объектов, но может не содержать. У нас есть такие пути и документы в порядке 10^5.

И новые пути, т.е. бизнес-объекты могут быть добавлены со временем, , что делает это мульти-класс классификации с приблизительно 10^5 классов, которые продолжают увеличиваться

Является ли это решаемая?

Я попытался использовать мешок символов (вдохновленный сумкой слов) как вектор функции, который не удался.

Любые комментарии к любому подходу, который может быть применен для этого? Дайте мне знать, нужна ли какая-либо другая информация. Я отредактирую вопрос или измените теги.

ответ

0

Итак, чтобы сделать его по-настоящему ML проблема пожалуйста, ответьте на следующее:

1) Почему можите вы просто прочитать имя файла и получить папку чида, где файл должен быть помещен? Это потому, что, как вы сказали, пользователь не может подтвердить имя дочерней папки как часть имени файла? Или это потому, что может быть много каталогов с именем, которое пользователь предоставил?

2) Проблемы с ML обычно имеют шаблоны, которые являются статистическими по своей природе, которые сложнее идентифицировать простым невооруженным глазом, например. используя регулярное выражение. Здесь вы можете легко найти подходящую папку, используя поиск регулярных выражений, нет?

+0

Привет, я воспользовался вариантами, которые вы упомянули. Пользователь может или не может указывать имя файла в качестве дочерней папки, хотя он будет только одним. Это не проблема, которую можно позаботиться об использовании reg-ex. Мы пытаемся найти образец в соглашении об именах людей, если это станет более ясным. – divyenduz

+0

Итак, вы говорите, что пользователь может указать имя, которое может совпадать с уже существующим каталогом или вообще может быть другим именем. И вы не знаете соглашение об именах пользователей, поэтому вы не знаете, какой шаблон искать. Если вышеуказанное верно и вы хотите превратить его в проблему с ML, тогда это должно быть контролируемое обучение. У вас есть предыдущие пользовательские данные, где вы уже знаете, какой пользователь дал имя файла corressponds для какой структуры каталогов? Если это есть, тогда мы можем думать дальше о том, чтобы положить это как проблему с ML, иначе вся надежда потеряна, я думаю, что это проблема ML. –

+0

Почему очень сложно сказать, что проблема неконтролируемого обучения связана с тем, что вы ожидаете (или есть) 100% правильный ответ для каждого имени файла, которое пользователь бросает на вас.Таким образом, у вас есть отдельная метка (структура каталогов) для каждого datapoint (имя файла) –

Смежные вопросы