У нас есть база данных с сотнями миллионов записей данных журнала. Мы пытаемся «группировать» данные журнала как имеющие тот же характер, что и другие записи в базе данных журнала. Например:Определение сходства между элементами в базе данных
Запись X может содержать запись журнала, как:
Изменение транзакции ABC123 Назначено к серверу US91
И Record Y может содержать запись журнала, как:
Изменить сделку XYZ789 Assigned To Server GB47
Нам, людям, эти две записи в журнале легко узнаваемы, поскольку они могут быть связаны определенным образом. Теперь между записью X и записью Y может быть 10 миллионов строк. И могут быть тысячи других записей, похожих на X и Y, а некоторые из них совершенно разные, но у других записей они похожи.
То, что я пытаюсь определить, является наилучшим способом группировки похожих предметов вместе и сказать, что с достоверностью XX% Запись X и запись Y, вероятно, имеют одинаковую природу. Или, может быть, лучший способ сказать, что система будет смотреть на запись Y и говорить, основываясь на вашем контенте, который больше всего похож на запись X, как и на все другие записи.
Я видел некоторые упоминания о естественном языке Processing и другие способы, чтобы найти сходство между строками (как только скотина форсирования некоторые расчеты Левенштейн) - однако для нас у нас есть эти две дополнительные задачи:
- В содержимое генерируется машиной - не создано человеком
- В отличие от подхода поисковой системы, где мы определяем результаты для данного запроса, мы пытаемся классифицировать гигантский репозиторий и группировать их как одинаково друг к другу.
Спасибо за ваш ввод!
У вас есть примеры записей, которые выглядят иначе? Для меня это звучит как проблема кластеризации. –
Я бы рекомендовал нанять статистика/«научного сотрудника данных». –
Я не согласен, что это «неконструктивно». * Жестко * возможно; можно было бы, конечно, попросить больше подумать о том, что будет/не будет считаться схожим, и как сходство может быть «оценено» ... Но опять же можно было бы легко запросить решение. – Shog9