У меня есть база данных с тысячами строк журналов ошибок и их описание. Этот журнал ошибок предназначен для приложения, работающего круглосуточно. Я хочу создать панель управления/пользовательский интерфейс, чтобы просмотреть текущие распространенные ошибки, возникающие для поддержки prodcution.Расчет сходств между предложениями
Проблема, с которой я столкнулась, состоит в том, что, несмотря на то, что существует множество распространенных ошибок, описание ошибки отличается идентификатором транскрипции или идентификатором пользователя или вещами, которые являются уникальными для этой сигль-prcoess.
например Ошибка А операций Устанавливаются Сбой пользователя 233 2. например Ошибка А операций Устанавливаются не удались для пользователя 567
Я считаю эти два erros быть одинаковыми. Поэтому я хочу программу, которая будет проходить через новые журналы ошибок и классифицировать их по группам. Я пытаюсь использовать «расстояние редактирования», но очень медленно. Поскольку у меня есть старые журналы ошибок, я пытаюсь думать о решениях, используя эту информацию. Есть предположения?
Что-то на основе soundex могло бы быть полезным, возможно .... –