Я работаю над проблемой поиска подобного содержимого в файле журнала. Скажем, у меня есть файл журнала, который выглядит следующим образом:Текстовая кластеризация в файле журнала
show version
Operating System (OS) Software
Software
BIOS: version 1.0.10
loader: version N/A
kickstart: version 4.2(7b)
system: version 4.2(7b)
BIOS compile time: 01/08/09
kickstart image file is: bootflash:/m9500-sf2ek9-kickstart-mz.4.2.7b.bin
kickstart compile time: 8/16/2010 13:00:00 [09/29/2010 23:10:48]
system image file is: bootflash:/m9500-sf2ek9-mz.4.2.7b.bin
system compile time: 8/16/2010 13:00:00 [09/30/2010 00:46:36]`
Hardware
xxxx MDS 9509 (9 Slot) Chassis ("xxxxxxx/xxxxx-2")
xxxxxxx, xxxx with 1033100 kB of memory.
Processor Board ID xxxx
Device name: xxx-xxx-1
bootflash: 1000440 kB
slot0: 0 kB (expansion flash)
Для человеческого глаза, легко можно понять, что «Программное обеспечение» и данные ниже раздел и «Hardware» и ниже данные другого раздел. Есть ли способ, которым я могу моделировать, используя машинное обучение или какой-либо другой метод для группировки подобных разделов на основе шаблона? Кроме того, я показал два похожих типа шаблона, но шаблоны между разделами могут отличаться и, следовательно, должны идентифицироваться как разные разделы. Я попытался найти сходство, используя подобие косинуса, но это мало помогает, потому что слова не похожи, но шаблон.
Можете ли вы определить проблему лучше? Что именно вы хотите получить? – PureW