Если я скажу 20 страниц HTML, и я хочу извлечь общие/похожие части документов, какие эффективные способы сделать это?Найдите сходства между блоками текста между многими документами HTML?
Так что скажем, для StackOverflow, сравнив 10 страниц, я обнаружил бы, что верхняя панель и панель главного меню одинаковы на каждой странице, поэтому я мог бы их извлечь.
Кажется, мне понадобится программа diff или некоторые сложные регулярные выражения, но предположим, что я заранее не знаю структуры страницы/текста/html.
Возможно ли это?
Возможный дубликат [diff a ruby string or array] (http://stackoverflow.com/questions/80091/diff-a-ruby-string-or-array) – sawa