2013-12-05 5 views
0

Я смотрел сайт сравнения цен, например this. Таким образом, вопрос заключается в том, как он знает, что два продукта из двух разных сайтов имеют один и тот же продукт и объединяют два и те же ведра, чтобы показать сравнение цен.Сравнение продуктов по категориям

Если это только книги, я могу понять, что все книги имеют уникальный номер ISBN, поэтому просто напишите какой-то конкретный код сайта, который будет извлекать данные с сайтов и сравнивать.

например. у вас есть два веб-сайта:

www.xyz.com 
www.pqr.com 

Теперь перечисляют эти два сайта свои книги по-разному то есть HTML будет отличаться, поэтому разбор HTML и принести ISBN, price от него. Чем для соответствующего ISBN, мы можем поставить цену двух сайтов. Это просто, но как вы будете анализировать продукты, которые не имеют id, который является уникальным и однородным (например, прижимная плита, часы и т. Д.) На таких сайтах, как ISBN.

Спасибо.

ответ

1

Другие продукты также имеют идентификационные номера, в Европе это EAN, который в настоящее время превращается в глобальный номер GTIN. В электронной торговле обычно используются идентификаторы Amazon (ASIN, из которых ISBN - это подмножество).

Если у вас нет этих номеров, как правило, вам понадобится стратегия, называемая Record Linkage или Data Matching.

TL; DR Обычно он использует алгоритм соответствия строк, чтобы найти похожие «сформулированные» продукты (например, с помощью инвертированного индекса на n-граммах). В конце вы можете использовать машинное обучение для устранения неправильных совпадений (ложных срабатываний). Это требует большого количества данных по обучению (нет доступных или слишком маленьких общедоступных наборов данных), и поэтому большую часть времени человек проверяет эти соответствия.

Для более детального анализа проблемы я могу только рекомендовать прочитать книгу Data Matching by Peter Christen. Он глубоко проникает в поиск информации (как найти похожие продукты), а затем, как сортировать неправильные или правильные совпадения, используя машинное обучение (например, посредством структурного анализа).

Существует также множество документов, имеющихся у него в сети, поэтому проверка his scholar profile.

Смежные вопросы