2016-02-10 2 views
0

Я работаю на веб-сайте сравнения цен, я сделал с ломом все данные магазины продукции (около 200+), сейчас я столкнулся вопроспродукта Сравнение цен Algo

показать данные.

Проблема в том, каждый магазин имеет свой уникальный заголовок продукта, как

Например Google Nexus 5

  • Nexus 5
  • Google Nexus 5
  • LG Nexus 5
  • Google LG Nexus 5

или сложный пример для Canon 5D Mark III

  • Canon EOS 5D Mark III 24-105mm Lens Kit (22 Мегапикселей, камера DSLR, черный)

  • Canon EOS 5D MARK III + 24-105mm IS объектив

  • Canon EOS 5D Mark III DSLR Camera (Body Only)

  • C Анон EOS 5D Mark III Kit (EF 24-105 F4L IS USM)

  • Canon DSLR камеры EOS 5D MARK III Kit с 22,3 МП и 24-105mm F4L
    IS USM Lens

  • CANON 5D Mark III Body Digital Slr Camera

Так что в поиске я не могу найти точные соответствия по названию. Каков наилучший способ отказаться от этих данных или какой-либо инфраструктуры open-source, которые помогут мне показать лучший результат на основе модели.

+0

Без какого-либо кода мы не видим разметки того, что вы пытаетесь отменить, и не можете ответить на ваш вопрос. Тем не менее, я бы рекомендовал посмотреть на https://github.com/FriendsOfPHP/Goutte – mkaatman

+1

Возможно, https://github.com/datamade/dedupe станет хорошей отправной точкой – barryhunter

+0

У меня уже есть все данные веб-сайтов, но дело в том, что Я не могу получить связанные данные , например, когда я использую Like query% string% для iPhone 6, поэтому он также показывает результат iphone 6 case и другие, связанные с этим. Сделать категоризацию для каждого сайта продавца довольно сложно для фильтрации данных. – junjoi

ответ

0

Все зависит от сайтов, которые вы утилизировали. Некоторые сайты имеют точную модель, как и ISBN для книг. В других случаях у них есть своя уникальная модель, например Amazon использует то, что называется ASIN.

Короче говоря, вы можете использовать нечеткую логику, чтобы попытаться сопоставить, но если вы можете найти точную модель, скрытую где-то на странице, она будет более точной.

Смежные вопросы