Я работаю на веб-сайте сравнения цен, я сделал с ломом все данные магазины продукции (около 200+), сейчас я столкнулся вопроспродукта Сравнение цен Algo
показать данные.
Проблема в том, каждый магазин имеет свой уникальный заголовок продукта, как
Например Google Nexus 5
- Nexus 5
- Google Nexus 5
- LG Nexus 5
- Google LG Nexus 5
или сложный пример для Canon 5D Mark III
Canon EOS 5D Mark III 24-105mm Lens Kit (22 Мегапикселей, камера DSLR, черный)
Canon EOS 5D MARK III + 24-105mm IS объектив
Canon EOS 5D Mark III DSLR Camera (Body Only)
C Анон EOS 5D Mark III Kit (EF 24-105 F4L IS USM)
Canon DSLR камеры EOS 5D MARK III Kit с 22,3 МП и 24-105mm F4L
IS USM LensCANON 5D Mark III Body Digital Slr Camera
Так что в поиске я не могу найти точные соответствия по названию. Каков наилучший способ отказаться от этих данных или какой-либо инфраструктуры open-source, которые помогут мне показать лучший результат на основе модели.
Без какого-либо кода мы не видим разметки того, что вы пытаетесь отменить, и не можете ответить на ваш вопрос. Тем не менее, я бы рекомендовал посмотреть на https://github.com/FriendsOfPHP/Goutte – mkaatman
Возможно, https://github.com/datamade/dedupe станет хорошей отправной точкой – barryhunter
У меня уже есть все данные веб-сайтов, но дело в том, что Я не могу получить связанные данные , например, когда я использую Like query% string% для iPhone 6, поэтому он также показывает результат iphone 6 case и другие, связанные с этим. Сделать категоризацию для каждого сайта продавца довольно сложно для фильтрации данных. – junjoi