2013-07-31 3 views
0

Я довольно новичок в NLP/ML/Pattern Matching или Recognition. Мне было интересно, что это лучший способ, чтобы соответствовать различные элементы, основанные на названии, описании и т.д. Для например:Определить алгоритм сопоставления

Если есть 3 пунктов:

item 1: Title: Belkin bluetooth headset USB - ABD13432 
item 1: Description: This is a bluetooth device with the following specs: 
75 W power, 3.5 mm jack, etc 
item 1: Model NO: ABD13432 
item 1: UPC Code: 000000022221 
item 1: product image: <img1> 

item 2: Title: Belkin headset: 
item 2: Description: This is a device that works on RF, and has 2.5 mm jack with 25 W power 
item 2: Model No: 13432 
item 2: UPC Code: 000022022221 
item 2: product image: <img1> 

item 3: Title: Belkin headset wireless - ABD 13432 
item 3: Description: World's best headphone 
item 3: Model No: ABD-13432 
item 3: UPC Code: 000000022221 
item 3: product image: <img1> 

пункт 1 и пункт 3 являются одинаковыми и пункт 2 - другой. Код UPC, как правило, отличный индикатор, если он является одним и тем же предметом, но проблема заключается в том, что продавец может ввести любой код UPC, который он хочет. Но совпадение изображений не обязательно является хорошим индикатором, поскольку продавец может ввести любое изображение, которое он хочет.

+0

Это очень конкретный вопрос, так как я упомянул 5 атрибутов, которые я идентифицировал. Теперь я знаю, ЧТО я должен включить, но мне нужно знать, КАК мне нужно, чтобы это реализовано. Они оба совершенно разные вопросы. – stealthspy

+0

Если бы вы прочитали книгу, которую я предложил, вы прекрасно знали бы, как это работает. Постскриптум вы также не приняли мой последний ответ. –

ответ

0

В этом конкретном случае модель No и UPC явно вносят больше веса, чем другие функции.

Когда элементы имеют разные модели No или UPC, вы можете рассмотреть семантическое сходство для коротких предложений как еще одну функцию для вашего алгоритма обучения.

Возможно, вы захотите посмотреть this paper. Поскольку ваш случай находится в домене продукта/электронной коммерции, вы можете захотеть создать собственный домен, кроме использования общего wordnet.