2015-12-26 4 views
-1

У меня есть таблица T1Сравнение данных Mysql с питоном

id  Value1 Value2 Value3 Compared Related 
--------------------------------------------------- 
af02 | AAA | BBB | CCC | 1  | 1 
ff02 | ABA | BBB | CAC | 1  | af02 
h2f0 | AAB | BBA | CCA | 0  | 0 

Id не автоинкрементное, значение от 1 до 3 текстуального мне нужно сравнить Value2 все строки, которые не сравниваются (0) со всеми другой Value2, чтобы увидеть, является ли текст одинаковым, если он похож, мне нужно добавить идентификатор аналогичной строки в столбец Связанный, и если мне не нужно добавить 1 в столбце Связанный, мне нужно выполнить это с помощью python и MySQL

Благодаря

+0

Что вы сделали до сих пор, чтобы решить проблему? Если вы разместите свой код, мы можем предложить улучшения. Посмотрите на [рекомендации] (http://stackoverflow.com/help/on-topic). –

ответ

0

насколько MySQL обеспокоен тем, что здесь я не кп вл где начать

Как для сравнения я буду использовать косинус сравнение прочтенных значений из БДА что-то вроде этого:

train_set = [item['Value2'][i]] 
test_set = [item['Value2'][i+=1]] 
stopWords = stopwords.words('english') 

vectorizer = CountVectorizer(stop_words = stopWords) 
transformer = TfidfTransformer() 

trainVectorizerArray = vectorizer.fit_transform(train_set).toarray() 
testVectorizerArray = vectorizer.transform(test_set).toarray() 
cx = lambda a, b: round(np.inner(a, b)/(LA.norm(a)*LA.norm(b)), 3) 

for vector in trainVectorizerArray: 
    for testV in testVectorizerArray: 
     cosine = cx(vector, testV) 
     print cosine 

И я буду использовать значение косинуса, чтобы определить сходство и связь

Смежные вопросы