У меня есть 4 таблицы со схемой (app, text_id, title, text). Теперь я хотел бы вычислить схожесть косинусов между всеми возможными текстовыми парами (заголовок текст конкатенированный) и сохранить их в конечном итоге в файле csv с полями (app1, app2, text_id1, text1, text_id2, text2, cosine_similarity).Вычислить сходство косинусов всех возможных пар символов, полученных из 4 таблиц mysql
Поскольку существует много возможных комбинаций, он должен работать достаточно эффективно. Какой из них наиболее распространен? Я был бы признателен за любые указания.
Редактировать: Хотя приведенная ссылка может затронуть мою проблему, я все еще не могу понять, как подойти к этому. Может ли кто-нибудь предоставить более подробную информацию о стратегии для выполнения этой задачи? Рядом с вычисленным сходством косинуса мне нужны также соответствующие пары текста в качестве вывода.
Возможный дубликат [Что это самый быстрый способ в Python для вычисления косинуса сходства заданного разреженных данных матрицы?] (Http://stackoverflow.com/questions/17627219/whats-the-fastest-way-in-python -to-calculate-cosine-Similar-given-sparse-mat) –