deduplication

1зной

1ответ

Вопрос 1 ---> В настоящее время я работаю над проектом, в котором мы переводим английский контент на другие 17 языков. Чтобы уменьшить стоимость перевода, в настоящее время мы используем хэш-код MD5,

4зной

2ответ

Java Set с несколькими критериями равенства

У меня есть особое требование, когда мне нужно дедуплировать список объектов на основе комбинации критериев равенства. например. Два Student объектов равны, если: 1. Имя и идентификатор является одина

-2зной

2ответ

T-SQL - Дедупликация большого стола

Извините, если это уже было задано. Я вижу много похожих вопросов, но ни один из них не похож на этот. Я пытаюсь дублирующим большой набор (около 500 M) записи: Образца данные: CUST_ID PROD_TYPE VALUE

1зной

1ответ

Solr Дедупликация не работает

Я использую Solr 5.2.1, и у меня есть поле «url», которое должно быть уникальным. Я последовал за https://wiki.apache.org/solr/Deduplication, и я не могу по-прежнему обновлять индекс одним и тем же UR

13зной

3ответ

Java 8 String дедупликация против String.intern()

Я читаю об этой функции в Java 8 update 20 для дедупликации строк (more info), но я не уверен, что это в основном делает String.intern() устаревшим. Я знаю, что для этой функции JVM нужен сборщик мусо

0зной

1ответ

Удаление дублированных записей из JOIN в MS Access

Мой сотрудник попросил меня о помощи в запросе в MS Access, который объединяет три таблицы. Я подтвердил, что порядок и внутренний/внешний статус JOIN - это то, что хочет мой коллега. (У них есть три

0зной

1ответ

Выход дедупликации SimHash в MapReduce

Я реализую алгоритм SimHash [1] для дедупликации набора данных с использованием MapReduce. Например, если у меня есть 3 документа Doc1, Doc2, Doc3, Doc4. Предположим, что Doc1 похож на Doc3 с расстоян