deduplication

    1зной

    1ответ

    Вопрос 1 ---> В настоящее время я работаю над проектом, в котором мы переводим английский контент на другие 17 языков. Чтобы уменьшить стоимость перевода, в настоящее время мы используем хэш-код MD5,

    4зной

    2ответ

    У меня есть особое требование, когда мне нужно дедуплировать список объектов на основе комбинации критериев равенства. например. Два Student объектов равны, если: 1. Имя и идентификатор является одина

    -2зной

    2ответ

    Извините, если это уже было задано. Я вижу много похожих вопросов, но ни один из них не похож на этот. Я пытаюсь дублирующим большой набор (около 500 M) записи: Образца данные: CUST_ID PROD_TYPE VALUE

    1зной

    1ответ

    Я использую Solr 5.2.1, и у меня есть поле «url», которое должно быть уникальным. Я последовал за https://wiki.apache.org/solr/Deduplication, и я не могу по-прежнему обновлять индекс одним и тем же UR

    13зной

    3ответ

    Я читаю об этой функции в Java 8 update 20 для дедупликации строк (more info), но я не уверен, что это в основном делает String.intern() устаревшим. Я знаю, что для этой функции JVM нужен сборщик мусо

    0зной

    1ответ

    Мой сотрудник попросил меня о помощи в запросе в MS Access, который объединяет три таблицы. Я подтвердил, что порядок и внутренний/внешний статус JOIN - это то, что хочет мой коллега. (У них есть три

    0зной

    1ответ

    Я реализую алгоритм SimHash [1] для дедупликации набора данных с использованием MapReduce. Например, если у меня есть 3 документа Doc1, Doc2, Doc3, Doc4. Предположим, что Doc1 похож на Doc3 с расстоян