Я довольно новичок в PostgreSQL.SQL-запрос для сопоставления дублированных записей для обогащения данных
Я планирую запустить набор данных продуктов через механический турк, чтобы обогатить данные информацией о ценах. Проблема в том, что у меня есть 80 000 записей, загруженных пользователями, многие из которых находятся в действительных дубликатах, хотя у них могут быть другие параметры, которые не дублируются.
Если я обогащаю данные из запроса SELECT DISTINCT, проблема в том, что у меня не будет способа добавить эти данные к фактическим «дублирующимся» записям.
Как я могу увидеть все строки, исключенные из запроса SELECT DISTINCT, чтобы я мог вернуться и обогатить эти строки моими новыми данными позже?
'что у меня есть 80 000 записей, загружаемых пользователями, многие из которых дублируются в действительности, хотя у них могут быть другие параметры, которые не дублируются.« Пожалуйста, узнайте о моделировании данных. То, что вы сохранили в одной таблице, вероятно, должно быть нормировано на две, три или более таблицы. – wildplasser
@wildplasser Я подозреваю, что это грязные данные, которые очищаются и нормализуются, но требуют очистки рук. –
Да, грязные данные, которые убираются. Спасибо за вашу помощь. –