У меня есть большой файл с кучей данных фильма, в том числе уникальный идентификатор для каждого фильма. хотя каждый идентификатор в каждой строке уникален, некоторые строки включают в себя дублированные данные фильма.Как удалить дубликаты в CSV-файле?
Например:
ID,movie_title,year
1,toy story,1995
2,jumanji,1995
[...]
6676,toy story,1995
6677,jumanji,1995
В этом случае, я хотел бы, чтобы удалить укомплектовать в 6677,toy story,1995
и 6677,jumanji,1995
линии. Это происходит не только с одним фильмом, поэтому я не могу просто найти и заменить. Я попытался использовать функцию Sublime Text Edit>Permute Lines>Unique
, и он отлично работает, но в итоге я потерял первый столбец данных (уникальные идентификаторы).
Может ли кто-нибудь рекомендовать лучший способ избавиться от этих повторяющихся строк?
Какие инструменты можно использовать? На какой платформе вы работаете? Является ли это разовой работой или эта проблема возникает неоднократно? – collapsar
@collapsar Я нахожусь в OS X, я буду использовать любой инструмент, который выполнит задание (номера bash/python/OS X/что-то еще), поскольку это одноразовая работа. – f7n