Недавно я просмотрел TripAdvisor для некоторых данных обзора и в настоящее время имеет набор данных со следующей структурой.Удалите повторяющуюся строку из файла CSV на основе строки - JAVA
Organization,Address,Reviewer,Review Title,Review,Review Count,Help Count,Attraction Count,Restaurant Count,Hotel Count,Location,Rating Date,Rating
Temple of the Tooth (Sri Dalada Maligawa),Address: Sri Dalada Veediya Kandy 20000 Sri Lanka,WowLao,Temple tour,Visits to places of worship always bring home to me the power of superstition. The Temple of the Tooth was no exception. But I couldn't help but marvel at the fervor with which some devotees were praying. One tip though: the shrine that houses the Tooth is open only twice a day and so it's best to check these timings ... More,89,48,7,0,0,Vientiane,2 days ago,3
Temple of the Tooth (Sri Dalada Maligawa),Address: Sri Dalada Veediya Kandy 20000 Sri Lanka,WowLao,Temple tour,Visits to places of worship always bring home to me the power of superstition. The Temple of the Tooth was no exception. But I couldn't help but marvel at the fervor with which some devotees were praying. One tip though: the shrine that houses the Tooth is open only twice a day and so it's best to check these timings though I would imagine that the crowds would be at a peak.,89,48,7,0,0,Vientiane,2 days ago,3
Как вы можете видеть, первый ряд объектов имеет частичный обзор, где, как второй ряд имеет полный обзор.
Что я хочу достичь, это проверить дубликаты, подобные этому, и удалить объект (строку), который имеет частичный обзор, и сохранить строку, которая имеет полный обзор.
Я вижу, что каждый частичный обзор заканчивается на «More» в конце, может ли это как-то использоваться для фильтрации частичных обзоров?
Как это сделать с помощью OpenCSV?
Как будет выглядеть файл, если в обзоре есть запятая? – thst
@thth скребок написан таким образом, что любые запятые внутри обзоров удаляются. –