У меня есть файл Json, который содержит некоторые дубликаты, и я ищу способ их удаления. Два примера в начале моих текстов JSon:Удаление дубликатов в файле Json
"date": "May 16, 2012 Wednesday", "body": "THE future of one of Scotland's most important listed buildings .... World Monuments Fund. o See a picture gallery of Mavisbank House at scotsman.com/scotland ", "title": "Rescue deal to bring Adam mansion back from brink"
"date": "May 16, 2012 Wednesday", "body": "The future of one of Scotland's most important listed buildings .... World Monuments Fund.", "title": "Rescue deal to bring Adam mansion back from brink"
Я вырезать текст в середине из-за расширения этого и ненужности, так как они идеально соответствуют друг другу. Как мы видим, текст соответствует почти 100%, за исключением начала THE
против The
и в конце (дополнительное предложение: o See a picture gallery of Mavisbank House at scotsman.com/scotland
). В этой строке я хотел бы пойти с пути к I) Найти дубликаты и II) удалить один из дубликатов (обратите внимание, что они также могут быть более одного дубликата). Я только начал программировать на Python, и я не уверен, как справиться с этой проблемой. Любая помощь действительно ценится!
вид привет!
«Как мы видим, текст соответствует почти 100%» - но что ** точно ** представляет собой дубликат? –
Если эти строки могут быть одинаковыми одинаковыми, вы можете использовать 'set' для устранения дубликатов. _Partly_ равные строки по-прежнему считаются разными. Вы можете попытаться рассчитать расстояние Хэмминга, чтобы увидеть «как много» разных строк, а затем решить, удалять их или нет. – ForceBru