2016-03-16 2 views
0

У меня есть файл Json, который содержит некоторые дубликаты, и я ищу способ их удаления. Два примера в начале моих текстов JSon:Удаление дубликатов в файле Json

"date": "May 16, 2012 Wednesday", "body": "THE future of one of Scotland's most important listed buildings .... World Monuments Fund. o See a picture gallery of Mavisbank House at scotsman.com/scotland ", "title": "Rescue deal to bring Adam mansion back from brink" 

"date": "May 16, 2012 Wednesday", "body": "The future of one of Scotland's most important listed buildings .... World Monuments Fund.", "title": "Rescue deal to bring Adam mansion back from brink" 

Я вырезать текст в середине из-за расширения этого и ненужности, так как они идеально соответствуют друг другу. Как мы видим, текст соответствует почти 100%, за исключением начала THE против The и в конце (дополнительное предложение: o See a picture gallery of Mavisbank House at scotsman.com/scotland). В этой строке я хотел бы пойти с пути к I) Найти дубликаты и II) удалить один из дубликатов (обратите внимание, что они также могут быть более одного дубликата). Я только начал программировать на Python, и я не уверен, как справиться с этой проблемой. Любая помощь действительно ценится!

вид привет!

+6

«Как мы видим, текст соответствует почти 100%» - но что ** точно ** представляет собой дубликат? –

+1

Если эти строки могут быть одинаковыми одинаковыми, вы можете использовать 'set' для устранения дубликатов. _Partly_ равные строки по-прежнему считаются разными. Вы можете попытаться рассчитать расстояние Хэмминга, чтобы увидеть «как много» разных строк, а затем решить, удалять их или нет. – ForceBru

ответ

0

Я думаю, было бы лучше, если бы вы сначала конвертировали вашу json String в объект модели.

После этого вы можете просто перебрать элементы и удалить дубликаты (на любой уровень). Вы можете игнорировать случай, сравнивая каждый отдельный элемент.

Кроме того, вы можете просто преобразовать каждый элемент вашего тела/названия в последовательный случай и добавить их в набор для повторной проверки, а также итерацию, как указано в комментариях @ForceBru.

Следующая ссылка укажет вам в соответствующем направлении для преобразования json в объект.

Is there a python json library can convert json to model objects, similar to google-gson?

Надеется, что это помогает.

Смежные вопросы