Я работаю над Yelp Dataset Challenge. Данные состоят из файлов большого сына (до 1 ГБ, 1 мм + линий). Я бы хотел сделать некоторые аналитики данных, сравнивая данные между файлами, например. связывая обзор в файле обзора с бизнесом в бизнес-файле.Разбор больших файлов JSON
У меня есть полная свобода относительно того, какую платформу/язык программирования использовать. Каков наиболее эффективный способ сделать это, чтобы я мог быстро выполнять быстрый поиск?
Формат сына очень прост. Ниже приведен пример. Такие поля, как «user_id», уникальны и могут быть перекрестно привязаны к другим файлам.
{"votes": {"funny": 0, "useful": 2, "cool": 1},
"user_id": "Xqd0DzHaiyRqVH3WRG7hzg",
"review_id": "15SdjuK7DmYqUAj6rjGowg",
"stars": 5, "date": "2007-05-17",
"text": "dr. goldberg offers everything i look for in a general practitioner. he's nice and easy to talk to without being patronizing; he's always on time in seeing his patients; he's affiliated with a top-notch hospital (nyu) which my parents have explained to me is very important in case something happens and you need surgery; and you can get referrals to see specialists without having to see him first. really, what more do you need? i'm sitting here trying to think of any complaints i have about him, but i'm really drawing a blank.",
"type": "review",
"business_id": "vcNAWiLM4dR7D2nwwJ7nCA"}
Я знаю, что это не поможет вам сказать это, но JSON - очень плохой формат для больших массивов данных. Если структура проста, CSV будет иметь больше смысла; если комплексный, множество инструментов для работы с XML кажутся глупыми, чтобы игнорировать. – IMSoP
Это не мои данные. Это от Yelp. Будут ли все быстрее, если я конвертирую файлы в csv? –
Да, немного бесполезно, извините. Однако обработка файлов, как если бы они уже были CSV, действительно может быть жизнеспособным подходом, в зависимости от точного формата. Возможно, было бы неплохо отредактировать пример формата в вопросе и быть максимально конкретным с тем, что вы хотите достичь. Открытые вопросы, как правило, плохо воспринимаются здесь, потому что они не подходят к вопросу & хорошо отвечайте, и в конечном итоге расширенная дискуссия и отсутствие «окончательного» ответа. – IMSoP