Я работаю над проектом домашних животных, который включает группировку необработанных данных (например, в csv) в более организованную, полезную мне структуру данных с x вложенными уровнями.Объединение необработанных данных в иерархическую структуру
Raw Data Eg (соскабливают данные с интернет-сайта торгового, скажем, Kindle книжный магазин):
Excel 2013
Excel 2015
Farming practices 101
Cooking 101
Photoshop Basics
в:
Level 1 -> Level 2 -> Level 3 -> Raw Data Level 4
Office Tools -> Microsoft Products -> Excel -> Excel 2013
Office Tools -> Microsoft Products -> Excel -> Excel 2015
Farming -> Farming Practices -> Basics -> Farming Practices 101
Design -> Photoshop -> Basics -> Photoshop Basics
пользователь может генерировать исходные данные в виде тегов, и я хочу, чтобы мой проект, чтобы сгруппировать их в основные категории (Предполагая, что у меня есть основной список верхнего уровня).
Прямо сейчас, у меня есть базовые знания, шрам и группировка, но я хочу сгруппировать их, используя некоторые алгоритмические способы (возможно, большие данные). Кроме того, я смотрю на AWS DynamoDB + Redshift, чтобы проверить это. Я не предполагаю, что это будет прекрасно, поскольку это POC. Кто-нибудь пытался сделать такие вещи? Если да, как мне это сделать? Я также могу предоставить более подробную информацию в чате/здесь.
Я не смотрю, что делать с сгруппированными данными, но смотря, как сгруппировать данные с помощью алгоритма.
Вы имеете в виду, что ваша программа должна автоматически вывести, что Excel 2013 принадлежит Excel, и что Excel принадлежит Microsoft Products? Или кто-то предписывает эти априорные отношения? Другими словами, какова база знаний, которую должна использовать программа? –