2016-01-07 3 views
0

Я работаю над проектом домашних животных, который включает группировку необработанных данных (например, в csv) в более организованную, полезную мне структуру данных с x вложенными уровнями.Объединение необработанных данных в иерархическую структуру

Raw Data Eg (соскабливают данные с интернет-сайта торгового, скажем, Kindle книжный магазин):

Excel 2013 
Excel 2015 
Farming practices 101 
Cooking 101 
Photoshop Basics 

в:

Level 1 -> Level 2 -> Level 3 -> Raw Data Level 4 
Office Tools -> Microsoft Products -> Excel -> Excel 2013 
Office Tools -> Microsoft Products -> Excel -> Excel 2015 
Farming -> Farming Practices -> Basics -> Farming Practices 101 
Design -> Photoshop -> Basics -> Photoshop Basics 

пользователь может генерировать исходные данные в виде тегов, и я хочу, чтобы мой проект, чтобы сгруппировать их в основные категории (Предполагая, что у меня есть основной список верхнего уровня).

Прямо сейчас, у меня есть базовые знания, шрам и группировка, но я хочу сгруппировать их, используя некоторые алгоритмические способы (возможно, большие данные). Кроме того, я смотрю на AWS DynamoDB + Redshift, чтобы проверить это. Я не предполагаю, что это будет прекрасно, поскольку это POC. Кто-нибудь пытался сделать такие вещи? Если да, как мне это сделать? Я также могу предоставить более подробную информацию в чате/здесь.

Я не смотрю, что делать с сгруппированными данными, но смотря, как сгруппировать данные с помощью алгоритма.

+0

Вы имеете в виду, что ваша программа должна автоматически вывести, что Excel 2013 принадлежит Excel, и что Excel принадлежит Microsoft Products? Или кто-то предписывает эти априорные отношения? Другими словами, какова база знаний, которую должна использовать программа? –

ответ

0

Статистический алгоритм не может вывести из этих входных данных, например, Excel - это Microsoft и Office Tool.

Для этого требуется гораздо большая база знаний, поскольку эта информация не находится в ваших входных данных.

Таким образом, мы не можем рекомендовать алгоритм, потому что никто не может этого сделать.

Смежные вопросы