Мне нужно обработать много файлов csv, которые содержат 3 столбца: дата, идентификатор канала ТВ, идентификатор фильма.Анализ абстрактных данных
Основываясь на этих столбцах, мне нужно классифицировать, что является жанром каждого фильма и жанром идентификатора канала ТВ.
Я новичок в большом процессе обработки данных, и мне было интересно, как я могу классифицировать эти данные, если у меня есть только идентификатор (я не могу использовать другой источник для поиска идентификатора или генерации случайных данных для обучения моего алгоритма).
Решение, которое я нашел, определяет некоторый диапазон часов и помещает фильмы, которые находятся на расстоянии внутри какого-либо жанра. Пример:
- фильмы, которые воспроизводятся между 01: 00-04: 00, жанр 1;
- фильмы, которые воспроизводятся между 04: 01-06: 00, жанр 2;
- т.д.
После КЛАССИФИЦИРУЙТЕ фильмов, я могу классифицировать телевизионные каналы на основе фильмов, которые они играли.
И я планирую сделать это с помощью искры :)
Кто-нибудь есть другое решение или какие-либо рекомендации? Это очень сложно, потому что эти данные выглядят как абстрактные.
Спасибо
Можете ли вы предоставить код, который вы пробовали? В его нынешнем виде существует так много подходов, что вопрос слишком широк для ответа. – wheaties
Из вашего объяснения, похоже, вы все еще выясняете бизнес-логику !!! Как только вы выясните бизнес-логику, как искра может быть использована, можно продумать. – rakesh