Я пытаюсь применить метод логистической регрессии для категоризации текста, и я хочу построить набор данных в виде матрицы p x n, p строк для воспроизведения и n столбцов для уникальных слов. У меня уже есть текст для работы, мне просто нужно подсчитать в нем слова.Концептуальные - Как построить 2D-частотную матрицу в Python?
Важно следить за тем, какое слово происходит в игре, поэтому для данного воспроизведения я смог создать словарь Python, который подбирает уникальные слова. То, что я НЕ знаю, как это сделать, - объединить эти дикты, чтобы, например,
romeo = {[alas,2],[julliet,35]}
caesar = {[et,1],[tu,3],[cassius,12]}
могут быть объединены для создания матрицы
alas julliet et tu cassius
romeo 2 35 0 0 0
caesar 0 0 1 3 12
Для наглядности я создал пример, где каждая игра состоит только из уникальных слов - естественно, на самом деле это не совсем верно.
Как мог кто-то строить эту матрицу из этих словарей? Было бы легче начать с другого места?
Какой формат вы хотите, чтобы ваши полученную матрицу в? Сам Python не имеет родного типа данных 2d-массива. – Amber