Текстовое представление для нейронной тренировки Сеть

Я разрабатываю сетевую обучающую сеть с nntool в Matlab, и у меня есть входы 11250 текстовых файлов различной длины (от 10 до 500 слов или, скажем, от 10 до 200 слов, если я удаляю избыточные слова), я не нашел хорошего метода для представления этих входных текстов в качестве цифровых данных для запуска моего алгоритма обучения. Я думал о создании словаря слов, но я обнаружил, что словарь содержит 16000 различных слов, которые огромны. Между некоторыми текстовыми файлами есть несколько слов.Текстовое представление для нейронной тренировки Сеть

источник

2016-05-03 Eadhun Di

Какова общая цель вашей нейронной сети? ... Каков ожидаемый результат? Если это, скажем, спам-классификатор, то бинарный вектор, размер вашего словаря, где 0/1 указывает на присутствие определенного слова, - это то, что обычно делается. – rayryeng

Для быстрого усвоения вам следует искать «мешок слов» или «tfidf». Если вы не знаете, что это такое, вы должны начать здесь: https://en.wikipedia.org/wiki/Vector_space_model или https://en.wikipedia.org/wiki/Document_classification.

Вы прочитали какую-либо книгу о НЛП? Возможно, это может быть ценным: http://www.nltk.org/book/ в самом начале.

источник

2016-05-04 07:34:58 404pio

Текстовое представление для нейронной тренировки Сеть

ответ

Смежные вопросы