2016-05-03 3 views
0

Я разрабатываю сетевую обучающую сеть с nntool в Matlab, и у меня есть входы 11250 текстовых файлов различной длины (от 10 до 500 слов или, скажем, от 10 до 200 слов, если я удаляю избыточные слова), я не нашел хорошего метода для представления этих входных текстов в качестве цифровых данных для запуска моего алгоритма обучения. Я думал о создании словаря слов, но я обнаружил, что словарь содержит 16000 различных слов, которые огромны. Между некоторыми текстовыми файлами есть несколько слов.Текстовое представление для нейронной тренировки Сеть

+1

Какова общая цель вашей нейронной сети? ... Каков ожидаемый результат? Если это, скажем, спам-классификатор, то бинарный вектор, размер вашего словаря, где 0/1 указывает на присутствие определенного слова, - это то, что обычно делается. – rayryeng

ответ

0

Для быстрого усвоения вам следует искать «мешок слов» или «tfidf». Если вы не знаете, что это такое, вы должны начать здесь: https://en.wikipedia.org/wiki/Vector_space_model или https://en.wikipedia.org/wiki/Document_classification.

Вы прочитали какую-либо книгу о НЛП? Возможно, это может быть ценным: http://www.nltk.org/book/ в самом начале.

Смежные вопросы