2015-04-29 3 views
2

Я хочу использовать нейронную сеть для классификации строк. «проблема» заключается в том, что нейронные сети принимают числовой ввод, поэтому мне нужен метод кодирования строки в числовой вектор. существует ли стандартный способ решения этой проблемы?как кодировать последовательность символов в числовую форму без потери информации?

Я думал о подсчете n-граммов, но этот подход привел бы к огромным векторам объектов, если я не хочу потерять какую-либо информацию, поскольку мне нужно было бы вычислить все от 1 грамма до длины, струнно-граммы. правильно?

Итак, существует ли более компактный метод кодирования строк для числовых данных? который поддерживает информацию о частоте символов и их порядке?

+0

Как вы можете классифицировать их по знаку? –

+0

@YuraZaletskyy критерии классификации не являются атрибутом строки. каждая строка представляет собой процесс, классификация должна выполняться в соответствии с тем, был ли процесс успешным или нет – yurib

ответ

0

Возможно, это то, что вы ищете? https://code.google.com/p/word2vec/

Вы могли векторизации слова (и, вероятно, символы) с word2vec, затем добавить векторы (или вычитать их, когда сталкивается с отрицанием), а затем разделить результат на число слов добавлен в «построить строку», чтобы сделать своего рода векторное среднее для масштабирования. Я еще не тестировал этот инструмент.

Вы также задали вопрос о частоте и порядке слов в ваших строках. Я думаю, что этот порядок может быть уничтожен этой техникой, но не их счет.

Смежные вопросы