Я пытаюсь подготовить пару нейронных сетей (используя тензорный поток), чтобы иметь возможность извлекать семантическую информацию из счетов-фактур. После длинного списка чтения я пришел с этим:Машиноведение - извлечение информации из документа
- Использование word2vec для создания вложения слов (больше на ниже корпуса).
- Подайте вывод
word2vec
в CNN, поскольку векторы, которые находятся близко друг к другу, имеют сходные смысловые значения.
Таким образом, очень высокий уровень подхода, описанный выше, кажется мне вполне подходит. Я хотел бы, чтобы это было исправлено, если что-то не так.
Несколько проблем, которые у меня есть:
- выбор Корпус. Достаточно ли использовать общий корпус, например, википедии? Или я должен использовать специализированный корпус для счетов-фактур? Если это последний, как я могу сгенерировать этот корпус? У меня есть большой набор данных, которые я могу использовать.
- Извлечение информации. Скажем, все вышеизложенное отлично работает, и я могу понять семантическую информацию из нового невидимого счета. Как я могу извлечь некоторые части информации? Например, предположим, что мы вводим новый счет-фактуру с
order number: 12345
, предполагая, чтоorder number
является номером счета (или любыми векторами, которые находятся в той же близости отorder number
), как извлечь значение12345
? Одна область, на которую я смотрел, - SyntaxNet, которая могла бы помочь здесь.
Любая помощь/проницательность оценена.
Развейте на вопрос @ Васи-Ахмада: Причина Я пытаюсь понять семантическую информацию о выставление счета в конечном счете иметь возможность извлекать значения из него. Так, например, если я представляю невидимый счет в моей нейронной сети, он найдет номер счета (независимо от его метки) и извлечет его значение.
Голосование, чтобы закрыть этот вопрос, потому что он слишком широк, не имеет смысла. Тема моего вопроса специфична: извлечение информации из документа, являющегося счет-фактурой. Я представил свою идею, и мне нужна проверка и/или другая перспектива, отсюда и мой пост. – abstractpaper
Вы можете проверить следующее обсуждение: http://stackoverflow.com/questions/40752242/machine-learning-information-extraction-from-a-document Надеюсь, что это поможет. – sansingh
@sansingh это ссылка на мой вопрос – abstractpaper