Учитывая вектор состояния, мы можем рекурсивно декодировать последовательность в жадном порядке, генерируя каждый выход последовательно, где каждое предсказание обусловлено предыдущим выходом. Недавно я прочитал статью, которая описала использование лучевого поиска при декодировании с размером луча 1 (k = 1). Если мы сохраняем только лучший результат на каждом шаге, разве это не то же самое, что жадное декодирование, и не предлагает никаких преимуществ, обычно предоставляемых поиском луча?В чем разница между жадным декодером RNN и декодером луча с k = 1?
3
A
ответ
4
Наконец-то нашли ответ: размер пучка 1 такой же, как и жадный поиск.
От "отвлеченный Предложению с Внимательный подведения рекуррентных нейронных сетей":
"k refers to the size of the beam for generation; k = 1 implies greedy generation."