В чем разница между жадным декодером RNN и декодером луча с k = 1?

Учитывая вектор состояния, мы можем рекурсивно декодировать последовательность в жадном порядке, генерируя каждый выход последовательно, где каждое предсказание обусловлено предыдущим выходом. Недавно я прочитал статью, которая описала использование лучевого поиска при декодировании с размером луча 1 (k = 1). Если мы сохраняем только лучший результат на каждом шаге, разве это не то же самое, что жадное декодирование, и не предлагает никаких преимуществ, обычно предоставляемых поиском луча?В чем разница между жадным декодером RNN и декодером луча с k = 1?

источник

2016-09-14 jstaker7

Наконец-то нашли ответ: размер пучка 1 такой же, как и жадный поиск.

От "отвлеченный Предложению с Внимательный подведения рекуррентных нейронных сетей":

"k refers to the size of the beam for generation; k = 1 implies greedy generation."

источник

2016-09-17 05:58:00 jstaker7

В чем разница между жадным декодером RNN и декодером луча с k = 1?

ответ

Смежные вопросы