2016-03-03 2 views
0

У меня есть куча сводных узлов (скаляры, гистограммы и т. Д.), Которые постоянно записываются в журнал. Checkpointing не так часто, и поэтому часто возникают ситуации, в которых я восстанавливаюсь с контрольной точки, которая раньше событий, которые были записаны в журнал. Когда я вернусь с контрольно-пропускного пункта и снова начну писать в журнал, что именно происходит? Перезаписываются ли старые события? Документация не очень понятна. Глядя в TensorBoard, похоже, что «будущие» события все еще существуют. В идеале я хотел бы сбросить все впереди текущего global_step и просто начать все заново.Что происходит с событиями, записанными после контрольной точки?

ответ

1

У TensorBoard есть логика для обработки этого случая - он ищет события перезапуска и пытается очистить все с помощью global_step больше, чем шаг перезапуска. See this code. Если вы все еще видите сиротские события, это означает, что что-то не работает - может быть, событие SessionLog.START не записывается, когда ваше задание перезапускается с контрольной точки?

Можете ли вы создать простой способ воспроизвести этот файл и указать проблему на GitHub?