이전 글에서는 yaml 파일의 parameter에 대해서 알아보았습니다. 이전 글 링크 이번 글에서는 tensorboard에서 볼 수 있는 실험 결과에 대해서 알아보겠습니다. Tensorboard에서 볼 수 있는 실험 결과 Cumulative Reward, Episode Length Cumulative Reward : Agent가 획득한 보상의 누적. 효율적인 학습일 경우 시간이 지날수록 상승. Episode Length : 한 에피소드의 길이. Policy Loss, Value Loss Policy Loss : 정책 기능 업데이트의 평균 손실. 작업 결정 프로세스인 정책이 변경 되는 정도와 관련 Value Loss : 값 업데이트의 평균 손 실로, 학습할 알고리즘의 상태 값에 대한 기대와 해당 상태의 ..