이전 글에서는 yaml 파일의 parameter에 대해서 알아보았습니다.
이전 글 링크
이번 글에서는 tensorboard에서 볼 수 있는 실험 결과에 대해서 알아보겠습니다.
Tensorboard에서 볼 수 있는 실험 결과
Cumulative Reward, Episode Length
Cumulative Reward : Agent가 획득한 보상의 누적. 효율적인 학습일 경우 시간이 지날수록 상승.
Episode Length : 한 에피소드의 길이.
Policy Loss, Value Loss

Policy Loss : 정책 기능 업데이트의 평균 손실. 작업 결정 프로세스인 정책이 변경 되는 정도와 관련
Value Loss : 값 업데이트의 평균 손 실로, 학습할 알고리즘의 상태 값에 대한 기대와 해당 상태의 경험적으로 관찰된 값 사 이의 차이. 성공적으로 학습 할 경우 감소.
Beta, Entropy, Epsilon, Extrinsic Reward, Extrinsic Value Estimate, Learning Rate
Beta : policy를 더 무작위로 만드는 정규화 강도.
Entropy : 훈련이 잘 진행되고 있음을 나타내는 명확한 지표
Epsilon : 학습하는 중에 policy가 얼마나 빠르게 발전할지의 강도를 조절.
Extrinsic Reward : 외부 보상의 의미로 agent가 먼 미래의 reward를 준비하기 위해 현재 행동해야 하는 상황에서는 값이 큼.
Extrinsic Value Estimate : agent가 방문한 모든 상태에 대한 평균 값 추정치를 의미. 성공적인 훈련일수록 증가.
Learning Rate : 경사하강법의 초기 학습률. linear한 결과
참고 사이트
https://www.immersivelimit.com/tutorials/reinforcement-learning-penguins-part-1-unity-ml-agents
Reinforcement Learning Penguins (Part 1/4) | Unity ML-Agents — Immersive Limit
Unity Project Setup and Asset Import
www.immersivelimit.com
이 페이지를 보고 만들어봤다.
교수님 강의를 보고 적었습니당
첫 이미지의 상어와 암석 asset은 unity asset store에서 무료 asset을 찾아서 다운받았습니다.
다음에 asset을 다운받아서 적용하는 방법에 대한 글을 올리겠습니당.
https://assetstore.unity.com/packages/3d/characters/animals/fish/fish-polypack-202232
Fish - PolyPack | 캐릭터 | Unity Asset Store
Get the Fish - PolyPack package from Alstra Infinite and speed up your game development process. Find this & other 캐릭터 options on the Unity Asset Store.
assetstore.unity.com
https://assetstore.unity.com/packages/3d/environments/landscapes/stylized-snow-forest-230653#content
Stylized Snow Forest | 3D 풍경 | Unity Asset Store
Elevate your workflow with the Stylized Snow Forest asset from Frag112. Find this & other 풍경 options on the Unity Asset Store.
assetstore.unity.com
팀플이였는데.. 혼자서 찾느라 힘들었다,,
https://medium.com/aureliantactics/understanding-ppo-plots-in-tensorboard-cbc3199b9ba2
Understanding PPO Plots in TensorBoard
OpenAI Baselines and Unity Machine Learning have TensorBoard integration for their Proximal Policy Optimization (PPO) algorithms. It’s…
medium.com
Understanding the tensorboard plots on a stable-baseline3's PPO
So there are various plots that are provided when training a stable-baselines3's PPO model, so I thought you'd help me fill up the gaps with what is not quite clear to me: rollout/ep_len_mean: that
datascience.stackexchange.com
https://github.com/miyamotok0105/unity-ml-agents/blob/master/docs/Using-Tensorboard.md
GitHub - miyamotok0105/unity-ml-agents: Unity Machine Learning Agents
Unity Machine Learning Agents. Contribute to miyamotok0105/unity-ml-agents development by creating an account on GitHub.
github.com
'언어 > UNITY' 카테고리의 다른 글
[C# / UNITY] 간단한 Penguin 게임 예제를 통해 yaml 파일의 parameter 알아보기 (0) | 2023.03.27 |
---|---|
[C# / UNITY] 간단한 Penguin 게임 예제 진행해보기 9 강화학습 시켜주기 (0) | 2023.03.26 |
[C# / UNITY] 간단한 Penguin 게임 예제 진행해보기 8 강화학습 환경 만들어주기 (0) | 2023.03.24 |
[C# / UNITY] 간단한 Penguin 게임 예제 진행해보기 7 PenguinArea scripts (1) | 2023.03.22 |
[C# / UNITY] 간단한 Penguin 게임 예제 진행해보기 6 PenguinAgent scripts (0) | 2023.03.20 |