언어/UNITY

[C# / UNITY] 간단한 Penguin 게임 예제의 강화학습 실험 결과 알아보기

코린영이 2023. 3. 29. 12:19
728x90
반응형

 이전 글에서는 yaml 파일의 parameter에 대해서 알아보았습니다.

 

이전 글 링크

 

 이번 글에서는 tensorboard에서 볼 수 있는 실험 결과에 대해서 알아보겠습니다.

 

 

 

Tensorboard에서 볼 수 있는 실험 결과

Cumulative Reward, Episode Length

Cumulative Reward : Agent가 획득한 보상의 누적. 효율적인 학습일 경우 시간이 지날수록 상승.

 

Episode Length : 한 에피소드의 길이. 

 

 

 

Policy Loss, Value Loss

Policy Loss : 정책 기능 업데이트의 평균 손실. 작업 결정 프로세스인 정책이 변경 되는 정도와 관련

 

Value Loss : 값 업데이트의 평균 손 실로, 학습할 알고리즘의 상태 값에 대한 기대와 해당 상태의 경험적으로 관찰된 값 사 이의 차이. 성공적으로 학습 할 경우 감소.

 

 

 

 

Beta, Entropy, Epsilon, Extrinsic Reward, Extrinsic Value Estimate, Learning Rate

 

Beta : policy를 더 무작위로 만드는 정규화 강도.

 

Entropy : 훈련이 잘 진행되고 있음을 나타내는 명확한 지표

 

Epsilon : 학습하는 중에 policy가 얼마나 빠르게 발전할지의 강도를 조절. 

 

Extrinsic Reward : 외부 보상의 의미로 agent가 먼 미래의 reward를 준비하기 위해 현재 행동해야 하는 상황에서는 값이 큼.

 

Extrinsic Value Estimate : agent가 방문한 모든 상태에 대한 평균 값 추정치를 의미. 성공적인 훈련일수록 증가. 

 

Learning Rate : 경사하강법의 초기 학습률. linear한 결과

 

 

 

 

참고 사이트

https://www.immersivelimit.com/tutorials/reinforcement-learning-penguins-part-1-unity-ml-agents

 

Reinforcement Learning Penguins (Part 1/4) | Unity ML-Agents — Immersive Limit

Unity Project Setup and Asset Import

www.immersivelimit.com

이 페이지를 보고 만들어봤다.

 

교수님 강의를 보고 적었습니당

첫 이미지의 상어와 암석 asset은 unity asset store에서 무료 asset을 찾아서 다운받았습니다.

다음에 asset을 다운받아서 적용하는 방법에 대한 글을 올리겠습니당.

https://assetstore.unity.com/packages/3d/characters/animals/fish/fish-polypack-202232

 

Fish - PolyPack | 캐릭터 | Unity Asset Store

Get the Fish - PolyPack package from Alstra Infinite and speed up your game development process. Find this & other 캐릭터 options on the Unity Asset Store.

assetstore.unity.com

https://assetstore.unity.com/packages/3d/environments/landscapes/stylized-snow-forest-230653#content

 

Stylized Snow Forest | 3D 풍경 | Unity Asset Store

Elevate your workflow with the Stylized Snow Forest asset from Frag112. Find this & other 풍경 options on the Unity Asset Store.

assetstore.unity.com

팀플이였는데.. 혼자서 찾느라 힘들었다,,

 

https://medium.com/aureliantactics/understanding-ppo-plots-in-tensorboard-cbc3199b9ba2

 

Understanding PPO Plots in TensorBoard

OpenAI Baselines and Unity Machine Learning have TensorBoard integration for their Proximal Policy Optimization (PPO) algorithms. It’s…

medium.com

https://datascience.stackexchange.com/questions/115243/understanding-the-tensorboard-plots-on-a-stable-baseline3s-ppo

 

Understanding the tensorboard plots on a stable-baseline3's PPO

So there are various plots that are provided when training a stable-baselines3's PPO model, so I thought you'd help me fill up the gaps with what is not quite clear to me: rollout/ep_len_mean: that

datascience.stackexchange.com

https://github.com/miyamotok0105/unity-ml-agents/blob/master/docs/Using-Tensorboard.md

 

GitHub - miyamotok0105/unity-ml-agents: Unity Machine Learning Agents

Unity Machine Learning Agents. Contribute to miyamotok0105/unity-ml-agents development by creating an account on GitHub.

github.com

 

728x90
반응형