사람과 동물은 어떠한 환경에서 특정 task를 잘 수행하기 위하여 다양한 시도를 통해 잘 수행할 수 있는 방법을 찾는다. 강화학습도 마찬가지로 agent가 정해진 환경(environment)에서 현재의 상태(state)를 인식하고, 행동(action)을 통해 보상(reward)를 최대화하는 방향으로 학습하는 알고리즘이다.
최근 들어 강화 학습 method를 활용하여 Robot이나 AI가 특정 task를 수행할 수 있도록 연구가 많이 진행되었다. 대표적으로 Google Deepmind의 알파고(AlphaGo)는 강화학습 method를 통해 바둑을 잘 수행할 수
있는 AI를 만든 사례이다. 강화학습을 이용하여 특정 task를 수행할 수 있는 AI를 만들기 위해서는 특정 task를 수행할 수 있는 환경을 구성해야 하고 해당 환경에서 어떤 정보를 state로
활용할지 정해야 한다. 또한 이러한 정보를 바탕으로 행동을 하였을 때 어떤 보상 체계를 통해 feedback을 받아야 목적한 특정 task를 학습할 수 있을지 고민하여야
한다. 강화 학습을 통해 로봇의 움직임을 구현하는 학문(Robotics),
자율 주행 자동차, 게임 최적화 AI 등 다양한
분야에 응용될 수 있다.
· AMR(Autonomous Mobile Robot)
AMR은 인간의 통제에 의존하지 않고 스스로 행동하는 로봇이다. 한 번 시스템을 설정해 놓으면 인간의 조작 없이 주어진 task에 맞는 행동을 수행하게 되는데 이를 통해 서빙 로봇, 물류 센터에서의 물류 로봇 등으로 다양하게 활용될 수 있다.
[장애물을
피해 주어진 목표 지점에 도착하는 AMR 개발 process]
[개발한
AMR의 action을 도출하는 네트워크 구조]