머신 러닝/딥러닝의 한 종류로, 어떤 환경에서 어떤 행동을 했을 때 그것이 잘된 행동인지 잘못된 행동인지를 판단하고 보상(or 벌칙)을 주는 과정을 반복해서 스스로 학습하도록 하는 분야
ex) 게임: 게임기(환경) ↔ 게임자(에이전트)
목표
cf) 관찰(observation): 세계에 대한 부분적인 설명