지도·비지도 학습에 비해 유동적인 상황 속에서 의사결정 기능이 뛰어나 딥러닝과 결합하여 라싱머닝의 핵심 기법으로 부상
첨단 AI 앱과 자율형 네트워크, 게임, 가상화, 시뮬레이션 등 AI 기술의 실용화가 빨라지면서 특히 강화학습이 머신러닝의 가장 핵심 요소로 떠오르고 있다.
로봇과 게임은 물론 금융, 헬스케어, 자연어 처리는 물론 최근 자율조정 기술이 날로 발달하면서 그 중요성이 날로 커지고 있다.

국제인공지능대전에 출품하는 기업의 모습 ‘머신러닝’은 원래 데이터에서 자동으로 모델을 생성하는 알고리즘이 포함된 인공지능의 한 지류다. 널리 알려진 시피머신러닝은 지도학습, 비지도학습, 강화학습, 능동적 머신러닝 등의 기법에 기반을 두고 있다.
그 중 강화학습은 지도 및 비지도 학습에 이용되는 훈련 데이터 대신 주어진 상태(에이전트)에 맞는 행동 결과에 대한 ‘보상’을 부여하는 방식이다. 특정 사건을 위한 수많은 경우의 수 중에서 성공을 거두거나 이루고자 하는 목표에 도달할 경우, 그러한 경우의 수를 알고리즘이 깨우쳐 주는 방식이다. 특히 게임이나 로봇제어 등에서는 필수 기법이다.
이것에 비하면, 지도 학습은 머신이 학습해야 할 것을 이용자가 파악하고 있는 경우에 적합하다. 즉, 수많은 훈련 데이터에 머신을 노출시켜, 결과를 조사해, 기대한 결과를 얻을 때까지 매개 변수를 조정하는 방법이다.
이와 같이 학습된 결과를 기초로, 기계가 종래 본 적이 없는 일련의 검증 데이터에 대해 결과를 예측하게 하는 것이다.
비지도 학습은 그러나 온갖 상이한 데이터 변수가 숨겨진 상태에서 그로부터 일련의 숨어 있는 패턴을 규명하게 한다. 그래서 흔히 데이터를 통계적 특성만으로 분석해 별도의 의미 있는 패턴으로 재구성하기도 한다.
즉, 서로 다른 이질적인 출처로부터, 혹은 표면적으로는 전혀 무관한 변수나 요소로부터 일관되게 포괄적인 개념을 추출, 구성하는 데 유용하다.
하지만 비지도학습은 판단이나 사전예측이 불가능한 방대하고 유동적인 환경변수가 주어질 때 한계를 드러낸다. 예를 들어 경기를 할 때 그 경우의 수가 너무 많아 정해진 한 가지 답을 얻기 어려울 때가 있다.
이 경우, 학습 훈련 데이터로부터 입력(주어진 상태)에의 출력(가장 적절한 행동)을 제공하는 것은 용이하지 않다.
그러나 강화학습은 경기가 끝나면 그 직전에 둔 일련의 대응방식, 행동이 적합했는지를 학습 알고리즘에 알려준다. 이와 같이 행동의 적합성 유무를 학습 알고리즘에 알리는 것을 ‘보상’ 또는 ‘강화’라고 한다. 이러한 정보를 이용하는 기계학습이 강화학습이다.
즉 강화학습은 일종의 행동심리학에 근거해 그 분석대상인 컴퓨터 프로그램(에이전트)이 주어진 상태에서 자신이 취해야 할 행동을 표현하는 정책을 수립하는 것이다.
에이전트가 최대의 보수를 받을 수 있는 정책을 수립하도록 학습시키는 것이 강화학습의 목표다. 즉, 현재 상태를 인식하고 선택 가능한 행동 중에서 보상을 최대화하는 행동 또는 행동 순서를 선택하는 기법이라고 할 수 있다.
따라서 지도학습이나 비지도학습과는 상황에 대한 인식과 선택, 그리고 행동의 차원이 다르다. 유동적인 상황에 따른 의사결정으로 경험해 보지 못한 상황에 대한 최적의 의사결정에 유리할 수밖에 없다.
더욱 전문적으로 강화학습은 Q러닝, 딥 Q-네트워크, 딥 결정 정책 요소(Deterministic Policy Gradient)의 세 가지 알고리즘이 있다.이런 강화학습은 무엇보다 기계의 환경이 상호작용한다는 점이 중요하다. 유저가 원하는 것을 알고리즘이 실현되었을 경우, 거기에 대해 보상을 제공하고, 그러한 보상을 받는 방법(연산)을 자동화함으로써, 그 후에도 머신이 스스로 보상을 받는 방법을 찾을 수 있도록 학습시키는 것이다.
이러한 강화학습은 이미 4~5년 전부터 점차 머신러닝 기법으로 많이 채택되기 시작했다. 그러던 것이 최근 자율조정장치와 이를 기반으로 한 스마트시티, 스마트공장, 자율주행차 등의 기술이 날로 확산되면서 이를 구성구동하는 가장 핵심적인 알고리즘 구축과 학습방식으로 떠오르게 된 것이다.
최근에는 통계모형을 설계하고 교육하는 주요 수단으로 활용되고 있다.
강화학습은 특히 통상적인 알고리즘 학습기법에 선행하는 AI 이니셔티브 분야에서 점차 그 역할을 확장하고 있다. 로보틱스, 게이밍, 시뮬레이션 등 틈새 분야에만 국한됐던 이 기술의 잠재력이 AI 기술의 주류가 된 것이다.
이에 IT운영관리, 에너지, 헬스케어, 상업, 교통, 금융 등 다양한 분야의 최첨단 AI 애플리케이션에 이용되고 있다. 또한소셜미디어,자연어처리,기계번역,컴퓨터비전등과같이차세대AI솔루션에도강화학습이적극응용되어
강화학습이 더 확산될 경우 이는 특히 무인점포나 비대면 자동화, 자율조정 기술의 가장 유용한 대안으로 활용될 것으로 보인다. 매장에서 상품을 분류하기 위한 로봇공학 기술을 한 단계 끌어올릴 수 있을 것으로 예상된다.
예를 들면 딥러닝과 조합해 로봇이 상품을 선택해, 손으로 잡을 때에 어느 정도의 압력을 가하는지, 수많은 상품중에서 어느 것을 적절하다고 판단해 선택하는지 등이다.
특히 딥러닝과 결합한 ‘딥강화학습’은 지도학습 또는 비지도학습 기법만으로는 어려운 자율적 의사결정을 내리는데 매우 효과적이다. 무선통신과 이동통신, IoT 기술이 발달하면서 자율형 네트워크 기술이 등장하게 됐다.
이러한 지능화된 제어 및 관리를 위해 강화학 학습이 적용되고 있다. 즉, 네트워크 환경 속에서 정의된 현상을 인식하고, 선택 가능한 행동 중에서 가장 큰 보수를 획득할 수 있는 최적의 네트워크 정책을 자율적으로 선택하게 하는 것이다.
이처럼 강화학습은 AI 이니셔티브와 자율조정기술, 스마트 기술 등을 망라한 최적의 알고리즘 기술로 떠오르고 있다.
출처 : 애플경제 www.apple-economy.com 디지털경제지-애플경제 apple-economy.com