본문으로 바로가기

알파고가 현실 세계에도 적용된다면?

category # 생 각 들 2017. 2. 1. 20:25
728x90
반응형




4개의 로봇팔이 4개의 닫힌 문을 향해 놓여있다. 로봇팔은 문에 다가가보지만 손잡이를 돌리는데 실패한다. 그래서 다시한번 문을 향해 다가가고, 이번엔 손잡이를 잡지는 못했지만 문틀을 건드려 흔든다. 다시한번, 또 다시한번 계속해서 시도하다가 마침내 손잡이를 잡고 문을

깔끔하게 여는데 성공한다. 그리고 몇시간 동안 더 도전과 실패를 반복하다가 마침내 문을 완벽하게 열 수 있게 되었다.

 

이 로봇팔들은 구글 내부의 모처에 존재한다. 비록 이미 다른 로봇팔들은 충분히 문을 열고 닫을 수 있는 기능을 가지고 있지만, 이 로봇팔은 조금 다르다. 스스로 문을 어떻게 열 수 있는지 알아낸 것이다. ‘강화학습 reinforcement learning’이라는 기술을 통해서, 특정 임무를 수백 수천 번 반복해서 연습한다. 그리고 어떤 방법이 성공했는지 혹은 실패했는지를 주의 깊게 기억한다. 이런 기술은 지난해 인간 최고의 바둑기사를 꺾었던 알파고에게 적용된 것과 같은 것이다. 강화학습으로 로봇기술에 새로운 장이 열렸다.

 

몇 개의 비디오와 블로그 포스트가 있었지만, 구글은 이 연구에 대해서 논쟁하는 것을 거절해왔다. 캘리포니아 주립대학의 로봇공학자 Sergey Levine이 주도하는 이 연구는 사실 아직 초기단계에 머물러있다. 그러나 미리 지정된 프로그램을 따르는 것을 넘어서 자기 스스로 학습할 수 있는 로봇은 매우 거대한 가능성을 내포하고 있다.

 


강화학습과 이와 비슷한 방법이 적용된 로봇들은 자율 로봇의 발전을 가속화할 것이다. 이미 이러한 방식으로 디지털 분야에서는 많은 기술적 진보가 일어났다. 그리고 이러한 경향은 현실세계에 적용가능한 실제로 형태를 가진 로봇에도 급격한 진화를 가져올 것이다. 그리고 이는 구글의 자회사 중 하나인 로봇 회사인 Boston Dynamics에서 올린 유투브 영상에서 잘 나타난다. 이는 트럼프 행정부가 공언하고 있는 미국 공장에 더 많은 미국 노동자라는 공약이 실현불가능 할 강력한 이유 중 하나이다. 미국의 기업들은 이미 엄청나게 많은 인간의 일자리를 로봇으로 대체하고 있다. 그리고 자기학습 기계를 통해 이러한 경향을 가속화하려고 하고 있기 때문이다.

 

도전과 실패

 

강화학습은 사실 꽤 오래된 기술이었지만 대략 2년전 런던에 기반을 둔 인공지능 회사인 DeepMind와 함께 다시 세상에 화려하게 복귀했다. 구글이 소유한 DeepMind는 인공지능으로 Atari의 고전게임인 벽돌깨기를 플레이하게 했고, 얼마 지나지 않아 인간 이상의 실력을 가지게 된 것이다. DeepMind의 인공지능은 벽돌의 벽 뒤로 공을 넘기는 것이 가장 빠르고 편한 방법이란 것을 알아냈다. 그리고 DeepMind는 같은 기술을 바둑에도 적용시켰다. 기계가 사람을 이기려면 아직 10년은 넘게 남았다고 예상되는 게임이었다. DeepMind의 창립자인 Demis Hassabis와 그의 팀은 3천만개에 가까운 바둑의 기보를 방대한 양의 데이터에서 패턴을 인식하는 시스템인 강화신경망에 입력시켰다. 일단 바둑이 어떤 게임인지 인지하자, ‘알파고는 스스로 대국을 반복하면서 엄청나게 실력을 향상시켰다.

 

강화학습은 사실 게임에 적용하는 것이 가장 효과적이다. 강화학습은 어떤 행동이 보상을 받고, 어떤 행동이 그렇지 않는지를 파악하는 보상기능이 중요한 요소인데, 게임에서는 보상이 명백하다. 더 많은 점수를 얻는 것. 그러나 현실의 물리세계에 적용하는 소프트웨어에 적용되어야 하는 프로그램은 사실 이런 보상체계가 확실하지 않다. 물론 더 명백할 수도 있다. 그리고 이번에 공개된 구글의 로봇팔에는 문을 여는 것이 확실한 보상이었다.

 

새로운 세계

 

당연히, 문을 여는 것은 현실 세계의 수많은 문제 중에 가장 단순한 작은 일일 뿐이다. 인공지능의 최종목표는 현실세계의 더 많은 복잡하고 모호한 문제들을 많은 비용없이 빠르게 처리할 수 있게 되는 것이다. 이것이 많은 연구자들이 게임과 현실의 차이를 줄일 수 있는 방법을 찾기 위해서 현실세계에 적용하기 전에 강화학습을 통해 디지털 시뮬레이션을 돌리고 있는 이유이다.

 

Elon Musk가 수십억달러를 투자한 인공지능 연구소 OpenAIUniverse라는 소프트웨어 플랫폼을 만들었다. 인공지능 ‘agents’는 강화학습을 통해서 게임부터 웹 브라우저까지 모든 종류의 컴퓨터 프로그램을 마스터 하고있다. 이론에 따르면 이러한 방식을 통해 현실세계에서도 적용가능한 AI를 개발할 수 있다고 한다. 만약 자동차 운전 게임을 AI가 학습할 수 있다면 머지않아 실제 자동차를 운전하는 소프트웨어를 개발할 수 있다는 것이다.

 

Prowler.io이라는 케임브릿지에 위치한 영국의 스타트업은 이 같은 경로를 따라가고 있다. 최근 이 회사는 가상세계의 대규모 멀티플레이어 게임의 세계를 탐색하는 프로그램을 만들고 있다. 그리고 머지않아서 이 프로그램을 현실세계를 주행하는 무인자동차에 적용할 계획이다. 지금 상용화된 자율주행자동차의 소프트웨어는 이러한 방식이 아니다. 엔지니어들이 미리 설정해 놓은 수많은 규칙에 따라 운전을 한다. 진짜 자율주행은 아닌 것이다. Prowler의 창립자이자 CEOVishal Chatrath는 이전에도 AI 스타트업을 애플에 판 경력이 있는데, 그가 생각하기에 강화학습과 연관된 기술들은 인간 운전자가 할 수 있는 모든 것을 수행 가능한 진짜 자율주행 자동차를 만드는데 필수적이라고 한다.

 

베를린에 위치한 Micropsi는 이미 이러한 기술들을 현실세계에 구현하려 하고있다. 2014년에 제조업 및 기타 산업 용도로 사용될 로봇을 제작하는 회사로 설립되었는데, 특히 강화학습을 통해 훈련할 수 있는 로봇을 만들고있다. 이 회사의 프로그램에서 가상의 로봇팔이 가상의 로봇 손가락 끝에 올려진 가상의 막대의 중심을 잡는 방법을 배우는 시뮬레이션의 비디오를 홈페이지에 올렸다. 이 시스템은 중력과 로봇의 움직임을 시뮬레이션하고 보상체계는 가상의 막대가 손가락 끝에서 떨어지는지 아닌지를 추적한다. “로봇이 막대의 균형을 유지하고 있는 동안 일종의 쿠키를 줍니다. 하지만 떨어지면 벌을 줍니다.” 이제 이 회사는 같은 기술을 현실의 기계에도 적용하고 있다. 이른바 보편적인 로봇 Universal Robot)이다.

 

현실에서의 문제

 

문제는 실제로 현실에 이 기술을 적용하기 위해서는 또 다른 신기술이 필요하다는 것이다. Micropsi는 어떤 문제도 컴퓨터 시뮬레이션을 통해 해결할 수 있다고 공언하지만, 시뮬레이션은 현실을 완전히 반영할 수 없다. “컴퓨터 시뮬레이션을 끝냈다고 해도, 이제 겨우 절반도 못 끝낸 것이죠.” Micropsi도 이를 인정한다. “현실세계의 물리를 그대로 재현하는 것이 쉬운 일은 아닙니다. 예를 들자면, 막대의 중심을 잡는 로봇을 만들기 위해선 시뮬레이션을 이용할 수 있습니다. 하지만 로봇에게 콘센트에 플러그를 꽂는 방법을 가르치는 것은 또 다른 문제이죠. 진짜 플러그와 콘센트가 필요합니다.”

 

그리고 플러그를 콘센트에 꽂는 것은 사실 쉬운 편에 속하는 일이다. 명백하고 간결한 보상이 존재하기 대문이다. 대부분의 행위에 대한 평가를 내리는 것은 쉬운 일이 아니다. 만약 여러 개의 작업을 한번에 고려해야 한다면, 보상시스템은 급격하게 복잡해질 것이다. 구글에서 후원하는 비슷한 기술을 연구하고 있는 Carnegie Mellon의 연구원 Abhinav Gupta는 짧은 시간에 적용가능한 강화 훈련에 대해서 고민하고있다. Gupta와 연구팀은 이미지 인식에 널리 사용되는 머신러닝 기술인 나선형 신경망을 기반으로 하는 여러가지 기술을 탐구하고 있으며, 이러한 방법은 훨씬 많은 양의 데이터를 수집한다.

 

아직까지는 물리적인 세계에서 AI를 적용하는 가장 적합한 방법은 작고 단순한 기계 즉, 장난감을 사용하는 것이다. 시스템은 단순한 기계를 사용하는 법을 배우고, 이를 좀더 복잡한 기계에 배운 것을 적용할 수 있게 된다. 분명한 것은 기계를 현실세계에 필요한 것을 학습하는 것에 한가지 방법만 있는 것은 아니라는 점이다. 수많은 연구자와 기업에서 이제 막 연구가 시작되었을 뿐이다

반응형