애플의 아이폰을 이용하면서 시리를 편리하게 사용하고 있다. 사람들은 내가 시리를 이용해서 전화를 걸고 문자를 보내는 것을 보고 놀라워한다. 혼자 있을 때면 가끔 시리를 이용해서 장난을 치기도 한다. 시리는 생각보다 똑똑하다. 가령 주변에 나오는 음악이 있을 경우에 '시리! 지금 들리는 저 노래가 뭐야?'라고 질문을 던지면 거의 정확하게 시리는 알아맞춘다. 그 노래가 트로트라고 하더라도 알아맞추는 것을 보면 신기하다. 그런데 그 놀라움은 끝이 아니라 시작일뿐이다.
2017년은 인공지능 기술을 기반으로 한 '음성 비서'(혹은 인공지능 비서, 스마트 홈, 스마트 스피커 등으로도 불린다) 서비스 경쟁에 불이 붙었다. 선두주자로는 2014년에 출시된 아마존 에코가 있고, 구글은 2016년에 구글의 구글 어시스턴트를 기반으로 구글 홈 서비스를 출시했다. 애플은 2017년 WWDC를 통해 시리를 기반으로 홈팟 서비스의 모습을 드러냈다. 이로써 음성인식 개인비서 서비스의 전쟁이 시작이 되었다.
음성인식 개인비서란 무엇인가?
가까운 미래의 어느 날, 회사원 A 씨가 스마트폰을 보니 인공지능 비서가 ‘자동차 정기점검 기한이 30일 남았습니다’라고 알려준다. 다음 날 아침에 침대 옆 인공지능 스피커에 ‘다음 주말에 검사 예약해줘’라고 말하니, ‘가장 가까운 ○○자동차검사소에 다음 주 토요일 오전으로 예약할까요’라고 한다. 또한, 다음 달 외국 출장을 위해 항공편을 예약하니, 인공지능 일정 관리 봇이 ‘여권 유효 기간이 7개월 남았으니 이번 여행 전에 여권을 재발급하세요’라고 조언한다. 앞으로는 이런 일들이 가능해질 수 있다.
음성인식 개인비서를 통해서 실현 가능한 서비스 중 하나이다. 영화 ‘아이언맨’을 보면 주인공이 묻는 말에 답하고 시키는 일을 처리하는 ‘자비스’라는 인공지능 비서가 등장한다. 애플의 시리, 구글의 어시스턴트, 마이크로소프트의 코타나, 아마존의 알렉스 등의 서비스가 출시됐고 국내 기업들도 경쟁에 속속 참여하고 있다.
해외 음성인식 개인비서 서비스
1. 아마존 - 에코(알렉스 기반), 2014년 출시, 약 150 파운드
아마존 - 에코(알렉스)
2. 구글 - 홈(어시스턴트 기반), 2016년 출시, 약 130 파운드
구글 - 홈(어시스턴트)
3. 애플 - 홈팟(시리 기반), 2017년 12월 출시 예정, 약 349 파운드
애플 - 홈팟(시리)
4. 마소(MS) - 인보크(코타나 기반), 2017년 가을 출시 예정, 가격 미정
마이크로소프트 - 인보크(코타나)
제품의 디자인을 보면 스피커다. 굳이 설명하면 사람의 음성을 인식하는 스마트한 스피커라고 할 수 있다. 디자인에 대해서 내가 평가하기는 좀 그렇다. 개인적으로는 구글 홈이 맘에 든다. 선택은 사용자의 몫이다. 제품은 스피커를 근간으로 하여 빌트인 마이크와 와이파이 망을 통해 각 회사의 인공지능 시스템을 통해 정보를 주고받는 형태로 서비스를 제공한다. 홈 서비스라는 것을 보았을 때 개인별로 어떻게 음성을 구분해서 인식할 것인가와 각각의 음성의 주인에 대한 선호 자료를 어떻게 구분해서 서비스를 제공할 것인가? 즉 인공지능 엔진의 성능에서 서비스의 차이가 발생할 것으로 예상한다. 어찌 되었던 네 제품 모두 선택을 받기만을 목이 빠지도록 기다리고 있다.
지금 나보고 선택을 하라고 한다면 쉽지 않을 것 같다. 일단 출발은 아마존이 빨랐다. 먼저 시작한 만큼 그간의 다양한 경험이 서비스에 반영이 되었으리라 생각한다. 그렇더라도 우리가 이미 알고 있는 것처럼 구글의 인공지능(알파고)을 무시할 수 없다. 게다가 구글은 인공지능에 최적화된 프로세스인 TPU까지도 설계해서 서비스를 제공하고 있지 않는가? 무엇보다 구글은 검색엔진을 통해 풍부한 사용자 기반의 데이터를 확보하고 있다. 애플은 어떤가? 적어도 음성 인식 서비스에 있어서는 누구보다 빨랐고 시리라는 강력한 도구를 가지고 있지 않은가? 그에 비해 코타다는 윈도우 10을 사용하고 있지만 국내에서 아직 서비스가 되지 않아서 어떠한 평가를 내리기 힘들 것 같다.
세계적인 IT 기업은 인공지능을 기반으로 한 음성인식 개인비서 서비스를 제품화하여 출시하고 있는데 국내는 어떨까? TV 광고에서 통신사에서 출시한 제품을 보기는 했지만 그다지 관심을 두지 않았다. 단순히 음성인식 정도라면 시리를 사용하고 있는 입장에서 금방 식상할 것 같다.
어찌 되었던 가까운 미래에 우리는 키보드라는 입력 장치를 박물관에서 볼 수 있을 것이다. ‘OK, 구글' 또는 ‘알렉사'라는 명령어를 호출하면 각 인공 지능 비서가 활성화돼 사용자의 요청을 처리하고, ‘OK, 구글, 지역 라디오 뉴스의 최신 헤드라인들을 알려줘', ‘알렉사, 킹스 크로스 역으로 가는 다음 열차가 몇 시에 있지?’ 등의 요청을 키보드 입력 없이 원하는 정보를 얻을 수 있기 때문이다. 가까운 시일 내에 이 제품들을 국내에서 만날 수 있기를 기대해 본다. 그리고 한글에 대한 음성 인식 서비스가 빨리 지원될 수 있기를 바란다.