VUX in car 4편 - 자동차 음성 인터페이스(AI)의 미래 상상해보기

VUX in car 4편 - 자동차 음성 인터페이스(AI)의 미래 상상해보기

2017. 12. 21. 07:50ㆍUX 가벼운 이야기
알 수 없는 사용자

미래의 음성 인터페이스(AI)는 어떤 역할을 할 수 있을까?
: 자동차 음성 인터페이스(AI)의 미래 상상해보기

※ VUX in car는 총 4회로 연재될 예정입니다

1편 - VUX, 멀티태스킹, 그리고 커넥티드 카

2편 - 기존의 자동차 음성 명령과 자동차 x AI 스피커의 차이점

3편 - 카플레이, 궁극의 드라이빙 파트너일까?

4편 - 자동차 음성 인터페이스(AI)의 미래 상상해보기

들어가며...

최초의 스마트 스피커인 아마존 알렉사 출시 이후부터 음성인식 스피커의 붐이 일었고, 현재는 어느 정도 정점을 찍은 듯한 시기라는 생각이 듭니다. 이미 음성인식 스피커 시장은 포화 수준을 넘어 과포화 상태이며, 각각 회사에서 출시한 제품들은 저마다의 개성과 강점으로 시장에서 나름의 포지션을 구축하고 있습니다. 그런 상황에서 음성인식에 대한 열기는 스마트 스피커에서 자연스럽게 다른 플랫폼으로 전이되었는데요. 유수의 기업들이 기를 쓰고 공략하고자 하는 다음 플랫폼은 바로 자동차(Automobile)입니다.

실제로 기업들의 투자와 개발로 차량 내의 음성인식 기능은 점차 발전하고 있으며, 머지않은 미래에는 차 안에서 기능 조작을 위해 그 어떤 신체적인 행동을 할 필요가 없어지는 시대가 올 것으로 보입니다. 그야말로 자율 주행, 운전자가 필요 없는, 차 안에는 탑승자만 있는 세상의 문턱 앞에 와있습니다.

애니메이션 사이버포뮬러 자동차 AI 아스라다 : 무언가 다급하게 말하고 있다

기억나시나요? 많은 꼬마들을 자동차광으로 만들어버린 그 만화영화. 네 맞습니다, '신세기 사이버 포뮬러'(한국 방영 제목: 영광의 레이서)입니다. 이번에 자동차 음성인식 프로젝트를 하면서 가장 많이 떠올렸던 만화입니다. 오랜 시간이 지났지만, 다시 봐도 설레게 하네요. 제게 가장 인상 깊었던 부분은 아스라다라는 자동차 AI 캐릭터입니다. 저 동그란 녀석이 음성 AI(아스라다) 인데요. 네 개의 점이 마치 구글 홈이랑 닮아있네요^^. 주인공(드라이버)과 함께 레이싱 트랙 위를 함께 달리면서 끊임없이 소통하고 어려운 상황을 헤쳐나갈 수 있도록 도와줍니다. 아스라다가 등장할 때마다 ‘운전할 때 저런 친구가 옆에 있으면 두렵지 않을 것 같아!’라는 생각을 하곤 했었죠. 지금 봐도 이 캐릭터가 단순히 상상력으로 그려낸 미래의 단상이라고 느껴지지 않을 정도로 꽤나 현실감 있고 개연성이 있다는 생각이 듭니다.

기발한 미래 자동차 시나리오는 이러한 만화영화뿐만 아니라, 영화 혹은 글의 형태로 자동차 전문가 혹은 소설가에 의해 그려져 왔습니다. 저도 이번 글에서 자동차 내부의 음성 인터페이스의 미래에 대해 몇 가지 이야기를 나누어 보고자 합니다. 미래를 상상할 때 두서없이 상상하는 것보다는 과거부터 음성 인터페이스 기술이 어떻게 변화해왔고 그 미래를 어떨지에 대해 순차적으로 얘기하는 것이 더 자연스러울 것 같습니다. 기술이 발전하면서 차 안에서의 음성 인터페이스의 역할은 인간의 편의성을 중심으로 끊임없이 변화를 겪어 왔습니다. 과거의 상상이 현실이 되는 시대에 자동차에서의 인간과 음성 인터페이스 사이의 관계는 다시금 변화를 겪게 될 것이라고 생각합니다. 자동차 음성 인터페이스의 역할은 어떻게 변화할까요?

상상하기 전에...

어떤 대상의 미래를 상상하기 위해서는 대상의 변화를 맥락적으로 살펴볼 필요가 있습니다. 음성 인터페이스에 대한 역사는 꽤 긴 것으로 알고 있지만, 자동차 음성 인터페이스의 역사는 길지 않습니다. 그런데도 이 짧은 시간 동안 일어났던 굵직한 사건들은 짚고 넘어갈 필요가 있습니다. 그 포인트가 되는 부분을 짚어보면서 미래의 자동차 내 음성 인터페이스 이야기를 해보고자 합니다. 제가 생각했던 중요 포인트를 음성 인터페이스의 역사에 대입해보니, 크게 3개의 세대로 구분해 볼 수 있었습니다.

차량내 음성인터페이스의 의존도 변화
(이미지를 클릭하시면 크게 볼 수 있습니다)

1세대. '넌 듣기만 해! 내가 다 알려줄 테니까'

일방향 음성 인터페이스 : 음성 내비게이션

차량에서의 음성 인터페이스는 운전 중 내비게이션으로 길 안내를 받아야 하는 상황에서 주행 상황에 집중하면서 청각으로 경로를 안내받도록 하기 위해 만들어졌습니다.

문헌을 찾아보니 국내 최초의 길 안내 음성 내비게이션은 팅크웨어라는 회사에서 출시한 PDA 기반의 '아이나비320'이라고 합니다. 유명한 성우가 상황에 맞는 음성을 녹음하고, 주행 중에 해당 상황이 벌어질 때마다 녹음된 음성을 제공하는 방식이었죠. 음성 안내 기능이 추가된 내비게이션의 도입은 운전자에게 음성 인터페이스의 편리함을 느끼게 해주었던 중요한 경험이었습니다. 다만, 인간과 기기의 소통이라기보다는 일방적으로 정보를 알려주는 기능에 국한되어 있었죠.

이전에 음성인식 기능이 아예 없었던 것은 아니었습니다. 국내 최초의 음성인식 기능을 탑재한 자동차는 1997년에 출시되었었는데, 그 당시 음성인식 기능은 길 안내를 위한 것이 아니었고 주로 차량 내 기능을 조작하기 위한 것이었습니다. 그러나 높은 가격과 기술적 한계에 부딪혀 시장에서 큰 반향을 이끌지는 못했습니다. 음성인식 기능이 처음엔 신기했지만 인식률이 낮아 실용성이 떨어져서 많은 운전자가 잘 사용하지 않았고, 원하는 정보를 얻기 위해서 화면을 터치로 조작했습니다. 그러나 운전 중 화면 조작은 운전자의 집중력을 떨어뜨리고 자칫 잘못하면 사고로 이어질 수 있기 때문에 이를 보완할 수 있는 음성인식 기능이 필요한 상황이었죠.

결국, 이 시기는 내비게이션이 음성으로 알려주는 정보를 듣는 것에 만족해야 하는 시기였습니다. 음성인식 기능이 존재하긴 했지만 걸음마 단계였던 셈입니다.

2세대. '원하는 정보를 말해봐. 내가 알려줄게'

양방향 음성 인터페이스 : 인식 기술이 향상된 음성인식 스마트 스피커 출시 그 후

음성기술의 발전은 대중이 느끼지 못할 만큼 천천히 그러나 꾸준히 이루어져 왔습니다. 그러다가 최근에 음성 인터페이스 시장에 큰 획을 그은 사건이 벌어졌는데요, 바로 스마트 스피커의 출현입니다. 스마트 스피커는 사람들에게 음성 인터페이스의 편리함을 어필하면서 엄청난 붐을 일으켰습니다. 아마존 에코를 필두로 다양한 매력을 지닌 스마트 스피커가 시장에 출시되었죠. 이런 고도화된 음성인식기술을 지닌 디바이스의 출현을 가장 반겼던 플랫폼은 바로 자동차였습니다. 음성 인터페이스의 가장 큰 매력은 멀티태스킹인데, 주행 중인 운전자에게 다른 기능을 안전하게 조작할 수 있는 수단은 필요한 정도가 아니라 필수인 셈이었죠.

여러 스마트 스피커가 모바일 연동, 소형 디바이스 거치 등의 다양한 방법으로 자동차 내부로 침투하고 있습니다. 그러면서 차량 내에서의 음성 인식률뿐 아니라 조작 가능한 기능의 범위도 발전했습니다. 차량 내 인포테인먼트 요소인 디스플레이와 오디오 미디어를 음성으로 제어하는 것은 물론이고 음성인식 기능의 초창기에 구현하고자 했던 차량 내 기능(공조, 주유 알림 등)도 수준급으로 조작이 가능해졌으니까요.

NUGU X T-map 음성인식

위와 같은 서비스는 완성형의 중간 단계 정도라고 생각하는데요. 머지않아 외장형 혹은 모바일을 통한 음성인식 기능 제공 형태를 넘어 차량 내부 매립 방식의 고성능 음성인식 기능을 탑재한 AVN이 나올 것으로 보입니다.

현재의 음성 인터페이스에 대한 우리의 의존도는 아주 높습니다. 아직은 자율 주행이 상용화되지 않은 단계이기 때문에 향후 몇 년간은 인간이 운전을 해야 하는 상황일 테고, 그렇기 때문에 음성 인터페이스의 중요도가 크게 주목받는다고 할 수 있죠.

3세대. ‘좀 더 깊은 대화가 필요해'

음성 인터페이스를 넘어 스스로 생각하고 결정하는 음성 AI

가까운 미래에는 스마트 스피커 같은 단순한 묻고 답하기의 양방향 소통보다 더욱 발전한 인터랙션 방식이 등장할 것 같습니다. 저는 이러한 미래의 음성 인터페이스를 2가지 관점으로 설명해보고자 합니다.

일단 염두에 두어야 할 것이 있습니다. 다가올 음성인식 기술의 정점에는 AI가 있을 것 같은데요, 그 시대가 오면 음성 인터페이스라고 하는 것은 의미가 없을 것 같습니다. 왜냐하면 대화를 하는 주체는 AI와 인간이고, 음성 인터페이스는 두 대상이 의사소통하는 하나의 수단이 될 테니까요. 미래의 이야기를 하는 이 시점부터는 ‘음성 인터페이스'보다는 ‘AI'에 중점을 두면서 이야기를 진행해보고자 합니다.

(1) 운전자의 역할 변화를 가져올 완전 자율 주행

Tesla의 반자율 주행기술 구현으로 운전대가 없는 자동차 시대가 눈앞으로 다가왔습니다. 자율 주행으로 운전자가 더 이상 운전할 필요가 없어지면 운전자의 역할이 차량에 탑승한 다른 동승자와 다를 게 없어질 것입니다. 그렇게 되면 운전자가 운전 중의 안전을 확보함과 동시에 다른 기능을 조작하기 위해 사용했던 음성 인터페이스에 대한 의존도가 낮아질 것으로 보입니다. 이러한 변화가 다소 부정적으로 들릴 수도 있겠지만 꼭 그렇지마는 않습니다. 음성 인터페이스에 대한 의존도가 낮아졌다는 것은 다른 인터페이스에 대해 자유롭게 조작이 가능하다는 것이고, 다른 인터랙션 수단을 통해 사용자 의도를 보다 효과적으로 전달할 수 있을 테니까요.

어쩌면 결국 음성 인터페이스를 사용하는 자동차 내부 환경과 역할은 집에서 쓰는 스마트 스피커 사용 환경과 비슷해질 것 같네요.

차량 내 사용자 역할 변화 다이어그램

(2) 기능 수행을 넘어서 감정 공유 소통까지

현재 기술의 발전 속도를 고려해보았을 때, 음성인식 기능은 차량 내부에서 수행할 수 있는 모든 태스크에 대한 조작을 가능하게끔 해줄 것으로 보입니다. 가능한 기술 구현 범위 또한 확장되는 것은 물론이겠죠. 이 모든 것이 이루어진다면 음성 인터페이스(AI)에게는 어떤 역할을 기대할 수 있을까요?

자동차 분야의 전문가가 아니어서 '어떤 신기술이 탑재될 것이다.’라는 확고한 전망을 하기에는 조심스러운 측면이 있지만 현재 구현된 기술들, 여러 미래 전문가들의 연구 동향을 참고하여 나름대로 유추해보자면 저는 차량 내에서 감정을 소통할 수 있는 기능이 제공될 것 같습니다. 음성인식에 대한 이슈가 있기 전부터 인간은 인간이 아닌 대상과의 감정 공유에 대한 니즈를 갖고 있었습니다. 그러한 관심은 기술이 발전하면서 일상생활에서 만나볼 수 있게 되었습니다.

(좌) 사람형상과 차이가 있지만, 인간의 소통 방식과 닮아 있는 jibo(2014)
(우) 동작을 통해 인간과 N가지 정신적 교감이 가능한 SONY사의 강아지 로봇 Aibo(2017)

위 이미지에 언급된 사례들의 인터랙션 요소(디스플레이, 움직임 등)는 감정을 주고받는다는 느낌이 들기에 충분한 수준이었습니다. 이러한 트렌드는 스마트 스피커가 차량 내부로 유입되었던 것처럼 비슷한 순서를 밟게 될 것 같은데요.

비록 상상이었지만, 글 서두에 언급했던 ‘아스라다'라는 AI 캐릭터는 인공지능 로봇이 정착된 사례로 제가 전망하는 미래와 잘 부합하는 캐릭터입니다. 만화를 보는 내내 가장 혁신적이고 신선했다고 느꼈던 포인트였죠. 그 당시에도 ‘너무 좋은데… 저게 될까?’라는 의구심이 들었던 기억이 나는데요, 이러한 만화적 상상을 현실화시키려는 흥미로운 시도들을 발견했습니다.

(좌) 차량내부에서 감정을 표현하는 다양한 동작 제공이 가능한 MIT SENSEable City Lab의 AIDA(2009)
(우) 귀여운 인터랙션 방식과 주행 보조기능을 제공하는 Nissan사의 감성주행 도우미 Pivo2(2007)

저는 이런 시도가 참 신선하다고 느꼈습니다. 저 둘이 움직이는 것을 동영상으로 보며, 정말 심쿵하지 않을 수 없었습니다. 너무 귀여웠거든요. 어떤 부분에서 그렇게 느꼈는지 명확히 설명할 수는 없지만, 분명한 것은 감정을 주고받는 느낌이 들었습니다. 특히 혼자 자동차에 탑승해 있는 경우라면 화면 인터랙션과 음성 인터랙션을 함께 제공하면서 그것을 토대로 감정을 공유할 수 있는 매체가 있다는 것은, 자칫 지루할 수 있는 자동차 내부 환경을 바꿔줄 수 있겠다고 생각했습니다. 저 친구들과 함께한다면 운전이 너무나도 즐거울 것만 같습니다. 물론 어떤 사용자들은 ‘나는 그렇게 AI와 대화하는 것보다 그냥 TV를 보는 게 훨씬 나아'라고 말할 수도 있겠습니다. 그건 사용자의 선택 문제겠죠. 저라면 졸리거나 심심할 때 대화할 수 있는 상대가 있으면 좋겠다는 생각이 드네요. 비록 개념 수준의 연구였으며 제가 가정했던 미래 시나리오(저의 가설과는 다르게 사진에는 운전대와 운전석이 있네요.)와는 조금 차이가 있습니다만, 아주 흥미로웠던 연구라고 생각합니다.

자율 주행으로 인한 운전자의 역할 변화 그리고 기능을 수행을 넘어선 감정 소통에 대한 이슈는 결국 하나의 흐름으로 진행될 것 같습니다. 그것은 '차 안에서 어떻게 시간을 보낼 것인가?'에 대한 이슈일 것 같은데요. 움직이는 공간에서 오랜 시간을 있어야 한다면 쾌적한 환경과 흥미 요소의 제공은 운전자에게 있어 필수불가결한 요소입니다. 따라서 이제 운전자가 해야 할 고민은 '어떻게 안전하게 운전할 수 있지?'에 대한 고민에서 이제는 '차에서 뭐 하지?', '어떻게 놀까?', '자동차에서 효과적으로 일을 하기 위해서는 어떤 환경이 되어야 할까?' 등에 대한 고민으로 더욱 심화될 것 같습니다. 그렇게 되면 사람들의 니즈를 충족시켜 주기 위해 자동차 내부 인테리어나 효과적인 콘텐츠 제공을 위한 미디어 제공 기술이 자동차 산업의 새로운 먹거리로 부상하게 될 것입니다.

마치며...

2013년 2월, 바르셀로나에서 열린 Mobile World Congress에서 Audi는 자사의 모델을 광고하면서 '자동차는 가장 큰 스마트폰(Car : The world’s biggest smartphone)’이라는 캐치프레이즈를 사용했습니다. 자동차도 스마트폰처럼 여러 가지 기능들이 탑재된 거대한 디바이스가 될 것이라는 의미로 해석할 수 있는데요. 벌써 4년 전의 일이라 이제는 자동차를 스마트폰에 빗대어 묘사하는 것은 부족하다는 느낌이 듭니다. 아마도 현재의 음성인식 기술이 수준급으로 발전하였고 플랫폼으로서의 자동차의 위상 또한 눈에 띄게 높아졌기 때문인 것 같습니다. 스마트폰의 기능도 고도화되었지만, 첨단 기술의 집약체인 자동차 분야가 IT 기술과의 접목으로 갖게 된 확장성은 어마어마하게 넓은 영역을 점유할 수 있을 것으로 기대됩니다. 제가 최근 읽었던 '넥스트 모바일 : 자율 주행 혁명’이라는 책에서 저자가 말한 '자동차가 아니다. 바퀴 달린 로봇이 세상을 뒤흔들 것이다.’라는 예측처럼, 자동차의 개념은 단순한 Vehicle을 넘어 Robot을 향해 달려가고 있습니다.

더 많은 자료와 데이터를 토대로 제 상상에 대한 개연성을 높여보고자 했는데, 도움이 될 만한 글이었는지 걱정스럽습니다. 글을 읽은 혹자는 ‘전문가도 아니면서 이런 글을 써도 되나?’라고 의문을 품을지도 모릅니다. 맞습니다. 저의 짧은 식견으로 미래를 예측해보기에는 상당히 어려운 부분이 많았습니다. 미래학자 엘빈 토플러의 명언 '미래는 예측하는 것이 아니고 상상하는 것이다.’라는 말처럼 이러한 예측은 어디까지나 상상일 뿐입니다. 내일이 어떻게 될지도 모르는 상황에서 몇 년 뒤를 내다본다는 것은 어리석은 일이라고 생각할 수도 있죠. 하지만 이렇게 미래를 예상해보는 게 의미 없는 일은 아닙니다. 미래를 대비하고 준비하는 만큼 기회를 엿볼 수 있으니까요. 전문 기업 수준의 미래 예측 시나리오 정도는 아니지만, 독자들이 이 글을 읽고 자동차의 미래를 상상하는 데 조금이나마 도움이 되었기를 바랍니다.