태터데스크 관리자

도움말
닫기
적용하기   첫페이지 만들기

태터데스크 메시지

저장하였습니다.


'음성인식'에 해당되는 글 11건

  1. 2018.11.14 음성인식 기술을 활용한 모바일 서비스디자인 제안 결과 공유 by 위승용 (uxdragon)
  2. 2018.07.02 6개의 가상개인비서(Agent) 사용 후기 by 고은빈
  3. 2017.12.21 VUX in car 4편 - 자동차 음성 인터페이스(AI)의 미래 상상해보기 by 김희웅
  4. 2017.12.18 VUX in car 3편 - 카플레이, 궁극의 드라이빙 파트너일까? by 최규진(Kris)
  5. 2017.12.14 VUX in car 2편 - 기존의 자동차 음성 명령과 자동차 x AI 스피커의 차이점 by KAHYUN.
  6. 2017.12.11 VUX in car 1편 - VUX, 멀티태스킹, 그리고 커넥티드 카 by seyonkim
  7. 2017.11.16 AI 스피커의 VUX 설계 시 고려할 것들 by Joe Park
  8. 2017.06.05 인풋 방식으로서의 버튼 vs 음성 by 허 유리
  9. 2015.10.13 귀와 입만 사용하는 UX: 아마존 에코 (2) by 오진욱
  10. 2010.07.16 다음 지도앱 음성검색 - Primary Action by 無異
2018.11.14 07:50

음성인식 기술을 활용한 모바일 서비스디자인 제안 결과 공유


저는 올해 UX디자인 프로세스를 토대로 음성인식 기술을 활용한 모바일 서비스 디자인 제안 수업을 진행하였습니다. 국립한경대학교 4학년 졸업전시를 위한 수업으로 진행하였으며, 기대 이상으로 진심을 다해준 학생들 한 명 한 명에게 고마웠습니다. 많은 분께 조금이나마 영감이 되길 바라며 작업 결과물을 공유합니다. 또한 11월 16일(금)부터 20일(화)까지 서초구 '갤러리 루미나리에'에서 졸업전시회를 진행하니 관심 있으신 분들의 참석 부탁드리며, 고생한 학생들에게 격려 한마디 건네주시면 고맙겠습니다.


2018년 한경대 졸업전시회 페이스북 페이지 링크

2018년 한경대 졸업전시회 웹사이트 링크


- 주제 : 음성인식 기술을 활용한 모바일 서비스디자인 제안

- 기간 : 2018년 1학기~2학기

- 지도교수 : pxd 위승용

- 대상 : 한경대 디자인학과 4학년 학생

- 졸업 전시 : 11월 16일(금)~20일(화) 서초구 갤러리 루미나리에 (10시~18시)

서울 서초구 서초2동 1323-1 라이온빌딩 1층 (강남역 8번 출구에서 도보 8분, 교대역 1번 출구에서 도보 10분)

네이버 지도 링크 | 다음 지도 링크


[주제 소개]

최근 들어 시리, 빅스비, 클로바와 같은 음성인식, 챗봇 기술이 화두가 되고 있다. 그러나 본 기술을 활용한 사용자 중심 시나리오는 아직 연구되고 있다. 올해 인터랙션비즈니스 교과에서는 음성인식 기술을 활용한 특정 서비스의 미래 시나리오를 발굴하고, 미래 시나리오에 따른 모바일 앱을 제작하였다. 본 교과의 목표는 UX 더블다이아몬드 프로세스를 처음부터 끝까지 진행하여 UX 실무에 바로 투입될 수 있는 실무형 인재를 양성하는 것이다. 실무와 유사한 환경을 경험해보기 위해서 팀 프로젝트로 진행하였으며 작업 결과도 물론 중요하겠지만 특히 작업과정이 돋보일 수 있도록 전시를 기획하였다.


[팀별 작업 결과물]

팀별 작업 결과물 온라인 전시 링크


1조 | 음성인식 회의록 서비스디자인

조원 : 김가영, 박예빈, 오효재, 박경원, 허은실

앱 이름 : 파우와우 (powwow)

파우와우는 조별회의나 필기 수업이 잦은 대학생을 위한 애플리케이션으로, 음성인식 기능을 이용해 회의내용을 상세히 기록할 수 있다. 또 기록한 내용을 편집, 수정하고 파일을 사용자의 편의대로 분류하여 보기 좋고 간편하게 관리할 수 있도록 도와준다. 파우와우를 사용함으로써 더욱 쉽고 빠르게 회의록을 작성하고 관리할 수 있으며 다른 사람들과 간편하게 공유할 수 있다.


2조 | 음성인식 덕질 서비스디자인

조원 : 가순형, 이주현, 최설, 박성은, 김유정

앱 이름 : 핫덕 (HOTDUG)

HOTDUG(핫덕)은 K-pop 아이돌을 좋아하는 팬을 위한 팬 활동용 애플리케이션이다. 아이돌의 정보를 얻기 위한 앱과 매체가 너무나 많은 요즘, 정보를 한 번에 모아 볼 수 있고 내가 더 선호하는 정보를 먼저 볼 수 있는 앱이 필요하다.

HOTDUG은 복잡하게 여기저기 찾아볼 필요 없이 한 곳에서 원하는 정보를 빠르고 쉽게 볼 수 있으며, 음성인식을 통한 아이돌과의 대화로 더욱 친밀하고 특별한 즐거움을 느낄 수 있다. 이제 핫덕으로 한곳에서 핫하게 덕질하자!


3조 | 음성인식 디저트 레시피 서비스디자인

조원 : 김수빈, 반효임, 안해리, 정민아, 최선

앱 이름 : 버터와 설탕

버터와 설탕은 홈 디저트 족과 입문자를 위한 음성 인식 기반 레시피 애플리케이션이다. 기존의 레시피 서비스와 달리 손을 사용하지 않아도 음성 인식 활성화를 통해 레시피 화면을 제어할 수 있으며 가로 모드의 화면을 제공하여 사용자가 편하게 요리를 진행할 수 있도록 도와준다.

사용자의 요리 실력이나 취향을 고려한 맞춤 서비스와 똑똑한 레시피 도우미로서 재료 체크, 타이머, 데코 시뮬레이션 등을 통해 복잡한 디저트 요리를 쉽게 할 수 있도록 안내한다.


4조 | 음성인식 범죄예방 서비스디자인

조원 : 강해민, 안소연, 정지영, 김승기, 최인영

앱 이름 : 헬피 (HELPY)

공권력-목격자-피해자가 소통할 수 있는 상호작용 범죄예방 서비스이다. 피해자가 도움을 청하는 기존의 애플리케이션과는 달리 구조요청 프로세스도 함께 제공된다.

음성인식으로 나만의 세이프 단어를 설정하여 긴급상황에서 빠른 신고가 가능하다. 또한 주변 앱 사용자들에게 도움을 청하거나, 직접 도움을 줄 수 있다. 커뮤니티를 통해 앱 사용자들에게 정확한 범죄 예방법을 제공한다.


5조 | 음성인식 해외직구 서비스디자인

조원 : 이준혁, 박태환, 김보영, 김지연, 김수영

앱 이름 : 구구 (gugu)

GUGU(구구)는 해외 직구에 어려움을 느끼고 쉽게 시작하지 못했던 모든 이들에게 직구 친구 ‘구구’가좀 더 친숙하게 다가가 해외 직구에 최적화된 서비스를 제공하는 어시스턴트 애플리케이션이다.

GUGU는 직구에 유용한 음성검색, 멘토 멘티, 포토리뷰, 정보 채널 서비스로 사용자가 직접 해외 직구를 할 수 있도록 가이드라인을 제공하여 구매대행 수수료가 발생하지 않고 빠르고 정확한 정보제공과 사용자 간의 소통이 가능하다.

GUGU 음성 어시스턴트는 소비자의 언어적 문제를 완화해주고 편안한 쇼핑을 제공한다.


Thanks to.

수업을 진행하는 데 있어 도움을 주신 많은 분이 있습니다. 이분들의 도움이 아니었다면 제가 졸전 수업을 끝까지 진행하지 못했을 수도 있었을 것 같습니다. 이 자리를 빌려 감사의 인사를 전합니다.

졸업전시가 성공적으로 진행될 수 있도록 수업 계획부터 시작해서 여러 가지로 같이 고민해주신 한경대학교 이상선 선생님, 이병학 선생님, 수업 진행시 어려운 점을 함께 고민해주시고 여러모로 배려해주신 pxd 전성진 이사님, 송충호 수석님, 임호 수석님, 바쁘신데도 불구하고 학생들 중간 과정을 리뷰해주신 pxd 1/2/3그룹 멤버들 정말 감사합니다.

무엇보다도 성공적인 졸업전시회가 될 수 있도록 밤낮 가리지 않고 고생한 한경대 학생들 정말 수고 많으셨습니다.

감사합니다.



연관글 : 비콘기술을 활용한 LBS(Location-based service) 디자인 제안 결과 공유



[참고##서비스 디자인##]



팀블로그 pxd Story 구독 방법  블로그 글은 각 개인의 생각이며 피엑스디와 다를 수 있습니다.


Trackback 0 Comment 0
Ad Test...
2018.07.02 07:50

6개의 가상개인비서(Agent) 사용 후기


1. 들어가며

인턴 UI 디자이너로서 두 달간 일하며 음성 인식 기술을 공부하고 탐구해볼 기회가 생겼다. 개인적으로 시리를 몇 번 정도 사용해본 경험은 있지만, 사용 경험이 그리 만족스럽지 않아 지속적인 사용으로 이어지지 않았었다. 따라서 나에게 가상 개인비서(Agent)란 가깝고도 먼 존재였다. 하지만 이번을 계기로 구글 어시스턴트, 시리, 빅스비, 네이버 클로바, SK 누구, 알렉사 총 6개의 가상 개인비서(Agent)를 본격적으로, 성실히 사용해보았다.

최근 음성 인식 기술에 대한 높은 관심으로 인해, 여러 기업의 가상 개인비서(Agent)에 대한 사용 경험을 비교, 정리한 영상이나 자료들을 어렵지 않게 찾을 수 있었다. (이하 ‘음성 에이전트’라고 하겠다) 필자 또한 이의 연장 선상에서 수많은 발화를 각 음성 에이전트에게 말했을 때, 각 음성 에이전트가 어떻게 호응(반응)하는지에 대해 정리하고 느낀 점을 써보려 한다. 다만 기존 비교들과 다르게 ‘기능 수행’에 초점을 맞추기보단 ‘칫챗(Chit-Chat)’을 다양하게 시도해본 후 각 음성 에이전트가 어떻게 호응(반응)하는지 위주로 작성했다. 여기서 ‘칫챗’이란, 목적 없는 수다, 잡담 정도로 이해하면 될 것 같다. 따라서 ‘특정 서비스 기능에 대한 사용성 비교’보다 ‘칫챗 발화에 대한 대응 비교’라고 하는 것이 더 적절할 것 같다.


2. 각 발화 사례와 그에 따른 응답 내용

1) 에이전트 자체에 대한 질문

음성 에이전트가 기계임에 한정 짓지 않은 질문(실제 사람 간의 대화 같은)을 했을 때의 내용이다. 이를 통해 각 음성 에이전트의 포지션과 성격을 느낄 수 있었다. “넌 누구야?”라는 질문을 했을 때만 보아도, 대부분 자신을 ‘비서’로 소개하고 있었으나 빅스비와 클로바의 경우 ‘친구’라는 역할을 언급했다. ‘비서’라는 역할에 그치지 않고 ‘친구’로서 자리 잡고자 하는 의도를 느낄 수 있었다. 또한 흥미로웠던 점은 음성 에이전트가 자신의 자아(?)가 있음을 표현한다는 것이었다. (물론 에이전트에 대한 모든 질문에 자연스럽게 대답하는 것은 아니었지만) 예를 들어, 알렉사의 경우 커피를 좋아하느냐는 질문에 “Yes. In fact, I love iced coffee.”라며 냉커피를 좋아한다는 선호를 밝히는 대답을 했다. 이와 반대로 시리의 경우는 혼자 있을 때 주로 뭐하냐는 질문에 “온 세상이 제 관계에 대해 관심이 많은 것 같네요.”라며 다소 시크한 응답을 주었다. 자신을 효율적인 업무수행을 돕는 ‘비서’ 역할에 한정 지었기 때문에 스스로에 대한 캐릭터나 특성에 대한 질문에는 의도적으로 자신을 드러내지 않는 듯한 느낌을 받았다.


2) 사용자의 컨디션 발화

사용자의 컨디션에 대해 말했을 때의 내용이다. “배고파”라고 말했을 때 음성 에이전트별로 적극성의 정도에서 다른 반응을 보였다. 빅스비와 누구의 경우, “맛있는 거 먹고 기운 내요!”, “항상 든든하게 챙겨 드시길 바랄게요.”라며 general(일반적인) 호응을 해주었지만, 실질적인 도움은 되진 않았다. 빅스비는 전반적으로 순종적이지만 융통성이 부족한 친구처럼 느껴졌다... 반면, 시리, 구글 어시스턴트와 알렉사의 경우 주변에 맛집을 찾아주겠다며 적극적인 태도를 보였다. 특히 시리는 “배고프면 뭘 먹어야지요”라며 어투적인 면에서나 결과 15개를 보여주며 대안을 제시하는 모습에서, 더욱더 주도적이고 적극적으로 느껴졌다. “취했어”라고 말했을 때 또한 시리는 “우리 중 누구도 집에 갈 때 절대로 운전해서는 안 돼요”라고 단호하게 말하며 택시 앱을 연동해주는 것을 통해 눈치 빠른 비서라는 생각이 들었다.


3) 사용자의 행동 발화

사용자의 행동에 대해 말했을 때의 내용이다. “나 집에 왔어”라고 말했을 때 구글 어시스턴트를 제외한 다른 에이전트들은 비슷한 방식으로 사용자를 반겨주었다. 사실 이 발화는 함께 이동하는 모바일보다는, 집을 지키고 있는 스피커에게 “나 집에 왔어”라고 할 때가 더 자연스러울 것 같다는 생각이 들었다. 구글 어시스턴트는 구글 홈(AI 스피커)을 통해 사용자가 집에 왔을 때 최적의 환경을 조성해주는 기능을 제공하는 듯했다. “나 운동할 거야”, “피자 먹을 거야”라고 말했을 때는 이전 내용과 비슷하게 바로 서비스(앱)를 연동해주거나 검색 결과를 제공해주는 적극성을 띤 답변들과 가벼운 공감을 해주는 답변들 정도로 나뉘었다.



영화 Her 중에서


3. 마치며

6개의 음성 에이전트를 사용하며 많은 칫챗을 나눌 수 있었다. 이전에 시리를 사용해보며 사용 경험이 만족스럽지 않았기 때문에 낮은 기대에서 시작했지만, 사람이 할 법한 답변을 해내는 몇몇 음성 에이전트를 경험하며 이전보다는 음성 대화에 대한 기대 수준이 높아짐을 느낄 수 있었다. 또한 이제부터는 더 높은 음성 인식률을 내세우는 경쟁이 아닌, 좀 더 높은 수준의 질적 답변을 줄 수 있는지에 대한 경쟁이라는 생각이 들었다. 현재는 정해진 답변 중에서 랜덤으로 제공되는 것이 사용자의 입장에서도 느껴지기 때문에 칫챗 대화가 어색할 수밖에 없다. 그래서 사용자들도 처음 몇 번을 제외하고는 대화 경험이 만족스럽지 않아 외면하게 되는 것 같다. (필자 포함) 하지만 기업별로 음성 인식 기술에 대한 고도화와 더 나은 VUI(Voice User Interaction) 설계에 총력을 다하고 있는 만큼 달라지는 모습을 기대해 볼 만 하다고 생각한다. 가까운 미래에는 내 마음을 잘 알아주며 자연스러운 칫챗대화가 가능한 센스있는 음성 에이전트로 발전하길 기대해 본다.


[참고##음성인식##]



팀블로그 pxd Story 구독 방법  블로그 글은 각 개인의 생각이며 피엑스디와 다를 수 있습니다.


Trackback 0 Comment 0
Ad Test...
2017.12.21 07:50

VUX in car 4편 - 자동차 음성 인터페이스(AI)의 미래 상상해보기

미래의 음성 인터페이스(AI)는 어떤 역할을 할 수 있을까?
: 자동차 음성 인터페이스(AI)의 미래 상상해보기



들어가며...

최초의 스마트 스피커인 아마존 알렉사 출시 이후부터 음성인식 스피커의 붐이 일었고, 현재는 어느 정도 정점을 찍은 듯한 시기라는 생각이 듭니다. 이미 음성인식 스피커 시장은 포화 수준을 넘어 과포화 상태이며, 각각 회사에서 출시한 제품들은 저마다의 개성과 강점으로 시장에서 나름의 포지션을 구축하고 있습니다. 그런 상황에서 음성인식에 대한 열기는 스마트 스피커에서 자연스럽게 다른 플랫폼으로 전이되었는데요. 유수의 기업들이 기를 쓰고 공략하고자 하는 다음 플랫폼은 바로 자동차(Automobile)입니다.

실제로 기업들의 투자와 개발로 차량 내의 음성인식 기능은 점차 발전하고 있으며, 머지않은 미래에는 차 안에서 기능 조작을 위해 그 어떤 신체적인 행동을 할 필요가 없어지는 시대가 올 것으로 보입니다. 그야말로 자율 주행, 운전자가 필요 없는, 차 안에는 탑승자만 있는 세상의 문턱 앞에 와있습니다.

애니메이션 사이버포뮬러 자동차 AI 아스라다 : 무언가 다급하게 말하고 있다


기억나시나요? 많은 꼬마들을 자동차광으로 만들어버린 그 만화영화. 네 맞습니다, '신세기 사이버 포뮬러'(한국 방영 제목: 영광의 레이서)입니다. 이번에 자동차 음성인식 프로젝트를 하면서 가장 많이 떠올렸던 만화입니다. 오랜 시간이 지났지만, 다시 봐도 설레게 하네요. 제게 가장 인상 깊었던 부분은 아스라다라는 자동차 AI 캐릭터입니다. 저 동그란 녀석이 음성 AI(아스라다) 인데요. 네 개의 점이 마치 구글 홈이랑 닮아있네요^^. 주인공(드라이버)과 함께 레이싱 트랙 위를 함께 달리면서 끊임없이 소통하고 어려운 상황을 헤쳐나갈 수 있도록 도와줍니다. 아스라다가 등장할 때마다 ‘운전할 때 저런 친구가 옆에 있으면 두렵지 않을 것 같아!’라는 생각을 하곤 했었죠. 지금 봐도 이 캐릭터가 단순히 상상력으로 그려낸 미래의 단상이라고 느껴지지 않을 정도로 꽤나 현실감 있고 개연성이 있다는 생각이 듭니다.

기발한 미래 자동차 시나리오는 이러한 만화영화뿐만 아니라, 영화 혹은 글의 형태로 자동차 전문가 혹은 소설가에 의해 그려져 왔습니다. 저도 이번 글에서 자동차 내부의 음성 인터페이스의 미래에 대해 몇 가지 이야기를 나누어 보고자 합니다. 미래를 상상할 때 두서없이 상상하는 것보다는 과거부터 음성 인터페이스 기술이 어떻게 변화해왔고 그 미래를 어떨지에 대해 순차적으로 얘기하는 것이 더 자연스러울 것 같습니다. 기술이 발전하면서 차 안에서의 음성 인터페이스의 역할은 인간의 편의성을 중심으로 끊임없이 변화를 겪어 왔습니다. 과거의 상상이 현실이 되는 시대에 자동차에서의 인간과 음성 인터페이스 사이의 관계는 다시금 변화를 겪게 될 것이라고 생각합니다. 자동차 음성 인터페이스의 역할은 어떻게 변화할까요?



상상하기 전에...

어떤 대상의 미래를 상상하기 위해서는 대상의 변화를 맥락적으로 살펴볼 필요가 있습니다. 음성 인터페이스에 대한 역사는 꽤 긴 것으로 알고 있지만, 자동차 음성 인터페이스의 역사는 길지 않습니다. 그런데도 이 짧은 시간 동안 일어났던 굵직한 사건들은 짚고 넘어갈 필요가 있습니다. 그 포인트가 되는 부분을 짚어보면서 미래의 자동차 내 음성 인터페이스 이야기를 해보고자 합니다. 제가 생각했던 중요 포인트를 음성 인터페이스의 역사에 대입해보니, 크게 3개의 세대로 구분해 볼 수 있었습니다.

차량내 음성인터페이스의 의존도 변화
(이미지를 클릭하시면 크게 볼 수 있습니다)


1세대. '넌 듣기만 해! 내가 다 알려줄 테니까'

일방향 음성 인터페이스 : 음성 내비게이션

차량에서의 음성 인터페이스는 운전 중 내비게이션으로 길 안내를 받아야 하는 상황에서 주행 상황에 집중하면서 청각으로 경로를 안내받도록 하기 위해 만들어졌습니다.

문헌을 찾아보니 국내 최초의 길 안내 음성 내비게이션은 팅크웨어라는 회사에서 출시한 PDA 기반의 '아이나비320'이라고 합니다. 유명한 성우가 상황에 맞는 음성을 녹음하고, 주행 중에 해당 상황이 벌어질 때마다 녹음된 음성을 제공하는 방식이었죠. 음성 안내 기능이 추가된 내비게이션의 도입은 운전자에게 음성 인터페이스의 편리함을 느끼게 해주었던 중요한 경험이었습니다. 다만, 인간과 기기의 소통이라기보다는 일방적으로 정보를 알려주는 기능에 국한되어 있었죠.

이전에 음성인식 기능이 아예 없었던 것은 아니었습니다. 국내 최초의 음성인식 기능을 탑재한 자동차는 1997년에 출시되었었는데, 그 당시 음성인식 기능은 길 안내를 위한 것이 아니었고 주로 차량 내 기능을 조작하기 위한 것이었습니다. 그러나 높은 가격과 기술적 한계에 부딪혀 시장에서 큰 반향을 이끌지는 못했습니다. 음성인식 기능이 처음엔 신기했지만 인식률이 낮아 실용성이 떨어져서 많은 운전자가 잘 사용하지 않았고, 원하는 정보를 얻기 위해서 화면을 터치로 조작했습니다. 그러나 운전 중 화면 조작은 운전자의 집중력을 떨어뜨리고 자칫 잘못하면 사고로 이어질 수 있기 때문에 이를 보완할 수 있는 음성인식 기능이 필요한 상황이었죠.

결국, 이 시기는 내비게이션이 음성으로 알려주는 정보를 듣는 것에 만족해야 하는 시기였습니다. 음성인식 기능이 존재하긴 했지만 걸음마 단계였던 셈입니다.


2세대. '원하는 정보를 말해봐. 내가 알려줄게'

양방향 음성 인터페이스 : 인식 기술이 향상된 음성인식 스마트 스피커 출시 그 후

음성기술의 발전은 대중이 느끼지 못할 만큼 천천히 그러나 꾸준히 이루어져 왔습니다. 그러다가 최근에 음성 인터페이스 시장에 큰 획을 그은 사건이 벌어졌는데요, 바로 스마트 스피커의 출현입니다. 스마트 스피커는 사람들에게 음성 인터페이스의 편리함을 어필하면서 엄청난 붐을 일으켰습니다. 아마존 에코를 필두로 다양한 매력을 지닌 스마트 스피커가 시장에 출시되었죠. 이런 고도화된 음성인식기술을 지닌 디바이스의 출현을 가장 반겼던 플랫폼은 바로 자동차였습니다. 음성 인터페이스의 가장 큰 매력은 멀티태스킹인데, 주행 중인 운전자에게 다른 기능을 안전하게 조작할 수 있는 수단은 필요한 정도가 아니라 필수인 셈이었죠.

여러 스마트 스피커가 모바일 연동, 소형 디바이스 거치 등의 다양한 방법으로 자동차 내부로 침투하고 있습니다. 그러면서 차량 내에서의 음성 인식률뿐 아니라 조작 가능한 기능의 범위도 발전했습니다. 차량 내 인포테인먼트 요소인 디스플레이와 오디오 미디어를 음성으로 제어하는 것은 물론이고 음성인식 기능의 초창기에 구현하고자 했던 차량 내 기능(공조, 주유 알림 등)도 수준급으로 조작이 가능해졌으니까요.

NUGU X T-map 음성인식


위와 같은 서비스는 완성형의 중간 단계 정도라고 생각하는데요. 머지않아 외장형 혹은 모바일을 통한 음성인식 기능 제공 형태를 넘어 차량 내부 매립 방식의 고성능 음성인식 기능을 탑재한 AVN이 나올 것으로 보입니다.

현재의 음성 인터페이스에 대한 우리의 의존도는 아주 높습니다. 아직은 자율 주행이 상용화되지 않은 단계이기 때문에 향후 몇 년간은 인간이 운전을 해야 하는 상황일 테고, 그렇기 때문에 음성 인터페이스의 중요도가 크게 주목받는다고 할 수 있죠.


3세대. ‘좀 더 깊은 대화가 필요해'

음성 인터페이스를 넘어 스스로 생각하고 결정하는 음성 AI

가까운 미래에는 스마트 스피커 같은 단순한 묻고 답하기의 양방향 소통보다 더욱 발전한 인터랙션 방식이 등장할 것 같습니다. 저는 이러한 미래의 음성 인터페이스를 2가지 관점으로 설명해보고자 합니다.

일단 염두에 두어야 할 것이 있습니다. 다가올 음성인식 기술의 정점에는 AI가 있을 것 같은데요, 그 시대가 오면 음성 인터페이스라고 하는 것은 의미가 없을 것 같습니다. 왜냐하면 대화를 하는 주체는 AI와 인간이고, 음성 인터페이스는 두 대상이 의사소통하는 하나의 수단이 될 테니까요. 미래의 이야기를 하는 이 시점부터는 ‘음성 인터페이스'보다는 ‘AI'에 중점을 두면서 이야기를 진행해보고자 합니다.

(1) 운전자의 역할 변화를 가져올 완전 자율 주행

Tesla의 반자율 주행기술 구현으로 운전대가 없는 자동차 시대가 눈앞으로 다가왔습니다. 자율 주행으로 운전자가 더 이상 운전할 필요가 없어지면 운전자의 역할이 차량에 탑승한 다른 동승자와 다를 게 없어질 것입니다. 그렇게 되면 운전자가 운전 중의 안전을 확보함과 동시에 다른 기능을 조작하기 위해 사용했던 음성 인터페이스에 대한 의존도가 낮아질 것으로 보입니다. 이러한 변화가 다소 부정적으로 들릴 수도 있겠지만 꼭 그렇지마는 않습니다. 음성 인터페이스에 대한 의존도가 낮아졌다는 것은 다른 인터페이스에 대해 자유롭게 조작이 가능하다는 것이고, 다른 인터랙션 수단을 통해 사용자 의도를 보다 효과적으로 전달할 수 있을 테니까요.

어쩌면 결국 음성 인터페이스를 사용하는 자동차 내부 환경과 역할은 집에서 쓰는 스마트 스피커 사용 환경과 비슷해질 것 같네요.

차량 내 사용자 역할 변화 다이어그램


(2) 기능 수행을 넘어서 감정 공유 소통까지

현재 기술의 발전 속도를 고려해보았을 때, 음성인식 기능은 차량 내부에서 수행할 수 있는 모든 태스크에 대한 조작을 가능하게끔 해줄 것으로 보입니다. 가능한 기술 구현 범위 또한 확장되는 것은 물론이겠죠. 이 모든 것이 이루어진다면 음성 인터페이스(AI)에게는 어떤 역할을 기대할 수 있을까요?

자동차 분야의 전문가가 아니어서 '어떤 신기술이 탑재될 것이다.’라는 확고한 전망을 하기에는 조심스러운 측면이 있지만 현재 구현된 기술들, 여러 미래 전문가들의 연구 동향을 참고하여 나름대로 유추해보자면 저는 차량 내에서 감정을 소통할 수 있는 기능이 제공될 것 같습니다. 음성인식에 대한 이슈가 있기 전부터 인간은 인간이 아닌 대상과의 감정 공유에 대한 니즈를 갖고 있었습니다. 그러한 관심은 기술이 발전하면서 일상생활에서 만나볼 수 있게 되었습니다.

(좌) 사람형상과 차이가 있지만, 인간의 소통 방식과 닮아 있는 jibo(2014)
(우) 동작을 통해 인간과 N가지 정신적 교감이 가능한 SONY사의 강아지 로봇 Aibo(2017)


위 이미지에 언급된 사례들의 인터랙션 요소(디스플레이, 움직임 등)는 감정을 주고받는다는 느낌이 들기에 충분한 수준이었습니다. 이러한 트렌드는 스마트 스피커가 차량 내부로 유입되었던 것처럼 비슷한 순서를 밟게 될 것 같은데요.

비록 상상이었지만, 글 서두에 언급했던 ‘아스라다'라는 AI 캐릭터는 인공지능 로봇이 정착된 사례로 제가 전망하는 미래와 잘 부합하는 캐릭터입니다. 만화를 보는 내내 가장 혁신적이고 신선했다고 느꼈던 포인트였죠. 그 당시에도 ‘너무 좋은데… 저게 될까?’라는 의구심이 들었던 기억이 나는데요, 이러한 만화적 상상을 현실화시키려는 흥미로운 시도들을 발견했습니다.


(좌) 차량내부에서 감정을 표현하는 다양한 동작 제공이 가능한 MIT SENSEable City Lab의 AIDA(2009)
(우) 귀여운 인터랙션 방식과 주행 보조기능을 제공하는 Nissan사의 감성주행 도우미 Pivo2(2007)


저는 이런 시도가 참 신선하다고 느꼈습니다. 저 둘이 움직이는 것을 동영상으로 보며, 정말 심쿵하지 않을 수 없었습니다. 너무 귀여웠거든요. 어떤 부분에서 그렇게 느꼈는지 명확히 설명할 수는 없지만, 분명한 것은 감정을 주고받는 느낌이 들었습니다. 특히 혼자 자동차에 탑승해 있는 경우라면 화면 인터랙션과 음성 인터랙션을 함께 제공하면서 그것을 토대로 감정을 공유할 수 있는 매체가 있다는 것은, 자칫 지루할 수 있는 자동차 내부 환경을 바꿔줄 수 있겠다고 생각했습니다. 저 친구들과 함께한다면 운전이 너무나도 즐거울 것만 같습니다. 물론 어떤 사용자들은 ‘나는 그렇게 AI와 대화하는 것보다 그냥 TV를 보는 게 훨씬 나아'라고 말할 수도 있겠습니다. 그건 사용자의 선택 문제겠죠. 저라면 졸리거나 심심할 때 대화할 수 있는 상대가 있으면 좋겠다는 생각이 드네요. 비록 개념 수준의 연구였으며 제가 가정했던 미래 시나리오(저의 가설과는 다르게 사진에는 운전대와 운전석이 있네요.)와는 조금 차이가 있습니다만, 아주 흥미로웠던 연구라고 생각합니다.

자율 주행으로 인한 운전자의 역할 변화 그리고 기능을 수행을 넘어선 감정 소통에 대한 이슈는 결국 하나의 흐름으로 진행될 것 같습니다. 그것은 '차 안에서 어떻게 시간을 보낼 것인가?'에 대한 이슈일 것 같은데요. 움직이는 공간에서 오랜 시간을 있어야 한다면 쾌적한 환경과 흥미 요소의 제공은 운전자에게 있어 필수불가결한 요소입니다. 따라서 이제 운전자가 해야 할 고민은 '어떻게 안전하게 운전할 수 있지?'에 대한 고민에서 이제는 '차에서 뭐 하지?', '어떻게 놀까?', '자동차에서 효과적으로 일을 하기 위해서는 어떤 환경이 되어야 할까?' 등에 대한 고민으로 더욱 심화될 것 같습니다. 그렇게 되면 사람들의 니즈를 충족시켜 주기 위해 자동차 내부 인테리어나 효과적인 콘텐츠 제공을 위한 미디어 제공 기술이 자동차 산업의 새로운 먹거리로 부상하게 될 것입니다.



마치며...

2013년 2월, 바르셀로나에서 열린 Mobile World Congress에서 Audi는 자사의 모델을 광고하면서 '자동차는 가장 큰 스마트폰(Car : The world’s biggest smartphone)’이라는 캐치프레이즈를 사용했습니다. 자동차도 스마트폰처럼 여러 가지 기능들이 탑재된 거대한 디바이스가 될 것이라는 의미로 해석할 수 있는데요. 벌써 4년 전의 일이라 이제는 자동차를 스마트폰에 빗대어 묘사하는 것은 부족하다는 느낌이 듭니다. 아마도 현재의 음성인식 기술이 수준급으로 발전하였고 플랫폼으로서의 자동차의 위상 또한 눈에 띄게 높아졌기 때문인 것 같습니다. 스마트폰의 기능도 고도화되었지만, 첨단 기술의 집약체인 자동차 분야가 IT 기술과의 접목으로 갖게 된 확장성은 어마어마하게 넓은 영역을 점유할 수 있을 것으로 기대됩니다. 제가 최근 읽었던 '넥스트 모바일 : 자율 주행 혁명’이라는 책에서 저자가 말한 '자동차가 아니다. 바퀴 달린 로봇이 세상을 뒤흔들 것이다.’라는 예측처럼, 자동차의 개념은 단순한 Vehicle을 넘어 Robot을 향해 달려가고 있습니다.

더 많은 자료와 데이터를 토대로 제 상상에 대한 개연성을 높여보고자 했는데, 도움이 될 만한 글이었는지 걱정스럽습니다. 글을 읽은 혹자는 ‘전문가도 아니면서 이런 글을 써도 되나?’라고 의문을 품을지도 모릅니다. 맞습니다. 저의 짧은 식견으로 미래를 예측해보기에는 상당히 어려운 부분이 많았습니다. 미래학자 엘빈 토플러의 명언 '미래는 예측하는 것이 아니고 상상하는 것이다.’라는 말처럼 이러한 예측은 어디까지나 상상일 뿐입니다. 내일이 어떻게 될지도 모르는 상황에서 몇 년 뒤를 내다본다는 것은 어리석은 일이라고 생각할 수도 있죠. 하지만 이렇게 미래를 예상해보는 게 의미 없는 일은 아닙니다. 미래를 대비하고 준비하는 만큼 기회를 엿볼 수 있으니까요. 전문 기업 수준의 미래 예측 시나리오 정도는 아니지만, 독자들이 이 글을 읽고 자동차의 미래를 상상하는 데 조금이나마 도움이 되었기를 바랍니다.



[참고##음성인식##]



팀블로그 pxd Story 구독 방법  블로그 글은 각 개인의 생각이며 피엑스디와 다를 수 있습니다.


Trackback 0 Comment 0
Ad Test...
2017.12.18 07:50

VUX in car 3편 - 카플레이, 궁극의 드라이빙 파트너일까?

본론에 앞서...

긴 추석 연휴가 끝난 후, 인턴사원으로 pxd의 일원이 되었습니다. 당시 설레는 마음을 가득 안고 행복하게 프로젝트팀에 합류한 저에게 조금은 당황스러운 미션이 주어졌습니다. 프로젝트와 관련하여 차량을 운전하고, 주행 중에 카플레이를 사용해 보는 것이었습니다. 평소 자동차에 관심은 많았지만, 차량 브랜드에 관한 기호와 흥미였을 뿐 자동차에 대한 전문지식은 깊지 못했던 터라 조금은 당황했었고, 더불어 운전 실력마저 그렇게 능숙하지 못했던 필자이기에 꽤나 긴장했던 것 같습니다. 그래도 '남자가 칼을 뽑았으면 무라도 썰어야지' 하는 생각으로 운전대를 잡았고, 함께 탄 팀원들 덕분에 즐거운 분위기 속에서 현장 리서치를 무사히 마칠 수 있었습니다.

이제 그 현장 경험을 바탕으로 애플의 차량 인포테인먼트 시스템인 카플레이가 이 글의 제목처럼 궁극의 드라이빙 파트너가 맞는지에 대해 이야기해 보고자 합니다.



손쉽고 빠른 연결

아이폰 상에서 별도의 앱을 설치할 필요가 없이, 이를 지원하는 차량이라면 손쉽게 아이폰과 연결하여 카플레이를 이용할 수 있습니다. (물론, 아이폰5와 그 이후 출시된 아이폰에서만 카플레이를 이용할 수 있습니다.) 이를 위해 우선 아이폰의 설정 > 일반설정 메뉴에서 카플레이를 활성화하고, USB 케이블을 이용하여 유선으로 차량과 연결하면 됩니다. 블루투스를 통한 연결을 지원하는 차량도 점차 늘어나고 있으니 무선 연결에 대한 부분도 기대해 볼 만한 이슈입니다. ('톰스 가이드'에 따르면 2017년 BMW 5시리즈가 처음으로 카플레이 무선 연결을 지원한 차량이라고 합니다.)


차량과 아이폰의 연결을 통한 카플레이 실행 (출처: arstechnica.com)


아이폰과 연결이 되면, 차량 중앙 화면에 카플레이 홈 화면이 나타나며, 아이폰에서도 차량과 연결되었음을 확인할 수 있습니다. 카플레이의 홈 화면에는 친숙한 아이폰 안의 앱들이 등장합니다. 하지만 카플레이의 경우 주행이라는 context에 알맞게 UI가 큼직하게 디자인되어 있습니다. 예를 들면, 물리적으로 아이폰보다 넓은 카플레이의 홈 화면은 8개의 커다란 크기의 아이콘을 담을 수 있는데, 이는 주행 환경에서 사용자가 잘못 선택할 확률을 줄여줍니다. (아이폰과 비교하자면, 아이폰X의 경우 한 화면에 28개의 앱을 보여줄 수 있습니다.)

차량과 아이폰의 연결 후에도 홈버튼을 눌러 아이폰을 이용할 수 있습니다. 카플레이의 기본적인 동작 방식은 미러링과 같아서 아이폰에서 이루어지는 대부분의 태스크가 카플레이 환경에 그대로 이어져 실행되거나 중지되기 때문에 선택적인 제어가 필요합니다. 다만, 주행 중에 휴대폰을 탐색하는 것은 바람직한 운전자의 행동이 아닐뿐더러, 도로 교통법에 저촉되어 6만 원 이상의 범칙금과 15점의 벌점을 받을 수 있으니 유의해야 합니다.



말 잘 알아듣는 시리 x 카플레이

기본적으로 주행 환경을 고려한 카플레이는 시리를 앞세워 음성 인터랙션을 주요 채널로 가져갑니다. 시리를 통해서 기능을 실행하는 방법은 간단합니다. 물리버튼(운전대의 물리버튼/차량 화면 또는 모바일 화면의 홈버튼 롱프레스)을 누르거나 모바일처럼 "시리야"로 시리를 호출하고, 음성인식 스탠바이를 알리는 사운드 피드백이 나오면 원하는 태스크에 대한 음성명령을 입력하면 됩니다. 사용자의 음성을 인식한 시리는 인식 완료에 대한 사운드 피드백을 주고 명령에 대한 음성 피드백과 같이 해당 태스크를 실행하게 됩니다. 이 과정은 차량 내의 화면을 통해서도 확인할 수 있습니다.


시리가 활성화된 카플레이 (출처: gearbrain.com)


카플레이의 시리는 모바일 환경의 시리와 많이 다르진 않습니다. 다만, 시각적인 정보들을 잘 활용해서 전달하는 아이폰의 시리와는 달리 카플레이의 시리는 최대한 음성 채널로 결과를 제공하려 노력합니다. 그 이유에는 주행 상황과 관련이 깊습니다. 주행 중에 차량에 설치된 화면을 주시하거나 직접 터치하는 것은 운전 부주의로 이어져 사고가 나는 위험천만한 행동이 될 수 있기 때문입니다.

카플레이에서는 시리가 제공하는 음성 서비스의 예로 수신된 SMS를 읽어준다거나, 통화를 걸 때 수신자의 정보를 읽어주는 것들을 들 수 있습니다. 카플레이와 시리의 이러한 기능에 대해서는 다음 장에 자세히 다루어 보고자 합니다.



카플레이 속 다양한 서비스 기능들

카플레이가 제공하는 기능은 크게 내비게이션, 커뮤니케이션, 엔터테인먼트 등으로 나눌 수 있습니다.

카플레이 홈화면 (출처: gearbrain.com)


카플레이의 앱 구성은 연결하는 사용자의 아이폰에 설치된 앱의 유무와 종류에 따라서 달라집니다. 기본적으로 지도 앱을 통해 내비게이션 기능을 제공하고, 전화/SMS 앱을 통해 다른 사람들과 연결해주며, 음악/팟캐스트/라디오 앱을 통해 미디어를 소비할 수 있도록 도와줍니다. 다만 카플레이는 사용자의 모든 아이폰 속 앱을 지원하지 않습니다. 카플레이는 주행 중 시선을 고려해 오디오 청취를 목적으로 하는 꼭 필요한 앱들만을 제공합니다. 따라서 필요에 의한 작업은 연결된 아이폰을 통해서 이용해야 할 필요가 있습니다.


내비게이션 기능

애플의 지도 앱을 기반으로 내비게이션은 생각보다 잘 작동하는 편입니다. (사실 잘 안될 것으로 예상했습니다.) 목적지를 검색하고 안내를 설정하면 차량 중앙 화면에 목적지까지 최적화된 경로가 나타나며 음성 안내를 시작합니다. 내비게이션이 아닌 다른 기능을 실행 중이더라도 화면 상단의 토스트 팝업과 음성으로 경로 안내를 받을 수 있습니다.


내비게이션 기능 음성과 TTS 시나리오


하지만 카플레이의 내비게이션은 기존의 타 내비게이션 서비스(e.g. 티맵, 카카오 내비 등)에 비하면 치명적인 단점이 있습니다. 사람들이 자동차 내비게이션을 사용하는 데에 있어서 가장 중요하게 생각하는 사항은 다음과 같습니다.


1. 얼마나 정확하고 신속하게 최단 경로를 탐색하고 안내하는가?

2. 실시간 교통상황을 반영하여 사용자에게 잘 제공하는가?


카플레이의 내비게이션 서비스는 위의 2번째 사항은 제공하지 않습니다. 또한 과속카메라 안내와 과속 방지턱 안내, 차선 안내와 같은 세부적인 사항들도 빠져있습니다. 따라서 이미 이러한 정보들이 담겨있는 내비게이션에 익숙해진 한국 사용자들에게 좋은 이용 경험을 선사하기에는 힘들어 보입니다. 한국을 방문하는 외국인들의 경우에는 익숙한 애플의 인터페이스로 길 안내를 받으며 사용할 것 같은 느낌일 것 같습니다.


통화 기능

통화 기능은 두 손을 자유롭게 움직일 수 없는 주행 상황에서 필요한 기능 중 하나입니다. 이미 타 차량 브랜드에서도 블루투스 연결을 통해서 제공되고 있는 부분(e.g. 차량 내 Hand-free 음성인식 통화 서비스)이지만 카플레이의 통화 기능은 시리를 통해서 보다 빠르고 주행에 최적화된 경험을 제공합니다.

통화 수신의 경우에는 운전대의 물리 버튼을 누르거나 화면상의 통화 버튼을 누르면 바로 통화가 연결됩니다. (통화 수신음이 울릴 경우 "전화 받아줘" 와 같은 음성 제어는 불가능합니다)

통화 발신의 경우에는 연락하고자 하는 대상자를 탐색, 선정, 발신 3단계를 거치게 됩니다. 물론 화면을 선택해서 연락처를 탐색하고 누르는 것도 가능하지만, 주행 상황을 방해받지 않으며(화면을 보지 않고도) "OOO에게 전화 걸어줘"와 같이 음성 제어로 전화를 걸 수 있습니다.


통화 기능 음성과 TTS 시나리오


위와 같이 일반적인 통화 발신의 상황도 있지만 예외의 상황도 종종 발생하곤 합니다.

시리가 잘못된 연락처 명을 인식할 수도 있고, 사용자의 아이폰 연락처 상의 동명이인 또는 비슷한 이름에 대한 다수의 연락처 검색 결과가 나올 수 있습니다. 이 경우, 시리가 발신 요청한 연락처를 재확인하거나 다수의 검색 결과들을 읽어주고 화면으로 나타내면서 사용자가 유연하게 대처할 수 있도록 돕습니다. 그럼에도 사용자는 자칫 잘못된 통화 연결을 실행할 수도 있기 때문에 신중하게 검색 결과를 확인하고 선택하거나 사전에 미리 아이폰 속 연락처명을 명확하게 저장해 둘 필요가 있습니다. 가령, '김민수'라는 동명이인들을 똑같은 '김민수'로 연락처에 저장해두었고 카플레이에서 해당 인물에게 발신하게 된다면 곤란한 상황에 직면하게 될 것은 불 보듯 뻔합니다.


SMS 기능

카플레이의 SMS 기능은 차량 주행 환경에 최적화된 기능 중 하나입니다. 앞서 잠깐 언급한 바와 같이 화면으로 메시지를 확인하고 작성하는 것은 불가능하고 시리와의 음성 인터랙션으로 거의 모든 태스크를 수행하여야 합니다. 기존의 아이폰의 시리를 통해서 SMS를 수신 확인하고 답신했던 경험이 있는 사용자라면 보다 수월하게 이용이 가능합니다.

SMS를 수신하는 경우에는 "메시지 확인해줘" 또는 "문자 읽어줘"와 같은 음성명령으로 실행할 수 있으며, 친절하게도 시리는 가장 오래된 수신 문자 순으로 날짜, 발신자, SMS 전문을 순차적으로 읽어줍니다. 만약 특정 대상에 대한 수신 문자만 확인하고 싶은 경우에는 "OOO에게 온 문자 읽어줘" 와 같이 명령하면 됩니다. 종종 장문의 광고성 문자의 전문을 그대로 읽어 당황스럽게 만드는 경우도 있지만, 다음 명령을 입력하거나 중단시키면 그만입니다.


SMS 수신/답신 기능 음성과 TTS 시나리오


SMS를 새로 작성하거나 발송하는 경우도 위와 같은 맥락으로 "(특정 대상) 메시지 작성"처럼 음성명령을 넣으면 됩니다.

아쉽게도 카카오톡 등 메신저 앱들은 카플레이에서 지원하지 않습니다. 가까운 미래에 카플레이 역시 카카오톡을 지원하게 된다면, 마치 '카카오 미니'에서의 경험을 차 안으로 그대로 가져올 수 있지 않을까 싶습니다. (카카오에서 출시한 AI 스피커 '카카오 미니'의 경우 음성으로 카카오톡 메시지를 수신하고 작성하는 것이 가능합니다.)


엔터테인먼트 기능 (오디오앱)

사용자가 아이폰에서 추가했던 미디어 콘텐츠들 역시 카플레이 환경에서 그대로 실행할 수 있습니다. 'iTunes'를 통해 아이폰의 음악 보관함에 풍부한 음악을 채워 놓은 사용자라면 꽤나 유용하게 사용이 가능합니다. 시리를 통해서 기능들을 실행시키거나 콘텐츠를 선택하고 제어하는 것 역시 가능합니다. 또한 카플레이에서는 '지금 재생 중(Now Playing)'이라는 별도의 앱을 통해서 현재 사용 중인 오디오 콘텐츠로의 진입을 빠르게 도와줍니다.

앞서 말한 바와 같이 카플레이는 주로 오디오 청취를 목적으로 하는 3rd-Party 앱들을 제공합니다. 대표적으로 팟캐스트와 라디오 앱이 있습니다.

음악 및 미디어콘텐츠 기능 음성과 TTS 시나리오


멜론과 벅스, 네이버 뮤직 등 음악 스트리밍 앱의 경우도 카플레이 환경에서 실행할 수 있습니다. 다만 이와 같은 앱들은 각각의 음악 콘텐츠들을 음성으로 제어하는 것은 불가능하고 화면을 통해 콘텐츠를 제어해야 한다는 단점이 있습니다.



글을 마치며...

제가 사용한 카플레이는 주행 환경과 안전을 고려한 비교적 나쁘지 않은 사용 경험을 제공했습니다. 저와 같이 운전에 미숙한 사람도 원활하게 이용할 수 있도록 음성인식 서비스인 시리를 지원하는 것이 큰 이점이었습니다. 화면을 보지 않고 음성 안내를 받으며 기능들을 실행&제어할 수 있었기에 더욱 운전에 집중할 수 있었고 마치 비서가 옆에서 대신 기능들을 수행하는 기분까지 들게 해주었습니다. 또 차량 내의 소음이 있을 때도 저의 음성을 잘 인식하고 해당 기능들을 수행해주었습니다.

그러나 궁극의 드라이빙 파트너가 되기에는 부족하다고 느꼈습니다. 원하는 모든 기능들을 완벽하게 지원하지는 못할 것이라 예상은 했지만 불가능한 기능들이 생각보다 많았습니다. 내 아이폰에 설치된 앱의 수는 100개가 넘지만 카플레이에서는 '멜론'을 포함한 고작 몇 개의 3rd-Party 앱만이 모습을 드러냈던 것도 아쉬운 점 중 하나였습니다. 시리의 음성인식 기능 역시 오류 상황들을 보여주는 경우가 있었고, 알아들을 수 있는 명령어의 수가 제한적이어서 오히려 기능 수행에 대한 명령어를 학습해야 할 필요성까지 느끼게 해주었습니다. 아직 한국어 지원이 부족한 것인지 "이전", "다음", "꺼줘", "경로 안내해줘" 등과 같은 기본적인 명령어도 인지하지 못한다는 점은 조금 실망스러웠습니다. 알고 쓰면 유용한 드라이빙 파트너가 적절한 표현이지 않을까 합니다.

많은 타사의 서비스를 사용해보지 못했기에 다른 서비스들과 좀 더 면밀하게 비교 분석하진 못해서 아쉬웠습니다. 다만, 이 글을 통해 독자들이 애플의 카플레이에 조금 더 친숙해질 수 있는 계기가 되길 바랍니다. 시장의 판도는 급변하고 있습니다. 구글의 안드로이드 오토는 물론 네이버의 어웨이, 신형 제네시스에 탑재되는 카카오 아이, 티맵 등 다양한 음성인식 기반의 차량 인포테인먼트 서비스가 하루가 멀다 하고 출시되고 상용화에 도전 중입니다. 카플레이 역시 지속적인 업데이트를 통해 개선되고 있습니다. 3rd-Party 애플리케이션의 증가, 음성 인식률에 대한 이슈는 시간이 문제라고 생각했습니다. 분명한 건 다가오는 스마트 시대에는 운전자 중심의 맞춤 서비스를 제공하는 커넥티드카를 넘어 자율 주행 자동차의 시대가 올 것이고, 그 스마트카의 중심에서 시리와 카플레이가 중요한 Hub 역할을 수행하게 될 것이라고 기대해봅니다.




[참고##음성인식##]



팀블로그 pxd Story 구독 방법  블로그 글은 각 개인의 생각이며 피엑스디와 다를 수 있습니다.


Trackback 0 Comment 0
Ad Test...
2017.12.14 07:50

VUX in car 2편 - 기존의 자동차 음성 명령과 자동차 x AI 스피커의 차이점


올해 하반기 출시된 제네시스 G70에 카카오 I가 장착되어 집에서 사용하던 AI 스피커를 자동차에서도 사용할 수 있게 되었습니다. 모터쇼에서 NUGU, Giga Genie를 결합한 컨셉 자동차를 발표했으니 곧 기아, 현대 자동차에서도 AI 스피커를 사용할 수 있을 텐데요. 유투브에서 NUGU mini나 Amazon dot과 같이 서브 라인으로 출시한 AI 스피커를 자동차에서 시연하는 영상을 심심치 않게 볼 수 있는걸 보면 자동차와 AI 스피커의 결합은 이미 스마트 스피커가 나타날 때부터 시간문제였던 것 같습니다.

자동차에서 AI 스피커를 이용해 음악을 재생하거나 뉴스를 듣는 행동은, 이미 사용하고 있는 음성 인식 기능과 크게 다르지 않아 보이기 때문에 AI 스피커가 힘들게 장착해서 쓸 만큼 유용한 것인지 의문이 들곤 했습니다. 그럼에도 자동차에 결합된 스마트 스피커 시장이 활발한 이유는 무엇일까요? 이번 블로깅에서는 자동차가 AI 스마트 스피커 기능을 장착하면 기존의 자동차 음성 인식 경험과 무엇이 달라지는지 이야기해보려 합니다.



자동차의 음성 명령

자동차의 기능을 편리하게 호출하는 기능

자동차를 운전한 경험이 있다면 핸들에 있는 ‘’ 버튼을 본 적 있을 것입니다. 자동차에서 제공하는 Voice command 기능을 호출하는 버튼입니다. Voice command 기능은 운전할 때 자동차와 연결된 기기나 기능들을 음성으로 호출할 수 있는 기능입니다. 버튼을 누르고 음성으로 라디오 주파수를 이야기하면 라디오를 틀어주고, 내비게이션을 켠 상태에서 목적지를 말하면 목적지를 검색할 수 있습니다. 스마트폰을 연결하면 통화를 하거나 음악을 들을 수 있습니다.

자동차와 관련된 기능을 음성으로 편리하게 사용할 수 있지만, 자동차와 연결된 기능만 사용할 수 있는 단점이 있습니다. 즉, 통화 등 스마트폰과 관련된 기능을 사용하려면 스마트폰을 연결하는 셋팅 과정을 거쳐야 사용할 수 있습니다.


화면의 터치 인터랙션을 대신하는 보조 기능

운전을 하면서 내비게이션의 목적지를 터치하는 행동은 운전 베테랑이라도 시선을 뺏기게 됩니다. 안전을 위해 잠깐 차량을 정차하게 되는 신호 대기 순간에 목적지를 한 글자씩 입력하게 되기 때문입니다. 이런 상황을 개선하고자 내비게이션은 음성 지원 검색을 지원합니다. “신사주유소”를 찾을 때, ‘ㅅㅅㅈㅇㅅ’ ‘신사주유소’ 라 입력하지 않고 음성으로 “신사주유소”를 말하면 목적지가 입력 영역에 표시됩니다.

목적지를 입력하는 방법을 음성으로 대신할 뿐, 목적지를 설정하는 과정은 터치 인터랙션과 동일합니다. 음성 인식 버튼을 누른 뒤 목적지를 말하고 화면에서 ‘검색’을 누르거나, 다시 음성 인식 버튼을 눌러 “검색”이라고 말해야 합니다. 만약 평소 말하는 대로 “신사주유소 찾아줘” / “신사주유소로 설정해줘”라고 말하게 된다면 목적지 입력 영역에 “신사주유소 찾아줘 / 설정해줘”가 모두 입력됩니다.

또, 음성으로 목적지를 설정하는 기능은 내비게이션이 실행된 상태에서 목적지를 설정하는 과정의 화면에서만 사용할 수 있습니다. 음성 인터랙션은 주행 안전을 위해 터치 인터랙션 대신 사용하는 보조 기능으로서 제공됩니다.


음성 명령을 하려면 어떤 버튼이 음성 명령이 되는지 말풍선 모양을 확인해야 합니다.

출처: Hyundai: Voice command



자동차 환경에서의 AI 스피커 음성 경험

자동차의 기존 음성 명령이 화면을 보조하는 수단으로 제공된다면, AI 스피커는 진짜 음성 중심의 경험을 제공합니다.

복잡한 연결 과정 없이 즐기는 확장된 음성 서비스

자동차에서 음성 명령 기능을 사용하기 어려운 이유 중 하나가 복잡한 연결 과정 때문인데요. LTE 기반의 AI 스피커를 장착하면 복잡한 연결 과정 없이 ‘Voice command’ 버튼만 눌러서 바로 음성 명령을 사용할 수 있습니다.

또, AI 스피커 덕분에 기존의 자동차와 스마트폰에 국한되었던 기능에서 벗어나 더욱 다양한 음성 서비스를 즐길 수 있습니다. 집에서 듣던 플레이리스트를 그대로 들을 수 있고, 앞으로 30분 뒤 도착 시각에 맞추어 피자를 주문할 수 있습니다. Iot 미래 시나리오 워크샵의 단골손님이었던 도착 시각에 맞춰 집 안의 환경을 세팅하는 과정을 경험할 수 있습니다.


화면을 벗어난 음성 중심 인터랙션

기존의 음성 경험과 가장 큰 차이점은 주행 안전을 방해하던 화면에서 벗어날 수 있는 점입니다. 앞에서 언급한 것처럼 기존의 음성 경험은 화면 내의 조작을 편리하게 하는 음성 인터랙션에 머물러 있었습니다. 화면으로 분산되는 시선을 주행에 집중하기 위해 음성 명령을 사용한 것임에도 결국 화면을 보면서 음성 조작을 하는 모순적인 상황이 발생했습니다.

반면, AI 스피커를 이용한 음성 명령은 실제 사람과 대화하는 방식으로 음성 인터랙션이 이루어져 화면을 훨씬 덜 볼 수 있습니다. 예를 들면 AI 스피커에게 목적지 검색 요청 시, “신사주유소 찾아줘”라고 말하면 AI 스피커는 바로 목적지 검색을 수행합니다. 목적지를 검색하기 위해 화면의 ‘검색’ 버튼을 찾거나 다시 voice command 버튼을 눌러 “검색”이라고 말할 필요가 없게 됩니다.


결론: 음성 명령이 아닌 음성 대화

기존의 voice command 기능을 보면 사용자는 “신사주유소” / “검색” / “음악 재생” 등 명사 위주로 자동차에 명령합니다. Task 수행 단계 내에서 음성 인터랙션이 있기 때문인데요. 앞에서도 보았듯이 AI 스피커의 음성 인터랙션은 Task 수행 단계 없이 바로 기능 수행이 가능합니다. 그래서 “신사주유소 검색해줘” / “소녀시대 노래 틀어줘” 등의 명령이 가능한 것인데요. 아직 자동차에 장착된 AI 스피커를 보면 명령 -> 대화로 이동하는 과도기에 있는 것 같습니다. 미래의 자동차는 결국 화면 도움 없이도 만족스러운 음성 인터랙션 경험을 제공해야 할 것입니다.




[참고##음성인식##]

팀블로그 pxd Story 구독 방법  블로그 글은 각 개인의 생각이며 피엑스디와 다를 수 있습니다.


Trackback 0 Comment 0
Ad Test...
2017.12.11 07:50

VUX in car 1편 - VUX, 멀티태스킹, 그리고 커넥티드 카

음성 UX에 적합한 시나리오는 무엇일까

최근 음성인식 솔루션의 춘추전국시대라고 해도 과언이 아닐 정도로 다양한 서비스가 쏟아져 나오고 있습니다. 2011년 애플이 아이폰 4S와 함께 시리를 발표한 이후 음성 비서에 대한 인식이 대중적으로 자리 잡게 되었는데요. 이후 아마존의 Alexa, 국내에서는 SKT의 NUGU를 필두로 물리적인 형태를 갖춘 스마트스피커 시장이 활발해지면서 음성 비서에 대한 서비스 제공자들의 고민이 더욱 다양해지는 것 같습니다. 스마트스피커 시장에서는 아마존의 경우 커머스, 라인의 경우 정보검색 및 캐릭터(?) 등 각 기업이 보유한 특화 서비스를 강조한 제품을 선보이고 있으나, 아직 이전 대비 음성 UX의 경험을 차별화한 서비스는 없다고 느껴집니다. 저는 회사에서 음성 UX와 관련된 몇 번의 프로젝트를 거치면서, 아래와 같은 의문을 지울 수 없었습니다.


'말로 하는 것이 한 번의 터치 조작보다 과연 얼마나 쉬울까?'

'화면을 보면 한 번에 알게 될 내용을 음성 안내로 들어야 한다면 답답하지 않을까?'



아직은 터치 조작에 익숙한 현대인으로서 새로운 조작 방식을 접하게 되어 생기는 당연한 고민일지도 모르겠습니다. 그러나 음성만을 사용하다 처음으로 화면을 선보인 에코 쇼를 보면 스마트스피커의 선두 주자인 아마존도 비슷한 고민을 하는 것 같습니다.

이러한 고민의 답을 찾기 위해서는 음성 인터랙션의 context와 contents, 두 가지 방향의 접근이 필요합니다. 장소, 환경 등의 맥락(context)으로 인해 음성 인터랙션을 사용하기에 적합한 상황이 있고, 음성으로 사용할 때 더욱 효과적인 태스크나 콘텐츠(contents)가 있을 것입니다. 현재 음성 서비스의 제공자들은 기술적 관점에서 제공 가능한 서비스를 다양하게 붙여 보는 방식을 취하고 있지만, 결국 사용자가 음성 인터랙션에 흥미를 잃지 않고 적극적으로 활용하기 위해서는 가장 적합한 시나리오를 제공해야 한다고 생각합니다. 이 글에서는 먼저 context의 관점에서 접근해 보려고 합니다. 음성을 사용해서 조작할 때 가장 효과적인 상황은 언제, 어디일까요?



Multitasking

위의 질문에 대한 해답을 고민하던 중, 같은 질문에서 시작된 한 아티클 [What voice UI is good for(and what it isn't)]에서 'place-ona(place+persona)' 라는 재미있는 개념을 알게 되었습니다. 'place-ona'는 <사용자 경험 스케치>의 저자 빌 벅스튼이 제시한 개념으로, 음성 인터랙션은 사용자의 성향보다는 맥락에 따라 필요성이 다르기 때문에 장소에 따라 인터랙션의 행태가 결정된다는 것인데요. 아티클에서는 이에 대한 예시로 도서관, 요리 중, 시끄러운 클럽, 주행 중 이렇게 시각 및 청각적 제약이 서로 다른 4가지 place를 놓고 음성 인터랙션이 효과적인 상황을 비교해 보았습니다. 결론부터 말하자면 음성 인터랙션이 더 우세한 상황은 두 가지 조건이 일치하는 경우라는 것을 알 수 있습니다.


1. 사용자의 시선 혹은 두 손이 부자유한 상황

2. (당연하지만) 청각적 방해가 없는 상황


1번의 경우 시선과 두 손의 제약 상황은 곧 사용자가 무언가 다른 일을 하는 것으로 해석할 수 있습니다. 반면, 모바일이나 태블릿 등 스크린 디바이스를 얼마든지 사용할 수 있는 환경에서 음성으로 조작하는 시나리오를 상상해보면 현재로선 그다지 와닿지 않는데요. 정보량에 상관없이 효율적이고 즉각적으로 처리할 수 있는 화면에서의 경험이 우리에게 아직은 너무 익숙하기 때문입니다. 위에서 언급했듯이 음성 인터랙션으로 조작할 때 특히 효과적인 contents가 있겠지만, 보편적인 상황을 생각하면 화면 인터랙션의 익숙함, 효율성 등의 요인으로 음성 인터랙션만을 단독으로 사용하는 씬을 상상하기는 어렵습니다. 결과적으로 현재의 음성 인터랙션은 '제약이 있는' 멀티태스킹 상황이 가장 효과적입니다. 특히 요리나 주행처럼 익숙한 일이면서도 수행 도중에 레시피나 교통상황 등의 정보나 콘텐츠가 필요한 경우 더욱 유용하겠죠.

이번 시리즈에서는 커넥티드 카에 탑재되는 VUX 서비스를 설계한 경험을 바탕으로 멀티태스킹의 하나인 주행 중 음성 인터랙션에 대해서 알아볼 텐데요. 이번 글에서는 주행 중 상황의 특성과 인터랙션 설계 시 고려해야 할 점을 짚어보겠습니다.



주행 중 인터랙션의 특징 : 대충 듣고 쓱 훑어본다

주행 중 운전자의 시선은 매우 바쁘다


차량 내에서의 음성 인터랙션은 일반 스마트스피커를 사용할 때와 어떻게 다를까요?

먼저 인터랙션에 충분히 집중할 수 있는 가정 내 환경과 달리, 주행 중에는 운전이 메인 태스크이고 다양한 시각적∙청각적 정보를 확인해야 하기 때문에 인터랙션을 방해받거나 충분히 집중하기 어렵다는 특징이 있습니다. 운전하며 조수석에 앉은 친구와 대화를 나누어본 경험을 떠올려 보면, 복잡한 교통상황에 의해 대화를 방해받았던 적이 있을 것입니다. 이처럼 완전히 집중하기 어려운 특성 때문에 사용자는 음성 안내의 전체를 경청하기보다는 자신이 필요한 정보를 선별적으로 캐치하고자 합니다.

또, 주행 중 사용자의 시선은 전방을 주시하고, 손은 핸들에 있기 때문에 화면 사용이 자유롭지 않다는 특징이 있습니다. 운전 중 내비게이션으로 목적지를 검색했는데 결과가 여러 개 나온 경험이 있지 않으신가요? 목적지를 잘못 선택하면 안 되지만, 여러 개의 항목을 비교해보기 위해 찬찬히 읽어보고 정확히 선택하기 어려워 여러모로 신경 쓰이는 상황이죠. 요즘의 운전자들은 차내에서 스마트폰을 거치하여 사용하기 때문에 운전 중 화면 사용이 비교적 익숙한 편이지만, 그럼에도 화면 조작은 정확도가 떨어지며 인터랙션의 흐름을 이어가기 어렵습니다. 사실, 주행 상황에서는 안전을 위해 지양해야 합니다. 따라서 익숙해진다면 주행 중에는 운전에 방해를 주지 않는 음성 인풋이 화면보다 훨씬 편리할 수밖에 없습니다.

위와 같이 주행 중이라는 특수한 맥락이 인터랙션 방식에 영향을 주기 때문에, 차량 내에서 사용하는 VUX를 설계하기 위해서는 이러한 맥락에 대한 이해가 필요합니다. 이제 차량 내 음성 인터랙션이 지향해야 할 방향을 다음 질문을 통해 알아보겠습니다.


1. 주행 중 음성으로 의사결정은 어떻게 해야 할까?

2. 주행 중 음성과 화면이라는 2가지 채널을 어떻게 활용해야 할까?



의사결정을 줄이되, 꼭 필요한 정보는 생략하지 않기

사용자 : 볼빨간 사춘기 노래 틀어줘.

AI : 볼빨간 사춘기의 인기곡 '우주를 줄게'를 들려 드릴게요.


사용자 : (민지한테 늦는다고 전화해야겠다) 김민지에게 전화 걸어줘.

AI : '김민지'로 등록된 연락처가 3개 있네요. 가장 최근에 전화한 사람에게 걸어 드릴게요.

사용자 : 어.. 잠깐만...

AI : RRRR...


주행 중 사용자에게 의사결정을 맡기려고 할 때는 상황에 대한 판단이 중요합니다. 위에서 언급했듯 주행 중 인터랙션은 멀티태스킹이기 때문에, 인터랙션에 100% 집중하기는 어렵습니다. 따라서 사용자가 음성으로 간단한 태스크를 실행하려고 할 때 사소한 부분까지 의사를 물어보고 진행하려 하면 사용자를 번거롭게 만들 수 있습니다. 음악이나 팟캐스트 재생 같은 경우, 디테일을 더 묻지 않고 로직에 따라 적합한 콘텐츠를 재생한다면 태스크를 간단하게 만들면서도 사용자의 의도에서 크게 벗어나지 않는 결과를 가져다줄 수 있습니다. 다만, 전화를 걸거나 목적지를 변경하려는 상황은 조금 다릅니다. 전화나 목적지는 잘못 설정했다가는 굉장히 난감해질 수 있기 때문에, 사용자의 정확한 의사결정을 필요로 하는 태스크입니다. 주행 중 음성 AI가 제멋대로 내 친구가 아닌 이전 거래처 사람에게 전화를 걸거나, 스타필드 하남점에 가려고 했는데 고양점으로 자동 선택해서 안내한다면 그 날을 끝으로 음성 조작은 사용자에게 영영 버려질 확률이 높습니다. 정확도에 대한 민감도가 높은 상황에서는 사용자의 결정에 따라 정확한 조작이 중요하기 때문에, 필요한 정보를 충분히 제공하여 디테일을 확인할 수 있도록 해야 합니다. 요약하면, 주행 중에는 되도록 의사결정을 줄이는 것이 바람직하지만 정확도에 민감한 상황이라면 꼭 필요한 정보를 모두 제공하여 사용자가 결정하도록 해야 합니다.



사용자와 음성으로 핑퐁하고, 꼭 필요한 경우에만 화면을 보여주기

사용자 : 서울시청으로 안내해줘.

AI : '서울시청'에 대한 검색결과가 20개 있습니다. 서울특별시청, 서울시청신청사 주차장, 서울특별시청 서소문청사, 서울시청 서소문별관 주차장, 서울특별시청 서소문청사 서울시의회별관, 서울시청 시민청 태평홀, 서울특별시청 서울시청 별관2동, 서울시청 다목적홀, ... 어디로 안내해 드릴까요?

사용자 : (내가 어딜 가려고 했더라..)


위에서 살펴보았듯이, 주행 중에는 음성 인터랙션이 화면에 비해 주의를 덜 끌기 때문에 훨씬 유리한 위치를 점하고 있습니다. 그러나 서비스가 고도화되고 보다 풍부한 기능을 제공하고자 한다면 곧 음성의 한계와 마주하게 되는데요. 위의 예시처럼 내비게이션이나 항목의 리스트처럼 시각적 인지에 익숙한 정보의 경우가 그렇습니다. 내비게이션의 경우 거리와 방향은 화면을 보고 인지하는 것이 훨씬 효율적이고, 정보를 인지하는 시점이 주행 상황과 밀접한 연관이 있기 때문에 안전한 주행을 위해 반드시 시각 정보가 동반되어야 합니다. 또 사용자에게 다양한 옵션을 제공해야 할 경우 옵션 리스트를 화면으로도 제공하여 음성 인터랙션을 보조할 수도 있습니다. 인터랙션의 일관성을 유지하는 것은 중요하지만, 사용자에게 중요한 정보를 전달해야 할 때 비효율적인 방법을 고집하는 것은 좋은 인터랙션이라고 하기 어렵습니다. 따라서, 주행 환경에서 음성 인터랙션을 주로 사용하되, 음성으로 전달하기에 한계가 있는 경우 화면을 활용하여 사용성을 높일 수 있습니다. 다만 사용자가 혼란스럽지 않도록 화면은 음성을 보조하는 서브 채널로 사용해야 하며, 사용자의 음성 질의나 명령에 화면으로 대답하는 일은 없어야 합니다.



마치며

이 글에서는 음성 UX에 가장 적합한 멀티태스킹, 그리고 대표적 예시인 주행상황에서의 음성 인터랙션은 어떻게 이루어져야 하는지 알아보았습니다. 어떻게 보면 제약이 많은 상황의 인터랙션을 설계하는 것은 매우 재미있기도 했지만, 그렇기 때문에 사용자가 어떻게 받아들일지에 대해 심도 있게 고려해야 하는 과정이었습니다. 다음 글에서는 이러한 음성 인터랙션이 기존의 차내 음성 검색 경험과 비교하여 어떤 차이점이 있는지 소개하겠습니다.



[참고##음성인식##]



팀블로그 pxd Story 구독 방법  블로그 글은 각 개인의 생각이며 피엑스디와 다를 수 있습니다.


Trackback 0 Comment 0
Ad Test...
2017.11.16 07:50

AI 스피커의 VUX 설계 시 고려할 것들

Google Home


들어가며

인공지능의 빽에 힘입어 음성비서를 탑재한 다양한 디바이스들이 쏟아지는 상황에서 회사에서도 눈에 띄게 음성 인터랙션을 설계하는 프로젝트가 많아지고 있다. 시간은 조금 흘렀지만(인간은 망각의 동물..) 인공지능 스피커의 VUX를 설계하면서 기획자로서 고민했던 부분을 간단하게나마 공유하려고 한다.


음성비서는 어떤 상황에서 유용할까/자연스러울까?

최근 어느 교수님의 인상 깊었던 말이 있다. 우리가 새로운 형태의 디바이스를 만들 때는 그것이 기존에 존재하는 강력한 도구들(스마트폰 등)보다 편한 점이 무엇인지, 굳이 필요한 이유가 무엇일지 생각해보고 거기서 뚜렷하게 답이 나오지 않는다면 설계를 다시 해야 한다는 것이다. 당연한 말 같지만, 우리는 종종 새로운 디바이스가 담고 있는 형태와 기술, 그 새로움에 빠져 무엇을 제공하든 사용자가 좋아할 것이라는 안일한 태도를 보이기도 하기에(필자뿐인지도 모르지만)… 한 번 생각해보려고 한다.

음성인식 스피커를 통해서 사람들이 큰 유용성을 느낄 수 있는 시나리오/서비스는 무엇일까? '스피커'라는 디바이스의 장점을 살리는 측면, 그리고 음성 인터랙션의 편리함과 유용성 측면으로 나누어 생각해보자.


1. 오디오 아웃풋 중심의 서비스

당연한 얘기로 들릴 수 있지만, 스피커에서 가장 잘 제공할 수 있는 서비스는 음악, 라디오, 오디오북 등 소리를 전달하는 서비스이다. 이때, 기존의 화면을 매개로 한 탐색과정이 검색결과나 순위 리스트를 훑어보며 특정 가수나 앨범을 찾는 과정이었다면, 음성 명령으로는 "비 오는 날에 어울리는 음악 틀어줘" "가사 없는 음악 틀어줘"와 같이 추천을 기반으로 한 플레이리스트를 통째로 요청하는 명령이 더 자연스럽고 빈번해진다.


2. 따로, 또 함께

또 스피커는 열린 공간에 놓여있다는 특징을 갖는다. 음성명령을 이용하면 TV 앞에서 리모콘을 빼앗거나 찾는 소란스러움은 잠시 던져두고 각자의 자리를 지키며 디제잉을 할 수 있게 된다. 물론 디제잉 권한을 놓고 싸울 수는 있겠다. 아마존이 여기서 내놓은 해결책은 집안 곳곳에 흩어놓을 수 있는 미니디바이스 '에코닷'이다. 최근에는 음성 간 구별도 가능해지면서 평소에는 방에서 각자의 디바이스를 사용하면서 서로 음성 메시지를 주고받다가도, 공용 메인 디바이스로는 함께 영상통화도 하고, 필요에 따라 여러 디바이스를 그룹화 하여 동시에 음악을 트는 등 개인과 공용 사용 씬을 좀 더 풍부하게 그려낼 수 있게 되었다.


3. 공간의 연결

마지막으로, 스피커는 가정 내 고정된 위치에 자리 잡고 있다. 이런 특성은 스마트홈을 만드는 컨트롤 타워의 역할을 보다 쉽게 한다. 아직 국내에서는 가정 내 IoT 디바이스가 활용되는 경우가 많지는 않지만, 조명부터 도어락, 보안 카메라까지 다양한 디바이스가 자리 잡은 외국에서는 앱 간 연동을 통해 에코나 구글홈이 스마트홈을 만들어나가고 있다. 더 나아가, 머지않은 미래에는 모바일에서 스피커로, 스피커에서 다시 자동차로 인공지능 비서가 플랫폼을 넘나들며 사용자의 삶에 끊김 없이 서비스를 제공할 수 있는 방향으로 발전하지 않을까.


4. 즉각적이고 짧은 태스크

이제는 음성 인터랙션이 편한 상황을 살펴보자. 사용자는 필요할 때 외에는 스피커에 신경을 쓰지 않지만 반대로 스피커는 24/7/365 언제든 사용자가 부르면 대답할 준비가 되어 있다. 무언가를 하고 있다가도 갑자기 궁금해지거나 생각난 말을 음성 비서에게 하는 것은 가족이나 친구에게 말을 거는 것만큼이나 쉽고 간단한 일이다. 호기심이 많은 아이에게 스피커를 주면 종종 끝없는 질문시간을 보내며 즐거워하는 것을 볼 수 있었다.


5. 부담없는 가상의 대화상대가 필요한 상황

우리가 말 못 하는 강아지나 고양이를 더 편하게 느낄 수 있는 것은 이 친구들이 우리를 평가하거나, 눈치를 주는 경우가 없기 때문이다. 대화함에 있어 늘 상대의 반응을 살피거나 해석하려는 것이 사람의 본능이라면, 스피커는 이런 부담 한 톨 없이 나의 모든 이야기를 듣고, 심지어 대답도 해줄 수 있다. 영화 Her에서 주인공 테오도르가 거부감없이 마음을 열고 자신의 이야기를 더 쉽게 한 것도 사만다가 모든 이야기를 긍정적으로 받아주었기 때문은 아닐까? 이렇게 내 이야기를 잘 들어주는 상대 뿐 아니라, 부담이 없기에 편하게 연습 상대가 되어주는 선생님의 역할도 가능하다. 특히, 외국인 공포증을 앓는 사람들에게 부담 없는 연습 상대가 될 수도 있다. 클로바에서 초기부터 영어 프리토킹 서비스가 들어간 이유도 이 때문이라 생각된다.



어떻게 기획해야 할까?

그렇다면, VUX를 설계하면서 고려해야 할 점에는 어떤 것들이 있을까? 필자의 경험을 토대로 느꼈던 것들을 간단히 짚어보고자 한다.


1. 대화의 핑퐁을 통해, 올바른 요청이 들어오도록 유도하라

"멜로망스 선물 틀어줘"처럼 한 번에 명확한 명령을 내릴 수만 있다면 음성명령만큼 쉬운 것도 없을 것이다. 문제는, 모든 명령이 이리 간단치는 않다는 점이다. 일정 등록만 해도 날짜와 시간, 일정 내용 적어도 3개의 정보를 알려줘야 하는데,

"캘린더에 다음 주 목요일 2시 신사동에서 친구랑 점심 약속 등록해줘"

처럼 한 문장에 모든 조건을 욱여넣는 것은 굉장히 어렵고 부자연스럽게 들린다. 평소에 우리가 말을 할 때는 머릿속에서 모든 정보가 정리된 후에 나온다기보다는 생각나는 것부터 튀어나온다. 따라서 똑똑한 음성비서라면 적시 적소의 응답을 통해 사용자가 깊게 생각하지 않고 필요한 요청을 하도록 유도해야 한다. 다음은 구글 홈의 알람 설정 예시이다.

나: I want to set an alarm.

구글: Okay, when for?

나: Cover clock(12 o clock을 이렇게 알아들음)

구글: Sorry, what time was that?

나: Timer clock at 12(12 o clock at noon을 이렇게 알아들음)

구글: I'm afraid I still haven't caught the time. Just say, for instance, "6:30 P.M.," or "noon". Or you can say "never mind".

나: Midnight.

구글: Sorted, your alarm's set for tomorrow at midnight.

나: Okay google, Thank you.

구글: You're welcome.


대화 중 필자의 말을 잘못 들은 구글은 "이해하지 못했어요" 대신 "죄송하지만, 몇 시라고 하셨죠?"라며 시간 정보를 유도한다. 필자는 열두 시가 낮인지 밤인지 파악하지 못했다고 생각하고 자정 12시라고 다시 말했지만, 또 발음이 문제다. 이번에는 구글이 좀 더 적극적으로 시간을 말하는 다양한 방식을 제안해준다. 여기서 힌트를 얻어 필자는 좀 더 확실히 들리는 단어를 시도했고, 결과는 성공적. 이런 식으로 구글은 가능한 짧은 흐름을 시도해보고 과정상의 오류 횟수나 원인에 따라 특정 정보를 유도한다. 또, 뉘앙스를 번역하긴 어렵지만, 구글은 천편일률적인 대답 대신 상황에 따라 좀 더 가볍고 친밀한 톤으로 반응해 오류 상황을 헤쳐나가는 긴장감을 혹은 짜증을 미묘하게 덜어내 주는 부분이 있다.


2. 적절한 피드백을 주어라(특히, 시각 피드백의 확실한 규칙을 활용하라)

나: Okay google, I want to add a schedule on my calendar.

구글: Sure, when is the event?

나: Tomorrow.

구글: At what time?

나: 6 o'clock 6pm.

구글: Alright, a schedule tomorrow at 6:00 PM. Do you want to save this?

나: Yes.

구글: Alright, I saved your event.


대화할 때 우리는 계속 상대의 반응을 보며 내 말을 이해하고 있는지 확인하게 된다. 얼굴도 없고, 화면으로 내가 입력한 값이 보이지도 않는 스피커와의 대화 상황에서 불안감을 낮추기 위해 피드백을 잘 활용하는 것은 매우 중요하다. 1번에서도 언급했듯, 오류의 상황에서 내 말을 정말 이해하지 못한 것인지, 놓친 특정 정보가 있는지 등 사용자가 오류 상황에서 빠져나올 가이드를 제시하는 것이 매우 중요하다. 또, 위의 예시처럼 일정을 등록 직전 요약정보를 제시하며 확인하는 절차를 가질 수도 있다. 무엇보다도, 효과음이나 불빛을 동반한 비주얼 피드백을 활용하는 것이 중요하다. 모든 인공지능 스피커들의 공통점은 가장자리나 상단의 라이팅 피드백을 통해 상태나 감정을 전달한다는 점인데, 이는 표정과도 같은 역할을 하는 것이다.


3. 일관된 스타일을 보여라

스피커를 통해 실행하는 서비스는 다양하지만, 이 모두는 '아리아'나 '알렉사', '클로바' 등 하나의 인격체에 의해 제공된다. 인공지능 스피커가 우리를 학습해 나가는 것도 중요하지만, 거꾸로 일관된 스타일을 통해 우리가 비서를 컨트롤하는 법을 자연스럽게 익혀나가게 하는 것 또한 중요한 부분이다. 이를 위해, 디바이스가 명령을 이해하고 실행하는 규칙은 일관된 스타일을 가져야 한다. 예를 들어 우리가 음악 서비스에서 "다음 거"라고 했을 때 재생목록의 다음 곡이 실행되었는데, 팟캐스트 서비스에서는 "알아듣지 못했어요"라고 하면 사용자는 오디오를 재생하는 서비스들의 규칙 간 혼란을 겪게 된다.


4. 뻔한 것은 먼저 결정해준 후 확인하라

한편, 음악을 듣다가 "처음부터"라고 명령한다면, 비서는 곡을 다시 들려줘야 할까? 재생목록의 첫 곡부터 다시 들려줘야 할까? 사용자는 많은 것을 생략하고 말할 때가 있으므로 맥락을 파악하는 것이 중요하다. 앞의 경우는 사실 곡을 다시 듣고 싶은 경우가 많겠지만 에코 같은 경우 곡을 다시 트는 대신 "곡의 처음부터"라는 명령어를 다시 부탁하는 안내가 돌아온다. 그렇다면 정황상 사용자의 의도가 거의 확실한 경우들은 어떨까? 예를 들어 "책 읽어줘" "팟캐스트 틀어줘"라고 콘텐츠를 특징짓지 않고 서비스를 요청하게 되면 최근에 중단된 시점부터 재생을 시작해 줄 수 있다. "어제 읽던 해리포터 이어서 읽어줄까요?"라고 이미 결정한 사항을 확인하는 것이 "무엇을 읽어드릴까요?"를 물으며 맨땅에 헤딩하는 것보다 쉽게 사용자의 의도를 파악하여 목적을 달성하는 방향일 것이다.


5. 개인의 취향을 존중하라

나: What's my favorite animal?

구글: You told me that you like cats.


knock knock joke나 수수께끼, 명대사 던져보기 같은 오락요소들도 즐거움을 선사하지만, 필자는 지나가듯 흘린 내 얘기를 기억해주는 부분에서 뜻밖의 기쁨을 느끼기도 했다. 랜덤으로 던져주는 말이나 흥밋거리는 장기적인 관점에서 봤을 때 스피커의 지속적인 가치라고 생각되기는 어렵다. 결국, 사용자의 히스토리를 가지고 일상적이고 반복적인 태스크를 얼마나 더 편리하고 유용하게 만들어가 줄 것이냐가 사용자들에게 부여할 수 있는 즐거움, 혹은 서프라이즈가 아닐까 싶다. "짜장면 시켜줘"라고 할 때 처음에는

이 동네 인기 많은 중국집은 ~~

당신의 집에서 제일 가까운 집은 ~~

처럼 인기나 거리순 기반의 정보밖에 줄 수 없지만, 한번 주문을 한 뒤에 바로 즐겨 찾는 메뉴로 등록할 수 있게끔 하거나 몇 번의 경험으로 반복적인 패턴이 보일 때 자연스럽게 그것을 기억해 두었다 우선순위로 제안해준다면 세심함이 돋보이는 비서가 될 수 있다.


6. 영어듣기 평가는 하지 말자


텍스트로 보는 설명과 음성으로 듣는 설명을 받아들이는 속도는 매우 다르다. 음성 인터랙션이 어렵게 느껴지는 이유 중 하나는 대화를 핑퐁하는 경우 피드백을 한 번밖에 들을 수 없고, 바로 이어서 한 번에 대답해야 하기 때문이다. 다시 말해, 끊김 없이 한 번에 플로우가 끝나야 한다. 따라서 가이드가 필요하다면 한 번에 한 가지만 짧고 쉽게 전달하자. 사용자를 갑자기 영어 듣기시험장에 놓으면 스피커 공포증이 생길지도 모른다.

VUX 설계는 한 번에 끝나지 않고 반드시 테스트를 거치며 다듬어나가는 작업이 필요하다. 온라인으로 쉽게 검색할 수 있는 무료 TTS(text to speech) reader 서비스들을 이용해보는 것도 좋은 방법이다.


마치며

음성비서는 당장 컴퓨터나 폰을 대체할 수는 없다. 하지만 스피커만의 차별적인 영역은 분명히 존재한다. 일상에 조용히 파고들어 한 자리를 차지하고 기존 디바이스와의 맥락과 끊김 없는 경험을 선사하는 것이 기획자들의 기대역할이다. 이는 곧, 공상과학 영화에서 보던 미래를 점차 우리에게로 끌어당기는 한 걸음이 될 것이다.



[참고##음성인식##]



팀블로그 pxd Story 구독 방법  블로그 글은 각 개인의 생각이며 피엑스디와 다를 수 있습니다.


Trackback 0 Comment 0
Ad Test...
2017.06.05 07:50

인풋 방식으로서의 버튼 vs 음성

개인적으로 음성인식 서비스를 처음 접했던 채널은 모바일이었다. 그래서인지 새로운 영역이라기보다는 모바일 화면설계의 범위가 확장된 정도의 수준으로 이해했던 것 같다. 이후 음성인식 서비스만을 위한 하드웨어가 처음 등장하고 이를 사용해보면서 본격적으로 "음성"이 제공하는 사용자 경험에 대해 고민해보게 되었다. 특히 음성인식 서비스를 기획하면서 기존의 화면기획 업무와 비교하며 이해하게 되었고, 더 나아가 음성 UX에 대한 여러 관점과 생각들을 정리해볼 수 있었다. 이 글은 그 첫 순서로, 인풋 방식으로서의 '버튼''음성'을 비교한 것이다. (사실 정확한 비교대상은 '터치''음성'이지만 효율적인 전달을 위해 '터치'를 '버튼'으로 적었다.)


1. 인풋과 아웃풋이 다른 버튼 vs 인풋과 아웃풋이 동일한 음성

모바일에서 '터치(버튼)' 인풋의 결과는 주로 화면 피드백과 사운드로 이루어진다. 만약 화면을 터치했을 때, 다시 화면에서 피지컬 피드백을 받는다고 상상해보면 무척 생소한 느낌이 들 것이다. '음성'은 인풋과 아웃풋이 동일한 인터렉션 방식을 가진다. 음성으로 인풋이 이루어지고 아웃풋도 음성으로 받는다. 아직 음성인식 서비스가 초기단계인만큼, 이러한 인터렉션 방식이 유용한 시나리오를 찾고, 이해하고, 적용해보는 시도가 많이 이루어지고 있다.


2. 탐색할 수 있는 버튼 메뉴 vs 아는 기능만 쓰게 되는 음성

버튼은 화면을 가진다. 사용자가 꼭 목적을 가지고 찾던 기능이 아니더라도 화면에 노출된 이상, 인지될 수 있고, 추가로 탐색하면서 새 기능을 발견할 수도 있다. 사용자가 품은 목표에 대해 후보지가 있는 셈이다. 그러나 음성을 발화하는 컨텍스트에서는 시각자료가 존재하지 않는 경우가 많다. 시각자료를 활용하기 어려운 컨텍스트이기에 음성이 더 유용해지기 때문이다. 최근에는 음성이 가지는 한계를 보완하기 위해 발화 결과를 시각자료와 함께 제공하는 서비스들이 다수 등장하기 시작한 것 같다.


3. 정확하게 조작하는 버튼 vs 찰떡같이 알아들어야 하는 음성

버튼과 음성을 시각적으로 비교하자면 아래와 같이 표현해 볼 수 있을 것 같다. 버튼은 정확한 터치 영역을 가진다. 이 영역 안으로 터치가 이루어지면 1로, 영역을 벗어나면 0으로 처리된다. 그 누구도 불만을 가질 수 없는 판단 기준이다. 그러나 음성은 이 경계가 그라데이션처럼 흐릿한 느낌이다. 어디까지를 1의 영역으로 정의할 것이냐에 대한 판단기준이 모호하기 때문에 언제나 이슈가 된다. 이 기준이 엄격하고 좁을수록 '대화'라는 경험과는 멀어진다. 즉, 사용자는 음성 디바이스가 처리할 수 있는 형식대로 정확하게 발화해주어야 한다. 반대로 넓고 유연할수록 오류는 많아진다.

"날씨 알려줘."

= or ≠

"날씨 좀 알려줘."
"오늘 화창해?"
"오늘 비가 올까?"
"우산을 챙겨야 할까?"
"오늘 쌀쌀하니?"
"내일 날은 어때?"
"날이 좋아서... 날이 좋지 않아서... 날이 적당해서..."


4. 아무때나 여러번 누를 수 있는 버튼 vs 정해진 타이밍 안에서 한번만 발화하는 음성

터치 방식은 장소와 시간에 크게 구애받지 않는다. 음성 인터페이스는 디바이스가 음성을 받을 준비가 되었다는 신호를 확인한 다음에야 인풋이 가능하다. 음성 디바이스를 처음 사용하는 경우, 이 신호에 대한 학습 때문에 사용이 매끄럽지 않은 경우가 종종 발생한다. 음성 디바이스 입장에서는 아직 사용자의 발화를 받아줄 수 있는 타이밍이 되지 않았지만, 사용자는 발화 할 수 있다. 일상의 대화가 그렇기 때문이다. 상대방의 말이 다 끝나지 않아도 내가 말을 시작할 수 있고 그 행위 자체가 의미를 가지기도 한다. (나는 네가 하는 말에 동의하지 않아 or 나는 네가 하려는 말을 이미 알고 있어 등등) 그래서 음성 디바이스는 이 타이밍을 알려주는 피드백이 반드시 필요하다. 음성인식 디바이스에서는 흔히 라이팅 피드백으로 1. 사용자의 답변을 기다리는 중, 2. 답변중, 3. 콘텐츠 재생 중 등에 대한 상태정보를 제공하며, 화면과 함께 사용되는 음성인식 서비스의 경우에도 여러 비주얼 큐와 피드백을 제공한다.

구글홈의 라이팅 피드백


5. 업데이트가 티나는 버튼 vs 몰래 업데이트가 가능한 음성

시각적인 화면 레이아웃은 업데이트에 대한 영향을 크게 받는다. 서비스의 방향성이나 타겟의 변경에 따라 기능 업데이트가 이루어지면 디자인적인 변화와 함께 레이아웃, 기능 위치 등이 달라지므로 업데이트에 대한 위험부담이 크다. 음성 서비스의 경우, 사실 해당 기능을 음성으로 발화하여 사용해보기 전까지는 기능에 대한 인지가 어려우므로 상대적으로 업데이트에 대한 부담감은 적다. 반대로 말하면 업데이트를 해도 티가 잘 안나기 때문에 새로 추가한 기능에 대한 홍보가 어렵다. 사용자가 학습하는 데에 어느정도 시간이 필요하므로 점진적인 업데이트가 필요한 면도 있다.


마치며...

이 글은 '음성'을 인풋 방식의 하나로서, '터치(버튼)' 방식과 비교한 것으로, "인식"의 범위내에서 접근한 것이다. 아직 "인식"을 넘어서는 "인공지능"의 관점에서는 제대로 아는 바가 없어서 혹시 이 관점에서 코멘트를 해주실 수 있는 분이 계신다면 좋을 것 같다. 언제가 될지모를 다음 블로깅에서는 음성서비스에 대한 UX 기획 시, 고려사항에 대해서 정리해보려고 한다. 끝.


[참고##음성인식##]



팀블로그 pxd Story 구독 방법  블로그 글은 각 개인의 생각이며 피엑스디와 다를 수 있습니다.


Trackback 0 Comment 0
Ad Test...
2015.10.13 07:50

귀와 입만 사용하는 UX: 아마존 에코


에코는 아마존(Amazon)이 2014년 11월에 발표한 음성 비서 기능을 제공하는 거치형 스피커로서, 쉽게 말해 프링글스만한 스피커 안에 시리(Siri)같은 걸 집어넣었다고 생각하시면 됩니다. 이제 시리같은 음성비서 서비스는 우리에게 어느 정도 익숙하니, 굳이 설명하지 않아도 어떤 느낌인지 감이 오실 겁니다.

문제는 스마트폰에 비해 훨씬 크고, 무겁고, 전원 코드도 꽂아야 해서 들고다닐 수도 없고, 전화/문자도 안되고, 화면도 없는 그런 기기를 아마존은 무슨 자신감으로 이런 뒤늦은 시점에 내놓았느냐 입니다.

보통 이런 종류의 ‘제품’만으론 이해하기 어려운 자신감은 ‘제품을 둘러싼 맥락’을 함께 볼 때 이해되는 것들이기 마련입니다. 이번 글에선 일단 먼저 ‘제품' 자체에 대한 이야기를 나누어 보고자 합니다.


-
1줄 요약:
‘귀와 입만 사용하는 UX’를 통해 우리는 ‘화면이 없다'와 ‘움직일 수 없다'가 왜 아마존에 의해 다분히 의도된 에코의 포지셔닝 키워드인지 일부 이해할 수 있다.
-


1. 뭐가 다른가?


이미 시리와 같은 음성비서 서비스가 보편화된 상황에서 제품에 관한 모든 이야기를 구구절절이 나누기 보단 좀 더 핵심적인 차이점에 집중하고자 합니다. 기본적으로 에코 역시 시리와 같은 음성 비서 서비스를 제공하는 블루투스 스피커로서 소프트웨어적으론 크게 다르지 않습니다. 또한 에코 역시 스마트폰과 연동되어 있고 어플 내부적으로도 계속해서 기능을 추가할 수 있기 때문에 기능적 확장성이 보장된 상황에서 소프트웨어적 차이를 이야기하는 건 큰 의미가 없습니다. 따라서 이런 땐 하드웨어에서 생기는 차이점에 그 초점을 맞추어야 합니다. 바로 에코는 화면이 없고, 움직일 수도 없다는 점입니다.

핵심 차이 1: 화면이 없다



<왼쪽: 마이크를 끌 때, 오른쪽: 알람을 끌 때, 아랫쪽 원형부분이 볼륨 조절 휠>
딱 봐도 누구나 알 수 있듯이 에코는 애초에 손으로 만지면서 쓰라고 만든 기기가 아닙니다. 외부 물리 버튼이라곤 마이크를 끌 때(전원 버튼과 같은 것으로 거의 쓸 일이 없습니다), 알람을 끌 때(음성으로도 끌 수 있습니다) 사용하는 2개의 버튼과 볼륨 조절 휠, 그리고 리모콘이 전부입니다. 스마트폰의 경우 비슷한 구성이지만 화면을 통해 풍부한 인터랙션을 제공한다는 걸 생각해볼 때, 비슷한 구성에 화면 조차 없는 에코는 모든 인터랙션을 오로지 음성에만 집중하도록 되어 있다는 걸 알 수 있습니다.


핵심 차이 2: 움직일 수 없다



<pxd 로비에 고정되어 있는 에코>

손에서 자유로워짐은 곧 사용자와의 물리적인 거리 제한에서 자유로워짐을 뜻합니다. 때문에 에코는 들고 다녀야 한다는 부담을 훌훌 털고 전원 코드를 꼽아야만 동작하는 '거치형' 기기로 디자인되어 있습니다. 모바일이라는 상위 선택지가 일반화된 상황에서 당당히 거치형을 택했다는 점에서 우린 바로 이 부분에 주목할 필요가 있습니다. 사실 이 부분이 바로 '제품을 둘러싼 맥락' 즉, 아마존의 비즈니스 모델과 스마트홈 허브 경쟁을 함께 고려했을 때 이해되는 부분입니다. 그것은 나중에 기회가 되면 좀 더 나눌 수 있도록 하고, 일단 '제품' 관점에서 두번째 핵심 특징으로 기억합니다.


귀와 입만 사용하는 UX


결국에 두 가지 핵심 차이를 묶어내면 한 자리에 고정해둔채 주로 음성을 통해 입/출력이 이루어진다는 점이 하드웨어적으로 에코가 가지는 핵심적인 포인트임을 알 수 있습니다. 즉, 고정된 자리에서 눈과 손을 쓰지 않고 귀와 입만으로 인터랙션이 이루어지는 것입니다. 그럼 지금부터 이러한 UX가 사용자 관점에서 어떻게 다른 양상을 만드는지 이야기 나누어봅니다.


2. 어떻게 다른가?


기계에서 인격체로


<대화 경험은 기계를 하나의 인격체로 받아들이게 만든다>
아이폰 안에 시리가 살 듯이, 에코 안엔 알렉사가 살고 있습니다. 그래서 명령을 내릴 때 ‘Echo,’라고 부르지 않고 ‘Alexa,’라고 부르게 됩니다. 명령을 내릴 때마다 입으로 알렉사를 부르기 때문에 실제로 반복해서 알렉사를 부르다보면 머릿 속에서 점차 에코는 희미해지고 그 자리에 알렉사가 자리하는 경험을 하게 됩니다.
나아가 대화 경험이 사용 경험 전반을 이끌다보니 자연스럽게 알렉사를 점점 하나의 기계에서 하나의 인격체로 대하게 됩니다. 애플이 시리가 시리 자신에 대한 질문에 대응할 수 있도록 하고, MS도 코타나(Cortana)가 18가지 UI를 통해 자신의 감정을 표현할 수 있도록 하고, 영화 ‘HER’에서 가상 비서와 사랑에 빠지는 설정이 등장하는 것은 대화가 이끄는 UX가 사용자에게 어떤 경험을 선사하는지 보여주는 예입니다. 특히 알렉사의 경우 오로지 대화를 통해 소통하기 때문에 이와 같은 인격체로서의 인식 경험이 더욱 두드러집니다. 비슷한 예로 PC보다 아이패드를 통해 쇼핑하는 사람이 화면 터치가 만드는 소유효과로 인해 제품을 좀 더 높은 가치로 인식했다는 연구도 있었는데, 인터랙션 형태에 따라 제품과의 애착 관계 형성 양상이 변화할 수 있다는 점은 UX적으로 여전히 흥미로운 부분입니다.


스마트폰은 터치하고 에코에겐 말을 걸고



<운전하면서 라디오 듣는 것과 같은 느낌이랄까>

화면을 아예 제거하고 음성으로만 인터랙션 창구를 열어놓다보니, 한 자리에서 스마트폰과 자연스럽게 공존하게 됩니다. 오히려 에코가 화면을 가지고 있었다면 마치 아이패드가 뻔히 옆에 있는데 스마트폰을 만지고 있는 것 같은 애매한 상황이 되었을 텐데, 애초에 화면 자체가 없다보니 인터페이스가 겹치지 않아 둘의 공존에 큰 무리가 없습니다. 그냥 평소처럼 스마트폰을 사용하며 생활하다가 알렉사가 필요할 때 주저없이 불러서 일을 처리하면 됩니다. 이렇게 에코는 스마트폰을 어설프게 대체하기보단 함께 공존하는 길을 택합니다.


입출력 수단으로서 소리의 한계: 간섭



<에코와 리모콘 Image via CNET.com>
입출력 수단으로서 소리의 한계에 관한 이야기는 음성 비서 서비스 모두에게 해당하는 내용입니다만, 특히 음성 입/출력에 전적으로 의존하는 에코에게는 더더욱 중요한 내용이 됩니다. 먼저 기본적으로 소리를 통해 입출력이 이루어지는 에코의 특성상 소리의 간섭으로 인해 생기는 한계는 명확합니다. 주변 소음 수준이 높은 상황에선 명령을 내리는 것, 답변을 듣는 것 모두 어려워집니다. 에코의 경우 이러한 불편함을 최소화하기 위해 상단에 무려 7개의 마이크를 원형으로 배치하여 잘 들을 수 있도록 배려하였고, 원통의 크기의 대부분을 스피커에 할애하여 잘 들릴 수 있도록 배려하였습니다. 또한 마이크를 통해 원격으로 음성 입력이 가능하도록 배려하여 소리가 도달가능한 범위가 가지는 한계를 해소할 수 있도록 배려하였습니다. 실제 사용해본 결과 음악이 흐르거나 알람이 울리는 도중에도 알렉사라고 부르는 것에 잘 응답하고(같은 상황에서 시리는 응답하지 않았습니다.) 스피커는 최대 볼륨의 경우 일반적인 거실 크기 정도는 꽉 채울 만큼의 큰 소리가 출력됨을 확인할 수 있었습니다.


입출력 수단으로서 소리의 한계: 발음



<거리를 부피로 바꿔달라니, 무슨 말씀이신지: 발음 탓에 gallon을 kilo로 알아들은 에코>
발음을 잘못 알아듣는 것은 음성 입력 수단의 고질적인 문제점입니다. 오늘날까지도 이러한 불편함은 완전히 해소되지 못했습니다. 특히 음성 인터랙션에 있어 이 문제가 더욱 심각한 건 오작동을 한 눈에 확인하고 만약의 경우 취소 및 돌아가기 과정이 터치 한 번으로 이루어질 수 있는 화면 인터랙션에 비해, 음성 인터랙션은 오작동 여부를 판단하고, 취소 및 돌아가기 과정을 소화하기 위해 더 많은 시간과 더 높은 주의를 필요로 하기 때문입니다. 이처럼 아예 첫 대면에서부터 인터페이스가 오작동한다는 것은 UX에 굉장히 치명적이기 때문에 이것을 한 번 경험해 본 사람들은 좀 불편하더라도 더 익숙하고 확실한 구세대의 인터페이스를 여전히 선호하게 됩니다. 따라서 사실 음성 입력은 오히려 터치 입력보다도 더 높은 정확도를 지녀야 하는 것입니다.


입출력 수단으로서 소리의 한계: 사용법 숙지



<주인님, 이렇게 말씀해주셔야 합니다>

나아가 발음과 관련된 문제가 완전히 해소되었다하더라도 음성 입력 수단이 넘어야 할 산은 또 있습니다. 바로 사용법 숙지의 장벽입니다. 시각적으로 뭘 할 수 있고 어떻게 하면 되고가 명확히 보이는 화면 입력과 달리 음성 입력의 경우 뭘 할 수 있고 어떻게 하면 되고를 미리 숙지하고 있어야 합니다. 즉, 그냥 말만 하면 될 것 같아 보이지만 사실은 어떻게 말해야 하는지를 또 배워야 한다는 것입니다. 따라서 사용법 자체를 통째로 숙지하고 있어야 한다는 점에서, 사실 음성 인터랙션은 오히려 화면 인터랙션보다 더 높은 진입 장벽을 가지고 있는 것입니다.


입출력 수단으로서 소리의 한계: 입출력 정보 형태의 한계



<말씀하신 '우유' 관련 제품이 정확히 이백십칠만사천삼백구입육개있습니다. 첫번째 제품의 이름은..>
음성으로 취급하기에 적합한 정보 형태가 가지는 한계도 명확합니다. 음성 입력의 경우 명령문의 종류와 이에 필요한 몇 가지 파라미터로 구성된 문장 형태를 취하는 것이 현재 수준이기 때문에 '단순 명령, 정보 확인'보다 높은 차원의 정보 입력이 이루어지기 어렵습니다. 음성 출력의 경우에도 아직 맥락에 따라 정보를 가공하는 수준이 낮기 때문에 '단순 정보 확인 및 보고' 이상의 정보 출력이 이루어지기 어렵습니다.


가장 적합한 공간: 주방에서의 쓰임새



<에코 소개 영상에도 주방 씬이>

집 안에서 눈과 손을 쓰지 않고 귀와 입만으로 이루어지는 UX가 놓이기 가장 적합한 공간은 어디일까요? 거실에선 TV가 눈과 귀를 점유할 것이고, 각자의 방에선 PC와 스마트폰, 이어폰 등의 다양한 도구들이 최소한 눈과 손, 귀 정도는 점유할 것입니다. 결국에, 눈과 손의 점유권을 내어주고 귀와 입만으로 인터랙션을 만들어나가기에 가장 적합한 공간은 주방임을 알 수 있습니다. 요리와 식사는 눈과 손을 점유하되, 귀와 입을 점유하지 않는 대표적인 행동들입니다.

<멀티 타이머 기능>
그래서인지 에코엔 주방에 좀 더 적합할 수 있는 기능들이 몇 가지 담겨 있습니다. 먼저 일반적인 스마트폰의 타이머와 달리 멀티 타이머 기능을 제공합니다. 하나의 타이머를 설정해두고 다시 타이머를 한 번 더 설정하면 자연스럽게 ‘두번째 타이머를 설정합니다.’라고 이야기하며 동시에 두 개의 타이머를 진행시킵니다. 요리를 하다보면 하나를 올려두고, 또 다른 하나를 진행하다 이전 것을 잊거나, 혼란스러워하는 상황이 발생하기 쉬운데 이런 면에서 알렉사는 손쉽게 여러 요리를 빠짐없이 시간을 체크하며 진행할 수 있게 도와줍니다.

<이 정도는 기본>
계량 단위 변환 역시 지원합니다. 단위 변환 뿐만 아니라 단순 내용 검색 기능도 지원하기 때문에 스마트폰 속 레시피를 바라보며 요리하다가 간단히 검색해볼만한 내용이 생겼을 때 곧바로 에코에게 말로 물어보고 귀로 답을 들으며 요리를 진행할 수 있습니다. 이는 화면을 전환해서 시리에게 물어보거나 검색어를 손으로 입력했다가 다시 레시피 화면으로 돌아오는 것에 비해 훨씬 쾌적한 경험입니다.

<쇼핑리스트. 일부 품목은 아마존 프라임을 통해 바로 재구매 가능>
쇼핑리스트 관리는 요리를 위해 특화된 기능은 아니지만, 나름 편리한 상황을 연출할 수 있습니다. 요리에 필요한 재료 목록을 준비하거나, 요리하다 중간에 떨어진 재료를 발견했을 때 음성으로 추가할 수 있습니다. 이는 손으로 재료를 정리하다말고 그때마다 스마트폰을 오가는 것에 비해 훨씬 손쉬우며, 일부 품목의 경우 아마존과 연계하여 바로 재구매할 수도 있어 편리합니다.

<냉장고 안에 카메라를 설치하여 스마트폰/패드로 내부 모습 관찰 By Siemens, Image via reviewed.com>

<냉장고 문의 일부를 유리로 처리하여 직접 관찰 By Haier, Image via CNET Korea blog>
최근 IFA 2015에 등장한 냉장고들에서도 볼 수 있듯이 냉장고안 식자재 파악/관리에 대한 니즈 대응이 서서히 이루어지고 있는데 이 과정에서 가장 큰 화두는 '뭘 넣었는지 어떻게 알거냐'입니다.

<터치 인터페이스를 장착한 스마트 냉장고>

이걸 해결하기 위해 터치스크린으로 냉장고를 드나드는 식품 정보를 입력하도록 한다면 그 자체로도 번거로울 뿐만 아니라 식자재를 넣는 손과 터치스크린에 정보를 입력하는 손의 점유가 겹치면서 불편한 상황이 연출될 수 있습니다. 이런 면에서 에코가 항상 주방에 상주하며 냉장고 안에 유통기한 등의 관리가 필요한 무언가를 넣거나 꺼낼 때 음성을 통해 자연스럽게 기록할 수 있게 한다면 인터페이스 수단이 겹쳐서 생기는 불편함을 어느 정도 해소해낼 수 있을 것입니다.



<Image via obrella.com>
그리고 무엇보다 스마트홈 환경이 구축되었을 때에야 비로소, 에코가 가진 주방에서의 잠재력이 충분히 드러나게 될 것입니다. 왜냐하면 눈과 손, 귀와 입과 같이 각각이 독립된 입출력 채널들의 공존은 곧 멀티태스킹이 가능해짐을 의미하기 때문입니다. 에코에게 있어 스마트홈 환경은 집 안에서 이러한 멀티태스킹 효과를 체감할 수 있도록 해주는 대표적인 충분 조건입니다. 요리하다말고 밀가루 묻은 손을 씻고 현관까지 가서 문 열어주고 다시 돌아와서 가스레인지 불 줄이고 세탁기 다 돌았는지 확인하러 다시 나갈것이 아니라 바로 그냥 선 자리에서 입으로 주방과 온 집안을 통제하고 귀로 상황을 보고 받는 것입니다. 눈과 손은 여전히 요리에 집중한 채로 말이죠.


3. 현재의 ’제품'만으론 아직 갸우뚱, ’제품을 둘러싼 맥락’으로 미래를 함께 봐야


음성 비서 기능이 포함된 블루투스 스피커 제품 자체로만 봤을 때 디자인, 마감, 설치/이용 UX도 훌륭한 수준입니다. 하지만 기능적으로 음성 비서 기능과 블루투스 스피커 기능은 각각 스마트폰과 블루투스 스피커 제품 조합으로도 충분히 이용가능하므로 스마트폰이 이미 있는 사람에겐 가격적으로 불리한 선택이(에코는 180$이며 블루투스 스피커는 그 절반인 90$ 이하로도 선택가능한 좋은 제품이 많습니다.) 될 수 있습니다. 또한 우리나라에선 아마존의 서비스를 완전히 제공받을 수 없으니 불리함은 더욱 커질 수 있습니다. 따라서 ‘제품'만 놓고 보았을 땐 아직까지 구매하기에 갸우뚱한 느낌이 듭니다.

하지만 이것만으로 에코를 속단하기엔 너무 이릅니다. 비교하자면 지금의 에코는 아이팟(iPod), 곧 다가올 미래의 에코는 아이폰(iPhone)과 같습니다. 앱을 언급하지 않고 아이폰 리뷰를 하는 것이 얼마나 의미없는 것인지 우리가 알고 있듯이 ‘에코를 둘러싼 맥락', 즉 아마존의 비즈니스 모델과 전략, 스마트홈 허브로서의 포지셔닝을 함께 이야기해야 에코 역시 그것의 가치를 제대로 다룰 수 있습니다. 이번 글에선 이러한 부분을 배제하고 순수 ‘제품'에 대해서만 이야기를 다룬 만큼 아이팟 리뷰를 보며 아이폰이 만들 미래를 놓치는 우를 범하는 일이 없으시기 바랍니다.

그래도 이번 글을 통해 ‘귀와 입만 사용하는 UX’가 사용자 관점에서 어떻게 다른 양상을 만드는지 이해하는데 있어 작은 도움이 되셨길 바라며 나중에 기회가 되면 ‘에코를 둘러싼 맥락'에 대해서도 함께 이야기를 나누어보도록 합니다.


[참고##서비스 디자인##]




팀블로그 pxd Story 구독 방법  블로그 글은 각 개인의 생각이며 피엑스디와 다를 수 있습니다.


Trackback 0 Comment 2
Ad Test...
2010.07.16 16:55

다음 지도앱 음성검색 - Primary Action


다음 지도 앱에 음성검색 기능이 추가되었습니다. 다음앱과 동일한 음성인식엔진을 사용하지만 체감하는 인식율은 더 높습니다. 지도 검색이라는 컨텍스트가 정해지니까 음성 매칭을 하는 말뭉치(corpus)도 POI정도로 한정하기 때문입니다.

아래 왼쪽이 다음 일반 검색, 오른쪽이 다음 지도 검색입니다. 지역 정보 키워드가 아닌것은 배제하여 유사한 발음으로 오인식될 수 있는 키워드도 줄어드니까 인식 성공률이 높아지겠죠.


(다른 그림 찾기 : 아이폰 UI컨벤션으로는 왼쪽에 취소버튼을 둡니다)




음성 인식 Best Matching Keyword

다음앱에서는 설정에서 음성 검색 후에 음성 분석 결과를 볼지 바로 검색결과를 볼지 선택할 수 있었는데, 이번 다음 지도에서는 선택없이 음성 분석 결과를 보여줍니다.
그런데 이 음성인식 결과의 표현 방식에 좀 문제가 있습니다. 이 UI만 보면 다음은 음성 인식율에 자신감이 없다고 고백하는것처럼 보입니다. (사실 좀 어이없는 매칭을 보여주는 경우가 많긴 했지만 :) 대부분은 제대로된 음성매칭결과를 보여줬습니다.)

primary action 디자인패턴이 제대로 적용되어 있지 않기 때문인데요. 모든  항목이 시각적으로 동일한 priority로 보여지고 있어서 의도했던 키워드를 선택하기가 쉽지 않습니다. 선택지가 많으면 인지적으로도 부담이 되니까 ( hick's law ) 선택할 확율이 가장 높은것을 딱 집어서 강조해주는 것이 좋습니다. 노란색으로 차이를 두긴 했지만 인지적 측면과 더불어 조작(버튼 누르기)도 쉽게 할 필요가 있습니다. fitts's law 는 포인팅 디바이스를 기반으로 하고있지만 터치인터페이스에서도 버튼이 크면 빨리 누른다는데는 변함이 없습니다.

이전 글 모바일검색 suggesiton UI 에서 제안했던것처럼 음성 매칭 결과도 리스트형태가 아니라 가장 추천하는 키워드는 크게 나머지는 버블로 비대칭적으로 표시하는게 어떨까 싶네요. 아직 기대 수준만큼은 아니지만 꽤 잘 맞는것 같으니까 좀 자신감을 가져도 되지 않을까요? :)






Primary Action 

검색결과 페이지의 페이징 버튼을 보면 다음은 검색에서도 사용자가 뭘 선택할지 자신이 없는것 같습니다. 로그만 분석해보면 1페이지를 볼때는 2페이지를 가장 많이 누르고 2페이지를 볼때는 3페이지를 가장 많이 누른다는걸 알 수 있을거에요. 내기해도 좋아요. 검색 결과 페이지에서 primary action은 다음 페이지( 현재 +1 )를 보는것입니다. 익숙했던것을 바꾸면 처음에는 고객이 조금 혼란 스럽겠지만 네이버는 잘 바꿨잖아요.


다음


네이버


구글


[참고##음성##]



팀블로그 pxd Story 구독 방법  블로그 글은 각 개인의 생각이며 피엑스디와 다를 수 있습니다.


Trackback 0 Comment 0
Ad Test...