태터데스크 관리자

도움말
닫기
적용하기   첫페이지 만들기

태터데스크 메시지

저장하였습니다.


'음성UI'에 해당되는 글 6건

  1. 2018.07.02 6개의 가상개인비서(Agent) 사용 후기 by 고은빈
  2. 2018.01.25 [독후감] 인터페이스 없는 인터페이스 by 이 재용
  3. 2017.10.23 UX의 미래는 여기에 있다 - UX for Next Billion Users by 이 재용
  4. 2015.10.13 귀와 입만 사용하는 UX: 아마존 에코 (2) by 오진욱
  5. 2010.07.16 다음 지도앱 음성검색 - Primary Action by 無異
  6. 2010.03.19 Siri, Personal Assistant? by KyongHo
2018.07.02 07:50

6개의 가상개인비서(Agent) 사용 후기


1. 들어가며

인턴 UI 디자이너로서 두 달간 일하며 음성 인식 기술을 공부하고 탐구해볼 기회가 생겼다. 개인적으로 시리를 몇 번 정도 사용해본 경험은 있지만, 사용 경험이 그리 만족스럽지 않아 지속적인 사용으로 이어지지 않았었다. 따라서 나에게 가상 개인비서(Agent)란 가깝고도 먼 존재였다. 하지만 이번을 계기로 구글 어시스턴트, 시리, 빅스비, 네이버 클로바, SK 누구, 알렉사 총 6개의 가상 개인비서(Agent)를 본격적으로, 성실히 사용해보았다.

최근 음성 인식 기술에 대한 높은 관심으로 인해, 여러 기업의 가상 개인비서(Agent)에 대한 사용 경험을 비교, 정리한 영상이나 자료들을 어렵지 않게 찾을 수 있었다. (이하 ‘음성 에이전트’라고 하겠다) 필자 또한 이의 연장 선상에서 수많은 발화를 각 음성 에이전트에게 말했을 때, 각 음성 에이전트가 어떻게 호응(반응)하는지에 대해 정리하고 느낀 점을 써보려 한다. 다만 기존 비교들과 다르게 ‘기능 수행’에 초점을 맞추기보단 ‘칫챗(Chit-Chat)’을 다양하게 시도해본 후 각 음성 에이전트가 어떻게 호응(반응)하는지 위주로 작성했다. 여기서 ‘칫챗’이란, 목적 없는 수다, 잡담 정도로 이해하면 될 것 같다. 따라서 ‘특정 서비스 기능에 대한 사용성 비교’보다 ‘칫챗 발화에 대한 대응 비교’라고 하는 것이 더 적절할 것 같다.


2. 각 발화 사례와 그에 따른 응답 내용

1) 에이전트 자체에 대한 질문

음성 에이전트가 기계임에 한정 짓지 않은 질문(실제 사람 간의 대화 같은)을 했을 때의 내용이다. 이를 통해 각 음성 에이전트의 포지션과 성격을 느낄 수 있었다. “넌 누구야?”라는 질문을 했을 때만 보아도, 대부분 자신을 ‘비서’로 소개하고 있었으나 빅스비와 클로바의 경우 ‘친구’라는 역할을 언급했다. ‘비서’라는 역할에 그치지 않고 ‘친구’로서 자리 잡고자 하는 의도를 느낄 수 있었다. 또한 흥미로웠던 점은 음성 에이전트가 자신의 자아(?)가 있음을 표현한다는 것이었다. (물론 에이전트에 대한 모든 질문에 자연스럽게 대답하는 것은 아니었지만) 예를 들어, 알렉사의 경우 커피를 좋아하느냐는 질문에 “Yes. In fact, I love iced coffee.”라며 냉커피를 좋아한다는 선호를 밝히는 대답을 했다. 이와 반대로 시리의 경우는 혼자 있을 때 주로 뭐하냐는 질문에 “온 세상이 제 관계에 대해 관심이 많은 것 같네요.”라며 다소 시크한 응답을 주었다. 자신을 효율적인 업무수행을 돕는 ‘비서’ 역할에 한정 지었기 때문에 스스로에 대한 캐릭터나 특성에 대한 질문에는 의도적으로 자신을 드러내지 않는 듯한 느낌을 받았다.


2) 사용자의 컨디션 발화

사용자의 컨디션에 대해 말했을 때의 내용이다. “배고파”라고 말했을 때 음성 에이전트별로 적극성의 정도에서 다른 반응을 보였다. 빅스비와 누구의 경우, “맛있는 거 먹고 기운 내요!”, “항상 든든하게 챙겨 드시길 바랄게요.”라며 general(일반적인) 호응을 해주었지만, 실질적인 도움은 되진 않았다. 빅스비는 전반적으로 순종적이지만 융통성이 부족한 친구처럼 느껴졌다... 반면, 시리, 구글 어시스턴트와 알렉사의 경우 주변에 맛집을 찾아주겠다며 적극적인 태도를 보였다. 특히 시리는 “배고프면 뭘 먹어야지요”라며 어투적인 면에서나 결과 15개를 보여주며 대안을 제시하는 모습에서, 더욱더 주도적이고 적극적으로 느껴졌다. “취했어”라고 말했을 때 또한 시리는 “우리 중 누구도 집에 갈 때 절대로 운전해서는 안 돼요”라고 단호하게 말하며 택시 앱을 연동해주는 것을 통해 눈치 빠른 비서라는 생각이 들었다.


3) 사용자의 행동 발화

사용자의 행동에 대해 말했을 때의 내용이다. “나 집에 왔어”라고 말했을 때 구글 어시스턴트를 제외한 다른 에이전트들은 비슷한 방식으로 사용자를 반겨주었다. 사실 이 발화는 함께 이동하는 모바일보다는, 집을 지키고 있는 스피커에게 “나 집에 왔어”라고 할 때가 더 자연스러울 것 같다는 생각이 들었다. 구글 어시스턴트는 구글 홈(AI 스피커)을 통해 사용자가 집에 왔을 때 최적의 환경을 조성해주는 기능을 제공하는 듯했다. “나 운동할 거야”, “피자 먹을 거야”라고 말했을 때는 이전 내용과 비슷하게 바로 서비스(앱)를 연동해주거나 검색 결과를 제공해주는 적극성을 띤 답변들과 가벼운 공감을 해주는 답변들 정도로 나뉘었다.



영화 Her 중에서


3. 마치며

6개의 음성 에이전트를 사용하며 많은 칫챗을 나눌 수 있었다. 이전에 시리를 사용해보며 사용 경험이 만족스럽지 않았기 때문에 낮은 기대에서 시작했지만, 사람이 할 법한 답변을 해내는 몇몇 음성 에이전트를 경험하며 이전보다는 음성 대화에 대한 기대 수준이 높아짐을 느낄 수 있었다. 또한 이제부터는 더 높은 음성 인식률을 내세우는 경쟁이 아닌, 좀 더 높은 수준의 질적 답변을 줄 수 있는지에 대한 경쟁이라는 생각이 들었다. 현재는 정해진 답변 중에서 랜덤으로 제공되는 것이 사용자의 입장에서도 느껴지기 때문에 칫챗 대화가 어색할 수밖에 없다. 그래서 사용자들도 처음 몇 번을 제외하고는 대화 경험이 만족스럽지 않아 외면하게 되는 것 같다. (필자 포함) 하지만 기업별로 음성 인식 기술에 대한 고도화와 더 나은 VUI(Voice User Interaction) 설계에 총력을 다하고 있는 만큼 달라지는 모습을 기대해 볼 만 하다고 생각한다. 가까운 미래에는 내 마음을 잘 알아주며 자연스러운 칫챗대화가 가능한 센스있는 음성 에이전트로 발전하길 기대해 본다.


[참고##음성인식##]



팀블로그 pxd Story 구독 방법  블로그 글은 각 개인의 생각이며 피엑스디와 다를 수 있습니다.


Trackback 0 Comment 0
Ad Test...
2018.01.25 07:50

[독후감] 인터페이스 없는 인터페이스

인터페이스 없는 인터페이스

골든 크리슈나 지음 | 허유리, 진현정 역


[원서 정보]

The Best Interface is No Interface
: The Simple Path to Brilliant Technology

- Golden Krishna


훌륭한 인터페이스는 인터페이스가 없는 것이다

2012년 8월 The best interface is no interface라는 무척 흥미로운 글이 쿠퍼의 블로그에 올라왔다. 피엑스디 내부에도 공유되어 많은 사람들이 저마다 한 마디씩 의견을 냈다.

저자나 저자가 인용한 돈 노만의 말대로, 인터페이스는 언제나 우리가 하려는 일에 대해 도움을 주는 것이지만, 그것의 존재가 때론 방해가 될 수 있기 때문에 궁극의 인터페이스는 그것이 느껴지지 않는 것이어야 한다는 말은 맞는 말이고, 사실 새로운 말이 전혀 아니다. 잘 만든 인터페이스는 언제나 사람들이 그것을 느끼지 않게 만든다. 무언가 같은 일을 하는 불편한 인터페이스를 만났을 때야 비로소 사람들은 ‘아 지난번에 이런 것이 매우 편해서 몰랐었는데…’라고 하며 인터페이스의 존재를 깨닫게 되는 것이다.

없는 인터페이스(No Interface)라고 하든, 투명한/안 보이는 인터페이스(Invisible Interface)라고 하든, 제로 UI라고 하든, 또 이 당시 유행했던 용어대로 자연스러운 인터페이스(NUI, Natural User Interface)라고 하든 상관없이 사람들은 항상 이런 것이 궁극의 인터페이스라고 생각했지만, 자동차용 앱이나 냉장고에 붙어 있는 터치패널 등 당시에 있었던 여러 현상을 묶어서 뚜렷한 방향을 제시했던 이 글은 피엑스디 사람들뿐만 아니라 많은 디자이너들에게 영향을 끼쳤던 것 같다.

이듬해 2013년 4월 그가 SXSW에서 키노트 연설을 하고, 2015년 이 생각들을 모아 2015년 2월 책을 발간하고, 2016년에 번역 리뷰를 실었을 때도 많은 한국 독자들이 관심을 표했다.

저자는 인터페이스가 없는 것이 가장 좋은 인터페이스라는 점을 주장하면서, 우리가 얼마나 기존의 ‘스크린 중심’ 사고에 빠져 있는지에 대해 낱낱이 비판을 한다. 무언가 새로운 화면을 만들기 전에 사용자를 잘 관찰하고 그것을 (가능하면) 화면이나 인터페이스 없이 해결할 수 있는지 살펴봐야 한다는 그의 주장 혹은 예견은 센서의 발달과 상호작용의 고도화를 거쳐 오늘날 점점 더 중요하고 설득력 있는 사실이 되었다. 인공지능과 음성인식 등의 발달로 너무 당연하게도 화면을 벗어난 인터페이스가 하나의 큰 주류를 차지할 것이 분명해지는 이 시점에 인터페이스 디자이너라면 누구나 꼭 읽고 생각해 보아야 할 주제가 되었다.


보이는 인터페이스와 보이지 않는 인터페이스는 각자의 역할을 찾을 것이다

“훌륭한 인터페이스는 인터페이스 자체가 없는 것이다”라고 했지만, 이는 단순히 모든 결과물에서 인터페이스를 없애야 한다는 의미가 아니다. 최고의 결과물을 얻으려면 인터페이스를 없애는 것이 가장 가능성 있는 방법이라는 뜻이다. 인터페이스를 없애는 것만이 유일한 해결책이라 우기는 건 정말 멍청한 짓이다. (p244)

물론, 이것이 유일한 해법은 아니다. 분명 미래에는 화면 인터페이스에도 중요한 역할이 있고, 보이지 않는 인터페이스에도 중요한 역할이 있을 것이다. 우리는 각각이 무엇에 더 좋고, 더 나쁜지, 그리고 둘을 어떻게 섞어서 사용해야 하는지에 대해 더 많이 알게 될 것이다. 그러나 적어도 지금처럼 모든 문제를 화면에서 해결하려 하거나, 뭐든지 음성이나 대화형 인터페이스로 만들려는 시도를 더 하지는 않기를 바란다.

피엑스디에서도 이러한 변화에 대한 글들을 게재하고 있는데,

이러한 변화의 중심에는 ‘시간 위의 디자인’이라는 공통의 주제가 있다.

우리는 앞으로도 계속 화면과 공간을 디자인하겠지만 지금 우리에게 더 필요한 것은 시간 위에 디자인하는 기술이다. 언제 사용자에게 무엇으로 알릴지 등 시간의 흐름에 사용자를 끌어들인 뒤, 시간 흐름에서 사용자와 대화하는 기술 등을 통해 사용자의 경험을 설계해야 한다. 그러나 무엇이든 화면을 달고 인터랙션을 하려고 했던 시도가 어색했던 것처럼, 무엇이든 채팅이나 대화형으로 만들려고 하는 시도 또한 어색하게 느껴질 것이다.

당연히, 인터페이스가 보이지 않는다고 해서 인터페이스가 '없다'라고 표현하는 건, 의미를 강조하기 위한 것이지 실제 인터페이스가 없다고 생각하는 건 아닐 거라고 믿는다. 화면이든, 음성이든 사람들이 하려는 바를 자연스럽게 이루어주도록 하여, 사람들이 인터페이스를 느끼지 못하게 하는 것이 목표이고 이를 위해 중요한 것은 사람들을 연구하고 인터페이스의 특성을 잘 이해하는 것이다.

이를 위해 우리는 사용자의 데이터를 분석하고, 음성 인터페이스나 대화형 인터페이스, 인공지능, 센서 기술 등을 ‘활용’해야 한다. 기술을 ‘위해서’ 디자인하지 말고.


[참고]

* 이 글은 추천사 작성용 번역 초고를 제공받아 작성되었고, 번역자들은 피엑스디 구성원이다.

* 책 정보 보기 : 인터페이스 없는 인터페이스


[참고##미래잡담##]


팀블로그 pxd Story 구독 방법  블로그 글은 각 개인의 생각이며 피엑스디와 다를 수 있습니다.


Trackback 0 Comment 0
Ad Test...
2017.10.23 07:50

UX의 미래는 여기에 있다 - UX for Next Billion Users

가끔 UX에 관련한 토론회 같은데 가면 사람들이 "UX의 미래는 무엇일까요?" 같은 황당한 질문을 한다. 내가 어떻게 알겠는가? 그리고 사실 별로 궁금하지도 않다. 그것보다는 "내 미래는 어떻게 될까"가 훨씬 궁금하고 알고 싶다. 그래도 전문가로서 불려갔으니 "하나도 안 궁금하고, 내 미래가 진짜 궁금함" 이렇게 답변할 수는 없다.

그래서 항상 그런 종류의 질문에 답변을 준비해 간다. UX의 미래는 어디에 있을까?


영화속 미래 UX와 AI 

UX의 미래라면 어떤 그림이 떠오르는가? 

많은 사람들이 마이너리티 리포트의 한 장면을 떠올린다. 그러나 실제로 전문가들이 생각하는 UX의 미래는 이런 것과는 거리가 멀다. 그렇다면 어떤 방향일까?


UX의 미래는 톰 크루즈의 손에 있지 않다.


얼마전 ZDNet에는 "AI는 새로운 UI다"라는 기사가 실렸다.

엑센츄어의 기술트렌드 보고서를 인용한 기사에서는, 인공지능(AI)기술의 저변이 늘어나게 된 핵심 이유 중 하나가 이들이 사용자들과 직접 맞닿아 있는 사용자 인터페이스(UI)로서 새로운 사용자 경험(UX)을 제공하고 있기 때문이라는 분석을 인용했다.

먼저 5년 내 절반 이상 사용자들이 기업들의 전통적인 서비스 대신 AI 기반 서비스를 선택하게 될 것이다. 또 7년 내에 대부분 인터페이스가 화면을 갖지 않게 되고 일상 업무와 통합될 것이다. 끝으로 10년 뒤에는 디지털비서가 전면적으로 보급돼 임직원들이 365일/7일/24시간 생산성을 유지하도록 지원할 것으로 전망된다.

사실 대부분의 인터페이스가 화면을 갖지 않게 될 것이라는 전망은 동의하지 않는다. 화면 인터페이스는 화면 인터페이스대로 자기가 가장 잘 하는 분야로서 자리를 찾을 것이다. 어쨌든 형태도 많이 바뀔 것이고 비중도 지금보다 심각하게 줄어들 것임은 틀림없다. 

그런데 이런 예측은 이제 막 나온 애기는 아니다.


픽셀의 종말

2016년 1월 Fabricio Teixeira와 그의 팀은 2016년에 유행할 UX 트렌드에 대해서 발표하면서 그 첫 번째 특징으로 픽셀의 종말에 대해서 이야기했다.

The State of UX in 2016

우리는 지금도 열심히 UX 디자인을 하고 있지만 Flat 디자인이라는 트렌드와, 모바일이라는 플랫폼, 그리고 결국 모두 비슷한 시각 언어를 사용하는 탓에 거의 모든 디자인이 서로 비슷해 보인다는 점을 지적하면서, 화면에는 더 이상 디자인할 것이 많지 않다고 주장했다. 어쩌면 우리가 알고 있는 어플(앱 App)이라는 것도 사라질지 모르고, 우리는 대화형 인터페이스나 다른 종류의 방식을 통해서 더 이상 픽셀을 디자인하지 않는 시대에 살지 모른다는 주장이다.

특히 그는 세 번째 특징에서 "Designing Around Time"을 주장하면서, 우리는 더 이상 공간상에 디자인하기 보다는 시간상에 디자인을 한다고 말한다. 길에 서면 택시를 부르는 인터페이스를 띄우고, 드라이버를 기다릴 땐 드라이버 정보를 보여주며, 여정이 끝나면 기사에 대해 평가하고 결제하는 우버의 인터페이스처럼, 우리는 시간의 흐름에 맞는 인터페이스를 보여주어 자연스러운 UX를 만드는 것이, 공간을 배치하는 것보다 훨씬 중요한 시대에 살고 있다.

예전에는 앱을 처음 만든다든지 개편한다든지 하면 '메인 화면을 어떻게 만드느냐'에 집중했다면, 이제 UX 디자이너들은 첫 일주일을 어떻게 만드느냐를 고민해야 한다. 처음 사용자들이 우리 앱에 들어와서 어떤 정보를 접하고, 나가야 하며, 언제/왜 두 번째 방문을 하도록 설계해야하고, 그렇게 첫 일주일을 우리 앱의 가치를 느끼면서 쓸 수 있도록 해야 우리의 고객이 되기 때문이다.

특히 시간에 대한 설계에서는 대화형 커머스라든지, 빅데이터에 의한 맞춤형 제안이라든지, 사용자의 주요 상황에 따른 적절한 푸시 노티피케이션 같은 부분들이 중요해지므로, 인공지능이나 데이터 분석이 더욱 중요해 지게 된다.

그런데 이런 얘기를 하면, 사람들은 여전히 'UX의 미래'라면 뭔가 굉장히 첨단스러운 것, 뭔가 굉장히 미래스러운 것을 생각하게 된다. 하지만 내 생각은 다르다.


스마트폰의 다음 세대

2017년 8월 Wall Street Journal에서는 지금까지 우리가 스마트폰을 대략 10억대 쯤 만들고 팔았는데, 앞으로 다음 10억대는 누구에게 팔 건가?라는 질문을 던지면서 다음과 같은 기사를 내 놓았다.

The End of Typing: The Next Billion Mobile Users Will Rely on Video and Voice

지금까지는 가난과 낮은 교육 수준으로 문맹률이 높은 사람들은 인터넷 사용과 거리가 멀었는데, 저가 스마트폰의 보급, 저렴한 데이터 요금제 출시 덕분에 인터넷을 태어나서 처음으로 사용할 수 있게 되었고 여기에 중요한 것은 직관적인 UX를 가진 앱들이다.


그렇다. UX의 미래는 이 사람, 인도 철도 노동자의 손에 있다.


지금까지 스마트폰을 구입했던 이전 10억명과 달리 앞으로 10억명의 인터넷 이용 행태는 타이핑, 이메일 등 문자가 아니라, 음성, 영상, 그리고 그림으로 소통하는 것이다. 검색하고 통화할 때 뿐만 아니라, 소셜 서비스나 상거래 서비스까지도 모두 이러한 방식이 주류를 이루게 될 것이다. 아니 그럴 수 밖에 없다. 글을 모르기 때문에.

예를 들어 인도의 인구는 13억 명이지만, 이중 4억이 스마트폰을 사용하고 있다. 2015년부터 10-30만원대의 스마트폰이 쏟아져 나오면서 이들은 처음 IT 기기라는 걸 사용해 보고 있다. 매달 2천만명이 인생에서 처음으로 스마트폰을 구입하고 거기서 유투브로 동영상을 보고, 셀카(Selfie)를 찍고, 통화를 하고, 음성으로 검색을 한다. 우리가 처음 이런 일들을 하던 때의 경이로움을 생각하면, 이들이 돈이 없을 때 콜라를 사는 대신 통신 요금을 더 지불하는 것이 이해가 간다.

시골 소비자들이 수중에 돈이 없어 선택해야만 하면 콜라를 사기 보단 핸드폰 통신 요금을 충전한다.

Whatever little money was in their hands, rural consumers preferred to spend on mobile recharge rather than colas. Rural India cuts down on discretionary spends to save for internet and mobile talk-time packs 2016.7 Economic Times

위 WSJ 기사에서는 구글이 제공하는 기차역 주변의 무료와이파이를 이용하여 철도 주변 노동자들이 스마트폰을 즐기고 있으며, 아울러 이런 사람들이 편리하게 일용직을 찾을 수 있는 스마트폰 앱도 보급되고 있다고 전한다. 이런 사람들이 앞으로 10억명이고, 따라서

* 지금보다 훨씬 단순한 이미지 중심 UX, 

* 화면이나 공간에 펼쳐지는 UX가 아닌 시간에 펼쳐지는 UX, 그리고

* 글자 중심이 아닌 음성/비디오 중심으로 이루어진 UX

가 이들에게 핵심이 될 것이다.

대화형 UX라든지, AI UX라든지 하는 것들이 선진국 사용자, 텍스트 중심의 사용자들에게 주는 이득은 있기는 하겠지만 매우 적다. 이미 현재의 화면에서도 크게 불편함을 느끼지 않기 때문에 이러한 미래형 UX는 선진국에서는 실험실의 장난감을 벗어나기 힘들다. 하지만 글을 읽지 못 하는 다음 10억명의 스마트폰 사용자들은 이런 UX가 아니면 쓸 수가 없을 것이기 때문에 이런 '미래형 UX'는 남아시아의 나라들에서 꽃이 필 확률이 매우 크다. UX의 미래는 SF 영화에 있는 것도 아니고, 선진국 실험실에 있는 것도 아니다. 톰 크루즈의 손에 있는 것이 아니라 인도 철도 노동자의 손에 있다.

[참고] UX for Next Billion Users by Google
[참고] 문맹자들도 쓸 수 있는 쉬운 금융앱 UX를 연구하는 My Oral Village, Inc.
[참고] 인도네시아에서 앱으로 교통비 바가지 면하기
[참고] [박성연의 비영리를 위한 혁신] 생존을 위한 MP3 백과사전, 유리두(URIDU)


한국에서는?

한국에서도 여전히 더 쉬운 UX를 필요로하는 다양한 계층이 있다. 대표적으로 50대 이상의 노안 소비자들인데, 이들은 작은 화면의 텍스트를 불편해하기 때문에 TV 홈쇼핑을 즐긴다. 굳이 읽지 않아도 비디오로 보여주는 형태는 사실 노안 소비자들이 아닌 사람들도 해 보면 편리할 수 있는 방식이지만, 그런 사람들에게 줄 수 있는 이득은 작은 반면 글자를 읽기 괴로운 사람들에게 줄 수 있는 이득은 매우 크다. 

앞으로 모든 쇼핑이 모바일로 넘어간다면, 그리고 젊은 세대들이 그렇듯이 이들도 더 이상 '실시간형 TV'를 보지 않게 된다면 이들은 어떤 식으로 쇼핑을 할까? 기사에 따르면 2015년부터 40-50대의 모바일 쇼핑 이용률이 계속 높은 성장을 하고 있다. 많은 사람들에게 쉬운 비디오로 설득하는 매력적인 판매 방식을 가진 커머스 UX야 말로, 'TV 홈쇼핑'을 대체하는 미래의 UX일지 모른다.

모바일 쇼핑, 40~50대 이용률↑…2차 대전 예고 (2015.4)
티몬, 40대이상 고객 비중 20대 추월 (2016.3)

티몬, 실시간 영상 보며 쇼핑하는 ‘라이브 방송’ 정식 오픈 (2017.8)
- 기존 딜 대비 매출 130배 상승, 구매 전환율 21%를 기록
- 시청자와 실시간 커뮤니케이션 하며 구매 유도

[참고##미래잡담##]
[참고##NBU##]


팀블로그 pxd Story 구독 방법  블로그 글은 각 개인의 생각이며 피엑스디와 다를 수 있습니다.


Trackback 0 Comment 0
Ad Test...
2015.10.13 07:50

귀와 입만 사용하는 UX: 아마존 에코


에코는 아마존(Amazon)이 2014년 11월에 발표한 음성 비서 기능을 제공하는 거치형 스피커로서, 쉽게 말해 프링글스만한 스피커 안에 시리(Siri)같은 걸 집어넣었다고 생각하시면 됩니다. 이제 시리같은 음성비서 서비스는 우리에게 어느 정도 익숙하니, 굳이 설명하지 않아도 어떤 느낌인지 감이 오실 겁니다.

문제는 스마트폰에 비해 훨씬 크고, 무겁고, 전원 코드도 꽂아야 해서 들고다닐 수도 없고, 전화/문자도 안되고, 화면도 없는 그런 기기를 아마존은 무슨 자신감으로 이런 뒤늦은 시점에 내놓았느냐 입니다.

보통 이런 종류의 ‘제품’만으론 이해하기 어려운 자신감은 ‘제품을 둘러싼 맥락’을 함께 볼 때 이해되는 것들이기 마련입니다. 이번 글에선 일단 먼저 ‘제품' 자체에 대한 이야기를 나누어 보고자 합니다.


-
1줄 요약:
‘귀와 입만 사용하는 UX’를 통해 우리는 ‘화면이 없다'와 ‘움직일 수 없다'가 왜 아마존에 의해 다분히 의도된 에코의 포지셔닝 키워드인지 일부 이해할 수 있다.
-


1. 뭐가 다른가?


이미 시리와 같은 음성비서 서비스가 보편화된 상황에서 제품에 관한 모든 이야기를 구구절절이 나누기 보단 좀 더 핵심적인 차이점에 집중하고자 합니다. 기본적으로 에코 역시 시리와 같은 음성 비서 서비스를 제공하는 블루투스 스피커로서 소프트웨어적으론 크게 다르지 않습니다. 또한 에코 역시 스마트폰과 연동되어 있고 어플 내부적으로도 계속해서 기능을 추가할 수 있기 때문에 기능적 확장성이 보장된 상황에서 소프트웨어적 차이를 이야기하는 건 큰 의미가 없습니다. 따라서 이런 땐 하드웨어에서 생기는 차이점에 그 초점을 맞추어야 합니다. 바로 에코는 화면이 없고, 움직일 수도 없다는 점입니다.

핵심 차이 1: 화면이 없다



<왼쪽: 마이크를 끌 때, 오른쪽: 알람을 끌 때, 아랫쪽 원형부분이 볼륨 조절 휠>
딱 봐도 누구나 알 수 있듯이 에코는 애초에 손으로 만지면서 쓰라고 만든 기기가 아닙니다. 외부 물리 버튼이라곤 마이크를 끌 때(전원 버튼과 같은 것으로 거의 쓸 일이 없습니다), 알람을 끌 때(음성으로도 끌 수 있습니다) 사용하는 2개의 버튼과 볼륨 조절 휠, 그리고 리모콘이 전부입니다. 스마트폰의 경우 비슷한 구성이지만 화면을 통해 풍부한 인터랙션을 제공한다는 걸 생각해볼 때, 비슷한 구성에 화면 조차 없는 에코는 모든 인터랙션을 오로지 음성에만 집중하도록 되어 있다는 걸 알 수 있습니다.


핵심 차이 2: 움직일 수 없다



<pxd 로비에 고정되어 있는 에코>

손에서 자유로워짐은 곧 사용자와의 물리적인 거리 제한에서 자유로워짐을 뜻합니다. 때문에 에코는 들고 다녀야 한다는 부담을 훌훌 털고 전원 코드를 꼽아야만 동작하는 '거치형' 기기로 디자인되어 있습니다. 모바일이라는 상위 선택지가 일반화된 상황에서 당당히 거치형을 택했다는 점에서 우린 바로 이 부분에 주목할 필요가 있습니다. 사실 이 부분이 바로 '제품을 둘러싼 맥락' 즉, 아마존의 비즈니스 모델과 스마트홈 허브 경쟁을 함께 고려했을 때 이해되는 부분입니다. 그것은 나중에 기회가 되면 좀 더 나눌 수 있도록 하고, 일단 '제품' 관점에서 두번째 핵심 특징으로 기억합니다.


귀와 입만 사용하는 UX


결국에 두 가지 핵심 차이를 묶어내면 한 자리에 고정해둔채 주로 음성을 통해 입/출력이 이루어진다는 점이 하드웨어적으로 에코가 가지는 핵심적인 포인트임을 알 수 있습니다. 즉, 고정된 자리에서 눈과 손을 쓰지 않고 귀와 입만으로 인터랙션이 이루어지는 것입니다. 그럼 지금부터 이러한 UX가 사용자 관점에서 어떻게 다른 양상을 만드는지 이야기 나누어봅니다.


2. 어떻게 다른가?


기계에서 인격체로


<대화 경험은 기계를 하나의 인격체로 받아들이게 만든다>
아이폰 안에 시리가 살 듯이, 에코 안엔 알렉사가 살고 있습니다. 그래서 명령을 내릴 때 ‘Echo,’라고 부르지 않고 ‘Alexa,’라고 부르게 됩니다. 명령을 내릴 때마다 입으로 알렉사를 부르기 때문에 실제로 반복해서 알렉사를 부르다보면 머릿 속에서 점차 에코는 희미해지고 그 자리에 알렉사가 자리하는 경험을 하게 됩니다.
나아가 대화 경험이 사용 경험 전반을 이끌다보니 자연스럽게 알렉사를 점점 하나의 기계에서 하나의 인격체로 대하게 됩니다. 애플이 시리가 시리 자신에 대한 질문에 대응할 수 있도록 하고, MS도 코타나(Cortana)가 18가지 UI를 통해 자신의 감정을 표현할 수 있도록 하고, 영화 ‘HER’에서 가상 비서와 사랑에 빠지는 설정이 등장하는 것은 대화가 이끄는 UX가 사용자에게 어떤 경험을 선사하는지 보여주는 예입니다. 특히 알렉사의 경우 오로지 대화를 통해 소통하기 때문에 이와 같은 인격체로서의 인식 경험이 더욱 두드러집니다. 비슷한 예로 PC보다 아이패드를 통해 쇼핑하는 사람이 화면 터치가 만드는 소유효과로 인해 제품을 좀 더 높은 가치로 인식했다는 연구도 있었는데, 인터랙션 형태에 따라 제품과의 애착 관계 형성 양상이 변화할 수 있다는 점은 UX적으로 여전히 흥미로운 부분입니다.


스마트폰은 터치하고 에코에겐 말을 걸고



<운전하면서 라디오 듣는 것과 같은 느낌이랄까>

화면을 아예 제거하고 음성으로만 인터랙션 창구를 열어놓다보니, 한 자리에서 스마트폰과 자연스럽게 공존하게 됩니다. 오히려 에코가 화면을 가지고 있었다면 마치 아이패드가 뻔히 옆에 있는데 스마트폰을 만지고 있는 것 같은 애매한 상황이 되었을 텐데, 애초에 화면 자체가 없다보니 인터페이스가 겹치지 않아 둘의 공존에 큰 무리가 없습니다. 그냥 평소처럼 스마트폰을 사용하며 생활하다가 알렉사가 필요할 때 주저없이 불러서 일을 처리하면 됩니다. 이렇게 에코는 스마트폰을 어설프게 대체하기보단 함께 공존하는 길을 택합니다.


입출력 수단으로서 소리의 한계: 간섭



<에코와 리모콘 Image via CNET.com>
입출력 수단으로서 소리의 한계에 관한 이야기는 음성 비서 서비스 모두에게 해당하는 내용입니다만, 특히 음성 입/출력에 전적으로 의존하는 에코에게는 더더욱 중요한 내용이 됩니다. 먼저 기본적으로 소리를 통해 입출력이 이루어지는 에코의 특성상 소리의 간섭으로 인해 생기는 한계는 명확합니다. 주변 소음 수준이 높은 상황에선 명령을 내리는 것, 답변을 듣는 것 모두 어려워집니다. 에코의 경우 이러한 불편함을 최소화하기 위해 상단에 무려 7개의 마이크를 원형으로 배치하여 잘 들을 수 있도록 배려하였고, 원통의 크기의 대부분을 스피커에 할애하여 잘 들릴 수 있도록 배려하였습니다. 또한 마이크를 통해 원격으로 음성 입력이 가능하도록 배려하여 소리가 도달가능한 범위가 가지는 한계를 해소할 수 있도록 배려하였습니다. 실제 사용해본 결과 음악이 흐르거나 알람이 울리는 도중에도 알렉사라고 부르는 것에 잘 응답하고(같은 상황에서 시리는 응답하지 않았습니다.) 스피커는 최대 볼륨의 경우 일반적인 거실 크기 정도는 꽉 채울 만큼의 큰 소리가 출력됨을 확인할 수 있었습니다.


입출력 수단으로서 소리의 한계: 발음



<거리를 부피로 바꿔달라니, 무슨 말씀이신지: 발음 탓에 gallon을 kilo로 알아들은 에코>
발음을 잘못 알아듣는 것은 음성 입력 수단의 고질적인 문제점입니다. 오늘날까지도 이러한 불편함은 완전히 해소되지 못했습니다. 특히 음성 인터랙션에 있어 이 문제가 더욱 심각한 건 오작동을 한 눈에 확인하고 만약의 경우 취소 및 돌아가기 과정이 터치 한 번으로 이루어질 수 있는 화면 인터랙션에 비해, 음성 인터랙션은 오작동 여부를 판단하고, 취소 및 돌아가기 과정을 소화하기 위해 더 많은 시간과 더 높은 주의를 필요로 하기 때문입니다. 이처럼 아예 첫 대면에서부터 인터페이스가 오작동한다는 것은 UX에 굉장히 치명적이기 때문에 이것을 한 번 경험해 본 사람들은 좀 불편하더라도 더 익숙하고 확실한 구세대의 인터페이스를 여전히 선호하게 됩니다. 따라서 사실 음성 입력은 오히려 터치 입력보다도 더 높은 정확도를 지녀야 하는 것입니다.


입출력 수단으로서 소리의 한계: 사용법 숙지



<주인님, 이렇게 말씀해주셔야 합니다>

나아가 발음과 관련된 문제가 완전히 해소되었다하더라도 음성 입력 수단이 넘어야 할 산은 또 있습니다. 바로 사용법 숙지의 장벽입니다. 시각적으로 뭘 할 수 있고 어떻게 하면 되고가 명확히 보이는 화면 입력과 달리 음성 입력의 경우 뭘 할 수 있고 어떻게 하면 되고를 미리 숙지하고 있어야 합니다. 즉, 그냥 말만 하면 될 것 같아 보이지만 사실은 어떻게 말해야 하는지를 또 배워야 한다는 것입니다. 따라서 사용법 자체를 통째로 숙지하고 있어야 한다는 점에서, 사실 음성 인터랙션은 오히려 화면 인터랙션보다 더 높은 진입 장벽을 가지고 있는 것입니다.


입출력 수단으로서 소리의 한계: 입출력 정보 형태의 한계



<말씀하신 '우유' 관련 제품이 정확히 이백십칠만사천삼백구입육개있습니다. 첫번째 제품의 이름은..>
음성으로 취급하기에 적합한 정보 형태가 가지는 한계도 명확합니다. 음성 입력의 경우 명령문의 종류와 이에 필요한 몇 가지 파라미터로 구성된 문장 형태를 취하는 것이 현재 수준이기 때문에 '단순 명령, 정보 확인'보다 높은 차원의 정보 입력이 이루어지기 어렵습니다. 음성 출력의 경우에도 아직 맥락에 따라 정보를 가공하는 수준이 낮기 때문에 '단순 정보 확인 및 보고' 이상의 정보 출력이 이루어지기 어렵습니다.


가장 적합한 공간: 주방에서의 쓰임새



<에코 소개 영상에도 주방 씬이>

집 안에서 눈과 손을 쓰지 않고 귀와 입만으로 이루어지는 UX가 놓이기 가장 적합한 공간은 어디일까요? 거실에선 TV가 눈과 귀를 점유할 것이고, 각자의 방에선 PC와 스마트폰, 이어폰 등의 다양한 도구들이 최소한 눈과 손, 귀 정도는 점유할 것입니다. 결국에, 눈과 손의 점유권을 내어주고 귀와 입만으로 인터랙션을 만들어나가기에 가장 적합한 공간은 주방임을 알 수 있습니다. 요리와 식사는 눈과 손을 점유하되, 귀와 입을 점유하지 않는 대표적인 행동들입니다.

<멀티 타이머 기능>
그래서인지 에코엔 주방에 좀 더 적합할 수 있는 기능들이 몇 가지 담겨 있습니다. 먼저 일반적인 스마트폰의 타이머와 달리 멀티 타이머 기능을 제공합니다. 하나의 타이머를 설정해두고 다시 타이머를 한 번 더 설정하면 자연스럽게 ‘두번째 타이머를 설정합니다.’라고 이야기하며 동시에 두 개의 타이머를 진행시킵니다. 요리를 하다보면 하나를 올려두고, 또 다른 하나를 진행하다 이전 것을 잊거나, 혼란스러워하는 상황이 발생하기 쉬운데 이런 면에서 알렉사는 손쉽게 여러 요리를 빠짐없이 시간을 체크하며 진행할 수 있게 도와줍니다.

<이 정도는 기본>
계량 단위 변환 역시 지원합니다. 단위 변환 뿐만 아니라 단순 내용 검색 기능도 지원하기 때문에 스마트폰 속 레시피를 바라보며 요리하다가 간단히 검색해볼만한 내용이 생겼을 때 곧바로 에코에게 말로 물어보고 귀로 답을 들으며 요리를 진행할 수 있습니다. 이는 화면을 전환해서 시리에게 물어보거나 검색어를 손으로 입력했다가 다시 레시피 화면으로 돌아오는 것에 비해 훨씬 쾌적한 경험입니다.

<쇼핑리스트. 일부 품목은 아마존 프라임을 통해 바로 재구매 가능>
쇼핑리스트 관리는 요리를 위해 특화된 기능은 아니지만, 나름 편리한 상황을 연출할 수 있습니다. 요리에 필요한 재료 목록을 준비하거나, 요리하다 중간에 떨어진 재료를 발견했을 때 음성으로 추가할 수 있습니다. 이는 손으로 재료를 정리하다말고 그때마다 스마트폰을 오가는 것에 비해 훨씬 손쉬우며, 일부 품목의 경우 아마존과 연계하여 바로 재구매할 수도 있어 편리합니다.

<냉장고 안에 카메라를 설치하여 스마트폰/패드로 내부 모습 관찰 By Siemens, Image via reviewed.com>

<냉장고 문의 일부를 유리로 처리하여 직접 관찰 By Haier, Image via CNET Korea blog>
최근 IFA 2015에 등장한 냉장고들에서도 볼 수 있듯이 냉장고안 식자재 파악/관리에 대한 니즈 대응이 서서히 이루어지고 있는데 이 과정에서 가장 큰 화두는 '뭘 넣었는지 어떻게 알거냐'입니다.

<터치 인터페이스를 장착한 스마트 냉장고>

이걸 해결하기 위해 터치스크린으로 냉장고를 드나드는 식품 정보를 입력하도록 한다면 그 자체로도 번거로울 뿐만 아니라 식자재를 넣는 손과 터치스크린에 정보를 입력하는 손의 점유가 겹치면서 불편한 상황이 연출될 수 있습니다. 이런 면에서 에코가 항상 주방에 상주하며 냉장고 안에 유통기한 등의 관리가 필요한 무언가를 넣거나 꺼낼 때 음성을 통해 자연스럽게 기록할 수 있게 한다면 인터페이스 수단이 겹쳐서 생기는 불편함을 어느 정도 해소해낼 수 있을 것입니다.



<Image via obrella.com>
그리고 무엇보다 스마트홈 환경이 구축되었을 때에야 비로소, 에코가 가진 주방에서의 잠재력이 충분히 드러나게 될 것입니다. 왜냐하면 눈과 손, 귀와 입과 같이 각각이 독립된 입출력 채널들의 공존은 곧 멀티태스킹이 가능해짐을 의미하기 때문입니다. 에코에게 있어 스마트홈 환경은 집 안에서 이러한 멀티태스킹 효과를 체감할 수 있도록 해주는 대표적인 충분 조건입니다. 요리하다말고 밀가루 묻은 손을 씻고 현관까지 가서 문 열어주고 다시 돌아와서 가스레인지 불 줄이고 세탁기 다 돌았는지 확인하러 다시 나갈것이 아니라 바로 그냥 선 자리에서 입으로 주방과 온 집안을 통제하고 귀로 상황을 보고 받는 것입니다. 눈과 손은 여전히 요리에 집중한 채로 말이죠.


3. 현재의 ’제품'만으론 아직 갸우뚱, ’제품을 둘러싼 맥락’으로 미래를 함께 봐야


음성 비서 기능이 포함된 블루투스 스피커 제품 자체로만 봤을 때 디자인, 마감, 설치/이용 UX도 훌륭한 수준입니다. 하지만 기능적으로 음성 비서 기능과 블루투스 스피커 기능은 각각 스마트폰과 블루투스 스피커 제품 조합으로도 충분히 이용가능하므로 스마트폰이 이미 있는 사람에겐 가격적으로 불리한 선택이(에코는 180$이며 블루투스 스피커는 그 절반인 90$ 이하로도 선택가능한 좋은 제품이 많습니다.) 될 수 있습니다. 또한 우리나라에선 아마존의 서비스를 완전히 제공받을 수 없으니 불리함은 더욱 커질 수 있습니다. 따라서 ‘제품'만 놓고 보았을 땐 아직까지 구매하기에 갸우뚱한 느낌이 듭니다.

하지만 이것만으로 에코를 속단하기엔 너무 이릅니다. 비교하자면 지금의 에코는 아이팟(iPod), 곧 다가올 미래의 에코는 아이폰(iPhone)과 같습니다. 앱을 언급하지 않고 아이폰 리뷰를 하는 것이 얼마나 의미없는 것인지 우리가 알고 있듯이 ‘에코를 둘러싼 맥락', 즉 아마존의 비즈니스 모델과 전략, 스마트홈 허브로서의 포지셔닝을 함께 이야기해야 에코 역시 그것의 가치를 제대로 다룰 수 있습니다. 이번 글에선 이러한 부분을 배제하고 순수 ‘제품'에 대해서만 이야기를 다룬 만큼 아이팟 리뷰를 보며 아이폰이 만들 미래를 놓치는 우를 범하는 일이 없으시기 바랍니다.

그래도 이번 글을 통해 ‘귀와 입만 사용하는 UX’가 사용자 관점에서 어떻게 다른 양상을 만드는지 이해하는데 있어 작은 도움이 되셨길 바라며 나중에 기회가 되면 ‘에코를 둘러싼 맥락'에 대해서도 함께 이야기를 나누어보도록 합니다.


[참고##서비스 디자인##]




팀블로그 pxd Story 구독 방법  블로그 글은 각 개인의 생각이며 피엑스디와 다를 수 있습니다.


Trackback 0 Comment 2
Ad Test...
2010.07.16 16:55

다음 지도앱 음성검색 - Primary Action


다음 지도 앱에 음성검색 기능이 추가되었습니다. 다음앱과 동일한 음성인식엔진을 사용하지만 체감하는 인식율은 더 높습니다. 지도 검색이라는 컨텍스트가 정해지니까 음성 매칭을 하는 말뭉치(corpus)도 POI정도로 한정하기 때문입니다.

아래 왼쪽이 다음 일반 검색, 오른쪽이 다음 지도 검색입니다. 지역 정보 키워드가 아닌것은 배제하여 유사한 발음으로 오인식될 수 있는 키워드도 줄어드니까 인식 성공률이 높아지겠죠.


(다른 그림 찾기 : 아이폰 UI컨벤션으로는 왼쪽에 취소버튼을 둡니다)




음성 인식 Best Matching Keyword

다음앱에서는 설정에서 음성 검색 후에 음성 분석 결과를 볼지 바로 검색결과를 볼지 선택할 수 있었는데, 이번 다음 지도에서는 선택없이 음성 분석 결과를 보여줍니다.
그런데 이 음성인식 결과의 표현 방식에 좀 문제가 있습니다. 이 UI만 보면 다음은 음성 인식율에 자신감이 없다고 고백하는것처럼 보입니다. (사실 좀 어이없는 매칭을 보여주는 경우가 많긴 했지만 :) 대부분은 제대로된 음성매칭결과를 보여줬습니다.)

primary action 디자인패턴이 제대로 적용되어 있지 않기 때문인데요. 모든  항목이 시각적으로 동일한 priority로 보여지고 있어서 의도했던 키워드를 선택하기가 쉽지 않습니다. 선택지가 많으면 인지적으로도 부담이 되니까 ( hick's law ) 선택할 확율이 가장 높은것을 딱 집어서 강조해주는 것이 좋습니다. 노란색으로 차이를 두긴 했지만 인지적 측면과 더불어 조작(버튼 누르기)도 쉽게 할 필요가 있습니다. fitts's law 는 포인팅 디바이스를 기반으로 하고있지만 터치인터페이스에서도 버튼이 크면 빨리 누른다는데는 변함이 없습니다.

이전 글 모바일검색 suggesiton UI 에서 제안했던것처럼 음성 매칭 결과도 리스트형태가 아니라 가장 추천하는 키워드는 크게 나머지는 버블로 비대칭적으로 표시하는게 어떨까 싶네요. 아직 기대 수준만큼은 아니지만 꽤 잘 맞는것 같으니까 좀 자신감을 가져도 되지 않을까요? :)






Primary Action 

검색결과 페이지의 페이징 버튼을 보면 다음은 검색에서도 사용자가 뭘 선택할지 자신이 없는것 같습니다. 로그만 분석해보면 1페이지를 볼때는 2페이지를 가장 많이 누르고 2페이지를 볼때는 3페이지를 가장 많이 누른다는걸 알 수 있을거에요. 내기해도 좋아요. 검색 결과 페이지에서 primary action은 다음 페이지( 현재 +1 )를 보는것입니다. 익숙했던것을 바꾸면 처음에는 고객이 조금 혼란 스럽겠지만 네이버는 잘 바꿨잖아요.


다음


네이버


구글


[참고##음성##]



팀블로그 pxd Story 구독 방법  블로그 글은 각 개인의 생각이며 피엑스디와 다를 수 있습니다.


Trackback 0 Comment 0
Ad Test...
2010.03.19 11:55

Siri, Personal Assistant?

Agent라고 하면 무엇이 떠오르나? 첩보원? SF 영화? 일본 만화? Clippy?

사람마다 Agent에 대한 생각도 다르고, 정의도 다르지만, 여기서는 Agent의 정의를 사람의 활동을 도와주는 Personal Assistant로 제한하고, 최근에 나온 괜찮은 제품이 하나 있어서 소개를 하려고 한다.

바로 Siri ( http://siri.com/ )라는 아이폰앱이다.


기존에 나왔던 제품보다 음성인식이 뛰어날 뿐 아니라, 내용을 분석하여, 제대로 된 서비스를 제공해준다. 지금까지 나왔던 다른 어떤 제품보다 인식률과 서비스률은 높은 것 같다.

(물론 실제로 해보면 잘 안된다. 데모라서 잘 되는 것 같다.)

다만 Personal Assistant라면 나의 정보를 미리 알고, 나의context(기분, 환경 등) 에 맞게 적절하게 서비스를 제공주어야 하는데 Siri는 그런 기능까지는 제공해주지 못해서 아쉽다.하지만, 이전 서비스보다는 진일보 했다고는 할 수 있다.

-------
이 글은 2010년 3월 19일에 작성된 것이며, 글 발행 한 달후(2010년 4월 28일)에 Siri는 Apple에 인수 합병되었다. 그 후 2011년 10월 4일, iOS5 (with iPhone4S)의 일부로 발표되었고, 점차 다른 기기에서도 확대되었다.

[참고##음성##]


팀블로그 pxd Story 구독 방법  블로그 글은 각 개인의 생각이며 피엑스디와 다를 수 있습니다.


Trackback 0 Comment 0
Ad Test...