AI 스피커의 VUX 설계 시 고려할 것들

AI 스피커의 VUX 설계 시 고려할 것들

2017. 11. 16. 07:50ㆍUX 가벼운 이야기
Joe Park

Google Home

들어가며

인공지능의 빽에 힘입어 음성비서를 탑재한 다양한 디바이스들이 쏟아지는 상황에서 회사에서도 눈에 띄게 음성 인터랙션을 설계하는 프로젝트가 많아지고 있다. 시간은 조금 흘렀지만(인간은 망각의 동물..) 인공지능 스피커의 VUX를 설계하면서 기획자로서 고민했던 부분을 간단하게나마 공유하려고 한다.

음성비서는 어떤 상황에서 유용할까/자연스러울까?

최근 어느 교수님의 인상 깊었던 말이 있다. 우리가 새로운 형태의 디바이스를 만들 때는 그것이 기존에 존재하는 강력한 도구들(스마트폰 등)보다 편한 점이 무엇인지, 굳이 필요한 이유가 무엇일지 생각해보고 거기서 뚜렷하게 답이 나오지 않는다면 설계를 다시 해야 한다는 것이다. 당연한 말 같지만, 우리는 종종 새로운 디바이스가 담고 있는 형태와 기술, 그 새로움에 빠져 무엇을 제공하든 사용자가 좋아할 것이라는 안일한 태도를 보이기도 하기에(필자뿐인지도 모르지만)… 한 번 생각해보려고 한다.

음성인식 스피커를 통해서 사람들이 큰 유용성을 느낄 수 있는 시나리오/서비스는 무엇일까? '스피커'라는 디바이스의 장점을 살리는 측면, 그리고 음성 인터랙션의 편리함과 유용성 측면으로 나누어 생각해보자.

1. 오디오 아웃풋 중심의 서비스

당연한 얘기로 들릴 수 있지만, 스피커에서 가장 잘 제공할 수 있는 서비스는 음악, 라디오, 오디오북 등 소리를 전달하는 서비스이다. 이때, 기존의 화면을 매개로 한 탐색과정이 검색결과나 순위 리스트를 훑어보며 특정 가수나 앨범을 찾는 과정이었다면, 음성 명령으로는 "비 오는 날에 어울리는 음악 틀어줘" "가사 없는 음악 틀어줘"와 같이 추천을 기반으로 한 플레이리스트를 통째로 요청하는 명령이 더 자연스럽고 빈번해진다.

2. 따로, 또 함께

또 스피커는 열린 공간에 놓여있다는 특징을 갖는다. 음성명령을 이용하면 TV 앞에서 리모콘을 빼앗거나 찾는 소란스러움은 잠시 던져두고 각자의 자리를 지키며 디제잉을 할 수 있게 된다. 물론 디제잉 권한을 놓고 싸울 수는 있겠다. 아마존이 여기서 내놓은 해결책은 집안 곳곳에 흩어놓을 수 있는 미니디바이스 '에코닷'이다. 최근에는 음성 간 구별도 가능해지면서 평소에는 방에서 각자의 디바이스를 사용하면서 서로 음성 메시지를 주고받다가도, 공용 메인 디바이스로는 함께 영상통화도 하고, 필요에 따라 여러 디바이스를 그룹화 하여 동시에 음악을 트는 등 개인과 공용 사용 씬을 좀 더 풍부하게 그려낼 수 있게 되었다.

3. 공간의 연결

마지막으로, 스피커는 가정 내 고정된 위치에 자리 잡고 있다. 이런 특성은 스마트홈을 만드는 컨트롤 타워의 역할을 보다 쉽게 한다. 아직 국내에서는 가정 내 IoT 디바이스가 활용되는 경우가 많지는 않지만, 조명부터 도어락, 보안 카메라까지 다양한 디바이스가 자리 잡은 외국에서는 앱 간 연동을 통해 에코나 구글홈이 스마트홈을 만들어나가고 있다. 더 나아가, 머지않은 미래에는 모바일에서 스피커로, 스피커에서 다시 자동차로 인공지능 비서가 플랫폼을 넘나들며 사용자의 삶에 끊김 없이 서비스를 제공할 수 있는 방향으로 발전하지 않을까.

4. 즉각적이고 짧은 태스크

이제는 음성 인터랙션이 편한 상황을 살펴보자. 사용자는 필요할 때 외에는 스피커에 신경을 쓰지 않지만 반대로 스피커는 24/7/365 언제든 사용자가 부르면 대답할 준비가 되어 있다. 무언가를 하고 있다가도 갑자기 궁금해지거나 생각난 말을 음성 비서에게 하는 것은 가족이나 친구에게 말을 거는 것만큼이나 쉽고 간단한 일이다. 호기심이 많은 아이에게 스피커를 주면 종종 끝없는 질문시간을 보내며 즐거워하는 것을 볼 수 있었다.

5. 부담없는 가상의 대화상대가 필요한 상황

우리가 말 못 하는 강아지나 고양이를 더 편하게 느낄 수 있는 것은 이 친구들이 우리를 평가하거나, 눈치를 주는 경우가 없기 때문이다. 대화함에 있어 늘 상대의 반응을 살피거나 해석하려는 것이 사람의 본능이라면, 스피커는 이런 부담 한 톨 없이 나의 모든 이야기를 듣고, 심지어 대답도 해줄 수 있다. 영화 Her에서 주인공 테오도르가 거부감없이 마음을 열고 자신의 이야기를 더 쉽게 한 것도 사만다가 모든 이야기를 긍정적으로 받아주었기 때문은 아닐까? 이렇게 내 이야기를 잘 들어주는 상대 뿐 아니라, 부담이 없기에 편하게 연습 상대가 되어주는 선생님의 역할도 가능하다. 특히, 외국인 공포증을 앓는 사람들에게 부담 없는 연습 상대가 될 수도 있다. 클로바에서 초기부터 영어 프리토킹 서비스가 들어간 이유도 이 때문이라 생각된다.

어떻게 기획해야 할까?

그렇다면, VUX를 설계하면서 고려해야 할 점에는 어떤 것들이 있을까? 필자의 경험을 토대로 느꼈던 것들을 간단히 짚어보고자 한다.

1. 대화의 핑퐁을 통해, 올바른 요청이 들어오도록 유도하라

"멜로망스 선물 틀어줘"처럼 한 번에 명확한 명령을 내릴 수만 있다면 음성명령만큼 쉬운 것도 없을 것이다. 문제는, 모든 명령이 이리 간단치는 않다는 점이다. 일정 등록만 해도 날짜와 시간, 일정 내용 적어도 3개의 정보를 알려줘야 하는데,

"캘린더에 다음 주 목요일 2시 신사동에서 친구랑 점심 약속 등록해줘"

처럼 한 문장에 모든 조건을 욱여넣는 것은 굉장히 어렵고 부자연스럽게 들린다. 평소에 우리가 말을 할 때는 머릿속에서 모든 정보가 정리된 후에 나온다기보다는 생각나는 것부터 튀어나온다. 따라서 똑똑한 음성비서라면 적시 적소의 응답을 통해 사용자가 깊게 생각하지 않고 필요한 요청을 하도록 유도해야 한다. 다음은 구글 홈의 알람 설정 예시이다.

나: I want to set an alarm.

구글: Okay, when for?

나: Cover clock(12 o clock을 이렇게 알아들음)

구글: Sorry, what time was that?

나: Timer clock at 12(12 o clock at noon을 이렇게 알아들음)

구글: I'm afraid I still haven't caught the time. Just say, for instance, "6:30 P.M.," or "noon". Or you can say "never mind".

나: Midnight.

구글: Sorted, your alarm's set for tomorrow at midnight.

나: Okay google, Thank you.

구글: You're welcome.

대화 중 필자의 말을 잘못 들은 구글은 "이해하지 못했어요" 대신 "죄송하지만, 몇 시라고 하셨죠?"라며 시간 정보를 유도한다. 필자는 열두 시가 낮인지 밤인지 파악하지 못했다고 생각하고 자정 12시라고 다시 말했지만, 또 발음이 문제다. 이번에는 구글이 좀 더 적극적으로 시간을 말하는 다양한 방식을 제안해준다. 여기서 힌트를 얻어 필자는 좀 더 확실히 들리는 단어를 시도했고, 결과는 성공적. 이런 식으로 구글은 가능한 짧은 흐름을 시도해보고 과정상의 오류 횟수나 원인에 따라 특정 정보를 유도한다. 또, 뉘앙스를 번역하긴 어렵지만, 구글은 천편일률적인 대답 대신 상황에 따라 좀 더 가볍고 친밀한 톤으로 반응해 오류 상황을 헤쳐나가는 긴장감을 혹은 짜증을 미묘하게 덜어내 주는 부분이 있다.

2. 적절한 피드백을 주어라(특히, 시각 피드백의 확실한 규칙을 활용하라)

나: Okay google, I want to add a schedule on my calendar.

구글: Sure, when is the event?

나: Tomorrow.

구글: At what time?

나: 6 o'clock 6pm.

구글: Alright, a schedule tomorrow at 6:00 PM. Do you want to save this?

나: Yes.

구글: Alright, I saved your event.

대화할 때 우리는 계속 상대의 반응을 보며 내 말을 이해하고 있는지 확인하게 된다. 얼굴도 없고, 화면으로 내가 입력한 값이 보이지도 않는 스피커와의 대화 상황에서 불안감을 낮추기 위해 피드백을 잘 활용하는 것은 매우 중요하다. 1번에서도 언급했듯, 오류의 상황에서 내 말을 정말 이해하지 못한 것인지, 놓친 특정 정보가 있는지 등 사용자가 오류 상황에서 빠져나올 가이드를 제시하는 것이 매우 중요하다. 또, 위의 예시처럼 일정을 등록 직전 요약정보를 제시하며 확인하는 절차를 가질 수도 있다. 무엇보다도, 효과음이나 불빛을 동반한 비주얼 피드백을 활용하는 것이 중요하다. 모든 인공지능 스피커들의 공통점은 가장자리나 상단의 라이팅 피드백을 통해 상태나 감정을 전달한다는 점인데, 이는 표정과도 같은 역할을 하는 것이다.

3. 일관된 스타일을 보여라

스피커를 통해 실행하는 서비스는 다양하지만, 이 모두는 '아리아'나 '알렉사', '클로바' 등 하나의 인격체에 의해 제공된다. 인공지능 스피커가 우리를 학습해 나가는 것도 중요하지만, 거꾸로 일관된 스타일을 통해 우리가 비서를 컨트롤하는 법을 자연스럽게 익혀나가게 하는 것 또한 중요한 부분이다. 이를 위해, 디바이스가 명령을 이해하고 실행하는 규칙은 일관된 스타일을 가져야 한다. 예를 들어 우리가 음악 서비스에서 "다음 거"라고 했을 때 재생목록의 다음 곡이 실행되었는데, 팟캐스트 서비스에서는 "알아듣지 못했어요"라고 하면 사용자는 오디오를 재생하는 서비스들의 규칙 간 혼란을 겪게 된다.

4. 뻔한 것은 먼저 결정해준 후 확인하라

한편, 음악을 듣다가 "처음부터"라고 명령한다면, 비서는 곡을 다시 들려줘야 할까? 재생목록의 첫 곡부터 다시 들려줘야 할까? 사용자는 많은 것을 생략하고 말할 때가 있으므로 맥락을 파악하는 것이 중요하다. 앞의 경우는 사실 곡을 다시 듣고 싶은 경우가 많겠지만 에코 같은 경우 곡을 다시 트는 대신 "곡의 처음부터"라는 명령어를 다시 부탁하는 안내가 돌아온다. 그렇다면 정황상 사용자의 의도가 거의 확실한 경우들은 어떨까? 예를 들어 "책 읽어줘" "팟캐스트 틀어줘"라고 콘텐츠를 특징짓지 않고 서비스를 요청하게 되면 최근에 중단된 시점부터 재생을 시작해 줄 수 있다. "어제 읽던 해리포터 이어서 읽어줄까요?"라고 이미 결정한 사항을 확인하는 것이 "무엇을 읽어드릴까요?"를 물으며 맨땅에 헤딩하는 것보다 쉽게 사용자의 의도를 파악하여 목적을 달성하는 방향일 것이다.

5. 개인의 취향을 존중하라

나: What's my favorite animal?

구글: You told me that you like cats.

knock knock joke나 수수께끼, 명대사 던져보기 같은 오락요소들도 즐거움을 선사하지만, 필자는 지나가듯 흘린 내 얘기를 기억해주는 부분에서 뜻밖의 기쁨을 느끼기도 했다. 랜덤으로 던져주는 말이나 흥밋거리는 장기적인 관점에서 봤을 때 스피커의 지속적인 가치라고 생각되기는 어렵다. 결국, 사용자의 히스토리를 가지고 일상적이고 반복적인 태스크를 얼마나 더 편리하고 유용하게 만들어가 줄 것이냐가 사용자들에게 부여할 수 있는 즐거움, 혹은 서프라이즈가 아닐까 싶다. "짜장면 시켜줘"라고 할 때 처음에는

이 동네 인기 많은 중국집은 ~~

당신의 집에서 제일 가까운 집은 ~~

처럼 인기나 거리순 기반의 정보밖에 줄 수 없지만, 한번 주문을 한 뒤에 바로 즐겨 찾는 메뉴로 등록할 수 있게끔 하거나 몇 번의 경험으로 반복적인 패턴이 보일 때 자연스럽게 그것을 기억해 두었다 우선순위로 제안해준다면 세심함이 돋보이는 비서가 될 수 있다.

6. 영어듣기 평가는 하지 말자 

텍스트로 보는 설명과 음성으로 듣는 설명을 받아들이는 속도는 매우 다르다. 음성 인터랙션이 어렵게 느껴지는 이유 중 하나는 대화를 핑퐁하는 경우 피드백을 한 번밖에 들을 수 없고, 바로 이어서 한 번에 대답해야 하기 때문이다. 다시 말해, 끊김 없이 한 번에 플로우가 끝나야 한다. 따라서 가이드가 필요하다면 한 번에 한 가지만 짧고 쉽게 전달하자. 사용자를 갑자기 영어 듣기시험장에 놓으면 스피커 공포증이 생길지도 모른다.

VUX 설계는 한 번에 끝나지 않고 반드시 테스트를 거치며 다듬어나가는 작업이 필요하다. 온라인으로 쉽게 검색할 수 있는 무료 TTS(text to speech) reader 서비스들을 이용해보는 것도 좋은 방법이다.

마치며

음성비서는 당장 컴퓨터나 폰을 대체할 수는 없다. 하지만 스피커만의 차별적인 영역은 분명히 존재한다. 일상에 조용히 파고들어 한 자리를 차지하고 기존 디바이스와의 맥락과 끊김 없는 경험을 선사하는 것이 기획자들의 기대역할이다. 이는 곧, 공상과학 영화에서 보던 미래를 점차 우리에게로 끌어당기는 한 걸음이 될 것이다.

함께 보면 좋은 글: 인풋 방식으로서의 버튼 vs 음성

[참고##음성인식##]

태그

최근글

댓글

공지사항

아카이브