2018. 7. 2. 07:50ㆍUX 가벼운 이야기
1. 들어가며
인턴 UI 디자이너로서 두 달간 일하며 음성 인식 기술을 공부하고 탐구해볼 기회가 생겼다. 개인적으로 시리를 몇 번 정도 사용해본 경험은 있지만, 사용 경험이 그리 만족스럽지 않아 지속적인 사용으로 이어지지 않았었다. 따라서 나에게 가상 개인비서(Agent)란 가깝고도 먼 존재였다. 하지만 이번을 계기로 구글 어시스턴트, 시리, 빅스비, 네이버 클로바, SK 누구, 알렉사 총 6개의 가상 개인비서(Agent)를 본격적으로, 성실히 사용해보았다.
최근 음성 인식 기술에 대한 높은 관심으로 인해, 여러 기업의 가상 개인비서(Agent)에 대한 사용 경험을 비교, 정리한 영상이나 자료들을 어렵지 않게 찾을 수 있었다. (이하 ‘음성 에이전트’라고 하겠다) 필자 또한 이의 연장 선상에서 수많은 발화를 각 음성 에이전트에게 말했을 때, 각 음성 에이전트가 어떻게 호응(반응)하는지에 대해 정리하고 느낀 점을 써보려 한다. 다만 기존 비교들과 다르게 ‘기능 수행’에 초점을 맞추기보단 ‘칫챗(Chit-Chat)’을 다양하게 시도해본 후 각 음성 에이전트가 어떻게 호응(반응)하는지 위주로 작성했다. 여기서 ‘칫챗’이란, 목적 없는 수다, 잡담 정도로 이해하면 될 것 같다. 따라서 ‘특정 서비스 기능에 대한 사용성 비교’보다 ‘칫챗 발화에 대한 대응 비교’라고 하는 것이 더 적절할 것 같다.
2. 각 발화 사례와 그에 따른 응답 내용
1) 에이전트 자체에 대한 질문
음성 에이전트가 기계임에 한정 짓지 않은 질문(실제 사람 간의 대화 같은)을 했을 때의 내용이다. 이를 통해 각 음성 에이전트의 포지션과 성격을 느낄 수 있었다. “넌 누구야?”라는 질문을 했을 때만 보아도, 대부분 자신을 ‘비서’로 소개하고 있었으나 빅스비와 클로바의 경우 ‘친구’라는 역할을 언급했다. ‘비서’라는 역할에 그치지 않고 ‘친구’로서 자리 잡고자 하는 의도를 느낄 수 있었다. 또한 흥미로웠던 점은 음성 에이전트가 자신의 자아(?)가 있음을 표현한다는 것이었다. (물론 에이전트에 대한 모든 질문에 자연스럽게 대답하는 것은 아니었지만) 예를 들어, 알렉사의 경우 커피를 좋아하느냐는 질문에 “Yes. In fact, I love iced coffee.”라며 냉커피를 좋아한다는 선호를 밝히는 대답을 했다. 이와 반대로 시리의 경우는 혼자 있을 때 주로 뭐하냐는 질문에 “온 세상이 제 관계에 대해 관심이 많은 것 같네요.”라며 다소 시크한 응답을 주었다. 자신을 효율적인 업무수행을 돕는 ‘비서’ 역할에 한정 지었기 때문에 스스로에 대한 캐릭터나 특성에 대한 질문에는 의도적으로 자신을 드러내지 않는 듯한 느낌을 받았다.
2) 사용자의 컨디션 발화
사용자의 컨디션에 대해 말했을 때의 내용이다. “배고파”라고 말했을 때 음성 에이전트별로 적극성의 정도에서 다른 반응을 보였다. 빅스비와 누구의 경우, “맛있는 거 먹고 기운 내요!”, “항상 든든하게 챙겨 드시길 바랄게요.”라며 general(일반적인) 호응을 해주었지만, 실질적인 도움은 되진 않았다. 빅스비는 전반적으로 순종적이지만 융통성이 부족한 친구처럼 느껴졌다... 반면, 시리, 구글 어시스턴트와 알렉사의 경우 주변에 맛집을 찾아주겠다며 적극적인 태도를 보였다. 특히 시리는 “배고프면 뭘 먹어야지요”라며 어투적인 면에서나 결과 15개를 보여주며 대안을 제시하는 모습에서, 더욱더 주도적이고 적극적으로 느껴졌다. “취했어”라고 말했을 때 또한 시리는 “우리 중 누구도 집에 갈 때 절대로 운전해서는 안 돼요”라고 단호하게 말하며 택시 앱을 연동해주는 것을 통해 눈치 빠른 비서라는 생각이 들었다.
3) 사용자의 행동 발화
사용자의 행동에 대해 말했을 때의 내용이다. “나 집에 왔어”라고 말했을 때 구글 어시스턴트를 제외한 다른 에이전트들은 비슷한 방식으로 사용자를 반겨주었다. 사실 이 발화는 함께 이동하는 모바일보다는, 집을 지키고 있는 스피커에게 “나 집에 왔어”라고 할 때가 더 자연스러울 것 같다는 생각이 들었다. 구글 어시스턴트는 구글 홈(AI 스피커)을 통해 사용자가 집에 왔을 때 최적의 환경을 조성해주는 기능을 제공하는 듯했다. “나 운동할 거야”, “피자 먹을 거야”라고 말했을 때는 이전 내용과 비슷하게 바로 서비스(앱)를 연동해주거나 검색 결과를 제공해주는 적극성을 띤 답변들과 가벼운 공감을 해주는 답변들 정도로 나뉘었다.
영화 Her 중에서
3. 마치며
6개의 음성 에이전트를 사용하며 많은 칫챗을 나눌 수 있었다. 이전에 시리를 사용해보며 사용 경험이 만족스럽지 않았기 때문에 낮은 기대에서 시작했지만, 사람이 할 법한 답변을 해내는 몇몇 음성 에이전트를 경험하며 이전보다는 음성 대화에 대한 기대 수준이 높아짐을 느낄 수 있었다. 또한 이제부터는 더 높은 음성 인식률을 내세우는 경쟁이 아닌, 좀 더 높은 수준의 질적 답변을 줄 수 있는지에 대한 경쟁이라는 생각이 들었다. 현재는 정해진 답변 중에서 랜덤으로 제공되는 것이 사용자의 입장에서도 느껴지기 때문에 칫챗 대화가 어색할 수밖에 없다. 그래서 사용자들도 처음 몇 번을 제외하고는 대화 경험이 만족스럽지 않아 외면하게 되는 것 같다. (필자 포함) 하지만 기업별로 음성 인식 기술에 대한 고도화와 더 나은 VUI(Voice User Interaction) 설계에 총력을 다하고 있는 만큼 달라지는 모습을 기대해 볼 만 하다고 생각한다. 가까운 미래에는 내 마음을 잘 알아주며 자연스러운 칫챗대화가 가능한 센스있는 음성 에이전트로 발전하길 기대해 본다.