인풋 방식으로서의 버튼 vs 음성

2017. 6. 5. 07:50UI 가벼운 이야기
허 유리

개인적으로 음성인식 서비스를 처음 접했던 채널은 모바일이었다. 그래서인지 새로운 영역이라기보다는 모바일 화면설계의 범위가 확장된 정도의 수준으로 이해했던 것 같다. 이후 음성인식 서비스만을 위한 하드웨어가 처음 등장하고 이를 사용해보면서 본격적으로 "음성"이 제공하는 사용자 경험에 대해 고민해보게 되었다. 특히 음성인식 서비스를 기획하면서 기존의 화면기획 업무와 비교하며 이해하게 되었고, 더 나아가 음성 UX에 대한 여러 관점과 생각들을 정리해볼 수 있었다. 이 글은 그 첫 순서로, 인풋 방식으로서의 '버튼''음성'을 비교한 것이다. (사실 정확한 비교대상은 '터치''음성'이지만 효율적인 전달을 위해 '터치'를 '버튼'으로 적었다.)


1. 인풋과 아웃풋이 다른 버튼 vs 인풋과 아웃풋이 동일한 음성

모바일에서 '터치(버튼)' 인풋의 결과는 주로 화면 피드백과 사운드로 이루어진다. 만약 화면을 터치했을 때, 다시 화면에서 피지컬 피드백을 받는다고 상상해보면 무척 생소한 느낌이 들 것이다. '음성'은 인풋과 아웃풋이 동일한 인터렉션 방식을 가진다. 음성으로 인풋이 이루어지고 아웃풋도 음성으로 받는다. 아직 음성인식 서비스가 초기단계인만큼, 이러한 인터렉션 방식이 유용한 시나리오를 찾고, 이해하고, 적용해보는 시도가 많이 이루어지고 있다.


2. 탐색할 수 있는 버튼 메뉴 vs 아는 기능만 쓰게 되는 음성

버튼은 화면을 가진다. 사용자가 꼭 목적을 가지고 찾던 기능이 아니더라도 화면에 노출된 이상, 인지될 수 있고, 추가로 탐색하면서 새 기능을 발견할 수도 있다. 사용자가 품은 목표에 대해 후보지가 있는 셈이다. 그러나 음성을 발화하는 컨텍스트에서는 시각자료가 존재하지 않는 경우가 많다. 시각자료를 활용하기 어려운 컨텍스트이기에 음성이 더 유용해지기 때문이다. 최근에는 음성이 가지는 한계를 보완하기 위해 발화 결과를 시각자료와 함께 제공하는 서비스들이 다수 등장하기 시작한 것 같다.


3. 정확하게 조작하는 버튼 vs 찰떡같이 알아들어야 하는 음성

버튼과 음성을 시각적으로 비교하자면 아래와 같이 표현해 볼 수 있을 것 같다. 버튼은 정확한 터치 영역을 가진다. 이 영역 안으로 터치가 이루어지면 1로, 영역을 벗어나면 0으로 처리된다. 그 누구도 불만을 가질 수 없는 판단 기준이다. 그러나 음성은 이 경계가 그라데이션처럼 흐릿한 느낌이다. 어디까지를 1의 영역으로 정의할 것이냐에 대한 판단기준이 모호하기 때문에 언제나 이슈가 된다. 이 기준이 엄격하고 좁을수록 '대화'라는 경험과는 멀어진다. 즉, 사용자는 음성 디바이스가 처리할 수 있는 형식대로 정확하게 발화해주어야 한다. 반대로 넓고 유연할수록 오류는 많아진다.

"날씨 알려줘."

= or ≠

"날씨 좀 알려줘."
"오늘 화창해?"
"오늘 비가 올까?"
"우산을 챙겨야 할까?"
"오늘 쌀쌀하니?"
"내일 날은 어때?"
"날이 좋아서... 날이 좋지 않아서... 날이 적당해서..."


4. 아무때나 여러번 누를 수 있는 버튼 vs 정해진 타이밍 안에서 한번만 발화하는 음성

터치 방식은 장소와 시간에 크게 구애받지 않는다. 음성 인터페이스는 디바이스가 음성을 받을 준비가 되었다는 신호를 확인한 다음에야 인풋이 가능하다. 음성 디바이스를 처음 사용하는 경우, 이 신호에 대한 학습 때문에 사용이 매끄럽지 않은 경우가 종종 발생한다. 음성 디바이스 입장에서는 아직 사용자의 발화를 받아줄 수 있는 타이밍이 되지 않았지만, 사용자는 발화 할 수 있다. 일상의 대화가 그렇기 때문이다. 상대방의 말이 다 끝나지 않아도 내가 말을 시작할 수 있고 그 행위 자체가 의미를 가지기도 한다. (나는 네가 하는 말에 동의하지 않아 or 나는 네가 하려는 말을 이미 알고 있어 등등) 그래서 음성 디바이스는 이 타이밍을 알려주는 피드백이 반드시 필요하다. 음성인식 디바이스에서는 흔히 라이팅 피드백으로 1. 사용자의 답변을 기다리는 중, 2. 답변중, 3. 콘텐츠 재생 중 등에 대한 상태정보를 제공하며, 화면과 함께 사용되는 음성인식 서비스의 경우에도 여러 비주얼 큐와 피드백을 제공한다.

구글홈의 라이팅 피드백


5. 업데이트가 티나는 버튼 vs 몰래 업데이트가 가능한 음성

시각적인 화면 레이아웃은 업데이트에 대한 영향을 크게 받는다. 서비스의 방향성이나 타겟의 변경에 따라 기능 업데이트가 이루어지면 디자인적인 변화와 함께 레이아웃, 기능 위치 등이 달라지므로 업데이트에 대한 위험부담이 크다. 음성 서비스의 경우, 사실 해당 기능을 음성으로 발화하여 사용해보기 전까지는 기능에 대한 인지가 어려우므로 상대적으로 업데이트에 대한 부담감은 적다. 반대로 말하면 업데이트를 해도 티가 잘 안나기 때문에 새로 추가한 기능에 대한 홍보가 어렵다. 사용자가 학습하는 데에 어느정도 시간이 필요하므로 점진적인 업데이트가 필요한 면도 있다.


마치며...

이 글은 '음성'을 인풋 방식의 하나로서, '터치(버튼)' 방식과 비교한 것으로, "인식"의 범위내에서 접근한 것이다. 아직 "인식"을 넘어서는 "인공지능"의 관점에서는 제대로 아는 바가 없어서 혹시 이 관점에서 코멘트를 해주실 수 있는 분이 계신다면 좋을 것 같다. 언제가 될지모를 다음 블로깅에서는 음성서비스에 대한 UX 기획 시, 고려사항에 대해서 정리해보려고 한다. 끝.


[참고##음성인식##]