UX Researcher와 AI가 연구를 함께 진행할 수 있을까?

AI 이야기

UX Researcher와 AI가 연구를 함께 진행할 수 있을까?

윤장희 2024. 8. 1. 07:50

최근 몇 년간 UX 리서치 분야에서 인공지능(AI)의 도입이 급격히 증가하고 있습니다(출처). 과거에는 AI를 연구에 활용될 때 단순히 반복 작업을 자동화하거나 번거로운 업무를 줄여주는 역할에 그칠 것이라 예상했지만, 오늘날의 AI는 연구를 계획하고 진행하며 분석하는 과정 전반에 걸쳐 사용될 수 있는 다양한 툴을 제공하고 있습니다. 이러한 변화에 대해서 여러 기대와 우려가 동시에 있지만 UX 리서치의 방법론과 범위를 크게 변화시키고 있습니다.

초기 AI 도구의 활용: 단순 작업 및 분석을 돕는 도구

초기에는 AI가 연구 설계 과정에서 일부 질문을 작성하거나, 비교적 간단하고 구조화된 테스트(예: 사용성 테스트, A/B 테스트, 설문 조사)를 수행하는 데 사용되었습니다. 또한, AI는 연구 로우 데이터를 분류하고 분석하는 데 유용하게 사용되었습니다. 이러한 초기 단계의 AI 툴들은 리서처들이 시간과 노력을 절약할 수 있도록 도와주었습니다.

발전하는 AI 툴: 예측과 진행까지

그러나 최근에 등장한 AI 툴들은 훨씬 더 발전된 기능을 제공하고 있습니다. 이제 AI는 진행할 연구를 사전에 예측하고, 테스트(예: 퍼소나 롤플레잉)를 수행하며, 반구조화된 형태의 심층 인터뷰(IDI)에서 모더레이터(moderator)로서 수행할 수 있습니다.

모더레이터로서 수행한 다는 것은 어떤 의미일까요? 가장 큰 차이는 ‘꼬리 질문'이라고 부르는 후속 질문을 맥락과 목적에 맞게 생성하여 응답을 깊이 있게 끌어낼 수 있음을 의미합니다. 이러한 기능들은 기존에 사람만이 할 수 있다고 생각했던 영역으로 AI의 범위를 확장하고 있습니다.

사용자 연구를 돕는 다양한 서비스가 등장하고 있지만 이번 글에서는 AI를 활용한 인터뷰 진행 경험을 토대로 좀 더 자세히 알아보고, UX Researcher로서 어떻게 활용할 수 있을지, 어떤 한계가 있는지 알아보겠습니다.

AI Moderator Service의 공통 기능

AI가 진행하는 툴은 다음과 같은 공통적인 기능을 제공합니다.

자동 질문 생성: 인터뷰나 FGI를 위해 적절한 질문을 자동으로 생성하고 추천합니다.
패널 모집 지원: 자체 패널을 활용할 수 있도록 돕거나 링크를 전달하여 손쉽게 패널을 모집할 수 있도록 지원합니다.
꼬리 질문 생성 지원: 문맥과 목표에 맞춰 후속 질문을 생성하여 질문합니다.
자동 기록 및 요약: 인터뷰 내용을 자동으로 기록하고 요약하여 분석 시간을 단축합니다.
데이터 분석 및 시각화: 인터뷰 내용을 자동으로 분류하여 패턴을 도출하고 시각화를 통해서 이해가 용이하게 함으로써 인사이트를 도출할 수 있도록 돕습니다.

그럼, 실제로 AI가 어떻게 모더레이팅을 하는지 볼까요?

여러 서비스 중에서 Outset과 Wondering을 시연해 본 결과를 바탕으로 툴에 대해 알아보겠습니다.

1. 인터뷰 질문 입력: AI에게 리서치 목적을 이해시키고 후속 질문까지 세팅하는 과정

AI에게 리서치 목적을 이해시키기
먼저 어떤 내용의 연구인지를 적어주면 AI가 그 내용을 기반으로 해볼 만한 몇 가지 질문을 자동으로 생성해 줍니다. 이것을 그대로 사용해도 되고, 연구자가 각 내용을 세부적으로 조정하여 세밀한 연구를 세팅해도 됩니다.

저는 내용을 좀 더 세부적으로 조정해 봤습니다. 조정할 수 있는 내용은 아래와 같습니다.

메인 질문 작성, 질문 타입 선택(인터뷰형, 사진에 대한 질의형, 단답형, 척도형)
후속 질문에 대한 설정
질문의 응답 수단 우선순위(음성, 텍스트 중 우선시할 것)

AI가 후속 질문을 이어갈 수 있도록 세팅하기
후속 질문에 대해서 아래와 같이 상세하게 세팅할 수 있습니다.

AI가 후속 질문을 하도록 할 것인지 여부
후속 질문을 몇 번까지 시도할 것인지(1~4회)
후속 질문을 어떤 초점으로 질문할 것인지 설정(Prompt)

이 과정에서 리서처로서 고민해야 할 부분이 많이 있습니다. 후속 질문이 너무 길어지거나, 원하는 질문 의도에서 벗어나지 않도록 세밀하게 세팅하고, Preview를 이용해서 바로바로 확인할 필요가 있었습니다. 후속 질문을 세팅하면서 몇 가지 요령이 생겼는데, 아래와 같습니다.

a. 후속 질문은 2회 정도로 설정하기: 4회를 하는 경우 너무 길게 꼬리를 무는 느낌이 들고, 질문의 질이 현저히 떨어지는 느낌이었습니다. 4회까지 해야할 필요가 있는 경우, 여러 기본 질문 중에서 정말 중요한 한 가지 정도만 꼬리 질문을 길게 하는 편이 도움이 될 것 같았습니다.

b. 의도나 맥락이 수집될 수 있도록 Prompt 설정하기: 메인 질문의 의도나 이유처럼 의미를 깊이 있게 분석할 수 있도록 후속 질문을 해달라고 Prompt를 작성하면 좋습니다. 이때 사용 경험을 묻는 경우 사용해 보지 않은 경우에 대해서도 그 이유를 물어봐달라고 프롬프트를 추가하면 거기에 맞춰 질문을 생성해 줍니다.

c. 질문의 의도와 다를 때 Prompt 설정하기: 질문 내용과 크게 다른 응답을 하는 경우에 대해서도 Prompt를 설정하는 것이 좋을 것 같습니다. 저의 경우엔 해당 부분을 설정하지 않았는데요. 참여자 중 엉뚱한 대답을 하는 경우에 그에 맞는 적절한 질문을 하거나, 혹은 다시 같은 질문을 해보면 좋을 텐데 그러지 않아서 흐름이 끊어지는 느낌이 들었습니다.

2. 인터뷰 배포: 언어, 지역적 제약 없이 참여자를 발견하는 과정

인터뷰 작성을 완료하면 먼저 Preview를 열어 실제 질문에 응답을 테스트해볼 수 있습니다. 여기서 발생하는 문제를 빠르게 확인하고, 내용을 수정한 뒤에 인터뷰 배포를 준비합니다.

AI가 진행하는 인터뷰 방식의 서비스는 모두 현지화된 언어를 사용할 수 있다는 장점을 내세우는데요. AI를 활용한 자동번역 기능을 활용하기 때문입니다. Wondering의 경우 언어를 브라우저를 기반으로 자동 변경할지, 특정 언어를 기본언어로 지정할지 선택할 수 있습니다.

AI 참가자에게 질문하기
Outset의 경우 [Recruit AI participants] 기능을 제공하고 있어 작성한 인터뷰에 대해서 사전 시뮬레이션을 AI가 AI 참여자에게 질문해 보도록 하는 기능을 제공하고 있습니다. Wondering은 이러한 작업을 연구자가 직접 테스트를 해봐야 하므로 여러 상황을 수집하고 문제를 찾는 데에는 한계가 있어 보입니다.

Outset Recruit 설정 화면 (사진 클릭시 원본을 볼 수 있습니다.)

또 Outset의 경우 AI가 인터뷰 진행을 텍스트가 아닌 음성으로 할 수 있고, 연구자가 좀 더 자연스러운 진행이 되도록 학습시킬 수 있지만 Wondering은 이에 대한 지원이 안 되는 것으로 보입니다.

Outset의 경우 연구성격에 맞게 AI Moderator를 학습하는 것이 가능하다.(사진 클릭시 원본을 확인할 수 있습니다.)

3. 인터뷰 진행: AI가 사용자를 만나 인터뷰를 진행하는 과정

아래 그림처럼 브라우저를 기준으로 한국어로 변환되어 질문을 주는 것을 확인할 수 있습니다. 언어나 청각의 어려움이 있는 사용자에 대한 인터뷰에도 용이하게 활용할 수 있을 것으로 보입니다.

응답은 제가 설정해 둔 것처럼 음성을 기본으로 선택하지만, 응답자가 텍스트 입력을 통해서 답할 수도 있습니다. 음성인식은 생각보다 잘 되었고, 한국말로 응답 시 번역하여 전사하는 과정을 거치는지 약간의 딜레이가 있었습니만 딜레이가 아주 길지는 않아서 응답하는 데 큰 문제는 없었습니다.

Outset의 경우엔 응답자의 카메라를 통해서 녹화 기능을 제공합니다. 이 부분은 연구자 입장에서 응답자의 표정이나 제스처를 확인할 수 있어 연구에 도움이 될 것 같습니다. 특히 표정과 제스처가 풍부한 문화권의 인터뷰를 할 때 유용할 것으로 보입니다.

4. 후속질문: 사람처럼 깊이 파고드는 AI 모더레이터 (어떨 땐 적절하고, 어떨 땐 엉뚱하게)

앞서 설정한 대로 응답 내용에 맞춰 후속 질문을 주는 것을 확인할 수 있습니다.
흥미로운 건 인공지능이 응답자의 내용에 공감하는 듯한 표현을 아래와 같이 쓴다는 점이었습니다.

“I understand how challenging driving in such conditions can be.”
“Thank you for sharing your experience with driving in extreme weather conditions.”

이런 부분은 마치 사람이 인터뷰할 때와 유사하여 어느 순간이 되면 정형화된 질문에 답한다는 느낌이 사라지는 경험을 하기도 했습니다.

하지만, ChatGpt에서 느껴지는 여러 한계도 보임
다만 몇가지 아쉬운 점이 있는데, 우리가 ChatGpt를 쓰면서 어딘가 어색하게 느끼는 그런 지점이 그대로 나타납니다. 프롬프트 설정에 따라서 후속 질문의 질이 많이 달라지는 것 같습니다. 예를 들어, 사람이라면 누군가 엉뚱한 답을 하는 경우에 동일 질문을 약간 바꿔 다시 묻거나, 응답자의 답으로부터 심도 있는 질문을 하는 등의 융통성을 발휘할 텐데, 이 부분에 대해서 AI는 대응을 잘 못하는 것으로 보였습니다.

이를 해결하기 위해서 Prompt에 몇 가지 설정이 필요한데, 아니라고 답했을 때 왜 아니라고 생각하는지 물어봐 달라거나, 응답이 없거나 응답 내용이 다른 경우엔 기존 질문을 한 번 더 해주라고 하는 등의 세부적인 설정이 필요하고, 돌발 상황에 대한 테스트를 충분히 할 필요가 있어 보였습니다.

5. 결과 도출: AI가 인터뷰에서 수집된 내용을 요약하고 분석하는 과정

인터뷰를 진행하고 결과를 만들어내는 과정을 보면 많이 발전했다고 생각하지만 결국 인사이트를 뽑아내는 것은 인간 연구자의 몫으로 보였습니다. 아래에서 보이듯이 응답 내용의 유사성을 보고 Tag를 달아주어 과정을 단순하게 해 편리하지만, 보다 구체적이고 의도에 맞는 인사이트를 도출하기 위해서는 연구자의 관점이 더 필요합니다.

수집이 완료된 내용은 수집 인원이 5명이 넘어가면 아래와 같이 AI가 응답 내용을 분석하여 Tag를 지정하여, 주제에 대해 블럭을 생성해 주는 것을 볼 수 있습니다.

예를 들어 운전 중 컨트롤이나 인포테인먼트 시스템을 사용하는 데 어려움을 겪는 참가자의 경험에 대해서는 인터뷰 내용을 [Infotainment Control], [Vehicle Specific Challenges], [Navigation Issues]로 범주를 나누어 주었으며 오른쪽에 각각의 주요 인용문을 추출하여 연구자가 바로 확인할 수 있도록 하고 있습니다. 전체 인터뷰 내용을 확인하지 않고 요점을 바로 확인할 수 있어 편리했습니다.

Outset은 인터뷰 응답내용의 요약에 차트를 제공하고 있어 이해를 돕고 있다. (사진 클릭시 원본을 볼 수 있습니다)

서비스를 실제로 이용해 보니

아직은 긴 인터뷰보다는 짧고 명확한 내용에 대해서 더 적합한 방법으로 보입니다. 인터뷰도 10분 이내에 완료되도록 세팅하지 않으면 이탈률이 매우 큰 것, 익명성과 인터넷 참여로 인한 불성실 응답 문제도 통제가 어렵다는 한계도 있습니다.

그렇다면 어떤 연구에서 AI Moderator가 유용한가?

1. 대규모 인터뷰 또는 FGI를 진행하는 경우

인터뷰에 할애되는 시간이 짧고 덜 심층적이지만 대규모로 수행함으로써 정성 연구에 정량적 분석을 동시에 만족시킬 목적으로 하는 연구에 적합합니다.
정량적 수치가 중요하지만, 수치가 가지고 있는 이유를 함께 수집할 필요가 있는 경우에 적합합니다.

2. 빠른 결과 도출이 중요한 경우

사전 테스트를 충분히 할 수 있습니다. (시행착오에 들어가는 시간과 비용을 줄일 수 있음)
인터뷰 내용을 필사하고 분류하는 데 들어가는 시간을 획기적으로 줄일 수 있습니다.
전문가 인터뷰에 비해 참여자 한 명에게 들어가는 비용과 시간을 절약할 수 있습니다. (출처)
인터뷰를 진행하는 중간에도 피드백을 달거나 빠르게 수정하여 재배포할 수 있습니다.

3. 참여자의 참여 유도가 어려운 경우

참여에 대한 참여자의 부담감을 줄일 수 있어 참여자 유도에 용이합니다. (시간, 상황, 장소, 다양한 인터뷰 방법 등)
연구 참여자 범위를 비교적 쉽게 넓힐 수 있습니다. (국가에 대한 제한, 언어의 제약, 언어 또는 시각적 장애로 인한 제약 등)

AI Moderator Service의 한계

다양한 장점에도 불구하고, 몇 가지 한계가 존재합니다.

인간의 미묘한 감정 파악의 어려움: AI는 아직 인간의 미묘한 감정을 완벽하게 이해하고 반응하는 데 한계가 있습니다.
비언어적 커뮤니케이션 이해의 어려움: 상대방의 표정, 몸짓, 목소리 톤 등 다양한 비언어적 신호를 통해서 많은 정보를 얻어 뉘앙스의 차이나 문화적 차이를 알아내기도 하는데, AI는 이것을 파악하는 데 한계가 있습니다.
문화적 맥락의 부족: AI는 다양한 문화적 배경과 맥락을 고려하지 못할 수 있습니다.
윤리적 문제: AI를 통한 데이터 수집과 분석 과정에서 윤리적인 문제가 발생할 수 있습니다.
개인화의 부족: AI는 개인별로 맞춤형 피드백을 제공하는 데 한계가 있을 수 있습니다. 인터뷰에 참여한 분들의 피드백에 따르면, 간혹 동일한 질문이 반복되거나 맥락이 잘못된 후속 질문이 나올 때가 있음을 지적했습니다. 질문 내용이 경직되어 보이고, “지금까지 통찰력에 감사드린다”와 같은 상투적인 표현이 사용된다는 의견도 있습니다.
응답자의 낮은 성실도: AI가 인터뷰를 진행할 경우, 시간이 길어지면 응답자의 성실도가 크게 떨어지고 중간이탈이 많은 것도 한계입니다. 사람의 인터뷰에서는 사전지식과 태도를 파악하기 위한 배경 질문이 포함하기도 하는데, 이는 인터뷰 시간을 늘려 주요 질문에 대한 답변을 얻기 어렵게 만들 수 있습니다.
아직은 완벽하지 않은 AI 특성 고려: 꼬리 질문이 어떻게 나오면 좋을지에 대한 의도를 명확하고 자세하게 Prompt에 남기는 것이 중요하고, 여러 사전 테스트를 통해서 실제 질문 흐름이 어떤지, 끊기는 지점이나 엉뚱한 질문을 하지 않는지 체크하는 것이 필요합니다.

결론적으로, AI는 UX Research의 다양한 측면에서 변화를 불러오고 있습니다. AI Moderator Service를 비롯한 다양한 AI 툴을 적절히 활용하면 UX Researcher는 보다 효율적이고 효과적으로 연구를 수행할 수 있습니다. 하지만 이러한 도구들을 최대한 활용하기 위해서는 AI의 한계를 인식하고 연구자의 지속적인 학습과 노력이 필수적입니다.

AI Moderator 툴을 실제 사용해본 결과, 그 잠재력과 한계가 동시에 드러났습니다. UX 연구자의 관점에서 볼 때, 다음 세 가지 핵심 영역에 집중하는 것이 중요함을 다시금 깨달았습니다:

문제 정의: 연구 목적에 부합하는 명확한 문제를 AI가 잘 이해할 수 있도록 설정
질문 구성: 정의된 문제를 해결하기 위해 AI의 한계를 파악하고 우회할 수 있는 질문 설계
결과 분석: 수집된 데이터를 단편적으로 보는 것이 아닌 심도 있게 분석하여 의미 있는 인사이트 도출

이러한 핵심 영역에 충분한 시간과 노력을 투자함으로써, AI 툴의 장점을 최대한 활용하면서도 인간 연구자의 전문성과 통찰력을 발휘할 수 있을 것입니다.

긴 글 읽어주셔서 감사합니다.

저작자표시