UX 가벼운 이야기

UX 리서치에서 통계 분석하기: 집단 평균 비교 분석

bomi.k 2024. 12. 20. 07:50

들어가며

사용성이 좋은 앱의 조건으로 어떤 요소가 떠오르나요? 적절한 정보 배치, 가독성, 접근성 등이 떠오르나요?
지난 프로젝트에서 우리는 '좋은 사용성'을 'Task 수행 시간'이라는 지표를 기준으로 평가해 보았습니다.
평가 목표는 주어진 시간 내에 빠르고 정확하게 태스크를 수행할 수 있는 레이아웃을 데이터 기반으로 가려내는 것이었습니다.

어떤 상황에서 '빠른 수행 시간'이 곧 '좋은 사용성'이 될 수 있을까요? 티켓을 구매하는 하는 상황을 떠올려 볼까요? 좌석을 빠르게 선점하기 위해 결제 완료까지 가는 시간이 최소한으로 걸려야 하겠지요. 또는 운전 중 인포메이션 화면을 조작하는 상황을 생각해 봅시다. 전방 주시와 동시에  빠르고 정확한 화면 조작이 필요하겠죠. 이런 상황에서 좋은 사용성은 짧은 수행 시간으로 평가될 것입니다.

이번 글에서는 태스크 수행 시간, 만족도 등 ‘숫자 지표’를 바탕으로 가장 사용성이 좋은 레이아웃이 무엇인지를 통계적으로 어떻게 분석하여 판단하는지, 그 방법을 소개하려 합니다.

사용성 조사 개요

우리가 진행한 사용성 조사의 목표는 A, B, C 레이아웃 중 어떤 레이아웃에서 사용자가 태스크를 가장 빠르고 정확하게 수행할 수 있는지를 알아보는 것이 목표였습니다. 예를 들어, 랜덤하게 모집한 30명의 사용자를 대상으로 홈 화면에서 ‘확인' 버튼을 누르는 데까지 걸리는 시간을 측정했다고 가정해 볼게요. A 레이아웃에서 평균 3.2초, B는 2.8초, C는 3.0초가 소요되었습니다. 단순히 시간을 기준으로 보면, B > C > A 디자인 순으로 좋은 사용성을 가진다고 볼 수 있겠죠. 하지만 여기에서 우리가 간과한 사실이 있습니다. 

<레이아웃 예시>

처음 30명을 대상으로 했을 때, 그리고 다시 랜덤하게 30명을 샘플링하여 동일한 조사를 진행했을 때에도
동일하게 B > C > A 순으로 수행 시간이 적게 소요될까요? 지속해서 다른 사용자로 샘플링했을 때도 동일한 결과가 나오는지, 즉, 단순 샘플링 효과에서 오는 결과가 아닌지를 확인해 봐야 합니다.

이를 확인하기 위해 우리는 집단 평균 비교(Group mean comparison) 분석을 진행했습니다.

 


통계적 분석 방법: T-test와 ANOVA


집단 평균을 비교하는 대표적인 분석 방법으로는 두 집단을 비교하는 T-test와 세 집단 이상의 평균을 비교하는 ANOVA가 있습니다. 각 분석 방법에 대한 이론적인 내용은 이번 글에서 다루지 않겠습니다. 집단 분석할 때, ‘이런 방법이 있구나! 이걸 주의해야 하는구나!’ 정도로 생각하시고 글을 읽으시면 더 이해하기 쉬울 것입니다. 

지난 프로젝트에서는 두 방법을 모두 사용하여 결과를 도출했는데요, 실무에서 어떻게 적용했는지 소개하겠습니다. 그 전에 T-test와 ANOVA 분석 시 주의해야 할 점과 어떤 툴을 사용해야 하는지에 대해 간단하게 짚고 넘어가볼게요.

 

통계 분석 전 유의 사항

분석할 때 유의해야 하는 점은 (a) 적절한 샘플 수가 확보 되었는지, (b) 관측치가 정규 분포를 따르는지, (c) 데이터 전처리가 되었는지를 확인하는 것입니다.

a. 샘플수 확보
적당한 샘플수 확보는 통계분석에 중요한 요건입니다. 산업에서는 적어도 분석 단위 당 30 샘플 이상을 분석에 ‘적절한' 샘플 수로 통용하고 있습니다. 샘플 수가 너무 적을 경우 데이터의 대표성이 떨어지며 결과를 일반화할 수 없기 때문입니다. 또한 결과의 신뢰성, 즉 믿을 수 있는 결과인지에 대한 믿음이 떨어질 수 있습니다. 조금 더 통계 이론에 기반하여 이야기를 해보자면, 샘플 수가 적은 경우 표본 오차가 커져 정규성 가정을 만족하지 못할 수 있으며, 신뢰구간이 넓어지고 결과를 신뢰성이 떨어질 수 있습니다. 이러한 이유로 최소 샘플 수를 확보하는 것이 통계 분석에 가장 중요한 요건이라 할 수 있습니다.

b. 정규성 확인
정규 분포(정규성)는 평균을 기준으로 관측치가 몰려있고 평균에서 많이 떨어질수록 관측치가 적어지는 ‘종 모양’의 그래프를 떠오르시면 이해가 더 쉬울 겁니다. 위에서 언급했듯이, 관측치(데이터)가 정규 분포를 따르는지 확인이 필요합니다. 많은 통계 분석 방법에서 관측치가 정규 분포를 따르고 있음을 가정하고 분석하는데요. 샘플수가 적다면 특정 관측치가 ‘우연히' 발생할 수 있는 가능성이 커지고, 데이터 분포가 왜곡될 가능성도 높아집니다.

c. 데이터 전처리
무작위로 수집된 데이터의 전처리를 하는 작업도 매우 중요합니다. 데이터 전처리란, 데이터를 분석할 수 있을 형태로 가공하는 과정을 의미합니다. 전처리 작업 방식은 다양하지만 기본적으로 이상치 제거 및 결측치 제거 또는 대체하는 등의 데이터 정제가 대표적입니다.


통계 분석 Tool

T-test나 ANOVA를 위한 분석 Tool이 따로 있는 것은 아닙니다. 파이썬, R, SPSS 등 평소에 이용하던 통계 프로그램을 사용하시면 되는데요. 지난 프로젝트에서 우리는 R을 이용하여 분석을 진행했습니다. R을 선택한 이유는 따로 없습니다. 과거에 사용해 보았고, 다른 프로그램보다 익숙하다는 이유로 선택했습니다. 각자 익숙한 정도와 쉽게 배울 수 있는 통계 프로그램을 찾아 사용하시면 되겠습니다.
한 가지 팁을 드리자면, ChatGPT 같은 AI 도구를 활용하면 통계 분석에 필요한 코드를 쉽게 생성할 수 있습니다. 분석 방법이 어렵게 느껴진다면, AI 도구를 활용해 보는 것도 좋은 방법이 될 것입니다. 


1. T-test

T-test는 두 집단의 관측치 평균을 비교할 때 사용됩니다. T-test에는 Paired T-test와 Independent T-test 두 가지 유형이 있는데, 각 분석 방법은 서로 다른 상황에서 적용됩니다.

대응표본 T-test(Paired T-test)

같은 집단 내에서 다른 조건(예: A 레이아웃과 B 레이아웃)의 관측치 평균을 비교할 때 사용됩니다.
같은 사용자가 두 레이아웃에서 동일한 태스크를 수행했을 때, 그 차이가 통계적으로 유의미하지를 확인하는 방법입니다.


<A레이아웃과 B 레이아웃에서 예시>

 

독립표본 T-test(Independent T-test)

서로 다른 집단 간의 관측치 평균을 비교할 때 사용됩니다. 예를 들어, A 레이아웃에 대해 A 집단과 B 집단의 평균 수행 시간을 비교할 때 이 검정 방법을 사용할 수 있습니다.

<A레이아웃에서 동일한 태스크를 수행한평균 수행 시간>

 

T-test 분석 예시

예시를 들어보겠습니다. 특정 집단이 A레이아웃(TESTdata 1)과 B레이아웃(TESTdata 2)에서 동일한 태스크를 수행한 결과를 비교 분석한다고 가정할게요. 관측 결과는 A디자인이 평균 9.63초, B디자인이 평균 8.48초 걸렸다고 가정해 봅니다. 두 레이아웃의 평균 차이는 약 1.15로 B안의 사용성이 더 좋아 보이는데요. 과연 이 차이가 단순 샘플링에서 오는 차이가 아닌 디자인의 차이에서 오는 효과인지 어떻게 확인할 수 있을까요? 이를 알아보기 위해서는 집단 평균 비교를 수행, 동일 집단의 2개의 디자인 결과를 비교하는 것으로 대응분석 T 검증(Paired T-test)을 수행해야 합니다.

<관측 결과 예시>

 

T-test 분석 결과 해석하기

어떤 분석 도구를 어떤 분석 도구를 사용하더라도 우리가 T-test를 통해 얻을 수 있는 값은 아래와 같이, T 값, 자유도(df), p-value, 그리고 신뢰도 95% 일 때 신뢰구간(95 percent confidence interval)과 평균차이(mean difference 추정치) 일 겁니다. 이 중에서 가장 중요한 정보는 무엇일까요? 다른 정보도 중요하지만 우리가 프로젝트를 하면서 가장 중요하게 봤던 정보는 p-value입니다. 통계적으로 유의미한 차이를 보이냐 보이지 않냐를 판가름할 수 있는 정보이기 때문이죠.

p-value가 0.05 이하일 때 신뢰 수준 95%에서 귀무가설(두 집단 간 차이가 없다)을 기각, 유의미한 차이를 보인다는 결론이 나오게 됩니다. 또한 두 데이터의 평균 차이는 1.1475며, 100번을 다른 샘플로 측정했을 때 95번은 두 데이터 평균차이가 0.340에서 1.954 사이에 있을 것이라는 점을 보여주죠. 따라서 아래의 정보에서 우리의 Finding은 두 데이터의 평균 차이는 ‘통계적으로 유의미하다’라고 결론 낼 수 있습니다. 즉, 레이아웃 B는 A보다 더 좋은 사용성을 가진다는 점을 설득하는 자료로 사용할 수 있을 겁니다.

<대응표본 T-test 결과 예시>

 

2. ANOVA

ANOVA(Analysis of Variance)는 세 집단 이상의 관측치 평균을 비교할 때 사용하는 분석 방법입니다. 지난 프로젝트에서 A, B, C 세 가지 디자인 간의 태스크 수행 시간 차이를 분석할 때 사용되었습니다. ANOVA 역시 집단 간, 혹은 집단 내 분산을 비교하여, 레이아웃 간 관측치 차이가 우연에 의한 것인지 실제로 유의미한 차이가 있는지를 검증합니다.

ANOVA 분석 전 유의사항

ANOVA 분석 시 유의사항은 T-test와 다르지 않습니다. 다만 ANOVA 분석 시에는 그룹 간 분산이 동일함을 가정하고 분석해야 합니다.

ANOVA 분석 예시

예시를 들어 볼게요. 이번엔 수행 시간이 아닌 A, B, C 레이아웃에 대한 만족도의 평균 차이가 통계적으로 유의미한지를 파악해 보고자 합니다. 레이아웃별 만족도는 B안 > A안 > C안 순으로 높게 나왔네요. 과연, A, B, C 각 레이아웃 보인 만족도 차이가 정말 뚜렷한 차이를 보인 걸까요?

<레이아웃별 만족도 예시>

 

ANOVA 분석 결과 해석하기

아래 결과에서 역시 신뢰구간 95%(p <. 05)에서 디자인 간의 만족도의 평균 차이가 있으며 이는 통계적으로 유의미함을 보여줍니다.

<ANOVA Test 결과 예시>

레이아웃 간 만족도 차이가 있다는 것이 증명되었다면 그다음으로 무엇이 궁금하신가요? 어떤 레이아웃 간에서 만족도 차이를 보였는지가 궁금하지 않으신가요? 우리는 이를 확인하기 하기 위해서는 ANOVA 분석 후에 사후 분석 T-test를 수행해야 합니다. 사후 분석 T-test라는 분석 기법이 따로 있는 것은 아니고, 세 디자인에서 어떤 디자인끼리 차이가 있는지 확인하기 위해서 두 집단 비교 분석 방법인 T-test를 하는 것이라 이해하면 좋을 것 같습니다. 다만 이 과정에서는 A, B, C 레이아웃의 만족도를 평가한 사람의 집단이 동일하니까 대응 표본 T-test(Paired T-test)로 진행되어야 하겠죠.

아래 이미지는 T-test 결과입니다. T-test에서 가장 중요하게 본 정보는 무엇이었는지 기억하시나요?

p-value였는데요. 이 결과는 개별 디자인 쌍으로 p-value가 어떻게 되는지를 보여주는 결과입니다. B와 C 간의 관계가 0.066으로 유의 수준 90%에서 의미가 있다는 결과를 보여줍니다. 한 가지 알아두셔야 하는 것은 ANOVA 분석 결과 집단 간 차이가 나타나도 사후 검증 T-test에서는 개별 레이아웃 쌍으로는 그 차이가
보이지 않을 수 있습니다.

<사후분석 T-test 결과>

분석 결과, B 레이아웃이 통계적으로 가장 유의미하게 좋은 만족도를 보였습니다.
그러나 단순한 평균 차이만이 아닌, 각 집단 내 분산과 관찰된 차이를 종합적으로 평가함으로써 그 차이가
우연이 아니라는 점을 확인했습니다.


마치며

집단 평균 비교 분석은 단순한 사용성 평가를 넘어, 성별, 연령, 기기 종류 등 다양한 집단 간 차이를 분석할 수 있는 강력한 도구입니다. 집단에 따른 차이를 통계로 분석, 검증을 통해 레이아웃, 디자인 등에 대한 관측치의 실제 차이를 밝혀 낼 수 있고, 이는 보다 나은 사용자 경험을 제공하기 위한 중요한 선택을 하는데 지표로 사용할 수 있습니다. 집단 분석을 통해 데이터 기반의 효과적인 의사 결정을 해보는 건 어떨까요?