사용성 비교 평가 도전기 2편. 정량 평가

2018. 5. 10. 07:50UI 가벼운 이야기
박재현 (Jaehyun Park)

서론

<사용자 경험 측정>, <알기 쉬운 UX 디자인 평가> 책에 제가 정량평가에 대해 궁금했던 내용이 있어 정리했습니다. 몇 명의 참가자가 필요할지, 어떤 수치가 의미 있다고 판단할지 등을 정리했습니다. 우선 정량 데이터를 활용하면 좋은 점과 유의할 점을 알아보았습니다.


정량 평가 활용의 장점

히트맵 데이터


(1) 현상을 파악하는 데 유용합니다. 로그나 히트맵, 또는 사용자가 만족도를 평가하는 자기보고 데이터 등을 수집할 수 있습니다. 사용자 행동 패턴을 파악할 수 있습니다. 개선해야 할 문제의 우선순위를 매길 수 있습니다. 디지털 맥킨지에서는 UX 정량 데이터를 분석해 비용 대비 가장 효율적인 문제에 집중합니다.

(2) 정량 데이터는 디자인을 설득할 때 의사결정을 뒷받침하는 근거가 될 수 있습니다. 디자인을 구현하는 과정에 마케팅, 개발 분야, 경영 의사결정권자와 협의가 필요합니다. '사람들이 이 기능을 자주 사용하여 상단에 배치하였다' 와 '83%의 사용자가 이 기능을 먼저 클릭하여 상단에 배치했다.'는 같은 이야기입니다. 구체적인 수치를 통해, 의사결정을 도울 수 있습니다.

(3) 정량 데이터는 UX의 투자 대비 수익(returns on investment)을 계산하는 토대가 됩니다. UX Matters에 따르면, 경영진은 종종 기업 소속 UX 팀에 UX의 투자 대비 수익을 계산해달라 요청을 한다고 합니다. 회사의 핵심 성과 지표(KPI)에 연결할 수 있는 UX 측정 지표를 설정하여, ROI 계산에 도움이 될 수 있습니다. 디자인 전후 데이터 측정으로도 성과를 보여줄 수 있습니다.


정량 평가 활용 시 유의할 점

정량 평가 활용할 때 주의가 필요하다는 의견도 있습니다. Jacob Nielson은 정량 평가가 잘못된 결론으로 흐를 위험이 있다 경고합니다. 인사이트보다 숫자를 수집하는 것에 집중하기 쉽다는 것입니다. 정성 평가에서 사용자들이 같은 문제를 자주 겪는 것을 본다면, 굳이 얼마나 많은 사용자가 문제를 겪는지 계산할 필요가 없다는 것이지요. 정량 평가를 위해 정성 평가보다 비교적 참가자가 많이 필요하여, 비용이 더 든다는 단점도 언급하고 있습니다.


본론

(1) 얼마나 많은 참가자가 필요할까?

(사용자 경험 측정 p.151~154 참고)

정량 평가를 하려면, 신뢰도 확보를 위해 참가자를 많이 모집해야 한다는 부담이 있습니다. 사용자 경험 측정의 저자는 '8~10명의 참가자 숫자도 충분한 의미를 지닌다'라고 이야기합니다. 표본 숫자는 사용자의 다양성, 제품이 얼마나 복잡한지, 리서치 목적이 무엇인지, 시간과 비용을 고려해 정합니다. 디자인 초기 단계에 테스트를 빠르게 반복해 디자인을 개선하는 목적인 경우, 6~8명으로 테스트하기를 권합니다. '상당히 다른' 패턴을 보이는 사용자 그룹이 있다면, 그룹당 4명 정도를 권합니다. 디자인 초기에는 소수 사용자에게 주요한 문제를 확인합니다. 이후 완성 단계로 갈수록 더 많은 참여자에게 나머지 문제를 확인하는 게 일반적이라 합니다. 저자는 제품을 평가하는 경우 50~100명의 대표 사용자를 권합니다. 자사, 경쟁사 제품을 넓게 평가하며, 결과가 모집단을 대표하는 것이 중요한 목적이기 때문입니다.


대규모 표본과 대표 사용자를 결합하는 방식

대규모 표본으로 사용성 평가를 하는 경우, 데이터의 신뢰도가 높아진다는 장점이 있습니다. 반면 사용자에 대해 깊이 이해하기 어려울 수 있습니다. 소규모 인원으로 사용성 평가를 진행하면, 사용자의 행동과 태도에 대해 깊이 이해할 수 있습니다. 반면 소수 참가자가 전체를 대표할 수 있는지 의문이 있습니다. 이런 각 평가법의 한계를 고려해, 두 가지 방식을 결합할 수 있습니다. 대규모 사용성 평가를 진행하여 사용자 그룹을 구분합니다. 이후 각 그룹의 대표 사용자를 따로 모집해 깊이 있게 이야기를 듣는 방식입니다.

대규모 표본과 대표 사용자 조사를 결합하는 방식


(2) 어떻게 표본을 선택할 것인가?

(사용자 경험 측정 p.23 참고)

참여자는 연구 결과에 큰 영향을 줍니다. 최대한 실제 사용자에 가까운 참여자를 선정하도록 계획을 세우는 것이 중요합니다. 이를 위해 두 가지 단계를 거칩니다. 첫 단계는 참여자가 연구에 참여할 자격이 있는지 모집 기준을 결정하는 것입니다. 예를 들어, 제품을 많이 사용한 사람과 처음 접하는 사람을 구분해 모집할 수 있습니다. 두 번째는 참여자를 어떻게 나눌 것인가입니다. 뚜렷한 기준으로 참여자를 나눌 것이라면 그룹을 어떻게 구성할지, 각 그룹에 몇 명을 모집할지 고려합니다. 사용성 테스트에서 일반적으로 그룹은 다음과 같이 나눕니다.

  • 해당 분야 지식: 초보, 중급, 전문가
  • 사용 빈도: 매월 방문 횟수 등
  • 경험 기간: 주, 월, 년
  • 인구 통계: 나이, 성별, 거주지
  • 활동: 특정 기능 사용 여부


(3) 중요한 문제, 아닌 문제를 어떻게 구분할까?

(사용자 경험 측정 p.130 참고)

문제를 분류하는 상황

사용성 문제와 단순한 탈선을 구분하는 것은 어려운 부분입니다. 메뉴 명칭이 오해를 불러 잘못된 경로로 많은 시간을 쓴다면, 명백한 사용성 문제입니다. 불명확한 일도 있습니다. 10명 중 1명만 특정 용어에 혼동을 느끼거나, 기능을 못 찾아서 헤매는 경우입니다. 사용성 평가팀은 같은 문제가 대규모 표본에서도 일어날 가능성이 있는지 파악해야 합니다. 참여자가 태스크를 진행하는 과정이 논리적으로 타당한지 확인합니다. 행동이나 생각에 일관성이 있는지도 확인해야 합니다. 논리적으로 타당하다면 소수가 겪더라도 사용성 문제라 할 수 있습니다. 행동에 일관성이 없어 참여자가 왜 그런 행동을 했는지 설명할 수 없다면 우연히 발생한 문제로 처리할 것입니다.


(4) 유의미한 수치를 어떻게 구분할까?

신뢰 구간 없이 도표에 표시하는 경우

사용성 평가로 다양한 결과 값을 얻습니다. 예를 들어, 각 기능에 만족도를 평가합니다. 이때, 3번이 가장 만족도가 높고 5번이 만족도가 낮다는 것을 알 수 있습니다. 가장 높고 낮은 점수라고 유의미하다 볼 수 있을까요? 신뢰 구간을 표시하여 유의미한 수치가 무엇인지 판단합니다. 엑셀 도표 기능에서 오차 막대를 추가하면, 도표에 신뢰 구간을 표시할 수 있습니다. 신뢰도를 설정해서 각 점수에 해당하는 신뢰 구간을 구합니다. 오차 막대를 신뢰 구간으로 설정하면 다음과 같은 도표를 얻습니다.

신뢰 구간을 표시하는 경우

예시는 90%의 신뢰도로 신뢰 구간을 설정한 경우입니다. 3번과 5번에서 신뢰 구간이 겹치지 않고 있어, 90%의 신뢰도로 3번 질문과 5번 질문의 만족도에 유의미한 차이가 있다고 말할 수 있습니다.

이렇게 오차 막대를 해석하는 방법에 대표적으로 3가지 방법이 있습니다.

(알기 쉬운 UX 디자인 평가 p.181 참고)

  • 두 평균 사이에 오차 막대가 겹치지 않는다면, 아무 문제 없이 평균들이 정해진 신뢰 수준하에서 통계적으로 유의미하게 다르다고 가정할 수 있다.
  • 두 평균 사이에 오차 막대가 넓게 겹친다면, 아무 문제 없이 그 평균들이 유의하게 다른 것이 아니라고 가정할 수 있다.
  • 두 평균 사이에 오차 막대가 살짝 겹친다면, 그것이 유의미하게 다른지 확인하기 위해 추가적 검정을 할 필요가 있다. (T검정)


결론

UX에서 데이터 활용에 관한 글을 썼습니다. 데이터를 맹신하기보다 정성 자료와 종합하여 의사결정을 돕는 자료로 사용할 수 있습니다. 필요할 때 설득에 근거로 활용할 수도 있겠습니다. 데이터 분석을 위한 데이터보다, 사용자 경험 향상을 위한 데이터 활용을 돕기를 바라며 글을 마무리합니다.



[참고##데이터 분석##]