별점과 리뷰로 사용자 경험 이해하기

2026. 6. 9. 19:10UX 가벼운 이야기
無異

배달 음식점을 고를 때도, 상품을 살 때도 별점부터 봅니다. 소비자에게는 나쁜 걸 먼저 걸러내는 좋은 휴리스틱입니다. 그런데 서비스를 운영하는 쪽, 그러니까 마케터나 리서처는 같은 별점을 어떻게 읽어야 할까요? 별점은 결국 개개인이 누른 별의 평균이고, '평균적인 사용자'는 대체로 존재하지 않습니다. 퍼소나를 나눠 보듯, 별점도 사용자를 세분화해서 봐야 합니다.

리뷰 텍스트를 어피니티버블로 묶으면 "사용자가 무엇을 말하는지"는 꽤 잘 보입니다. 그런데 리뷰에는 별점, 작성 시점 같은 정보가 늘 함께 달려 있습니다. 텍스트 군집을 이 메타데이터와 함께 보면 어떻게 되는지, K뷰티 앱 top3 (올리브영·화해·글로우픽)의 앱 리뷰로 확인해봤습니다.

별점은 평균이 아닌 분포를 봐야 한다

별점 2.6점인 사용자는 없습니다. 시장 1위 올리브영의 iOS 리뷰 평균이 2.6점인데, 이 숫자는 누가 만들었을까요?

올리브영 iOS 앱스토어 리뷰 별점 분포

리뷰 499개를 별점별로 나눠보면 1점이 44%, 5점이 24%로 양쪽 끝에 몰려 있습니다. 보통 정규분포를 기대하고 평균 2.6점짜리 사용자가 많을 거라고 예상하지만, 완전히 다른 두 경험이 서로 상쇄된 결과입니다. 화해도 비슷해서, 평균 3.1점이지만 실제로는 5점(34.5%)과 1점(33.5%)이 거의 맞붙어 있습니다. 평균은 양극화를 숨깁니다. 자연스러운 일이기도 합니다. 리뷰를 남기는 건 대체로 정말 불만이거나 정말 만족한 사람들이라, 분포는 전체 만족도가 아니라 '리뷰를 남길 만큼 경험이 강했던 사람들'의 목소리로 읽어야 합니다. 

올리브영 앱스토어 리뷰 어피니티버블

같은 리뷰를 어피니티버블로 군집화하면 두 무리의 정체가 보입니다. 가장 큰 군집은 앱 안정성·기술 오류(35%)인데, 1점 리뷰에는 앱 실행 오류, 무한 로딩, 결제 실패가 반복되고 5점 리뷰에는 쇼핑 편의와 빠른 배송이 나옵니다. 같은 앱 안에 "앱이 안 열려 답답한 사람"과 "잘 쓰고 있어 만족한 사람"이 함께 있습니다.

군집 지도의 색을 평균 별점으로 칠하면(빨강 1점, 초록 5점) 긍부정 지형이 한눈에 들어옵니다.

올리브영 리뷰 긍부정 버블맵 - 군집 색 = 평균 별점

화면 대부분이 살구빛으로 불만을 나타냅니다. "인증 확인이 안돼요"(평균 별점 1)로 가장 눈에 띕니다. 사용을 못하니 가장 심각한 문제겠죠. 텍스트만 묶으면 어느 군집이 큰지만 보이는데, 별점을 입히면 어느 군집에 불만이 많은지가 같이 보입니다. 배송 서비스같은 경우 빠른 배송에 만족하는 사용자와 늦은 배송에 불만이 사용자가 섞여있습니다.

많이 나온 문제가 가장 급한 문제는 아니다

많이 언급된 군집과 불만이 큰 군집이 다르다면, 우선순위도 달라져야 합니다. 이걸 매트릭스로 만들면 좋습니다.

대분류 비중 평균 별점
앱 안정성·기술 오류 34.7% 2.1
사용자 경험·개선사항 22.0% 3.2
배송 서비스·품질 7.2% 2.0

우선순위 매트릭스

평균 별점(가로축)과 빈도(세로축)로 놓으면, 많이 언급되면서 별점도 낮은 왼쪽 위 칸이 먼저 살펴볼 후보입니다. 앱 안정성·기술 오류는 빈도 1위(35%)에 별점 2.1점으로 명확한 최우선입니다. 배송 서비스·품질은 빈도 7%에 불과하지만 평균 2.0점으로, 자주 언급되진 않아도 놓치면 안 되는 숨은 불만입니다. 

빈도만 보면 "많이 나온 것부터 고치자"가 되고, 별점을 함께 보면 "많이 나오면서 강하게 불만으로 표현된 것부터 보자"가 됩니다.

시계열 변화 보기

별점을 시계열에 늘어놓는 것만으로 많은 정보를 줍니다. 아래는 저 시기에 문제가 생겨서 불만 리뷰가 치솟았다가 해결 된 것을 보여줍니다.

이걸 다시 클러스터링하고 시계열에 펼쳐놓으면 주제별로 세분화해 확인 할 수 있습니다. 월단위나 분기 단위로 묶어서 볼 수 있습니다.

주제별 클러스터 시계열 변화

앱 안정성·기술 오류는 2024년부터 2026년까지 여러 분기에 걸친 반복 패턴입니다. 누구에게나 쉽게 재현되지 않는 예외적으로 케이스에서 간헐적으로 생기는 경우 쉽게 대처가 되지 않아 계속 남아있는 경우가 많습니다. 리뷰 정렬·옵션 필터는 반대로 2025년 4분기에 집중된 일시적 급증입니다(전체 15건 중 13건). 리뷰 UI를 개편하며 옵션별 필터링과 도움순 정렬을 없앤 데 대한 불만이 나오다가 업데이트로 해결 된 것 같습니다.

"상품별 리뷰 보기 왜 없어진거죠" · "리뷰 도움순 돌려내세요" · "누구를 위한 업데이트"

 

별점은 후한데 글은 부정적인 리뷰

리뷰에는 별점 말고 글 자체의 감정도 있습니다. 어피니티버블은 LLM으로 본문을 읽어 1점(부정)–5점(긍정) 감성 점수를 매기는데, 별점과 늘 일치하지는 않습니다. 군집 지도를 별점 대신 글의 감성으로 칠하면 화면이 한층 더 붉어집니다. 리뷰에서는 평상시 잘쓰고 있지만 사용 중 불만이나 개선 사항을 얘기하는 경우에 부정적인 얘기이니 긍부정 점수가 별점보다 낮은 경우가 많습니다.

별점, 긍부점 점수 차이

전체적으로 긍부정점수가 양극으로 더 치우친 경향이 있습니다. 그런데 방향이 반대인건 회원 가입 및 연령 제한 클러스터인데요.

"구매하고 싶은데 회원가입이 안 돼서ㅠㅠ 그거 빼면 너무 좋은 거 같아요" · "부모님 동의로 바꾸면 안 되나요, 하나하나 메모해서 사는 거 너무 번거로워요" · "지금은 아빠 아이디로 써요… 다른 건 다 좋습니다"

긍부정점수는 낮은데 왜 별점은 높을까요. 내용 자체는 불만을 얘기하지만 사용자는 애착이 있습니다. 별점에는 애착이 남아 있고, 글에는 막힘에 대한 불만이 드러납니다. 별점만 봤다면 "3점대면 괜찮네" 하고 지나쳤을 군집입니다. 그래서 별점과 감성이 벌어지는 군집은 따로 챙겨볼 만합니다. 애착이 남은 사람들이 모여 있으니까요.

 

별점 높은 앱에서는 '왜 좋은지'가 더 궁금하다

세분화가 필요한 건 불만만이 아닙니다. 글로우픽은 평균 4.6점에 5점이 82.6%입니다. "잘하고 있네"로 덮기 쉽지만, 별점이 높을수록 오히려 왜 좋은지가 궁금합니다.

글로우픽 iOS 앱스토어 리뷰 별점 분포

올리브영이 양 끝으로 갈라졌다면 글로우픽은 5점 하나로 쏠려, 평균 4.6점은 변별력이 없습니다. 남는 질문은 "왜 좋은가"입니다. 긍정 리뷰는 리뷰 신뢰(31.8%), 습관적 사용(23.4%), 체험단 당첨 경험(21.0%) 세 축으로 나뉘고, 그 안에 이런 말이 반복됩니다.

글로우픽 앱스토어 리뷰 어피니티버블

"화장품 살 때마다 꼭 켠다" · "없으면 큰일 난다" · "이벤트 당첨이 생각보다 잘 된다"

실제 사용자의 언어라서 광고 카피보다 강할 때가 있습니다.

다만 체험단 당첨 경험은 칭찬의 대상이 다릅니다. 처음엔 보상성 거품을 의심했는데요 :) 별점만 후하게 주는 패턴이라면 앞서 쓴 별점과 감성의 격차로 잡힐 테니까요. 결과는 별점 4.93에 감성 4.90로 격차가 거의 없습니다. "당첨되면 선물받는 느낌이라 너무 좋습니다" 같은 본문도 진심 어린 칭찬입니다. 대신 원문의 언어가 다릅니다. 이 군집에서는 '당첨'이 29%(전체 9%), '이벤트'가 66%(전체 18%) 등장합니다. 칭찬은 진짜인데 그 대상이 제품력이 아니라 당첨과 보상 경험인 거죠. 글로우픽 4.6점의 약 5분의 1은 보상 설계에 대한 평가입니다. 흥미로운 건 이게 별점과 감성의 격차로는 안 보인다는 점입니다. 보상에서 온 칭찬도 진심이라 둘 다 높으니까요. 원문의 보상 언어를 직접 봐야 드러납니다.

활용도 갈립니다. "제품 비교가 편하다"는 제품 메시지의 재료지만, "당첨이 잘 된다"는 체험단 운영의 성과 지표에 가깝습니다. 긍정도 무엇에 대한 긍정인지 나눠봐야 합니다.

정리하며

텍스트와 별점같은 메타데이터를 보면 사용자가 처해있는 상황을 좀 더 잘 상상해 볼 수 있습니다.

겹쳐 본 것 드러나는 것
텍스트 군집 사용자가 무엇을 말하는지
+ 별점 분포 평균 뒤에 숨은 양극화
+ 군집별 평균 별점 빈도와 다른 우선순위
+ 작성 시점 일시적 급증 vs 반복 패턴
+ 텍스트 감성 "쓰고 싶은데 막힌" 사용자
+ 원문의 언어 칭찬이 무엇을 향하는지

별점이나 날짜는 리뷰에 이미 달려 있는 정보입니다. 텍스트 군집과 함께 보기만 해도 같은 데이터가 훨씬 깊게 읽힙니다. 평균 별점에 가까운 사용자는 사실 거의 없었습니다. 사용자를 세분화해서 봐야 한다는 것은 별점에서도 똑같이 적용됩니다.

뷰티 앱 뿐 아니라 커머스, 금융, 교육, 헬스케어, SaaS처럼 리뷰와 VOC가 쌓이는 곳이라면 같은 방식으로 읽을 수 있습니다. 쌓인 리뷰를 평점표가 아니라 사용자 경험 지도로 바꿔보고 싶다면, 어피니티버블로 한 번 시도해보세요.