더 편리한 창작을 위한 생성형 AI의 숙제

2024. 11. 1. 12:47AI 이야기
임현경 (Hyun Kyung Lim)

프로덕트 디자이너의 생성형 AI 사용기

‘창작물’ 하면 뭐가 떠오르시나요? 프로덕트 디자이너로서 늘 디자인을 하고 있지만, 뭔가를 창작하는 일은 늘 어렵습니다. 괜히 부담감이 느껴지곤 하죠. 이런 창작의 어려움이 저 혼자만의 일은 아닐 겁니다. 원하는 대로 결과물을 만들어준다는 생성형 AI의 도움을 받는다면 어떨까요. 생성형 AI 챗GPT(ChatGPT)와 미드저니(Midjourney)*로 콘텐츠를 만들며 편리한 창작을 위해 필요한 조건들을 살펴봤습니다.

*미드저니 V6 기준

 

생성형 AI로 네 컷 만화를 만든다면?

여러 창작물이 있겠지만 그중에서도 저는 가장 먼저 떠오르는 글과 그림을 골랐습니다. 글과 그림을 각각 따로 만들기보다는 하나의 이야기를 만든 뒤에, 이 이야기를 표현하는 네 장의 이미지를 생성, ‘네 컷 만화’를 완성하는 것이 목표입니다. 

챗GPT로 글쓰기

먼저 챗GPT에 작문을 맡깁니다. 이때 ‘무엇'을 쓸지 정하는 것이 창작의 첫걸음입니다. 막연히 어린 조카가 좋아할 만한 이야기였으면 좋겠다는 생각에, 챗GPT에 “어린이에게 어떤 이야기를 들려주면 좋을지”를 물었습니다. 

챗GPT가 제안한 아이디어 중 ‘용기와 도전'이라는 주제를 선택, 이를 활용해 프롬프트를 작성했습니다. 작문의 목적이 어린이를 위한 동화책이라는 점과 함께 주인공이 여섯 살 소녀라는 설정을 추가했습니다. 

“용기와 도전을 다룬 간단한 그림 동화책을 만들려고 하는데, 6세 소녀를 중심으로 기승전결이 있는 스토리를 만들어주세요.” 

챗GPT는 기, 승, 전, 결에 따른 이야기에 추가로 ‘마무리'를 제시했습니다. ‘기승전결결’로 답한 것을 보니 아직은 기승전결 구조를 제대로 이해하지 못한 듯합니다. 완벽한 결과물은 아니지만, 용감한 소녀 리아의 이야기가 마음에 들었습니다. 마무리 부분을 제외한 스토리를 이미지 제작을 위한 스크립트 형식으로 다시 쓰게 했더니 아래와 같은 결과가 나왔습니다. 

 

미드저니로 그림 그리기

다음은 챗GPT가 쓴 글을 기반으로 미드저니에 창작을 맡길 차례입니다. 우선, 주인공의 외형, 전체적인 그림체 등 네 컷 이미지에 적용할 기본 설정이 필요합니다. 미드저니에 원하는 바를 설명하기 위해서는 몇 가지 규칙을 지켜야 하는데요. 

첫 번째, 미드저니가 내용을 잘 이해할 수 있도록 영어를 써야 합니다. 저는 익숙한 한국어로 먼저 프롬프트를 작성한 뒤 AI 번역 서비스 DeepL을 사용해 영어로 바꿔 미드저니에 입력하는 방식을 택했습니다. 

두 번째, 프롬프트 구조를 따라야 합니다. 미드저니가 참고할 수 있는 이미지, 필요한 정보를 명시하는 텍스트, 파라미터로 이뤄진 구조인데요. 

필요에 따라 일부 요소를 생략해도 되지만, 구조 자체를 파악해 두면 이에 맞춰 더 효과적인 프롬프트를 구성할 수 있습니다. 특히 파라미터의 경우, 이미지 생성을 위해 필요한 여러 조건을 입력할 수 있는데요. 이를 통해 이미지 크기, 해상도, 캐릭터, 스타일 등을 설정할 수 있습니다. 

세 번째, 프롬프트가 구체적일수록 결과물에 원하는 특성이 반영될 확률이 높아집니다. 프롬프트에 텍스트로 간단히 ‘baby’와 ‘laugh baby in bed’를 입력했을 때의 결과만 비교해도 그 차이가 확연히 드러나죠. 

이번에는 위 규칙을 참고하되 의도적으로 대략적인 텍스트 프롬프트와 파라미터만을 입력했습니다. 생성형 AI의 ‘창작 능력'을 확인해 보는 것이 실험의 목적이었기 때문에 모사할 만한 이미지 프롬프트를 제공하지 않기로 한 것이죠. 

텍스트 프롬프트는 앞서 완성한 스크립트를 기반으로 리아의 나이, 머리 모양, 모자, 옷차림 등을 나열했습니다. 여기에 콘텐츠 의도에 맞는 연출을 위해 ‘픽사 스타일', 애니메이션풍 이미지에 특화된 모델러 ‘niji6’, 화면비 16:9 등 다양한 파라미터를 추가했습니다. 

기본 설정을 위해 미드저니에 입력한 프롬프트 전문

Lia is 6 years old, Lia has a round face, with large eyes that are bright and curious. Her eyes are a dark brown colour, sparkling and full of life. Her nose is small and cute, and we love how her cheeks blush slightly whenever she smiles. Her mouth has small, pretty lips, and her two front teeth that show when she smiles are especially cute. Lia has curly brown hair that reaches down to her shoulders. Her hair is naturally flowing, and she keeps it in a cute ponytail style with a purple ribbon tied halfway up her head. The ribbon is not visible when she is wearing her adventurer's hat, but you can have some of the ribbon peek out from the brim of the hat. Leah likes to wear brightly coloured t-shirts and active shorts. The t-shirts are bright yellow or light pastel colours, and the shorts are denim and blue. She wears a small backpack, which contains small tools and snacks for exploration. On her feet, she wears sturdy sneakers to emphasise her active image. The sneakers are bright red, reflecting Lia's energetic personality. Lia always wears an adventurer's hat. The hat is brown, slightly worn, but still cool. On the front of the hat is a small explorer badge. In her hand, she always carries an exploration map or a small compass, so that she can easily pull it out when she needs it. Lia has a brave and curious personality, and is always full of energy. She enjoys challenges and adventures, which is evident in her face and body language. Lia's overall image is bright and positive, and she is a friendly child who can easily make friends with anyone, yellow adventure bucket hat, pixar style, 3d blender, cute, Characteristic, full shot --niji 6 --ar 16:9

미드저니가 프롬프트를 바탕으로 이야기의 주인공 ‘리아' 캐릭터를 만들었습니다. 프롬프트 내용 대부분을 반영했지만, 여러 차례 이미지를 생성해 봐도 ‘스니커즈', ‘지도'와 같은 세밀한 소품까지 나타내지는 못했는데요. 이를 보완하기 위해 직접 미드저니의 베리 리전(Vary Region) 기능을 사용해 수정했습니다.

리아의 신발을 스니커즈로 바꾸고 빈손에 지도를 들게 하고 싶었지만, 미드저니는 한 번에 두 가지 수정 사항을 입력할 경우 둘 중 하나만 적용하는 결과를 생성했습니다. 신발을 먼저 수정한 뒤, 수정본에 다시 지도를 추가하는 과정을 거쳐야 원하는 요소가 포함된 결과물이 나왔죠. 

캐릭터 설정까지 마친 끝에 비로소 본격적인 네 컷 만화를 만들 수 있는 조건이 갖춰졌습니다. 이 과정에서 현재 생성형 AI의 창작에는 사람의 도움이 필요하다는 점과 때때로 사람이 직접 그리는 것이 더 효율적이라는 점을 알게 됐죠.

계속해서 미드저니를 사용해 스크립트를 토대로 한 네 장의 이미지를 만듭니다. 캐릭터가 장면마다 달라지지 않게 하기 위해, 파라미터 중 ‘캐릭터 레퍼런스(Character reference)’를 활용했는데요. 프롬프트에 ‘--cref’를 입력한 뒤 미리 만들어 둔 리아 이미지를 첨부하고, 반영 정도를 명시하는 ‘--cw’를 최대치인 100으로 덧붙였습니다. 

Entrance to the forest, dense trees and a slightly dark background, Leah is still wearing her adventurer hat and carrying a small backpack, Leah is gathering her courage as she enters the forest, the small animals in the forest seem to be watching her, adding to the warmth of the scene, Brave face, pixar style, 3d blender, Cinematic Lighting --cref <https://s.mj.run/W1k8nOOWF-4> --cw 100 --ar 16:9 --niji 6

 

기, 승, 전, 결에 맞춰 차례로 이미지를 생성하는 중에 다시 문제가 발생했습니다. ‘캐릭터 레퍼런스’를 사용했음에도, 미드저니는 캐릭터를 일관적으로 표현하지 못했습니다. 눈동자 색, 머리 모양, 의상 등이 달라지는 바람에 리아가 제각기 다른 인물처럼 보였죠. 미드저니가 제공하는 사용자 가이드에서도 “특정 주근깨나 티셔츠 로고와 같은 정확한 디테일은 복사될 가능성이 없습니다.”라는 내용을 확인할 수 있었습니다.

또한, 재차 베리 리전으로 특정 부분을 수정해도 프롬프트와 무관한 결과물이 나오기도 했습니다. 예를 들어 ‘ a small shiny box’라고 적어서 빛나는 상자를 표현하고자 했지만, 뜬금없이 요정이나 환상 속 동물이 등장했죠. 이런 현상은 파라미터를 포함해 생성한 이미지에서 더 빈번하게 발생했습니다. 

 미드저니 사용자 가이드는 이에 대해 “원본 이미지의 콘텐츠와 선택한 영역에 따라 결정됩니다.”라고 설명합니다. 해당 내용만으로는 ‘원본’이 가리키는 것이 최초로 AI에 학습시킨 이미지 프롬프트인지, 미드저니는 파라미터를 적용하기 전의 이미지만 ‘원본’으로 인식하는지 파악하기가 어렵습니다. 결국 별다른 해결책을 찾지 못하고 생성과 수정을 거듭하며 네 컷 만화를 완성했습니다.

 

생성형 AI, 믿고 맡겨도 될까?

이렇게 네 컷 만화를 만들며, 생성형 AI는 창작을 더 효율적으로 만든다는 것을 실감했습니다. 자연어 입력만으로 빠르게 일정 수준 이상의 결과물을 만들어낼 수 있으니까요. 

작문의 경우, 동화의 줄거리와 그에 맞는 스트립트를 생성할 때는 유용했습니다. 단, 직접 읽을 수 있는 글을 맡기는 건 어려웠습니다. 실제로 지금 이 글을 쓰면서도 챗GPT가 알려준 문장을 활용했더니 편집자가 “문장 구조가 어색하다.”라고 말해 바로 수정해야 했죠. AI가 생성한 글을 그대로 쓸 순 없지만, 저와 같이 작문 자체가 어렵거나 상상력을 발휘하기 위해 아이디어를 얻고 싶은 사람이라면 도움이 될 겁니다.

그림은 프로덕트 디자이너로서 특히 아쉬움이 많이 남았습니다. 미드저니로 생성한 이미지는 색채, 명암, 질감을 비롯해 세부적인 요소에서 일관성이 부족해 인간의 손길이 필요했습니다. 연속적인 이미지가 필요한 그림책, 애니메이션, 영화 등에서 활용하기에는 제약이 많아 보입니다. 또한 계속해서 유사한 구도나 형태를 생성했는데요. 창의적인 결과물보다는 기존에 학습한 데이터를 모방하는 데에 특화된 것처럼 보였습니다. 

 

더 편리한 생성형 AI가 되려면

생성형 AI의 성능은 방대한 데이터를 학습시키면서 고도화될 수 있을 겁니다. 하지만, 성능만큼이나 중요한 것은 ‘사용자가 그 성능을 얼마나 잘 활용할 수 있는지’인데요. 많은 사람이 생성형 AI를 편리하게 쓸 수 있게 하려면 더욱 쾌적한 UI/UX가 필요합니다. 챗GPT와 미드저니를 사용하며 정리한 개선점은 다음과 같습니다.

  •  접근성 향상을 위한 정보 제공

생성형 AI는 전에 없던 생소한 툴인 데 반해, 사용자를 위한 구체적인 정보나 가이드가 부족합니다. 창작자가 별도로 비공식적인 자료를 학습하지 않으면 노력 대비 만족스럽지 못한 결과물을 얻을 확률이 높습니다.  

  • 미리보기 또는 프롬프트 실시간 반영 기능 추가

프롬프트를 다 입력한 뒤에 생성을 시작하고, 결과물이 생성될 때까지 기다리고, 다시 프롬프트를 수정한 뒤 동일 과정을 반복하는 일은 작업을 비효율적으로 만듭니다. 예컨대 미드저니에서 입력 중인 프롬프트에 따른 결과물을 대략적으로나마 미리 보여준다면, 사용자는 이를 참고해 프롬프트 내용을 수정하고 보다 원하는 바에 가까운 이미지를 얻을 수 있을 겁니다. 

  • 사용 기록 저장 및 관리 

사용자가 묻거나 요청하고 AI가 답하는 ‘대화 형식'은 여러 작업을 수행했을 때 입력-결과 기록을 파악하고 정리하기 어렵습니다. 계속 스크롤을 오르내리며 과거 대화 내용을 찾아야 할 때도 있죠. 입력한 프롬프트와 그 결과를 아카이빙하고 사용자가 원하는 때에 편리하게 열람, 관리할 수 있는 기능이 필요합니다.

 생성형 AI가 제공하는 경험이 향상될수록, 더 많은 사용자가 AI를 적극적으로 활용하면서 창작력에 날개를 달 수 있을 거라 생각합니다. 초심자부터 전문가까지, 창작을 원하는 모든 사람이 생성형 AI와 함께 유연하게 사고하고 상상을 실현할 수 있게 되길 바라봅니다.

 

. 이원용 - 프로덕트 디자이너
편집. 임현경 - UX 라이터
그래픽. 정예지 - BX 디자이너