본문 바로가기
AI 창작 실험일지

단 한 장의 셀카가 말하는 AI 쇼츠로! 좌충우돌 무료 AI 도구 활용기 (feat. 아빠의 창작 고통과 환희)

by life4joy 2025. 6. 18.

"내 딸의 셀카가 눈을 깜빡이며 웃는 8초짜리 영상으로 변했을 때, 저도 모르게 감탄사가 터져 나왔습니다. 단순히 기술을 적용한 것을 넘어, 마치 생명을 불어넣는 듯한 놀라운 경험이었죠."

여러분, 한 장의 셀카로 움직이고 말하는 AI 영상을 만들 수 있을까요? 저는 이 질문에 답하기 위해 직접 제 딸의 셀피를 들고 무료 AI 도구의 바다에 뛰어들었습니다. 이 글은 단순히 AI 쇼츠 제작 과정을 소개하는 것을 넘어, **저처럼 평범한 비전문가가 겪을 수 있는 좌충우돌과 그럼에도 불구하고 느꼈던 ‘창작의 기쁨’**을 여러분과 공유하고자 합니다.

그동안 이미지 생성, 영상 변환, 리터칭, 모션 추가 등 AI의 다양한 얼굴들을 하나하나 탐험해 왔습니다. 이번 여정은 그 모든 경험을 하나로 엮어, **단 한 장의 셀카가 생동감 넘치는 AI 쇼츠로 완성되는 '실전 종합편'**입니다. 이 글을 통해 여러분도 AI가 선사하는 무한한 창작의 가능성을 엿보고, 직접 경험해 보시길 진심으로 추천합니다.


🎬 실전 종합편, 그 시작점에서 느낀 기대감

무엇보다 이번 과정은 단순한 기술 나열이 아니었습니다. 제 딸의 사진 한 장이 AI 영상으로 완성되는 과정을 손수 체험하며 느꼈던 희열과 좌절, 그리고 예상치 못한 감동의 연속이었습니다. 과연 무료 도구만으로 어디까지 가능할까 하는 기대감과, 동시에 혹시나 하는 불안감이 교차했습니다. 하지만 결과는 제 예상을 뛰어넘는 것이었고, 이 경험은 여러분도 꼭 해보시길 권하는 이유가 되었습니다.

✅ 준비물 및 사용 도구 (모두 무료 또는 무료 플랜 도구)


1️⃣ 셀카 정리부터 시작! 첫인상을 좌우하는 리터칭 단계

사용 도구: Cleanup.pictures, PhotoRoom

가장 먼저 딸의 셀카에서 불필요한 요소들을 정리하는 작업을 시작했습니다. PhotoRoom으로 배경을 제거하고, Cleanup.pictures로 티셔츠에 붙은 제품 태그와 주변 잡티를 깔끔하게 지웠습니다. 단순한 정리처럼 보이지만, 최종 영상의 퀄리티를 결정짓는 중요한 첫 단추였습니다. 마치 도화지를 깨끗하게 준비하는 작업과 같았죠.

사진 원본 과 태그 제거 작업후 모습

  • 도구 특성:
    • Cleanup.pictures: 셀카 옆 선글라스, 머리카락, 태그 제거 등 미세하고 부분적인 삭제에 탁월합니다.
    • PhotoRoom: 흰 배경으로 변경하거나 라이트 글로우 효과를 적용하여 메인 사물을 돋보이게 하는 데 효과적입니다.

2️⃣ 움직이는 영상 만들기! 무한 난관 속 한 줄기 빛, 모션 단계

사용 도구: Veo2

정지 이미지에서 동영상 생성

깨끗하게 정리된 이미지를 이제 움직이게 할 차례였습니다. 처음에는 Runway ML에 이미지를 업로드하고 "My daughter smiles gently, eyes blinking, background moving slightly"라는 프롬프트를 넣어 시도했습니다. 하지만 무료 계정의 워터마크가 영상에 나와 블로그용으로는 사용할 수 없지 않을까 하는 현실에 부딪혔습니다.

좌절하지 않고 일단 Veo2로 바꿔 다시 시도했습니다. 하지만 여기서 또 다른 난관에 봉착했습니다. 동일한 이미지와 프롬프트로 1차 시도했으나, "안전 이유"로 인해 Veo2에서는 동영상 생성을 거부당했습니다. 어린아이의 이미지를 직접적으로 사용하는 것에 대한 AI의 엄격한 가이드라인 때문이었습니다.

2차 시도에서는 "My daughter" 대신 "A young lady"를 사용해 보았지만, 여전히 어린이 관련 안전 이슈로 인해 생성에 실패했습니다. 수많은 시도 끝에 3차 마지막 시도로 "A lady smiles gently, eyes blinking, background moving slightly"라는 프롬프트를 사용하자, 드디어 기적이 일어났습니다!

딸이 실제로 눈을 깜빡이며 부드럽게 웃는 8초짜리 영상이 완성되는 순간, 저는 컴퓨터 앞에서 저도 모르게 감탄사를 터뜨렸습니다. 단순한 움직임이었지만, 마치 딸에게 생명을 불어넣은 듯한 놀라운 경험이었고, 이 고생이 헛되지 않았음을 실감하는 순간이었습니다.


3️⃣ 입술에 맞는 스크립트 만들기: 난관의 연속, ChatGPT와의 씨름

이제 움직이는 영상에 딸의 목소리를 입힐 차례였습니다. 영상을 보고 입모양에 맞는 대사를 작성해 달라고 ChatGPT에 요청했습니다. 그러나 8초라는 짧은 시간 안에 입술 움직임에 완벽하게 맞는 스크립트를 만들어내는 것은 예상보다 훨씬 복잡한 작업이었습니다.

처음에는 파이썬 프로그램으로 입술 움직임 데이터를 추출하여 CSV 파일로 업로드하는 방법과, 입 모양에 맞는 스크립트 예시를 직접 생성하는 두 가지 방법을 고려했습니다. 하지만 전자는 너무 복잡했고, 후자는 1차 시도에서 "너무나 부자연스러워서" 바로 포기했습니다. AI가 아직은 완벽하게 인간의 섬세한 움직임을 따라 하기는 어렵다는 것을 다시 한번 깨달았습니다. 결국, 이 단계에서는 입술 움직임에 대한 완벽한 싱크는 포기하고 임의의 대사를 사용하기로 했습니다.


4️⃣ 음성 만들기: 마법 같은 TTS 활용

사용 도구: TTSMaker

ChatGPT가 작성한 대사 대신, 제가 직접 생각해 낸 짧고 귀여운 대사 **" 언니 이 모자 어때? 좀 귀엽지 않아?"**를 TTSMaker에 입력했습니다. 여러 가지 여성 목소리 버전을 들어보고 가장 자연스럽고 딸에게 어울리는 목소리를 선택해 다운로드했습니다. 불과 몇 초 만에 자연스러운 음성이 뚝딱 만들어지는 것을 보면서, 역시 AI의 음성 합성 기술은 놀랍다는 것을 다시금 느꼈습니다.

텍스트-투-스피크

5️⃣ 최종 영상 완성! AI가 만들어낸 경이로운 순간, HeyGen

사용 도구: HeyGen

이제 모든 준비가 끝났습니다. Veo2에서 만든 8초짜리 영상에 맞는 완벽한 대화 추출 및 립싱크는 어렵다고 판단하여, 임의로 만든 대사와 수정된 정지 이미지를 가지고 최종 영상을 만들기로 결정했습니다.

HeyGen은 이 모든 과정을 하나의 플랫폼에서 간편하게 처리해 주었습니다.

  1. 아바타 생성: 리터칭한 이미지를 업로드하여 '나만의 아바타'를 생성했습니다.
  2. 음성 삽입: TTSMaker에서 만든 .mp3 음성 파일을 업로드했습니다.
  3. 최종 영상 렌더링 및 완성: 업로드된 이미지와 음성을 기반으로 HeyGen이 자동으로 립싱크를 포함한 최종 영상을 렌더링 해 주었습니다.

HeyGen으로 불과 몇 분 만에 딸이 말하는 듯한 립싱크 영상이 완성되었습니다. 물론 말투가 조금 어색하게 느껴지기도 했지만, 가족들에게 보여주니 모두들 신기해하고 반응이 아주 좋았습니다. 제가 직접 한 장의 사진에 생명을 불어넣은 듯한 뿌듯함이 밀려왔습니다.

🎁 도구 팁:

  • 생성된 영상은 .mp4로 다운로드 가능하며, 블로그, Shorts, SNS 콘텐츠로 바로 활용할 수 있습니다.
  • 만약 말투나 감정이 어색하게 느껴진다면, 음성 파일만 교체해 다시 렌더링 하면 됩니다.
셀피 사진 한장으로 만든 HeyGen을 이용 말하는 동영상이미지에서 말하는 동영상으로#HeyGen#TTSMaker#셀피

단계별 사용 도구 요약표: 나의 AI 쇼츠 제작 여정 한눈에 보기

단계 작업 내역 도구 핵심 기능
1단계 리터칭 Cleanup.pictures / PhotoRoom 배경·불필요 요소 제거
2단계 모션 생성 Veo2 눈 깜빡임·고개 움직임 추가
3단계 대사 스크립트 생성 ChatGPT 입술 움직임에 맞춘 대사 작성
4단계 음성 합성 TTSMaker 대사를 자연스러운 한국어 음성으로
5단계 최종 영상 HeyGen 스크린 캡쳐 아바타 생성 + 음성 업로드 → 자동 싱크

📝 글을 마치며: 창작의 고통과 AI가 주는 놀라운 기쁨 사이에서

자, 어떠셨나요? 여러분도 저와 함께 이미지에서 영상으로, 캐릭터에서 모션으로, 그리고 음성으로 이어지는 AI 제작 여정을 간접적으로나마 경험했습니다. 솔직히 말씀드리자면, 생각보다 많은 시간과 노력이 필요했고, 각 도구 간의 연동 작업이 결코 쉽지 않았습니다. 특히 어려웠던 점은 다음과 같았습니다.

  1. 이미지로 영상은 만들었으나, 그 영상 속 인물의 입모양에 완벽하게 맞는 대사를 추출하는 일.
  2. 추출된 대사에 어울리는 음성을 선정하고, 다시 그 음성이 입모양에 정확하게 일치하도록 만드는 일.
  3. 대사를 상황에 맞게 느리게 혹은 적절한 숨 시간을 넣어 실제 사람이 말하는 것처럼 자연스럽게 만드는 일.

하지만 이런 어려움 속에서도 이번 '실전 종합편'을 통해 단 한 장의 셀카로도 움직이고 말하는 나만의 콘텐츠를 쉽게 만들 수 있다는 것을 제 두 눈으로 확인했습니다. 그리고 무엇보다, 제 딸의 셀카가 살아 움직이고 말하는 모습을 보면서 **"AI가 주는 창작의 기쁨"**을 실감했습니다.

물론, 5단계를 거쳐 겨우 3초짜리 말하는 영상을 만들었다는 점에서 약간의 회의감이 들기도 했습니다. "이게 정말 쉬운 건가?" 하고 자문하기도 했죠. 하지만 저는 순수 무료 계정만을 사용해서 정지 이미지로부터 말하는 영상을 만들어 보았다는 것 자체에 큰 성취감과 기쁨을 느낍니다. 분명 저와 같은 초보자들을 위한 더 쉽고 간단한 방법이 있을 것이라는 희망도 가지고 있습니다.

이제는 여러분 차례입니다! 제가 겪었던 좌충우돌을 참고 삼아, 가볍게, 그리고 재미있게 따라 해 보세요. 여러분 손안의 셀카 한 장이 전혀 새로운 세계로, 그리고 놀라운 창작 경험으로 이어질 수 있습니다.

지금 바로 AI 쇼츠 만들기를 시작해 보시고, 직접 만들어 본 멋진 쇼츠를 댓글로 공유해 주세요! 여러분의 창작물이 궁금합니다!

※ 본문에 사용된 이미지/동영상/음성은 제미나이,  Veo2, Cleanup, TTSMaker, HeyGen을 통해 직접 생성하였습니다.

 

(Runway ML 무료 플랜으로 생성된 영상에는 워터마크가 찍혀 나왔습니다만 추후Runway ML의 공식 사용권한 페이지에서 "사용자는 업로드하고 생성하는 콘텐츠에 대한 소유권을 가지며, 생성된 콘텐츠는 비상업적인 목적으로 제한 없이 사용할 수 있다"는 점을 명확히 확인했습니다.)

덧붙여, 최종 영상 제작에 사용했던 HeyGen 역시 마찬가지였습니다.
HeyGen 고객 지원 페이지에서 **"HeyGen으로 만든 영상은 워터마크가 있더라도 상업적 목적을 포함하여 어떤 플랫폼에서든 자유롭게 사용하고 배포할 수 있다"**는 사실을 확인했습니다. 제가 직접 만든 콘텐츠에 대한 소유권과 활용 자유도를 보장받는다는 점이, 이처럼 새로운 AI 도구들을 거리낌 없이 탐험하고 창작하는 데 큰 힘이 되었습니다. 여러분도 안심하고 다양한 AI 도구들을 시도해 보시길 강력히 추천합니다! "