You know you should be making videos, but you freeze the moment a camera points at you? Or the editing software looks like a wall of a thousand buttons? This tutorial vaults you over all three walls — shooting, gear, editing — in 45 minutes. A single script becomes an AI avatar's voice, an auto-caption tool's subtitles, and a 9:16 Short ready for YouTube. You're not learning the future of video — you're walking away with a **pipeline that actually ships today**.
Follow this tutorial for 45 minutes and you leave with three things.
Deliverables
📖 Term: AI Avatar An AI avatar is a virtual on-camera presenter that looks and sounds like a real person. Feed it a script and the avatar reads it aloud, with mouth shapes lip-synced to the voice and facial expressions shifting naturally. You can scan your own face to create a digital twin, or pick from the service's stock avatars. HeyGen, D-ID, and Synthesia are the leaders in 2026.
Tutorial metadata
| Field | Value |
|---|---|
| Time | 45 min (rushed 30, careful 90) |
| Level | Intermediate (prior AI tool use recommended) |
| Required | Web browser + one 30-second script + free-trial accounts |
| Prior knowledge | Basic prompt-writing experience |
| Cost | Free tiers are enough to start; $20–30/month for serious use |
Why this matters — breaking all three video walls at once
Solo founders and creators stall at the same place when it comes to video: gear (a $1,000 camera-lighting-mic rig), on-camera performance (freezing up, NG hell), and editing (Premiere Pro's thousand buttons). Any one of these walls is enough to delay video work indefinitely — with all three standing together, it becomes a "someday when I have time" problem. But in 2026, AI has effectively demolished all three. You can ship video without a face, without gear, and without a timeline editor. This tutorial runs that pipeline end-to-end once so the reflex sinks in.
Where you are now: you know what this session delivers. Next, prerequisites.
Exactly three things.
Required
Not needed
📖 Term: Text-to-Video You describe a scene in words and the AI generates a video clip. "A person walking on a sunset beach, slow motion" produces 5–10 seconds of that scene. OpenAI's Sora (now commercially available), Google's Veo 3, Runway Gen-4, and Kling 2 are the current leaders. At this stage, clips are short (5–15 seconds) and identity consistency is weak (hard to keep the same character across ten cuts), which is powerful for ad B-roll or mood shots but limiting for long narrative video.
Environment check (2 min)
You're ready if these three things open in a browser.
Corporate firewalls sometimes block avatar services — switch to a personal hotspot. If HeyGen is blocked, d-id.com is a drop-in substitute. This tutorial walks through HeyGen, but every step maps 1:1 to D-ID and Synthesia.
Where you are now: a script and two free accounts are ready. Before we dive in, a quick word on why we choose the avatar + script-to-cuts combo over pure text-to-video.
As of 2026 there are three main approaches to AI video. You can skip this section and still finish the tutorial, but reading it means three months from now, when a new tool drops, you'll know exactly where it slots in.
The three approaches side by side
| Approach | Top tools | Strengths | Current limits | Best for |
|---|---|---|---|---|
| (1) AI Avatar Video | HeyGen, D-ID, Synthesia | Script in, talking video out. Natural Korean/English voices | Slight "AI feel" still visible | Tutorials, product intros, company announcements |
| (2) Text-to-Video | Sora, Veo 3, Runway Gen-4, Kling 2 | Generates scenes that don't exist. Highest visual impact | 5–15s clips, weak identity consistency, expensive | Ad B-roll, mood shots, title sequences |
| (3) Script-to-Cuts | Vrew, Descript | Auto-captions + cut editing on your recorded voice or footage | Requires your voice or source video | Podcast clips, lecture videos, Shorts |
Reason 1 — Avatars fully solve the "on-camera" problem.
The biggest wall for solo founders was performance. Freezing in front of the lens, spending two hours on a 30-second clip, slipping into self-loathing after the tenth NG. That isn't a talent problem — it's your brain behaving differently under the red recording light. AI avatars end it in one move. Script in → five minutes later a "talking video" comes out. No NGs, no facial management, no fatigue. For the B2B founder who doesn't want their face online, the person who avoids filming because of appearance anxiety, the one whose voice shakes — this is real liberation.
Avatars still carry about 10% "AI-ness." But 10% awkward video beats the alternative (no video at all) by 100x.
Reason 2 — Text-to-video isn't the narrative lead yet.
Watch a Sora or Veo 3 demo and your jaw drops. It looks cinematic. Then you actually use it and the limits surface fast: each clip is 5–15 seconds, consistency is poor ("the same protagonist across 10 cuts in a 30-second Short" is hard), and cost runs several dollars per video. It's a complement, not a replacement. For a Short's 3-second opening mood shot, a mid-video B-roll insert, a title sequence — these fragment uses are extraordinarily powerful, but trying to build a full 30-second narrative purely from text-to-video will frustrate you at this stage. That limit will likely dissolve in 1–2 years, but if you need a video shipped today, avatar + script-to-cuts is dramatically safer.
📖 Term: Voiceover / Lip-sync Voiceover is text-to-speech — written words read aloud in a human-sounding voice. It used to sound robotic ("GPS-voice" quality), but in 2026 it's indistinguishable from studio voice-acting in many cases. ElevenLabs, 11Labs, and Naver Clova Voice lead the space. Lip-sync matches that voice to an avatar's (or photo's) mouth movement. HeyGen wraps both together internally — you just submit the script.
Reason 3 — Script is the only asset that matters.
Whether you film, avatar, or text-to-video, nothing ships without a script. That's why the writer role hasn't disappeared in the AI video era — it's become more important. With on-camera performance stripped out, the writing carries the whole video. So this tutorial spends more time on "how to massage a script for AI voices" than "how to configure the avatar." Tools change tomorrow; a well-tuned 30-second script still works tomorrow.
Where you are now: you understand why this combo is rational. Now we actually ship a Short in 45 minutes — four steps.
Without filming, all the weight shifts to writing. Your 30–60 second script needs to be tuned so an AI voice reads it naturally. What a human reads well and what an AI reads well are different.
Principle 1 — Spell out English acronyms phonetically.
AI voices frequently read "AI" literally as "aye" or some awkward variant. Write "A.I." or spell it out. "MVP" becomes "M.V.P." or "minimum viable product," "URL" becomes "U.R.L." A small change, but it delays the viewer's "oh, this is AI-generated" moment significantly.
Bad: We built it as an AI-powered MVP and shared the URL
Good: We built it as an A.I.-powered M.V.P. and shared the U.R.L.
Principle 2 — Spell numbers out when they sound odd.
"3 apps" may get read as "three apps" fine, but "3rd" can trip AI voices. Write "third." "30 seconds" → "thirty seconds" if the voice stutters. Preview and adjust.
Principle 3 — Use punctuation to control breath.
Periods create longer pauses than commas. Drop a period just before a word you want emphasized — the AI voice pauses briefly and the stress lands automatically.
Flat: The day ends in a blur and you never got to your own work
Breathing: The day ends in a blur. And you never got. To your own work.
Principle 4 — Keep sentences under 15 words.
Long sentences make AI voices sound winded, and mobile viewers lose the thread. Short declarative sentences ending in strong verbs create rhythm.
📖 Term: Aspect Ratio The width-to-height ratio of a video. 16:9 is the classic horizontal TV / long-form YouTube frame, 9:16 is the vertical frame for Shorts, Reels, and TikTok, and 1:1 is the square for Instagram feed. With mobile now driving 70%+ of watch time in 2026, always set 9:16 vertical for Shorts work. Cropping a 16:9 video down to 9:16 after the fact either cuts off important parts or leaves black bars on the sides.
Park the tuned script in your notepad and move to Step 2.
Go to heygen.com and sign up with Google. Free-trial credits (1 minute of video) are granted on signup — enough for two 30-second Shorts to test the system.
On the dashboard, hit "Create Video" to open a new project. Three settings to choose in order.
(1) Pick the avatar. Dozens of options: East Asian / Western, male / female, young / middle-aged, business suit / casual. For a B2B service, go with a business suit. For B2C, casual. Click preview on each candidate to verify the mouth movement feels natural. For Korean audiences, an East Asian woman in business casual tends to feel most neutral at first.
(2) Pick the voice. Multiple voices per language. The key move: play the same sentence in two or three voices via the preview button. Calm tones suit education and consulting; energetic tones suit product launches and events. The avatar-voice pairing determines 80% of the video's tone.
(3) Set the background. HeyGen ships with stock backgrounds (offices, living rooms, gradients). Uploading your own brand image is strongly recommended. If you made brand-aligned backgrounds in the Make AI Images tutorial, this is where you use them.
Once setup is done, paste the script you tuned in Step 1 into the script input box. Strip out part-labels like [Hook] or [Problem] — only the lines the avatar should read remain.
Preview is decisive. Before hitting generate, always click preview to hear how the AI voice actually reads it. If a single word sounds wrong, fix the script and preview again. Cycle this 3–5 times until it sounds natural.
Check:
- English acronyms spelled phonetically?
- Odd numbers spelled out?
- Punctuation controlling breath?
- Total length 30–60 seconds?
Finally hit "Submit" to queue generation. 3–7 minutes later the MP4 is ready to download.
The MP4 from HeyGen is a horizontal (16:9) avatar-talking video. To post as a Short, you need to crop to 9:16 and add captions. That's where Vrew enters.
Sign up free at vrew.voyagerx.com and install the desktop app (the web version works but desktop is more stable). "New Video" → drag in the HeyGen MP4. Vrew automatically recognizes the voice and generates captions. Accuracy is 95%+ for both Korean and English.
Caption styling is half the polish of a Short.
9:16 crop: In Vrew's aspect ratio settings, pick "9:16 (Shorts/Reels)" and it auto-crops the horizontal source to vertical. Nudge the position so the avatar stays centered in frame.
BGM: Vrew's free music library has mood-tagged tracks. Calm piano, upbeat electronic, cinematic swell — pick one matching your service tone. Keep BGM volume at 15–20% of voice volume. If BGM drowns the voice, viewers drop off in three seconds.
📖 Term: B-roll Supplementary footage overlaid on the main shot (the avatar talking). When the avatar says "meeting hell," flashing a two-second clip of an actual meeting room on top boosts engagement sharply. Use Vrew's "add source video," free stock from Unsplash/Pexels, or — for the advanced move — generate a 3-second clip in Sora / Runway Gen-4 / Kling 2 just for that moment. Fragmented B-roll is where text-to-video shines today.
In Vrew: "Export" → MP4 → 1080x1920 resolution → "high quality." This saves a file ready to upload to YouTube Shorts, Instagram Reels, and TikTok as-is.
Thumbnails are optional but valuable. YouTube Shorts still shows a static frame in the home feed preview. Open Canva, pick the "YouTube thumbnail" template (1280x720) or "Instagram story" template (1080x1920), and assemble: avatar face screenshot + one big text line ("Escape Meeting Hell") + brand color. One minute of work.
Where you are now: one MP4 and one thumbnail image are on your drive. Next, the verification check.
All five must read "yes" for completion.
If any is "no," the fastest fixes are usually #1 (9:16 crop) and #5 (BGM volume) — both 30-second tweaks in Vrew. #2 (length) means the script itself needs trimming, so loop back to Step 1.
Variation 1 — Face-cam vs. AI avatar
Filming yourself and using an avatar serve different purposes. Use this table to decide.
| Dimension | Face-cam (self-shot) | AI avatar |
|---|---|---|
| Gear | Camera + lights + mic required | Laptop only |
| Shoot time | 1–2 hours per 30-second clip | 0 min (just write the script) |
| Edit time | 1–2 hours (cuts, captions, grading) | 15 min in Vrew |
| Emotional transmission | Strong (expressions, voice tremble) | Weak (10% AI texture) |
| Repeat productivity | Low (re-shoot every time) | High (swap scripts only) |
| Best content type | Vlogs, personal stories, interviews | Tutorials, product intros, announcements |
Vlogs and personal stories: face-cam wins. Tutorials, product intros, announcements: the avatar wins. For information-dominant videos where emotion isn't the point, the avatar is dramatically faster and more consistent.
Variation 2 — Long-form video (10+ min)
A 30-second Short handles fine with this pipeline, but a 10-minute lecture video with only the avatar gets visually exhausting. Switch to an avatar + slides + B-roll combo: overlay slides or B-roll over the avatar every 3–4 seconds. Boredom drops sharply.
Variation 3 — Your voice + auto-captions only
If avatars aren't your thing, record your own voice and bring it into Vrew for auto-captions over a still-image slideshow. Face never appears, but the voice is yours. Works well for podcast-style Shorts.
Variation 4 — Text-to-video for B-roll
In Sora / Runway Gen-4 / Kling 2, prompt "a woman in her 30s typing on a laptop in a café, warm tone, 5 seconds," and drop that clip into Vrew between avatar cuts. Don't build the whole video in text-to-video — use 3–5 second fragments only. That's the safe way to use it in 2026.
❓ The avatar's mouth looks off Likely English acronyms (AI, MVP, URL) left unspelled. Go back to Step 1's phonetic-spelling principle and regenerate. Special symbols (→, ★, emoji) also break lip-sync.
❓ HeyGen free credits ran out The $29/month plan gives 15 minutes of output per month — 30 Shorts of 30 seconds each. Before subscribing, hop over to D-ID's free trial (5 minutes) to double your runway.
❓ Vrew auto-captions have typos Korean accuracy is ~95% but brand names, proper nouns, and loan words frequently miss. Vrew lets you edit caption text directly — do one pass for brand and personal names manually.
❓ 9:16 crop cuts off the avatar Either generate in 9:16 from the start in HeyGen (Pro plan) or manually adjust the crop frame position in Vrew. Standard: avatar's face lands in the upper 40% of the frame.
❓ BGM triggered a YouTube copyright claim Vrew's and Canva's built-in libraries are commercially cleared, but YouTube Content ID occasionally misfires. Dispute inside YouTube Studio or swap to a different track. The YouTube Audio Library is the 100%-safe fallback.
❓ Feedback says "it's obviously AI" Three levers: (1) switch to a calmer voice, (2) change the background to a plain solid color, (3) raise caption and BGM polish so viewer attention shifts to production quality — the avatar texture fades into the periphery. Also: openly acknowledging "this is AI-generated" is increasingly a normal creative choice, not a weakness.
Forty-five minutes ago you were in "I should be making videos but the camera terrifies me." Now a 9:16 MP4 is sitting in your folder. The value isn't the view count on this first one. It's the mental shift from "I can't make videos" to "I can."
This tutorial is Chapter 4-4 of the SPIN series (Promotion phase). The path continues:
Best follow-up move: for the next two weeks, ship five Shorts with the same pipeline. Vary the topic if you like, but keep the avatar, voice, and caption style locked. By the fifth, brand consistency starts compounding and each video takes 10 minutes to assemble. That's when actual operations begin. The first video is a pipeline test, not content. Content starts at video two.
이 튜토리얼을 45분 따라오시면 다음 세 가지가 남습니다.
완성되는 것
📖 용어: AI 아바타(AI Avatar)란 무엇인가 AI 아바타는 실제 사람처럼 생긴 가상의 출연자입니다. 스크립트를 입력하시면 아바타가 그 내용을 읽어주고, 입 모양이 음성에 맞춰 자연스럽게 움직이며, 표정도 바뀝니다. 본인 얼굴을 스캔해서 자신의 디지털 쌍둥이를 만드실 수도 있고, 서비스가 제공하는 기성 아바타를 고르셔서 쓰실 수도 있습니다. HeyGen, D-ID, Synthesia 같은 서비스가 대표적입니다.
이 튜토리얼의 메타 정보
| 항목 | 값 |
|---|---|
| 소요 시간 | 45분 (빠르게 30분, 꼼꼼히 90분) |
| 난이도 | 중급 (AI 도구 기본 사용 경험 권장) |
| 필요 도구 | 웹 브라우저 + 30초 스크립트 한 장 + 무료 체험 계정 |
| 사전 지식 | 프롬프트 쓰기 정도의 AI 경험 |
| 결제 | 대부분 무료 티어로 충분, 본격 운영 시 월 2~3만 원대 |
왜 이걸 만드나 — 영상의 세 가지 벽을 한 번에 무너뜨리기
1인 창업자·크리에이터가 영상 앞에서 멈추는 지점은 늘 같습니다. 장비(100만 원짜리 카메라·조명·마이크 셋업), 출연(카메라 앞에서 얼어붙는 NG 지옥), 편집(프리미어 프로의 수백 개 버튼). 이 세 벽 중 하나만 있어도 포기하게 만드는데, 셋이 동시에 버티고 있으니 영상 제작은 "나중에 여유 생기면" 문제로 밀려납니다. 그런데 2026년의 AI는 이 세 벽을 거의 동시에 허물었습니다. 얼굴 없이도, 장비 없이도, 타임라인 없이도 영상이 나옵니다. 이 튜토리얼은 그 파이프라인을 한 번 굴려보시면서 손에 익히시는 자리입니다.
여기까지 오신 상황: 45분 뒤 무엇이 손에 쥐어질지 확인하셨습니다. 다음으로 준비물을 체크합니다.
딱 세 가지가 필요합니다.
필수 준비물
필요 없는 것
📖 용어: 텍스트-투-비디오(Text-to-Video) 글로 장면을 묘사하시면 AI가 영상 클립을 만들어주는 기술입니다. "석양이 지는 바닷가를 걷는 사람, 슬로우모션"이라고 입력하시면 그 장면의 5
10초짜리 영상이 생성됩니다. OpenAI의 Sora(상업 서비스 정식 출시), Google의 Veo 3, Runway Gen-4, Kling 2가 대표적입니다. 아직은 길이가 짧고(515초) 일관성(같은 인물이 다음 컷에도 그대로)이 약해서, 광고 B-roll이나 분위기 샷 용도로는 강력하지만 긴 내러티브 영상에는 한계가 있습니다.
환경 체크 (2분)
브라우저에서 다음 세 주소가 열리면 준비 완료입니다.
회사 방화벽에 막히시면 개인 핫스팟으로 전환해주세요. HeyGen이 차단되시면 d-id.com으로 대체하셔도 됩니다. 본 튜토리얼은 HeyGen 기준으로 진행하지만 모든 단계가 D-ID, Synthesia에서도 동일하게 적용됩니다.
여기까지 오신 상황: 스크립트 한 장과 두 개의 무료 계정이 준비되셨습니다. 본격 작업 전에 왜 이 세 갈래(아바타·텍스트투비디오·스크립트투컷) 중에서 아바타+스크립트투컷 조합을 추천드리는지 짚고 넘어갑니다.
2026년 기준으로 AI 영상 제작에는 크게 세 가지 접근이 있습니다. 이 섹션을 건너뛰셔도 작업은 되지만, 읽으시면 3개월 뒤 다른 도구가 나왔을 때 어디에 넣어 쓸지가 바로 보이십니다.
세 가지 접근 비교
| 접근 | 대표 도구 | 강점 | 지금의 한계 | 적합한 용도 |
|---|---|---|---|---|
| (1) AI 아바타 영상 | HeyGen, D-ID, Synthesia | 스크립트만 있으면 말하는 영상 완성. 한국어 자연스러움 높음 | 여전히 "AI 같다"는 느낌이 약간 남음 | 튜토리얼·제품 소개·회사 공지 |
| (2) 텍스트-투-비디오 | Sora, Veo 3, Runway Gen-4, Kling 2 | 세상에 없는 장면 생성. 비주얼 임팩트 최상 | 5~15초 짧은 클립, 인물 일관성 약함, 비용 높음 | 광고 B-roll, 분위기 샷, 타이틀 |
| (3) 스크립트-투-컷 | Vrew, Descript | 본인이 녹음한 음성/기존 영상을 자동 자막·컷편집 | 본인 목소리나 소스 영상 필요 | 팟캐스트 클립, 강의 영상, 숏츠 |
첫 번째 이유 — 아바타가 "촬영" 문제를 완전히 해결하셨습니다.
1인 창업자에게 가장 큰 벽은 출연이었습니다. 카메라 앞에서 얼어붙는 것, 30초짜리 영상을 찍느라 2시간을 쓰는 것, NG가 열 번 나면서 자기혐오로 미끄러지는 것. 이건 재능의 문제가 아니라 빨간 녹화 불 앞에서 사람 뇌가 평소와 다르게 작동하는 문제입니다. AI 아바타는 이 문제를 단번에 끝내십니다. 스크립트를 입력하면 5분 뒤 "말하는 영상"이 나옵니다. NG가 없고, 표정 관리가 없고, 피곤해 보이지도 않습니다. 얼굴을 보이시고 싶지 않은 B2B 창업자, 외모에 자신이 없어서 미루시는 분, 목소리가 떨리시는 분 모두에게 해당되는 해방입니다.
아바타는 "AI 같다"는 질감이 10% 남습니다. 그런데 "영상이 없다"는 것보다 10% 어색한 영상이 100배 낫습니다.
두 번째 이유 — 텍스트-투-비디오는 아직 내러티브의 주인공이 아닙니다.
Sora와 Veo 3의 데모 영상을 보시면 입이 벌어지십니다. 진짜 영화 같습니다. 그런데 실제로 써보시면 금방 한계가 드러납니다. 한 클립이 515초로 짧고, "30초짜리 숏츠에 같은 주인공이 10개 컷에 걸쳐 나오게" 하는 일관성이 약하며, 비용이 한 영상에 몇 달러씩 듭니다. 대체재가 아니라 보조재입니다. 숏츠의 인트로 3초 분위기 샷, 본편 영상 중간의 B-roll, 타이틀 시퀀스 — 이런 조각 용도로 쓰시면 효과가 엄청나지만, 이걸로만 30초짜리 서사 영상을 만드시려 하면 지금 단계에서는 좌절하십니다. 이 한계는 12년 안에 풀릴 가능성이 크지만, 오늘 영상을 올리셔야 한다면 아바타+스크립트투컷 조합이 훨씬 안전합니다.
📖 용어: 음성 합성(Voiceover) / 립싱크(Lip-sync) 음성 합성은 글자를 사람 목소리처럼 읽어주는 기술입니다. 예전에는 "네비게이션 음성"처럼 딱딱했지만, 지금은 실제 성우 녹음과 구분이 어려울 정도입니다. ElevenLabs, 11Labs, 네이버 클로바보이스가 대표적입니다. 립싱크는 그 음성에 맞춰 아바타(또는 사람 얼굴 사진)의 입 모양을 맞춰주는 기술입니다. HeyGen은 이 둘(음성 합성 + 립싱크)을 내부에서 자동으로 처리하므로 사용자는 스크립트만 넣으시면 됩니다.
세 번째 이유 — 스크립트가 유일한 자산입니다.
촬영을 하시든, 아바타를 쓰시든, 텍스트투비디오를 쓰시든, 스크립트가 없으면 아무것도 안 됩니다. AI 시대 영상 제작에서 작가 역할이 사라지지 않는 이유입니다. 오히려 더 중요해집니다. 카메라 앞 연기가 빠지니까 글의 힘이 영상의 전부를 결정하게 됩니다. 그래서 이 튜토리얼은 "아바타를 어떻게 설정하느냐"보다 "스크립트를 어떻게 AI 음성 친화적으로 다듬으시느냐"에 더 많은 시간을 씁니다. 도구는 내일 바뀔 수 있지만, 잘 다듬어진 30초 스크립트는 내일도 그대로 작동합니다.
여기까지 오신 상황: 왜 이 조합이 합리적인지 이해하셨습니다. 이제 실제로 45분 안에 숏츠를 한 편 찍어내러 갑니다. 4단계입니다.
촬영이 없으면 모든 무게가 글로 옮겨옵니다. 먼저 30~60초 스크립트를 AI 음성이 자연스럽게 읽을 수 있도록 다듬으셔야 합니다. 사람이 읽는 글과 AI가 읽는 글은 다릅니다.
원칙 1 — 영어 약어는 소리 나는 대로 한글로 풀어 씁니다.
AI 음성은 "AI"를 글자 그대로 **"아이"**라고 읽는 경우가 많습니다. "MVP"는 "엠브이피"로, "URL"은 "유알엘"로 바꿔두셔야 합니다. 작은 차이지만, 시청자의 "이거 AI가 읽는 거구나" 깨달음을 결정적으로 뒤로 미뤄드립니다.
나쁜 예: AI 도구를 MVP로 만들어서 URL 공유
좋은 예: 에이아이 도구를 엠브이피로 만들어서 유알엘 공유
원칙 2 — 숫자도 한글로 풀어 씁니다.
"3개"라고 쓰시면 AI 음성이 "삼 개"라고 딱딱하게 읽을 수 있습니다. "세 개"라고 풀어 쓰시면 자연스럽습니다. "30초"는 "삼십 초", "2시간"은 "두 시간"으로.
원칙 3 — 문장 부호로 호흡을 조절합니다.
쉼표(,)보다 마침표(.)가 더 긴 쉼을 만듭니다. 강조하고 싶은 단어 앞에 마침표를 찍으시면 AI 음성이 잠깐 멈췄다가 말해서 자동으로 강조 효과가 납니다.
밋밋한 예: 정신없이 하루가 끝나는데 정작 내 할 일은 못 했죠
호흡 있는 예: 정신없이 하루가 끝나는데. 정작 내 할 일은. 못 했죠.
원칙 4 — 한 문장은 20자 안팎으로 짧게.
긴 문장은 AI 음성도 숨차게 읽고, 모바일 시청자도 놓치십니다. "~습니다" 체로 끝나는 짧은 문장의 반복이 숏츠에서는 오히려 리듬이 됩니다.
📖 용어: 종횡비(Aspect Ratio) 영상의 가로:세로 비율입니다. 16:9는 전통적인 TV·유튜브 롱폼의 가로 비율, 9:16은 숏츠·릴스·틱톡의 세로 비율, 1:1은 인스타그램 피드의 정사각형입니다. 모바일이 시청의 70% 이상을 차지하는 2026년 현재, 숏츠 제작 시에는 반드시 9:16 세로로 설정하셔야 합니다. 가로 영상을 세로로 자르시면 중요한 부분이 잘려나가거나 좌우에 검은 여백이 생깁니다.
다듬은 30초 스크립트를 메모장 한 구석에 붙여두시고 2단계로 넘어가겠습니다.
heygen.com에 접속하셔서 구글 계정으로 가입하십니다. 가입 직후 무료 크레딧(1분 분량)이 주어집니다. 30초짜리 숏츠를 두 편 테스트해보실 수 있는 양입니다.
대시보드에서 "Create Video" 버튼을 누르시면 새 프로젝트가 열립니다. 세 가지를 순서대로 고르시면 됩니다.
(1) 아바타 선택. 수십 종 중에서 서비스 톤에 맞는 외모와 분위기를 고르십니다. B2B면 정장 차림, B2C면 캐주얼. 동양인·서양인, 남성·여성, 젊은 사람·중년을 직접 비교해보시고 미리보기 영상으로 입 모양의 자연스러움을 확인하세요. 처음에는 아시아 여성 비즈니스 캐주얼 계열이 한국 시청자에게 가장 거부감 없습니다.
(2) 목소리 선택. 한국어 음성이 여러 개 있습니다. 각 음성 옆 재생 버튼을 눌러서 같은 문장을 두세 개 음성으로 들어보시는 것이 핵심입니다. 차분한 톤은 교육·컨설팅용, 활기찬 톤은 제품·이벤트 홍보용이 어울립니다. 아바타와 목소리의 조합이 영상 톤앤매너를 80% 결정합니다.
(3) 배경 설정. 헤이젠이 기본 제공하는 사무실·거실·그라데이션 배경이 있습니다. 브랜드 이미지를 업로드하셔서 쓰시는 것을 권장합니다. 이미지 생성 튜토리얼(AI로 이미지 만들기)에서 만드신 브랜드 톤의 배경 이미지가 있으시면 여기서 쓰십시오.
설정이 끝나시면 스크립트 입력창에 1단계에서 다듬으신 스크립트를 붙여넣으십니다. 파트 구분 태그([후킹], [문제제기] 같은 것)는 지우시고 아바타가 읽을 대사만 남기십시오.
프리뷰가 결정적입니다. 생성 버튼 전에 반드시 프리뷰를 누르셔서 AI 음성이 실제로 어떻게 읽는지 들어보십시오. 어색한 단어가 하나라도 있으시면 스크립트를 수정하시고 다시 프리뷰. 이 루프를 3~5번 돌리시면 자연스러워집니다.
체크 포인트:
- 영어 약어 한글 풀기 OK?
- 숫자 한글 풀기 OK?
- 문장 부호 호흡 OK?
- 전체 길이 30~60초?
마지막으로 "Submit"을 눌러 영상 생성을 시작하십시오. 3~7분 기다리시면 MP4 파일로 다운로드 준비됩니다.
HeyGen에서 받은 MP4는 가로(16:9) 비율의 아바타 말하는 영상입니다. 숏츠로 올리시려면 9:16으로 자르시고 자막을 붙이셔야 합니다. 여기서 Vrew가 등장합니다.
vrew.voyagerx.com에서 무료 가입 후 앱을 다운로드하십시오(웹 버전도 있지만 데스크톱 앱이 안정적입니다). "새 영상 만들기" → HeyGen에서 받은 MP4 파일을 드래그하시면 Vrew가 자동으로 한국어 음성을 인식해서 자막을 만들어드립니다. 한국어 정확도 95% 이상입니다.
자막 스타일 설정이 숏츠 완성도의 절반입니다.
9:16 크롭: Vrew의 화면 비율 설정에서 "9:16 (숏츠/릴스)"를 선택하시면 가로 영상을 세로로 자동 크롭해드립니다. 아바타가 화면 중앙에 오도록 위치를 미세 조정하십시오.
BGM: Vrew의 무료 음악 라이브러리에서 분위기에 맞는 BGM을 고르십시오. 차분한 피아노, 업비트한 전자음악 중 서비스 톤에 맞는 것. **볼륨은 아바타 목소리의 15~20%**로 낮추셔야 합니다. BGM이 목소리를 덮으면 시청자가 바로 이탈합니다.
📖 용어: B-roll(비롤) 메인 화면(아바타가 말하는 장면) 위에 덮어쓰는 보조 장면입니다. 아바타가 "회의 지옥"이라고 말할 때 실제 회의실 영상을 2~3초 덮어씌우면 몰입도가 확 올라갑니다. Vrew의 "소스 영상 추가" 또는 Unsplash/Pexels의 무료 영상 클립을 활용하십시오. Sora·Runway Gen-4·Kling 2로 그 순간만 3초짜리 장면을 생성하시는 것도 B-roll의 고급 활용입니다.
Vrew에서 "내보내기" → MP4 → 1080x1920 해상도 → "고화질"을 선택하시면 유튜브 숏츠·인스타 릴스·틱톡에 바로 올릴 수 있는 파일이 저장됩니다.
썸네일은 선택사항이지만 중요합니다. 유튜브 숏츠도 홈피드에서 정지 이미지로 먼저 보입니다. 캔바에서 "유튜브 썸네일" 템플릿(1280x720) 또는 "인스타 스토리"(1080x1920) 템플릿을 여시고 아바타 얼굴 캡처 + 큰 텍스트 한 줄(예: "회의 지옥 탈출법") + 브랜드 색상 조합으로 1분 안에 완성하십시오.
여기까지 오신 상황: MP4 파일 한 개 + 썸네일 이미지 한 개가 손에 있으십니다. 다음 섹션에서 "완성"의 정의를 체크하겠습니다.
다음 5가지가 전부 "예"여야 완성입니다.
하나라도 "아니오"라면 가장 빨리 수정되는 구간이 보통 1번(9:16 크롭)과 5번(BGM 볼륨)입니다. 둘 다 Vrew에서 30초 안에 고쳐지십니다. 2번(길이)은 스크립트 자체를 줄이셔야 하니 1단계로 되돌아가십시오.
변형 1 — 얼굴 클로즈업 영상(Face-cam) vs. AI 아바타
직접 찍으시는 영상과 아바타 영상은 용도가 다릅니다. 이 표를 기준으로 고르십시오.
| 항목 | Face-cam (직접 촬영) | AI 아바타 |
|---|---|---|
| 장비 | 카메라·조명·마이크 필요 | 노트북만 |
| 촬영 시간 | 30초 영상에 1~2시간 | 0분 (스크립트만 작성) |
| 편집 시간 | 컷편집·자막·보정 1~2시간 | Vrew 15분 |
| 감정 전달 | 강함 (표정·목소리 떨림) | 약함 (AI 질감 10%) |
| 반복 생산성 | 낮음 (매번 촬영) | 높음 (스크립트만 바꾸면 됨) |
| 적합한 콘텐츠 | 브이로그, 개인 스토리, 인터뷰 | 튜토리얼, 제품 소개, 공지사항 |
브이로그·개인 스토리는 face-cam이 이깁니다. 튜토리얼·제품 소개·공지사항은 아바타가 이깁니다. 감정이 주가 아닌 정보 전달 영상이라면 아바타가 훨씬 빠르고 일관됩니다.
변형 2 — 롱폼 영상(10분 이상)
30초 숏츠는 이 파이프라인으로 충분하지만, 10분짜리 강의 영상에 아바타만 쓰시면 시청자가 피로해집니다. 이 경우 아바타 + 슬라이드 + B-roll 조합을 추천드립니다. 아바타가 말하는 장면을 3~4초마다 슬라이드나 B-roll로 덮어씌우시면 지루함이 확 줄어드십니다.
변형 3 — 본인 음성 + 자동 자막만
아바타도 쓰기 싫으시면 본인 음성만 녹음하시고 Vrew에 올리셔서 자동 자막 + 정지 이미지 슬라이드쇼를 붙이시는 방법이 있습니다. 얼굴은 안 나오지만 목소리는 본인. 팟캐스트 스타일 숏츠에 적합합니다.
변형 4 — 텍스트-투-비디오로 B-roll 생성
Sora / Runway Gen-4 / Kling 2에서 "카페에서 노트북을 두드리는 30대 여성, 따뜻한 톤, 5초"를 입력하셔서 B-roll 클립을 받으시고, Vrew에서 아바타 영상 중간에 끼워 넣으십시오. 전체 영상을 텍스트-투-비디오로 만드시지 마시고, 조각 3~5초씩만 쓰시는 것이 2026년 현재의 안전한 활용법입니다.
❓ 아바타 입 모양이 어긋나 보입니다 스크립트에 영어 약어(AI, MVP)를 그대로 두셨을 가능성이 큽니다. 1단계의 한글 풀어쓰기 원칙으로 돌아가 수정하시고 다시 생성하십시오. 특수 기호(→, ★)도 입 모양을 망가뜨립니다.
❓ HeyGen 무료 크레딧이 부족합니다 월 29달러 플랜으로 월 15분 분량을 만드실 수 있습니다. 30초 숏츠 30편. 구독 전에 D-ID의 무료 체험(5분 분량)으로 먼저 건너가시는 것도 방법입니다.
❓ Vrew 자동 자막에 오타가 많습니다 한국어 정확도는 95%대지만 고유명사·브랜드명은 자주 틀립니다. Vrew에서 자막 텍스트를 직접 편집할 수 있으니 브랜드명·인명은 수동으로 한 번 훑으십시오.
❓ 9:16 크롭에서 아바타가 잘립니다 HeyGen에서 처음부터 9:16으로 생성하시거나(프로 플랜), Vrew에서 크롭 프레임 위치를 수동 조정하시면 됩니다. 아바타의 얼굴이 화면 상단 40% 지점에 오도록 배치하시는 것이 표준입니다.
❓ BGM이 유튜브에서 저작권 경고를 받았습니다 Vrew·캔바의 내장 라이브러리는 상업 이용이 허용된 트랙이지만, 유튜브 Content ID가 가끔 오인식합니다. 유튜브 스튜디오에서 이의 신청하시거나 다른 트랙으로 교체하십시오. YouTube Audio Library는 100% 안전한 대안입니다.
❓ 아바타가 "AI 티가 많이 난다"는 피드백을 받았습니다 (1) 목소리를 더 차분한 톤으로 바꾸시거나, (2) 배경을 심플한 단색으로 바꾸시거나, (3) 자막 + BGM의 완성도를 높이시면 시청자의 주의가 완성도로 이동해서 아바타 질감이 덜 느껴지십니다. "AI 아바타를 쓰고 있다"는 걸 오히려 당당히 밝히시는 것도 점점 정상적인 선택이 되고 있습니다.
45분 전 당신은 "영상을 만들어야 하는데 카메라가 무섭다"의 상태셨습니다. 지금은 9:16 MP4 한 개를 손에 쥐고 계십니다. 이 첫 편이 가지는 의미는 재생수가 아닙니다. "영상을 만들 수 있다"는 감각의 전환입니다.
이 튜토리얼은 SPIN 시리즈 4-4에 해당합니다 (홍보 단계). 이어지는 경로는 다음과 같습니다.
가장 좋은 후속 행동: 다음 2주 동안 같은 파이프라인으로 숏츠 5편을 만드십시오. 주제는 달라도 좋지만 아바타·목소리·자막 스타일은 고정하세요. 5편째가 되시면 브랜드 일관성이 붙고, 10분이면 한 편이 나오기 시작하십니다. 그때부터가 진짜 운영 단계입니다. 첫 영상은 창작이 아니라 공정 테스트입니다. 두 번째부터가 콘텐츠입니다.
Three short questions. Get them all right and the completion stamp is auto-granted. Answers stay on your device.
Q1. Why does this tutorial recommend the "avatar + script-to-cuts" combo and discourage building entire videos purely from text-to-video today?
The tutorial compares the three approaches and points out text-to-video's current limits: 5–15 second clips, weak character consistency across cuts, and higher cost — making it a complement (B-roll fragments) rather than a replacement. Avatar + script-to-cuts, by contrast, can reliably ship a full Short today.
Q2. Based on the tutorial's "AI-voice-friendly script" principles, which line will be read most naturally?
The tutorial's four principles: (1) spell out English acronyms phonetically, (2) spell out numbers when they sound odd, (3) use periods to control breath, (4) keep sentences short. The correct option applies all four together, producing the most natural AI-voice reading.
Q3. In the Verification checklist, why does "captions cover the whole runtime and convey the message on mute" matter?
The tutorial points out that 40% of mobile viewers watch on mute — in subways, offices, and public spaces — so without captions the message never reaches them. Mobile viewing behavior makes captions a hard requirement, not a stylistic choice, for Shorts.
Completion is stored on this device only. See your full passport at /member.