Before / After. Left: a bland stock-ish image returned by the one-line prompt "draw me a cat." Right: a thumbnail-grade result produced by the same tool once subject, style, lighting, composition, and aspect ratio are filled in. This tutorial gets you to the right side in 30 minutes.
AI Tool VIP Beginner · 30 min · 2026-04-24

Generate AI Images — Visual Thinking Through Words

You don't need to have opened Photoshop once. You don't need a design background. In 2026, generating an image is a sentence, not a brush. This tutorial covers the 5 elements that turn a vague request into a thumbnail-grade result, a comparison of the top image tools of 2026, and side-by-side bad-vs-good prompt examples — all in 30 minutes. This is a course for non-designers learning to "think visually through words."

OUTCOME — What You'll Have When You're Done

Three things will be in your hands after this tutorial.

What gets built

  • One AI image-tool account logged in
  • Three actual images you generated using the 5-element prompt (subject · style · lighting · composition · aspect ratio)
  • One iteration cycle where you refined a result using follow-up messages, inpainting, or a reference image

📖 Term: What is a Diffusion Model? Most 2026 AI image tools run on diffusion models. They start from pure noise and, using what they've learned from billions of images, gradually subtract noise until a picture emerges. That's why the same prompt twice produces slightly different results — the starting noise differs every time.

Tutorial meta

Item Value
Time 30 min (fast: 20 min, unhurried: 45 min)
Level Beginner
Tools Web browser + one AI-tool account
Design knowledge None required
Photoshop/Figma Not needed
Payment Optional (completable on free tier)

Why this matters — in visual-thinking terms

The sticking point for non-designers is: "the image is in my head but my hand can't draw." The 2026 answer is not the hand but the mouth. Once you can describe the image in your head precisely in words, that sentence IS the picture. This tutorial doesn't teach design. It trains you in "breaking visual thinking into sentences." Before this 30-minute training, you write "draw a cute cat" and blame the tool when the result looks off. After, you write "a black cat sitting on a Korean hanok wooden floor, backlit golden-hour sun, low-angle closeup, 16:9, warm analog film tone, soft shadows" and pull a usable result on the first try.

Where you are now: You've seen what this tutorial delivers. Next, a one-minute prerequisites check.


PREREQUISITES — What You Need

Three things.

Required

  • Web browser: Chrome, Safari, Firefox, Edge — any recent version
  • One AI account capable of image generation: a ChatGPT account (DALL-E 3 and GPT-5 Image 2 built in), a Google account (Gemini's Nano Banana Pro built in), a Midjourney account, or a Flux account
  • One folder to save results: create an ai-images folder on your desktop; it'll save you time for the full 30 minutes

📖 Term: Prompt Engineering for Images "Prompt engineering" is the craft of refining the sentence you send the AI to get better results. A text AI prompt is a sentence of logic (context + instruction + format). An image AI prompt is a sentence of vision (subject + style + lighting + composition + aspect ratio). These have different grammars. People who are strong on text-AI prompts often get stuck on image prompts at first. Same word, different language.

Not needed

  • Photoshop, Figma, or other pro design software
  • Drawing ability, color theory, composition knowledge
  • A tablet or stylus
  • A design degree

Environment check (1 minute)

If you're logged into any one of the following, you can start right away:

  • chatgpt.com (DALL-E 3 and GPT-5 Image 2 built in; partial free tier)
  • gemini.google.com (Nano Banana Pro built in — fast and cheap)
  • midjourney.com (as of 2026, you can generate on the web without Discord)
  • flux.ai or Replicate (Flux 2 / Flux Pro — best for text rendering)

If you have zero AI accounts, finish the Pick Your First AI Tool tutorial in 20 minutes first, then come back.

Where you are now: Environment ready. Next, a 2-minute WHY on why image prompts are a different grammar from text prompts.


WHY — Why Image Prompts Are "Visual Thinking"

If you're fluent with text AI, your first image generation will likely surprise you. "Write me a marketing plan" worked. Why does "make me a pretty image" fail? Different grammar.

Reason 1 — In images, there is no "information that can be left out in words."

When writing text, words like "nicely" or "professionally" carry dozens of implied nuances. The reader fills them in. Images can't do that. To draw a "pretty cat," the AI must decide: coat color, background, time of day, lighting, camera angle, artistic style, aspect ratio. If you don't tell it, the AI picks carelessly for you. That careless pick is "the bland stock photo." The image in your head is visible only to you. The AI can't see it. You have to draw it fully in words and hand it over.

Reason 2 — The AI converges on "average."

Diffusion models are trained by averaging billions of images. So if you ask with no guidance, you get the most common average. "Cat" = orange tabby, seated frontal pose, cafe or couch background — the average of the most common cat photos on the internet. Unless you plant concrete elements that deviate from average in your prompt, your result blends into hundreds of thousands of similar stock images.

The 5 Elements of an Image Prompt Five axes that break visual thinking into a sentence Subject what Style how Lighting light Composition angle Aspect Ratio 16:9 / 9:16 / 1:1 / 3:2 Example prompt Black cat on a hanok wooden floor, watercolor style, backlit sun, low-angle closeup, 16:9
An image prompt splits into five axes. Subject (what), Style (what artistic manner), Lighting (under what light), Composition (from what angle), Aspect Ratio (in what canvas). Weave the five into one sentence and you have a full-spec design brief.

The image in your head is yours alone. The AI can't see it. Draw it fully in words.

Reason 3 — Most "bad results" are not tool problems. They are instruction shortages.

When students show me results and say "this tool is no good," 90% of the time the prompt is under 15 characters. "puppy illustration," "website background," "thumbnail image." Not one of the five elements — subject, style, lighting, composition, aspect ratio — is present. Of course the tool gave a bland result. Same tool, same 15 seconds; a 100-character prompt vs a 400-character prompt produces 10× different quality.

Where you are now: You understand why image prompts are "visual thinking translated into sentences." Now to the hands-on: pick a tool, write a 5-element prompt, pull three actual images.


STEPS — 5 Hands-On Steps

Step 1. Map of 2026 image tools (3 min)

As of 2026, the image generation landscape looks like this. Each tool has different strengths.

Tool How to access Strength Best for
DALL-E 3 Built into ChatGPT Best text comprehension, strong with Korean Beginners, starting in Korean
GPT-5 Image 2 ChatGPT Plus/Pro Flagship quality; editing, inpaint, reference image integrated Highest-quality work
Midjourney 7+ midjourney.com (web, no Discord) Top artistic quality; excellent reference image / identity lock Posters, artwork, branding
Nano Banana Pro Built into Gemini app Fastest, cheapest Bulk generation, blog/SNS workflows
Flux 2 / Flux Pro flux.ai, Replicate Best text (letters) rendering; open-source based Logos, typography, custom
Stable Diffusion 3.5 / SDXL Local install or web UI Infinite custom models; fully free Power users, pros

First-choice guide

  • Want to write comfortably in Korean → DALL-E 3 (ChatGPT)
  • Want artistic, poster-grade results → Midjourney 7+
  • Generate many thumbnails/blog images in bulk → Nano Banana Pro (Gemini)
  • Posters or logos with text → Flux 2 / Flux Pro
  • Need the highest quality with editing and reference image workflows → GPT-5 Image 2
  • Developer, want full customization → Stable Diffusion 3.5 / SDXL

If you can't decide, start with DALL-E 3. If you already have a ChatGPT account you can use it with zero extra sign-up.

Step 2. Internalize the 5-element prompt (5 min)

Every image prompt splits into five elements.

Element 1 — Subject: What is in the frame

  • A person? animal? object? landscape?
  • How many? where? doing what?
  • e.g., "a black cat sitting on a hanok wooden floor," "a coffee cup and laptop on a desk"

Element 2 — Style: In what artistic manner

  • Photo, illustration, watercolor, oil painting, 3D render, pixel art, flat design...
  • You can cite specific artists/movements — "Ghibli style," "Banksy-esque"
  • e.g., "watercolor illustration," "cinematic photo," "minimal flat design"

📖 Term: Reference Image — the 2026 standard When words alone can't capture the style you want, attach a reference image. DALL-E 3, GPT-5 Image 2, Midjourney 7+, Nano Banana Pro, and Flux 2 all support image input as of 2026. Just say "same feel as this reference, but with subject XX." Midjourney 7+ and GPT-5 Image 2 have strengthened identity lock — you can place the same character or person consistently across different scenes. One caveat: don't use copyrighted images as references — stick to your own, public-domain, or explicitly licensed images.

Element 3 — Lighting: Under what light

  • Backlit, side-lit, front-lit, softbox, golden hour, blue hour, studio, neon...
  • Lighting is 80% of mood
  • e.g., "backlit golden hour," "soft natural light," "neon cyberpunk lighting"

Element 4 — Composition: At what angle

  • Low-angle, high-angle, frontal, closeup, wide shot, over-the-shoulder...
  • "What is in the frame, and how big"
  • e.g., "low-angle closeup," "wide-angle wide shot," "frontal half-body"

Element 5 — Aspect Ratio: In what canvas

  • 16:9 (YouTube thumbnails, blog heroes)
  • 9:16 (Instagram Stories, Reels, Shorts)
  • 1:1 (Instagram feed)
  • 3:2 (photo prints)
  • Each tool sets this differently — ChatGPT accepts "16:9" written into the sentence; Midjourney uses the --ar 16:9 flag

📖 Term: Aspect Ratio vs Resolution Aspect ratio is the shape of the canvas (width:height). 16:9 is a wide rectangle; 1:1 is a square. Size doesn't matter. Resolution is the number of pixels inside that canvas. In image prompts, lock the aspect ratio first. Aspect ratio decides layout; resolution is a separate export setting.

Weave all five:

A black cat sitting on a hanok wooden floor, (subject)
warm analog film photo style, (style)
backlit golden-hour sun, (lighting)
low-angle closeup, (composition)
16:9 aspect ratio (aspect)

Splitting with commas is a pro tip. The AI interprets each element independently.

Step 3. Bad prompt vs good prompt — the real difference (5 min)

Open your chosen tool and run both prompts below, in order.

Bad prompt

draw me a cute cat

Result: an orange tabby seated frontal, cafe-ish background — extremely common composition. Ten people using this prompt get nine near-identical images.

Good prompt

A black cat sitting on a hanok wooden floor gazing into the distance,
warm analog film photo style (Kodak Portra 400 feel),
late-afternoon backlit golden-hour sun,
low-angle closeup, shallow depth of field,
softly blurred background, 16:9 aspect ratio

Result: dramatic backlight, sunlight catching the black fur, blurred hanok silhouette. Ready for a blog hero image on the spot.

Same tool, same 30 seconds, completely different output. That's the power of the 5-element prompt.

Step 4. Iterative refinement — follow-ups, inpainting, reference image (7 min)

Even with a good prompt, rarely do you hit 100% satisfaction on try one. Three techniques the 2026 tools support.

Technique 1 — Refine with follow-up messages

Treat it like a text conversation — iterate with follow-ups.

Pass 1: [image received]
Pass 2: The composition is good, but could the cat sit a bit more to the left? Make one hanok pillar in the background sharper.
Pass 3: Great. Same mood, but change the cat to a white cat.

Just as you chain follow-up questions in text chat, chain follow-up edits in image chat. Three or four rounds and the result leaps beyond your first try.

Technique 2 — Inpaint / Outpaint

When you want to change only a specific area. Supported by DALL-E 3, GPT-5 Image 2, Midjourney 7+, and Flux 2.

  • Inpaint: draw a mask over the image and say "change only this part" — swap the cat's color while keeping the background, or remove an unwanted element
  • Outpaint: extend the canvas beyond the image edge — turn a 16:9 image into 9:16 by expanding top and bottom, or generate the scene outside a photo's frame

📖 Term: Inpaint and Outpaint Inpainting redraws only a selected region of the image — fix distorted hands, remove an unwanted object, or swap a color. Outpainting extends the image beyond its current border, letting the AI fill in the expanded space naturally. Both are standard features in major 2026 tools, and they remove most of the need for a separate photo editor.

Technique 3 — Lock style and identity with a reference image

Once you have a result you like, attach it as a reference in your next prompt.

[attach the cat image you just generated]
Same cat character as in the reference — now place it at a snowy winter windowsill.

Midjourney 7+'s identity lock and GPT-5 Image 2's reference image support make it standard practice in 2026 to reuse a character or style consistently across multiple images.

📖 Term: Negative Prompts — less needed in 2026 Negative prompts used to be essential for blocking common defects like distorted hands or watermarks. The latest 2026 models (GPT-5 Image 2, Midjourney 7+, Flux 2) have greatly reduced these issues on their own. That said, if you want to explicitly exclude something, "no [X]" or "without [X]" in the main prompt still works. Stable Diffusion and Flux have a dedicated negative prompt field.

Step 5. Three real-use prompts (10 min)

Now pull three images you can actually use. Adapt the templates below to your own situation.

Use 1 — YouTube thumbnail (16:9)

[your face or signature character],
surprised expression, bold-contrast poster style,
neon lighting, frontal closeup upper body,
16:9 aspect ratio, highly readable background,
no text (text will be added later in the thumbnail editor)

Use 2 — Blog hero image (16:9)

[scene symbolizing your article — e.g., "laptop open on a desk with a warm coffee cup"],
minimal photography style, soft natural light,
overhead top-down composition, 16:9 aspect ratio,
warm beige tones,
no people, no text

Use 3 — Instagram Story (9:16)

[product or symbol to promote],
flat illustration style, brand color (centered on #3B82F6),
centered composition with room for a title at top,
9:16 aspect ratio,
no cluttered background, no multiple products

Save all three to the ai-images folder.

Where you are now: You've practiced the 5-element prompt, follow-up refinement, inpainting, and reference images; three usable images are in your folder. Next, a checklist to verify the process went right.


VERIFICATION — Confirming It's Done Right

If all four check out, you've completed this tutorial.

Check 1 — Account and first image

  • Are you logged into your chosen image tool?
  • Did you generate a bad prompt version AND a good prompt version for comparison?
  • Did you see the difference with your own eyes?

Check 2 — 5-element prompt internalized

  • Have you written one prompt containing all five elements (subject, style, lighting, composition, aspect ratio)?
  • Did you separate them with commas?

Check 3 — Iterative refinement experience

  • Did you use at least one of: follow-up message, inpaint/outpaint, or reference image to refine the result?

Check 4 — Three use-case images

  • Are the three use-case images (thumbnail / hero / Story) saved in the ai-images folder?
  • Is at least one of them high enough quality to actually use today?

Three out of four is a pass. You don't need all four on day one — the feel develops over time.

Where you are now: The basics of the 5-element prompt are in your hand. Next, variations that extend the same principle to other situations.


VARIATIONS — Extensions

Variation 1 — Product mockups

No product photos yet? Use AI mockups.

A white ceramic mug on a beige linen background,
with a blank "logo area" label space on the front (to be composited later),
soft side-lit studio lighting,
high-angle 45-degree composition, 3:2 aspect ratio,
no beverage, no human hands, no other props

Overlay your actual logo afterward in Photoshop or Canva. Or use Flux 2 to render the text directly inside the prompt.

Variation 2 — A stand-in character (instead of your face)

Many people feel uneasy showing their face. Make a symbolic character and use it consistently.

Late-30s male illustration character,
minimal flat design style,
navy blazer over white shirt,
frontal upper-body, centered,
white or beige background, 1:1 aspect ratio

Once a version you like exists, attach that image as a reference in every subsequent prompt and chain "same character as in the reference, now in situation XX." Midjourney 7+'s identity lock feature makes visual consistency across the whole channel easy to maintain.

Variation 3 — 10 SNS cards in one batch

Turning a blog post summary into 10 card images? Keep the prompt structure fixed and vary only the content.

Card #1: [key sentence 1], beige background, space for black sans-serif font, flat illustration, 1:1
Card #2: [key sentence 2], beige background, space for black sans-serif font, flat illustration, 1:1
...

Fix the structure, vary only the content, and 10 cards finish in 10 minutes. Add a bulk-generation tool like Canva on top and it's even faster.

Where you are now: You've seen three real-use variations of the 5-element prompt. Next, a troubleshooting guide for when you get stuck.


TROUBLE + NEXT — When You Get Stuck, and What Comes Next

Common problems

Problem 1 — "The result looks like a stock photo"

  • Cause: prompt under 15 characters, or 3+ elements missing
  • Fix: fill the missing elements in subject · style · lighting · composition · aspect ratio. Lighting and composition are the most frequently skipped

Problem 2 — "Hands come out wrong (6 fingers, distorted feet)"

  • Cause: diffusion models still have weakness at hands/feet even in 2026 (though greatly improved in GPT-5 Image 2 and Midjourney 7+)
  • Fix: (a) add "no distorted hands" to the prompt, (b) use a wide shot instead of closeup, (c) specify pose — hands in pockets, hands behind back, (d) use inpaint to regenerate just the problem area

Problem 3 — "Text comes out garbled"

  • Cause: DALL-E 3 and Midjourney are weak at rendering text
  • Fix: (a) switch to Flux 2 — the strongest for text rendering, or (b) generate with blank space where text should go, then add text in Canva or Photoshop

Problem 4 — "Same prompt, different results each time"

  • Cause: diffusion models start from different noise each run (see section intro)
  • Fix: this is normal. When you get a result you love, save it immediately, and if the tool offers "regenerate with same seed," use it (Midjourney, Flux 2 support this)

Problem 5 — "I wrote in Korean and got unrelated results"

  • Cause: some tools understand Korean prompts less than English
  • Fix: translate to English. Paste the Korean prompt into ChatGPT and ask "translate this into an English image prompt: [your Korean prompt]"; it returns an English version you can feed Midjourney or Flux 2

Next steps

With this tutorial, the basics of image generation are in your hand. Three paths forward.

Path A — Deepen prompt writing

  • Take the Write Prompts That Work tutorial to learn the 3-element text prompt formula
  • Mastering both text and image prompts multiplies your content speed by 10

Path B — Connect to a design system

  • Once you've generated 10 images, register colors and fonts in Canva's Brand Kit and drop images into templates for a consistent series
  • Canva Brand Kit tutorial (coming soon)

Path C — Extend into video

  • Once images feel easy, move to video generation (Runway, Pika, Kling)
  • The 5-element image prompt applies almost directly to video prompts

One last principle

The perfect image lives inside your head. The AI can't read it. It paints only as much as you pull out in sentences. "Not having design skills" actually means "not having practiced pulling the image in your head out as sentences." Repeat the 5-element prompt exercise 30 times, and in two weeks you'll be making thumbnails faster than your designer friend. This is the era of shooting pictures with words. The mouth is faster than the hand.

OUTCOME — 오늘 끝나면 무엇이 남는가

이 튜토리얼을 따라오시면 다음 세 가지가 손에 남습니다.

완성되는 것

  • AI 이미지 도구 하나에 로그인된 계정
  • 주제·스타일·조명·구도·비율 5요소 프롬프트로 생성한 실제 이미지 3장
  • 레퍼런스 이미지와 인페인트/아웃페인트까지 써서 이미지를 다듬는 반복 수정 경험 1회

📖 용어: 디퓨전 모델(Diffusion Model)이란 무엇인가 2026년 대부분의 AI 이미지 도구는 디퓨전 모델(diffusion model) 방식으로 동작합니다. 완전한 노이즈에서 출발해서, 학습한 수십억 장의 이미지를 바탕으로 노이즈를 조금씩 걷어내며 그림을 만들어내는 방식입니다. 그래서 같은 프롬프트를 두 번 입력하셔도 결과가 조금씩 다르게 나옵니다. 노이즈 시작점이 매번 다르기 때문입니다.

이 튜토리얼의 메타 정보

항목
소요 시간 30분 (빠르게 20분, 차분히 45분)
난이도 입문
필요 도구 웹 브라우저 + AI 도구 계정 1개
사전 디자인 지식 필요 없음
포토샵/피그마 필요 없음
결제 선택 (무료 티어로 이 튜토리얼 완주 가능)

왜 이걸 만드나 — 시각 사고 차원에서

디자이너가 아니신 분들이 가장 막히시는 지점은 "머릿속에 이미지가 있는데 그릴 손이 없다"는 것입니다. 2026년의 답은 손이 아니라 입입니다. 머릿속 이미지를 문장으로 정확하게 묘사하실 수 있게 되시면, 그 문장이 곧 그림입니다. 이 튜토리얼은 디자인을 가르치지 않습니다. **"시각적으로 생각하는 법을 문장으로 쪼개는 훈련"**을 하십니다. 훈련 전엔 「고양이 귀엽게 그려줘」라고 쓰시고 "결과가 이상하네"라며 도구 탓을 하십니다. 훈련 후엔 「한옥 마루에 앉은 검은 고양이, 역광 햇살, 로우앵글, 16:9, 따뜻한 아날로그 필름 톤, 부드러운 그림자」처럼 쓰시고 첫 시도에서 바로 쓸만한 결과를 뽑아내십니다.

여기까지 오신 상황: 이 튜토리얼이 무엇을 드리는지 확인하셨습니다. 다음으로는 본격 진행 전 필요한 준비물이 갖춰졌는지 1분만에 체크하시겠습니다.


PREREQUISITES — 준비물

세 가지만 준비되어 있으면 됩니다.

필수 준비물

  • 웹 브라우저: Chrome, Safari, Firefox, Edge 중 무엇이든 최신 버전
  • 이미지 생성 가능한 AI 계정 1개: ChatGPT 계정(DALL-E 3 내장), Google 계정(Gemini의 Nano Banana Pro 내장), Midjourney 계정, 또는 Flux 계정 중 하나
  • 결과물을 저장할 폴더 하나: 바탕화면에 ai-images 폴더 하나 만들어두시면 30분 내내 편하십니다

📖 용어: 프롬프트 엔지니어링 (Prompt Engineering for Images) "프롬프트 엔지니어링"은 AI에 보내는 문장을 다듬어서 더 좋은 결과를 뽑는 기술입니다. 텍스트 AI의 프롬프트는 논리의 문장(배경 + 지시 + 형식)이지만, 이미지 AI의 프롬프트는 시각의 문장(주제 + 스타일 + 조명 + 구도 + 비율)입니다. 이 둘은 문법이 다릅니다. 텍스트 AI에 잘하시던 분도 이미지 AI에서는 처음엔 막히십니다. 같은 "프롬프트"라는 단어를 쓰지만, 다른 언어입니다.

필요 없는 것

  • 포토샵, 피그마, 일러스트레이터 같은 전문 디자인 도구
  • 그림 그리는 능력, 색채 이론 지식, 구도 지식
  • 태블릿이나 펜마우스 같은 드로잉 장비
  • 디자인 전공 학위

환경 체크 (1분)

다음 중 하나에 로그인되어 있으시면 바로 시작하실 수 있습니다.

  • chatgpt.com (DALL-E 3 내장, GPT-5 Image 2 플래그십 티어 포함)
  • gemini.google.com (Nano Banana Pro 내장 — 빠르고 저렴)
  • midjourney.com (Discord 없이 웹에서 바로 생성 가능)
  • flux.ai 또는 Replicate (Flux 2 / Flux Pro — 텍스트 렌더링 최강)

계정이 하나도 없으시면 첫 AI 도구 고르기 튜토리얼부터 20분 안에 끝내고 오십시오.

여기까지 오신 상황: 환경이 준비되셨습니다. 이제 왜 "이미지 프롬프트는 텍스트 프롬프트와 다른가"를 2분만 짚고 본 작업으로 넘어갑니다.


WHY — 왜 이미지 프롬프트는 "시각적 사고"인가

텍스트 AI에 익숙해지셨다면 첫 이미지 생성에서 당황하실 가능성이 높습니다. 「마케팅 기획서 써줘」는 작동했는데 「예쁜 이미지 만들어줘」는 왜 안 되는가. 문법이 다르기 때문입니다.

첫 번째 이유 — 이미지에는 "글자로 생략되는 정보"가 없습니다.

텍스트를 쓰실 때는 "예쁘게", "전문적으로" 같은 말로 수십 가지 뉘앙스가 커버됩니다. 읽는 사람이 알아서 채워서 이해합니다. 이미지는 그럴 수 없습니다. "예쁜 고양이"를 AI가 그리려면 몸 색깔, 배경, 시간대, 조명, 카메라 각도, 화풍, 비율 — 이 모든 것이 반드시 결정되어야 합니다. 안 알려주시면 AI가 대충 자기 마음대로 선택합니다. 대충 선택한 결과가 "밍숭맹숭한 스톡 사진"입니다. 당신의 머릿속 이미지는 당신만 보고 있습니다. AI 눈에는 보이지 않습니다. 그러니 말로 다 그려서 넘겨주셔야 합니다.

두 번째 이유 — AI는 "보통"으로 수렴합니다.

디퓨전 모델은 수십억 장의 이미지를 평균 내서 만들어진 것입니다. 그래서 아무 지시 없이 그려달라고 하시면 가장 흔한 평균이 나옵니다. "고양이" = 주황 줄무늬 털, 정면 앉은 포즈, 카페 혹은 소파 배경. "평균에서 벗어나는" 구체적 요소를 프롬프트에 심어주시지 않으면 당신의 결과물은 수십만 장의 비슷한 스톡 이미지와 섞입니다.

이미지 프롬프트의 5요소 머릿속 이미지를 문장으로 쪼개는 다섯 축 주제 Subject 스타일 Style 조명 Lighting 구도 Composition 비율 (Aspect Ratio) 16:9 / 9:16 / 1:1 / 3:2 예시 프롬프트 한옥 마루에 앉은 검은 고양이, 수채화 스타일, 역광 햇살, 로우앵글 클로즈업, 16:9
이미지 프롬프트는 다섯 축으로 쪼개실 수 있습니다. 주제(무엇을), 스타일(어떤 화풍으로), 조명(어떤 빛에서), 구도(어떤 각도로), 비율(어떤 캔버스 안에). 다섯 축을 한 문장으로 엮으시면 그 자체로 한 장의 그림 설계서가 됩니다.

머릿속 이미지는 당신만 봅니다. AI에게는 안 보입니다. 말로 다 그려서 넘기세요.

세 번째 이유 — "나쁜 결과"의 대부분은 도구 문제가 아니라 지시 부족 문제입니다.

수업에서 학생분들이 "이 도구 별로네요"라며 보여주시는 결과의 9할은 프롬프트가 15자 미만입니다. 「강아지 일러스트」, 「웹사이트 배경」, 「썸네일 이미지」. 이 15자 안에 주제·스타일·조명·구도·비율 중 하나도 들어 있지 않습니다. 도구가 대충 만들어주는 게 당연합니다. 같은 도구에 같은 15초 시간이지만, 프롬프트가 100자냐 400자냐에 따라 결과는 10배 다릅니다.

여기까지 오신 상황: 이미지 프롬프트가 왜 "시각적 사고의 문장화"인지 이해하셨습니다. 이제 실제 도구를 비교해서 하나를 고르고, 5요소 프롬프트를 작성해서 이미지 3장을 뽑아내는 실전으로 갑니다.


STEPS — 5단계 실전

1단계. 2026년 이미지 도구 지형도 파악 (3분)

2026년 현재 주요 이미지 생성 도구는 다음과 같습니다. 각자 강점이 다릅니다.

도구 접근 방법 강점 추천 사용자
DALL-E 3 ChatGPT 안에 내장 텍스트 이해력 최고, 한글 프롬프트 강함 초심자, 한글로 바로 시작
GPT-5 Image 2 ChatGPT Plus/Pro 플래그십 품질, 편집·인페인트·레퍼런스 이미지 통합 최고 품질이 필요한 작업
Midjourney 7+ midjourney.com (웹에서 바로) 예술적 완성도 최상, 레퍼런스 이미지 지원 탁월 포스터·아트워크·브랜딩
Nano Banana Pro Gemini 앱 안에 내장 속도 가장 빠름, 가격 가장 싸다 대량 생성, 블로그/SNS 워크플로
Flux 2 / Flux Pro flux.ai, Replicate 텍스트(글자) 렌더링 최강, 오픈소스 기반 로고·타이포그래피·커스텀
Stable Diffusion 3.5 / SDXL 로컬 설치 또는 웹 UI 커스텀 모델 무한, 완전 무료 파워 유저, 전문가

첫 선택 기준

  • 한글로 편하게 쓰고 싶으시면 → DALL-E 3 (ChatGPT)
  • 작품스럽고 예술적인 결과를 원하시면 → Midjourney 7+
  • 대량 생성해서 썸네일·블로그용으로 많이 뽑으시려면 → Nano Banana Pro (Gemini)
  • 글자가 들어간 포스터나 로고 → Flux 2 / Flux Pro
  • 최고 품질, 편집·레퍼런스 통합 워크플로 → GPT-5 Image 2
  • 개발자시고 전부 커스텀하고 싶으시면 → Stable Diffusion 3.5 / SDXL

판단이 안 서시면 DALL-E 3부터 시작하십시오. ChatGPT 계정이 이미 있으시다면 추가 가입 없이 바로 써보실 수 있습니다.

2단계. 5요소 프롬프트 구조 익히기 (5분)

모든 이미지 프롬프트는 다섯 요소로 쪼갤 수 있습니다.

요소 1 — 주제 (Subject): 무엇이 있는가

  • 피사체가 사람인지 동물인지 사물인지 풍경인지
  • 몇 개인지, 어디에 있는지, 무엇을 하고 있는지
  • 예: "한옥 마루에 앉은 검은 고양이", "책상에 놓인 커피잔과 노트북"

요소 2 — 스타일 (Style): 어떤 화풍으로

  • 사진, 일러스트, 수채화, 유화, 3D 렌더, 픽셀 아트, 플랫 디자인…
  • 특정 작가/유파를 언급하셔도 됩니다 — "지브리 스타일", "뱅크시 느낌"
  • 예: "수채화 일러스트", "시네마틱 사진", "미니멀 플랫 디자인"

📖 용어: 레퍼런스 이미지(Reference Image) — 2026년 표준 프롬프트 문장만으로 스타일을 설명하기 어려우실 때는 레퍼런스 이미지를 첨부하실 수 있습니다. DALL-E 3, GPT-5 Image 2, Midjourney 7+, Nano Banana Pro, Flux 2 모두 2026년 현재 이미지 첨부 입력을 지원합니다. "이 레퍼런스와 같은 느낌으로, 주제만 XX로 바꿔주세요"라고 요청하시면 됩니다. Midjourney 7+와 GPT-5 Image 2는 아이덴티티 잠금(identity lock) 기능이 강화되어, 같은 인물·캐릭터를 다른 장면에 일관되게 등장시키실 수 있습니다. 주의하실 점은 저작권이 있는 이미지는 레퍼런스로 쓰지 않으시는 게 안전하다는 점입니다.

요소 3 — 조명 (Lighting): 어떤 빛에서

  • 역광, 측광, 순광, 소프트 박스, 황혼(golden hour), 푸른 시간(blue hour), 스튜디오 라이트, 네온…
  • 빛이 분위기의 80%입니다
  • 예: "역광 골든아워", "부드러운 자연광", "네온 사이버펑크 조명"

요소 4 — 구도 (Composition): 어떤 각도로

  • 로우앵글, 하이앵글, 정면, 클로즈업, 와이드샷, 오버 더 숄더…
  • "무엇이 프레임 안에 얼마나 크게 들어와 있는가"
  • 예: "로우앵글 클로즈업", "광각 와이드샷", "정면 반신 구도"

요소 5 — 비율 (Aspect Ratio): 어떤 캔버스 안에

  • 16:9 (유튜브 썸네일, 블로그 히어로)
  • 9:16 (인스타 스토리, 릴스, 쇼츠)
  • 1:1 (인스타 피드)
  • 3:2 (사진 인화)
  • 도구마다 설정 방법이 다릅니다 — ChatGPT는 문장에 "16:9" 써주시면 되고, Midjourney는 --ar 16:9 플래그를 붙이십니다

📖 용어: 비율(Aspect Ratio)과 해상도(Resolution)의 차이 비율은 캔버스의 가로:세로 형태입니다. 16:9는 직사각형, 1:1은 정사각형. 크기는 관계없습니다. 해상도는 그 캔버스 안에 픽셀이 몇 개냐입니다. 이미지 생성 프롬프트에서는 비율부터 결정하십시오. 비율은 레이아웃을 정하고, 해상도는 도구 설정에서 따로 정하시면 됩니다.

다섯을 합치면 이렇게 됩니다.

한옥 마루에 앉은 검은 고양이, (주제)
따뜻한 아날로그 필름 사진 스타일, (스타일)
역광 골든아워 햇살, (조명)
로우앵글 클로즈업, (구도)
16:9 비율 (비율)

쉼표로 쪼개시는 게 팁입니다. AI가 각 요소를 독립적으로 해석합니다.

3단계. 나쁜 프롬프트 vs 좋은 프롬프트 — 실전 차이 (5분)

선택하신 도구를 열고 아래 두 프롬프트를 차례로 입력해보십시오.

나쁜 프롬프트

귀여운 고양이 그려줘

결과: 주황 줄무늬 고양이가 카페 같은 배경에 앉아 있는 매우 흔한 구도. 열 명이 이 프롬프트를 쳐도 아홉 명이 비슷한 이미지를 받습니다.

좋은 프롬프트

한옥 마루에 앉아 먼 곳을 응시하는 검은 고양이,
따뜻한 아날로그 필름 사진 스타일 (코닥 포트라 400 느낌),
늦은 오후 역광 골든아워 햇살,
로우앵글 클로즈업, 얕은 심도,
부드럽게 흐려진 배경, 16:9 비율

결과: 드라마틱한 역광, 검은 털에 비치는 빛, 흐릿한 한옥 실루엣. 바로 블로그 히어로 이미지로 쓰실 수 있는 수준.

같은 도구, 같은 30초, 전혀 다른 결과. 이게 5요소 프롬프트의 힘입니다.

4단계. 반복 수정 — 꼬리 대화, 인페인트, 레퍼런스 이미지 (7분)

좋은 프롬프트로 결과를 받으셨어도 100% 마음에 드는 경우는 드뭅니다. 2026년의 도구들은 세 가지 수정 방법을 지원합니다.

방법 1 — 꼬리 대화로 다듬기

첫 결과가 나왔다면 AI에게 수정 요청을 이어가십시오.

1차 결과: [이미지 받음]
2차 요청: 구도는 좋은데 고양이가 조금 더 왼쪽에 있으면 좋겠어요. 배경의 한옥 기둥 하나가 더 선명하게 보이게 해주세요.
3차 요청: 좋습니다. 이제 같은 분위기로 고양이만 흰색 고양이로 바꿔주세요.

텍스트 대화로 AI에 꼬리 질문 던지시듯이, 이미지도 꼬리 대화로 다듬어가십시오. 3~4번 반복하시면 처음 시도의 결과와 완전히 다른 수준의 이미지가 나옵니다.

방법 2 — 인페인트 / 아웃페인트 (Inpaint / Outpaint)

이미지의 특정 영역만 바꾸고 싶으실 때 씁니다. DALL-E 3, GPT-5 Image 2, Midjourney 7+, Flux 2 모두 지원합니다.

  • 인페인트: 이미지 위에 마스크를 그려서 "이 부분만 바꿔주세요" — 배경은 그대로 두고 고양이 색만 바꾸거나, 제품 이미지에서 배경만 지우실 때
  • 아웃페인트: 이미지 바깥쪽을 확장해서 캔버스를 키우십니다 — 16:9 이미지를 9:16으로 늘리거나, 사진 프레임 밖 장면을 생성할 때

📖 용어: 인페인트(Inpaint)와 아웃페인트(Outpaint) 인페인트는 이미지 안의 특정 영역만 다시 그리는 기능입니다. 원하지 않는 부분(배경에 들어온 낯선 사람, 이상하게 나온 손)을 지우거나 교체하실 수 있습니다. 아웃페인트는 반대로 이미지의 경계 바깥쪽을 AI가 자연스럽게 확장합니다. 16:9 이미지를 세로 9:16으로 바꾸셔야 할 때 아웃페인트로 위아래를 늘리시면 됩니다. 두 기능 모두 2026년에는 주요 도구의 기본 기능으로 자리 잡았습니다.

방법 3 — 레퍼런스 이미지로 일관성 유지

마음에 드는 결과가 나오셨다면 그 이미지를 다음 프롬프트의 레퍼런스로 첨부하십시오.

[이전에 생성한 고양이 이미지 첨부]
이 이미지와 동일한 고양이 캐릭터로, 이번엔 눈 내리는 겨울 창가 장면으로 바꿔주세요.

Midjourney 7+의 아이덴티티 잠금 기능과 GPT-5 Image 2의 레퍼런스 이미지 지원 덕분에, 같은 캐릭터나 스타일을 여러 장면에 일관되게 적용하시는 것이 2026년에는 표준 워크플로가 되었습니다.

📖 용어: 네거티브 프롬프트 — 2026년에는 덜 필요합니다 예전에는 "왜곡된 손/발", "글자/워터마크"를 사전에 차단하기 위해 네거티브 프롬프트가 필수였습니다. 2026년의 최신 모델(GPT-5 Image 2, Midjourney 7+, Flux 2)은 이런 흔한 결함을 스스로 많이 줄였습니다. 그래도 완벽하지는 않으니, 특정 요소를 명확히 제외하고 싶으시면 여전히 "no [X]" 또는 "without [X]" 형태로 프롬프트에 포함하실 수 있습니다. Stable Diffusion과 Flux에는 전용 네거티브 프롬프트 입력란이 있습니다.

5단계. 용도별 실전 프롬프트 3장 (10분)

이제 실제로 써먹을 이미지 3장을 뽑아내실 시간입니다. 아래 템플릿을 기반으로 당신의 상황에 맞게 바꾸셔서 3장 생성하십시오.

용도 1 — 유튜브 썸네일 (16:9)

[당신의 얼굴 또는 상징 캐릭터],
놀란 표정, 선명한 대비와 포스터 스타일,
네온 조명, 정면 클로즈업 반신,
16:9 비율, 가독성 높은 배경,
no text (글자는 썸네일 편집기에서 직접 넣을 예정)

용도 2 — 블로그 히어로 이미지 (16:9)

[글의 주제를 상징하는 장면 — 예: "책상 위에 펼쳐진 노트북과 따뜻한 커피잔"],
미니멀 포토그래피 스타일, 부드러운 자연광,
오버헤드 탑다운 구도, 16:9 비율,
따뜻한 베이지 톤,
no people, no text

용도 3 — 인스타 스토리 (9:16)

[홍보할 제품 또는 상징 이미지],
플랫 일러스트 스타일, 브랜드 컬러(#3B82F6 중심),
중앙 배치 구도, 상단에 제목 영역 확보,
9:16 비율,
no cluttered background, no multiple products

세 장 모두 생성하셨으면 ai-images 폴더에 저장하십시오.

여기까지 오신 상황: 5요소 프롬프트, 꼬리 대화, 인페인트/아웃페인트, 레퍼런스 이미지까지 전부 체험하셨고 실제 쓸 이미지 3장이 손에 있으십니다. 다음은 이 과정이 올바르게 이루어졌는지 확인하는 체크리스트입니다.


VERIFICATION — 제대로 된 건지 확인

아래 네 가지가 전부 체크되면 이 튜토리얼을 완주하신 것입니다.

체크 1 — 계정과 첫 이미지

  • 선택하신 이미지 도구 하나에 로그인되어 있으십니까?
  • "나쁜 프롬프트" 한 장과 "좋은 프롬프트" 한 장을 비교해서 생성해보셨습니까?
  • 둘의 차이를 눈으로 확인하셨습니까?

체크 2 — 5요소 프롬프트 체화

  • 주제·스타일·조명·구도·비율 다섯을 전부 포함한 프롬프트 한 번 작성하셨습니까?
  • 쉼표로 요소를 구분하셨습니까?

체크 3 — 반복 수정 경험

  • 첫 결과에 만족하지 않고 꼬리 대화, 인페인트, 또는 레퍼런스 이미지 중 하나를 써서 최소 1번 수정 요청하셨습니까?

체크 4 — 실제 쓸 이미지 3장

  • 용도별 이미지(썸네일 / 히어로 / 스토리) 3장이 ai-images 폴더에 저장되어 있습니까?
  • 그중 최소 한 장은 오늘 실제로 쓰실 수 있는 품질입니까?

4개 중 3개 이상 체크되시면 합격입니다. 전부 체크되시지 않아도 괜찮습니다 — 시간 지나면서 손에 익습니다.

여기까지 오신 상황: 5요소 프롬프트의 기본기가 손에 붙으셨습니다. 다음으로는 같은 원리를 다른 상황에 응용하는 변주를 보시겠습니다.


VARIATIONS — 응용과 변주

변주 1 — 제품 목업 이미지

제품 사진이 없으실 때 AI로 목업을 만드실 수 있습니다.

베이지 린넨 배경에 놓인 흰색 세라믹 머그컵,
컵 앞면에 "로고 자리" 라벨 공간 확보 (나중에 합성할 예정),
부드러운 측광 스튜디오 조명,
하이앵글 45도 구도, 3:2 비율,
no beverage, no human hands, no other props

로고가 있으시면 생성된 이미지에 포토샵이나 캔바에서 덮어씌우시면 됩니다. 혹은 Flux 2를 쓰시면 프롬프트 안에 글자를 직접 렌더링하실 수도 있습니다.

변주 2 — 사람 캐릭터(본인 대신)

얼굴을 드러내기 부담스러우신 분들이 많으십니다. 상징 캐릭터를 만들어 일관되게 쓰십시오.

30대 후반 남성 일러스트 캐릭터,
미니멀 플랫 디자인 스타일,
네이비 블레이저에 흰 셔츠,
정면 상반신, 중앙 배치,
흰색 또는 베이지 배경, 1:1 비율

한 번 마음에 드는 캐릭터가 나오시면 그 이미지를 레퍼런스로 첨부하시고 매번 "이 레퍼런스와 동일한 캐릭터로, 이번엔 XX 상황" 식으로 꼬리를 이어가십시오. Midjourney 7+의 아이덴티티 잠금 기능을 활용하시면 채널 전체의 비주얼 일관성이 생깁니다.

변주 3 — 에스엔에스 카드 10장 한 번에

블로그 글 요약을 10장의 카드 이미지로 만드실 때는 같은 프롬프트 구조에 내용만 바꿔서 반복하시면 됩니다.

카드 #1: [핵심 문장 1], 베이지 배경, 검정 산세리프 폰트 자리, 플랫 일러스트, 1:1
카드 #2: [핵심 문장 2], 베이지 배경, 검정 산세리프 폰트 자리, 플랫 일러스트, 1:1
...

구조를 고정하시고 내용만 바꾸시면 10장이 10분 안에 나옵니다. 여기에 캔바 같은 도구의 일괄 생성 기능을 더하시면 더 빠릅니다.

여기까지 오신 상황: 5요소 프롬프트를 세 가지 실전 용도로 변주하는 방법을 보셨습니다. 다음으로는 막히실 때 꺼내 드실 문제 해결 가이드입니다.


TROUBLE + NEXT — 막히실 때와 다음 단계

자주 마주치는 문제

문제 1 — "결과가 너무 스톡 이미지 같습니다"

  • 원인: 프롬프트가 15자 이하로 짧거나, 5요소 중 3개 이상 비어 있음
  • 해결: 주제·스타일·조명·구도·비율 중 빠진 요소를 채우십시오. 특히 조명구도가 비어 있는 경우가 많습니다

문제 2 — "손이 이상하게 나옵니다(손가락 6개, 발 왜곡)"

  • 원인: 디퓨전 모델은 손·발 생성에 여전히 약점이 있음 (2026년에도 최신 모델은 많이 개선되었지만 완벽하지 않음)
  • 해결: (a) 프롬프트에 "no distorted hands" 추가, (b) 클로즈업보다 와이드샷으로 찍으셔서 손발이 작게 들어가도록, (c) 손을 주머니에 넣은 포즈나 뒷짐 포즈를 지정, (d) 인페인트로 해당 영역만 재생성

문제 3 — "글자가 깨져서 나옵니다"

  • 원인: DALL-E 3, Midjourney는 글자 렌더링이 약함
  • 해결: (a) Flux 2로 전환하십시오 — 텍스트 렌더링이 가장 강함, 혹은 (b) 글자가 들어갈 공간만 비워두고 생성한 뒤 캔바나 포토샵에서 글자를 올리십시오

문제 4 — "같은 프롬프트인데 매번 다른 결과가 나옵니다"

  • 원인: 디퓨전 모델은 매번 다른 노이즈에서 시작함 (섹션 초반 설명 참고)
  • 해결: 정상 동작입니다. 마음에 드는 결과가 나오시면 반드시 저장하시고, "같은 시드(seed)로 다시" 옵션이 있으시면 그것을 쓰십시오 (Midjourney, Flux 2 등 지원)

문제 5 — "한글로 썼는데 엉뚱한 결과가 나옵니다"

  • 원인: 일부 도구는 한글 프롬프트 이해가 영어보다 떨어짐
  • 해결: 영어로 번역해서 입력해보십시오. ChatGPT에 "다음 프롬프트를 영어 이미지 프롬프트로 번역해줘: [한글 프롬프트]"라고 던지시면 바로 번역본을 주고, 그걸 Midjourney나 Flux에 입력하시면 됩니다

다음 단계

이 튜토리얼로 이미지 생성의 기본기가 손에 붙으셨습니다. 다음으로 넘어가실 수 있는 경로는 세 가지입니다.

경로 A — 프롬프트 작성 심화

  • 좋은 프롬프트 쓰기 튜토리얼로 텍스트 프롬프트의 3요소까지 익히십시오
  • 텍스트와 이미지 프롬프트를 둘 다 익히시면 콘텐츠 제작 속도가 10배가 됩니다

경로 B — 디자인 시스템으로 연결

  • 이미지 10장을 뽑으셨다면 캔바의 브랜드 키트에 색상·폰트를 등록하시고 템플릿에 넣어 일관된 시리즈로 만드십시오
  • 캔바 브랜드 키트 설정 튜토리얼 (곧 공개 예정)

경로 C — 영상으로 확장

  • 이미지가 편해지시면 영상 생성(Runway, Pika, Kling)으로 넘어가십시오
  • 이미지 프롬프트의 5요소가 영상에도 거의 그대로 적용됩니다

끝으로 — 오늘의 원칙

완벽한 이미지는 머리 안에 있습니다. AI는 그것을 읽지 못합니다. 당신이 문장으로 꺼내주신 만큼만 그립니다. 디자인 실력이 없다고 하신 건 사실 "머릿속 이미지를 문장으로 꺼내는 훈련이 부족하시다"는 뜻입니다. 오늘 5요소 프롬프트 연습을 30번만 반복하시면, 2주 뒤엔 디자이너 친구보다 빠르게 썸네일을 만드시게 됩니다. 말로 그림을 찍는 시대입니다. 손보다 입이 빠릅니다.


Check Your Understanding

Three short questions. Get them all right and the completion stamp is auto-granted. Answers stay on your device.

  1. Q1. According to this tutorial, what are the "5 elements of an image prompt"?

  2. Q2. Why does the tutorial say the same prompt produces different results each time?

  3. Q3. When a student complains that "draw me a cute dog" produces "stock-photo-like" results, what should you check FIRST according to this tutorial?

Attendance
Completed

Completion is stored on this device only. See your full passport at /member.

Edit Section