You don't need to have opened Photoshop once. You don't need a design background. In 2026, generating an image is a sentence, not a brush. This tutorial covers the 5 elements that turn a vague request into a thumbnail-grade result, a comparison of the top image tools of 2026, and side-by-side bad-vs-good prompt examples — all in 30 minutes. This is a course for non-designers learning to "think visually through words."
Three things will be in your hands after this tutorial.
What gets built
📖 Term: What is a Diffusion Model? Most 2026 AI image tools run on diffusion models. They start from pure noise and, using what they've learned from billions of images, gradually subtract noise until a picture emerges. That's why the same prompt twice produces slightly different results — the starting noise differs every time.
Tutorial meta
| Item | Value |
|---|---|
| Time | 30 min (fast: 20 min, unhurried: 45 min) |
| Level | Beginner |
| Tools | Web browser + one AI-tool account |
| Design knowledge | None required |
| Photoshop/Figma | Not needed |
| Payment | Optional (completable on free tier) |
Why this matters — in visual-thinking terms
The sticking point for non-designers is: "the image is in my head but my hand can't draw." The 2026 answer is not the hand but the mouth. Once you can describe the image in your head precisely in words, that sentence IS the picture. This tutorial doesn't teach design. It trains you in "breaking visual thinking into sentences." Before this 30-minute training, you write "draw a cute cat" and blame the tool when the result looks off. After, you write "a black cat sitting on a Korean hanok wooden floor, backlit golden-hour sun, low-angle closeup, 16:9, warm analog film tone, soft shadows" and pull a usable result on the first try.
Where you are now: You've seen what this tutorial delivers. Next, a one-minute prerequisites check.
Three things.
Required
ai-images folder on your desktop; it'll save you time for the full 30 minutes📖 Term: Prompt Engineering for Images "Prompt engineering" is the craft of refining the sentence you send the AI to get better results. A text AI prompt is a sentence of logic (context + instruction + format). An image AI prompt is a sentence of vision (subject + style + lighting + composition + aspect ratio). These have different grammars. People who are strong on text-AI prompts often get stuck on image prompts at first. Same word, different language.
Not needed
Environment check (1 minute)
If you're logged into any one of the following, you can start right away:
If you have zero AI accounts, finish the Pick Your First AI Tool tutorial in 20 minutes first, then come back.
Where you are now: Environment ready. Next, a 2-minute WHY on why image prompts are a different grammar from text prompts.
If you're fluent with text AI, your first image generation will likely surprise you. "Write me a marketing plan" worked. Why does "make me a pretty image" fail? Different grammar.
Reason 1 — In images, there is no "information that can be left out in words."
When writing text, words like "nicely" or "professionally" carry dozens of implied nuances. The reader fills them in. Images can't do that. To draw a "pretty cat," the AI must decide: coat color, background, time of day, lighting, camera angle, artistic style, aspect ratio. If you don't tell it, the AI picks carelessly for you. That careless pick is "the bland stock photo." The image in your head is visible only to you. The AI can't see it. You have to draw it fully in words and hand it over.
Reason 2 — The AI converges on "average."
Diffusion models are trained by averaging billions of images. So if you ask with no guidance, you get the most common average. "Cat" = orange tabby, seated frontal pose, cafe or couch background — the average of the most common cat photos on the internet. Unless you plant concrete elements that deviate from average in your prompt, your result blends into hundreds of thousands of similar stock images.
The image in your head is yours alone. The AI can't see it. Draw it fully in words.
Reason 3 — Most "bad results" are not tool problems. They are instruction shortages.
When students show me results and say "this tool is no good," 90% of the time the prompt is under 15 characters. "puppy illustration," "website background," "thumbnail image." Not one of the five elements — subject, style, lighting, composition, aspect ratio — is present. Of course the tool gave a bland result. Same tool, same 15 seconds; a 100-character prompt vs a 400-character prompt produces 10× different quality.
Where you are now: You understand why image prompts are "visual thinking translated into sentences." Now to the hands-on: pick a tool, write a 5-element prompt, pull three actual images.
As of 2026, the image generation landscape looks like this. Each tool has different strengths.
| Tool | How to access | Strength | Best for |
|---|---|---|---|
| DALL-E 3 | Built into ChatGPT | Best text comprehension, strong with Korean | Beginners, starting in Korean |
| GPT-5 Image 2 | ChatGPT Plus/Pro | Flagship quality; editing, inpaint, reference image integrated | Highest-quality work |
| Midjourney 7+ | midjourney.com (web, no Discord) | Top artistic quality; excellent reference image / identity lock | Posters, artwork, branding |
| Nano Banana Pro | Built into Gemini app | Fastest, cheapest | Bulk generation, blog/SNS workflows |
| Flux 2 / Flux Pro | flux.ai, Replicate | Best text (letters) rendering; open-source based | Logos, typography, custom |
| Stable Diffusion 3.5 / SDXL | Local install or web UI | Infinite custom models; fully free | Power users, pros |
First-choice guide
If you can't decide, start with DALL-E 3. If you already have a ChatGPT account you can use it with zero extra sign-up.
Every image prompt splits into five elements.
Element 1 — Subject: What is in the frame
Element 2 — Style: In what artistic manner
📖 Term: Reference Image — the 2026 standard When words alone can't capture the style you want, attach a reference image. DALL-E 3, GPT-5 Image 2, Midjourney 7+, Nano Banana Pro, and Flux 2 all support image input as of 2026. Just say "same feel as this reference, but with subject XX." Midjourney 7+ and GPT-5 Image 2 have strengthened identity lock — you can place the same character or person consistently across different scenes. One caveat: don't use copyrighted images as references — stick to your own, public-domain, or explicitly licensed images.
Element 3 — Lighting: Under what light
Element 4 — Composition: At what angle
Element 5 — Aspect Ratio: In what canvas
--ar 16:9 flag📖 Term: Aspect Ratio vs Resolution Aspect ratio is the shape of the canvas (width:height). 16:9 is a wide rectangle; 1:1 is a square. Size doesn't matter. Resolution is the number of pixels inside that canvas. In image prompts, lock the aspect ratio first. Aspect ratio decides layout; resolution is a separate export setting.
Weave all five:
A black cat sitting on a hanok wooden floor, (subject)
warm analog film photo style, (style)
backlit golden-hour sun, (lighting)
low-angle closeup, (composition)
16:9 aspect ratio (aspect)
Splitting with commas is a pro tip. The AI interprets each element independently.
Open your chosen tool and run both prompts below, in order.
Bad prompt
draw me a cute cat
Result: an orange tabby seated frontal, cafe-ish background — extremely common composition. Ten people using this prompt get nine near-identical images.
Good prompt
A black cat sitting on a hanok wooden floor gazing into the distance,
warm analog film photo style (Kodak Portra 400 feel),
late-afternoon backlit golden-hour sun,
low-angle closeup, shallow depth of field,
softly blurred background, 16:9 aspect ratio
Result: dramatic backlight, sunlight catching the black fur, blurred hanok silhouette. Ready for a blog hero image on the spot.
Same tool, same 30 seconds, completely different output. That's the power of the 5-element prompt.
Even with a good prompt, rarely do you hit 100% satisfaction on try one. Three techniques the 2026 tools support.
Technique 1 — Refine with follow-up messages
Treat it like a text conversation — iterate with follow-ups.
Pass 1: [image received]
Pass 2: The composition is good, but could the cat sit a bit more to the left? Make one hanok pillar in the background sharper.
Pass 3: Great. Same mood, but change the cat to a white cat.
Just as you chain follow-up questions in text chat, chain follow-up edits in image chat. Three or four rounds and the result leaps beyond your first try.
Technique 2 — Inpaint / Outpaint
When you want to change only a specific area. Supported by DALL-E 3, GPT-5 Image 2, Midjourney 7+, and Flux 2.
📖 Term: Inpaint and Outpaint Inpainting redraws only a selected region of the image — fix distorted hands, remove an unwanted object, or swap a color. Outpainting extends the image beyond its current border, letting the AI fill in the expanded space naturally. Both are standard features in major 2026 tools, and they remove most of the need for a separate photo editor.
Technique 3 — Lock style and identity with a reference image
Once you have a result you like, attach it as a reference in your next prompt.
[attach the cat image you just generated]
Same cat character as in the reference — now place it at a snowy winter windowsill.
Midjourney 7+'s identity lock and GPT-5 Image 2's reference image support make it standard practice in 2026 to reuse a character or style consistently across multiple images.
📖 Term: Negative Prompts — less needed in 2026 Negative prompts used to be essential for blocking common defects like distorted hands or watermarks. The latest 2026 models (GPT-5 Image 2, Midjourney 7+, Flux 2) have greatly reduced these issues on their own. That said, if you want to explicitly exclude something, "no [X]" or "without [X]" in the main prompt still works. Stable Diffusion and Flux have a dedicated negative prompt field.
Now pull three images you can actually use. Adapt the templates below to your own situation.
Use 1 — YouTube thumbnail (16:9)
[your face or signature character],
surprised expression, bold-contrast poster style,
neon lighting, frontal closeup upper body,
16:9 aspect ratio, highly readable background,
no text (text will be added later in the thumbnail editor)
Use 2 — Blog hero image (16:9)
[scene symbolizing your article — e.g., "laptop open on a desk with a warm coffee cup"],
minimal photography style, soft natural light,
overhead top-down composition, 16:9 aspect ratio,
warm beige tones,
no people, no text
Use 3 — Instagram Story (9:16)
[product or symbol to promote],
flat illustration style, brand color (centered on #3B82F6),
centered composition with room for a title at top,
9:16 aspect ratio,
no cluttered background, no multiple products
Save all three to the ai-images folder.
Where you are now: You've practiced the 5-element prompt, follow-up refinement, inpainting, and reference images; three usable images are in your folder. Next, a checklist to verify the process went right.
If all four check out, you've completed this tutorial.
Check 1 — Account and first image
Check 2 — 5-element prompt internalized
Check 3 — Iterative refinement experience
Check 4 — Three use-case images
ai-images folder?Three out of four is a pass. You don't need all four on day one — the feel develops over time.
Where you are now: The basics of the 5-element prompt are in your hand. Next, variations that extend the same principle to other situations.
No product photos yet? Use AI mockups.
A white ceramic mug on a beige linen background,
with a blank "logo area" label space on the front (to be composited later),
soft side-lit studio lighting,
high-angle 45-degree composition, 3:2 aspect ratio,
no beverage, no human hands, no other props
Overlay your actual logo afterward in Photoshop or Canva. Or use Flux 2 to render the text directly inside the prompt.
Many people feel uneasy showing their face. Make a symbolic character and use it consistently.
Late-30s male illustration character,
minimal flat design style,
navy blazer over white shirt,
frontal upper-body, centered,
white or beige background, 1:1 aspect ratio
Once a version you like exists, attach that image as a reference in every subsequent prompt and chain "same character as in the reference, now in situation XX." Midjourney 7+'s identity lock feature makes visual consistency across the whole channel easy to maintain.
Turning a blog post summary into 10 card images? Keep the prompt structure fixed and vary only the content.
Card #1: [key sentence 1], beige background, space for black sans-serif font, flat illustration, 1:1
Card #2: [key sentence 2], beige background, space for black sans-serif font, flat illustration, 1:1
...
Fix the structure, vary only the content, and 10 cards finish in 10 minutes. Add a bulk-generation tool like Canva on top and it's even faster.
Where you are now: You've seen three real-use variations of the 5-element prompt. Next, a troubleshooting guide for when you get stuck.
Problem 1 — "The result looks like a stock photo"
Problem 2 — "Hands come out wrong (6 fingers, distorted feet)"
Problem 3 — "Text comes out garbled"
Problem 4 — "Same prompt, different results each time"
Problem 5 — "I wrote in Korean and got unrelated results"
With this tutorial, the basics of image generation are in your hand. Three paths forward.
Path A — Deepen prompt writing
Path B — Connect to a design system
Path C — Extend into video
One last principle
The perfect image lives inside your head. The AI can't read it. It paints only as much as you pull out in sentences. "Not having design skills" actually means "not having practiced pulling the image in your head out as sentences." Repeat the 5-element prompt exercise 30 times, and in two weeks you'll be making thumbnails faster than your designer friend. This is the era of shooting pictures with words. The mouth is faster than the hand.
이 튜토리얼을 따라오시면 다음 세 가지가 손에 남습니다.
완성되는 것
📖 용어: 디퓨전 모델(Diffusion Model)이란 무엇인가 2026년 대부분의 AI 이미지 도구는 디퓨전 모델(diffusion model) 방식으로 동작합니다. 완전한 노이즈에서 출발해서, 학습한 수십억 장의 이미지를 바탕으로 노이즈를 조금씩 걷어내며 그림을 만들어내는 방식입니다. 그래서 같은 프롬프트를 두 번 입력하셔도 결과가 조금씩 다르게 나옵니다. 노이즈 시작점이 매번 다르기 때문입니다.
이 튜토리얼의 메타 정보
| 항목 | 값 |
|---|---|
| 소요 시간 | 30분 (빠르게 20분, 차분히 45분) |
| 난이도 | 입문 |
| 필요 도구 | 웹 브라우저 + AI 도구 계정 1개 |
| 사전 디자인 지식 | 필요 없음 |
| 포토샵/피그마 | 필요 없음 |
| 결제 | 선택 (무료 티어로 이 튜토리얼 완주 가능) |
왜 이걸 만드나 — 시각 사고 차원에서
디자이너가 아니신 분들이 가장 막히시는 지점은 "머릿속에 이미지가 있는데 그릴 손이 없다"는 것입니다. 2026년의 답은 손이 아니라 입입니다. 머릿속 이미지를 문장으로 정확하게 묘사하실 수 있게 되시면, 그 문장이 곧 그림입니다. 이 튜토리얼은 디자인을 가르치지 않습니다. **"시각적으로 생각하는 법을 문장으로 쪼개는 훈련"**을 하십니다. 훈련 전엔 「고양이 귀엽게 그려줘」라고 쓰시고 "결과가 이상하네"라며 도구 탓을 하십니다. 훈련 후엔 「한옥 마루에 앉은 검은 고양이, 역광 햇살, 로우앵글, 16:9, 따뜻한 아날로그 필름 톤, 부드러운 그림자」처럼 쓰시고 첫 시도에서 바로 쓸만한 결과를 뽑아내십니다.
여기까지 오신 상황: 이 튜토리얼이 무엇을 드리는지 확인하셨습니다. 다음으로는 본격 진행 전 필요한 준비물이 갖춰졌는지 1분만에 체크하시겠습니다.
세 가지만 준비되어 있으면 됩니다.
필수 준비물
ai-images 폴더 하나 만들어두시면 30분 내내 편하십니다📖 용어: 프롬프트 엔지니어링 (Prompt Engineering for Images) "프롬프트 엔지니어링"은 AI에 보내는 문장을 다듬어서 더 좋은 결과를 뽑는 기술입니다. 텍스트 AI의 프롬프트는 논리의 문장(배경 + 지시 + 형식)이지만, 이미지 AI의 프롬프트는 시각의 문장(주제 + 스타일 + 조명 + 구도 + 비율)입니다. 이 둘은 문법이 다릅니다. 텍스트 AI에 잘하시던 분도 이미지 AI에서는 처음엔 막히십니다. 같은 "프롬프트"라는 단어를 쓰지만, 다른 언어입니다.
필요 없는 것
환경 체크 (1분)
다음 중 하나에 로그인되어 있으시면 바로 시작하실 수 있습니다.
계정이 하나도 없으시면 첫 AI 도구 고르기 튜토리얼부터 20분 안에 끝내고 오십시오.
여기까지 오신 상황: 환경이 준비되셨습니다. 이제 왜 "이미지 프롬프트는 텍스트 프롬프트와 다른가"를 2분만 짚고 본 작업으로 넘어갑니다.
텍스트 AI에 익숙해지셨다면 첫 이미지 생성에서 당황하실 가능성이 높습니다. 「마케팅 기획서 써줘」는 작동했는데 「예쁜 이미지 만들어줘」는 왜 안 되는가. 문법이 다르기 때문입니다.
첫 번째 이유 — 이미지에는 "글자로 생략되는 정보"가 없습니다.
텍스트를 쓰실 때는 "예쁘게", "전문적으로" 같은 말로 수십 가지 뉘앙스가 커버됩니다. 읽는 사람이 알아서 채워서 이해합니다. 이미지는 그럴 수 없습니다. "예쁜 고양이"를 AI가 그리려면 몸 색깔, 배경, 시간대, 조명, 카메라 각도, 화풍, 비율 — 이 모든 것이 반드시 결정되어야 합니다. 안 알려주시면 AI가 대충 자기 마음대로 선택합니다. 대충 선택한 결과가 "밍숭맹숭한 스톡 사진"입니다. 당신의 머릿속 이미지는 당신만 보고 있습니다. AI 눈에는 보이지 않습니다. 그러니 말로 다 그려서 넘겨주셔야 합니다.
두 번째 이유 — AI는 "보통"으로 수렴합니다.
디퓨전 모델은 수십억 장의 이미지를 평균 내서 만들어진 것입니다. 그래서 아무 지시 없이 그려달라고 하시면 가장 흔한 평균이 나옵니다. "고양이" = 주황 줄무늬 털, 정면 앉은 포즈, 카페 혹은 소파 배경. "평균에서 벗어나는" 구체적 요소를 프롬프트에 심어주시지 않으면 당신의 결과물은 수십만 장의 비슷한 스톡 이미지와 섞입니다.
머릿속 이미지는 당신만 봅니다. AI에게는 안 보입니다. 말로 다 그려서 넘기세요.
세 번째 이유 — "나쁜 결과"의 대부분은 도구 문제가 아니라 지시 부족 문제입니다.
수업에서 학생분들이 "이 도구 별로네요"라며 보여주시는 결과의 9할은 프롬프트가 15자 미만입니다. 「강아지 일러스트」, 「웹사이트 배경」, 「썸네일 이미지」. 이 15자 안에 주제·스타일·조명·구도·비율 중 하나도 들어 있지 않습니다. 도구가 대충 만들어주는 게 당연합니다. 같은 도구에 같은 15초 시간이지만, 프롬프트가 100자냐 400자냐에 따라 결과는 10배 다릅니다.
여기까지 오신 상황: 이미지 프롬프트가 왜 "시각적 사고의 문장화"인지 이해하셨습니다. 이제 실제 도구를 비교해서 하나를 고르고, 5요소 프롬프트를 작성해서 이미지 3장을 뽑아내는 실전으로 갑니다.
2026년 현재 주요 이미지 생성 도구는 다음과 같습니다. 각자 강점이 다릅니다.
| 도구 | 접근 방법 | 강점 | 추천 사용자 |
|---|---|---|---|
| DALL-E 3 | ChatGPT 안에 내장 | 텍스트 이해력 최고, 한글 프롬프트 강함 | 초심자, 한글로 바로 시작 |
| GPT-5 Image 2 | ChatGPT Plus/Pro | 플래그십 품질, 편집·인페인트·레퍼런스 이미지 통합 | 최고 품질이 필요한 작업 |
| Midjourney 7+ | midjourney.com (웹에서 바로) | 예술적 완성도 최상, 레퍼런스 이미지 지원 탁월 | 포스터·아트워크·브랜딩 |
| Nano Banana Pro | Gemini 앱 안에 내장 | 속도 가장 빠름, 가격 가장 싸다 | 대량 생성, 블로그/SNS 워크플로 |
| Flux 2 / Flux Pro | flux.ai, Replicate | 텍스트(글자) 렌더링 최강, 오픈소스 기반 | 로고·타이포그래피·커스텀 |
| Stable Diffusion 3.5 / SDXL | 로컬 설치 또는 웹 UI | 커스텀 모델 무한, 완전 무료 | 파워 유저, 전문가 |
첫 선택 기준
판단이 안 서시면 DALL-E 3부터 시작하십시오. ChatGPT 계정이 이미 있으시다면 추가 가입 없이 바로 써보실 수 있습니다.
모든 이미지 프롬프트는 다섯 요소로 쪼갤 수 있습니다.
요소 1 — 주제 (Subject): 무엇이 있는가
요소 2 — 스타일 (Style): 어떤 화풍으로
📖 용어: 레퍼런스 이미지(Reference Image) — 2026년 표준 프롬프트 문장만으로 스타일을 설명하기 어려우실 때는 레퍼런스 이미지를 첨부하실 수 있습니다. DALL-E 3, GPT-5 Image 2, Midjourney 7+, Nano Banana Pro, Flux 2 모두 2026년 현재 이미지 첨부 입력을 지원합니다. "이 레퍼런스와 같은 느낌으로, 주제만 XX로 바꿔주세요"라고 요청하시면 됩니다. Midjourney 7+와 GPT-5 Image 2는 아이덴티티 잠금(identity lock) 기능이 강화되어, 같은 인물·캐릭터를 다른 장면에 일관되게 등장시키실 수 있습니다. 주의하실 점은 저작권이 있는 이미지는 레퍼런스로 쓰지 않으시는 게 안전하다는 점입니다.
요소 3 — 조명 (Lighting): 어떤 빛에서
요소 4 — 구도 (Composition): 어떤 각도로
요소 5 — 비율 (Aspect Ratio): 어떤 캔버스 안에
--ar 16:9 플래그를 붙이십니다📖 용어: 비율(Aspect Ratio)과 해상도(Resolution)의 차이 비율은 캔버스의 가로:세로 형태입니다. 16:9는 직사각형, 1:1은 정사각형. 크기는 관계없습니다. 해상도는 그 캔버스 안에 픽셀이 몇 개냐입니다. 이미지 생성 프롬프트에서는 비율부터 결정하십시오. 비율은 레이아웃을 정하고, 해상도는 도구 설정에서 따로 정하시면 됩니다.
다섯을 합치면 이렇게 됩니다.
한옥 마루에 앉은 검은 고양이, (주제)
따뜻한 아날로그 필름 사진 스타일, (스타일)
역광 골든아워 햇살, (조명)
로우앵글 클로즈업, (구도)
16:9 비율 (비율)
쉼표로 쪼개시는 게 팁입니다. AI가 각 요소를 독립적으로 해석합니다.
선택하신 도구를 열고 아래 두 프롬프트를 차례로 입력해보십시오.
나쁜 프롬프트
귀여운 고양이 그려줘
결과: 주황 줄무늬 고양이가 카페 같은 배경에 앉아 있는 매우 흔한 구도. 열 명이 이 프롬프트를 쳐도 아홉 명이 비슷한 이미지를 받습니다.
좋은 프롬프트
한옥 마루에 앉아 먼 곳을 응시하는 검은 고양이,
따뜻한 아날로그 필름 사진 스타일 (코닥 포트라 400 느낌),
늦은 오후 역광 골든아워 햇살,
로우앵글 클로즈업, 얕은 심도,
부드럽게 흐려진 배경, 16:9 비율
결과: 드라마틱한 역광, 검은 털에 비치는 빛, 흐릿한 한옥 실루엣. 바로 블로그 히어로 이미지로 쓰실 수 있는 수준.
같은 도구, 같은 30초, 전혀 다른 결과. 이게 5요소 프롬프트의 힘입니다.
좋은 프롬프트로 결과를 받으셨어도 100% 마음에 드는 경우는 드뭅니다. 2026년의 도구들은 세 가지 수정 방법을 지원합니다.
방법 1 — 꼬리 대화로 다듬기
첫 결과가 나왔다면 AI에게 수정 요청을 이어가십시오.
1차 결과: [이미지 받음]
2차 요청: 구도는 좋은데 고양이가 조금 더 왼쪽에 있으면 좋겠어요. 배경의 한옥 기둥 하나가 더 선명하게 보이게 해주세요.
3차 요청: 좋습니다. 이제 같은 분위기로 고양이만 흰색 고양이로 바꿔주세요.
텍스트 대화로 AI에 꼬리 질문 던지시듯이, 이미지도 꼬리 대화로 다듬어가십시오. 3~4번 반복하시면 처음 시도의 결과와 완전히 다른 수준의 이미지가 나옵니다.
방법 2 — 인페인트 / 아웃페인트 (Inpaint / Outpaint)
이미지의 특정 영역만 바꾸고 싶으실 때 씁니다. DALL-E 3, GPT-5 Image 2, Midjourney 7+, Flux 2 모두 지원합니다.
📖 용어: 인페인트(Inpaint)와 아웃페인트(Outpaint) 인페인트는 이미지 안의 특정 영역만 다시 그리는 기능입니다. 원하지 않는 부분(배경에 들어온 낯선 사람, 이상하게 나온 손)을 지우거나 교체하실 수 있습니다. 아웃페인트는 반대로 이미지의 경계 바깥쪽을 AI가 자연스럽게 확장합니다. 16:9 이미지를 세로 9:16으로 바꾸셔야 할 때 아웃페인트로 위아래를 늘리시면 됩니다. 두 기능 모두 2026년에는 주요 도구의 기본 기능으로 자리 잡았습니다.
방법 3 — 레퍼런스 이미지로 일관성 유지
마음에 드는 결과가 나오셨다면 그 이미지를 다음 프롬프트의 레퍼런스로 첨부하십시오.
[이전에 생성한 고양이 이미지 첨부]
이 이미지와 동일한 고양이 캐릭터로, 이번엔 눈 내리는 겨울 창가 장면으로 바꿔주세요.
Midjourney 7+의 아이덴티티 잠금 기능과 GPT-5 Image 2의 레퍼런스 이미지 지원 덕분에, 같은 캐릭터나 스타일을 여러 장면에 일관되게 적용하시는 것이 2026년에는 표준 워크플로가 되었습니다.
📖 용어: 네거티브 프롬프트 — 2026년에는 덜 필요합니다 예전에는 "왜곡된 손/발", "글자/워터마크"를 사전에 차단하기 위해 네거티브 프롬프트가 필수였습니다. 2026년의 최신 모델(GPT-5 Image 2, Midjourney 7+, Flux 2)은 이런 흔한 결함을 스스로 많이 줄였습니다. 그래도 완벽하지는 않으니, 특정 요소를 명확히 제외하고 싶으시면 여전히 "no [X]" 또는 "without [X]" 형태로 프롬프트에 포함하실 수 있습니다. Stable Diffusion과 Flux에는 전용 네거티브 프롬프트 입력란이 있습니다.
이제 실제로 써먹을 이미지 3장을 뽑아내실 시간입니다. 아래 템플릿을 기반으로 당신의 상황에 맞게 바꾸셔서 3장 생성하십시오.
용도 1 — 유튜브 썸네일 (16:9)
[당신의 얼굴 또는 상징 캐릭터],
놀란 표정, 선명한 대비와 포스터 스타일,
네온 조명, 정면 클로즈업 반신,
16:9 비율, 가독성 높은 배경,
no text (글자는 썸네일 편집기에서 직접 넣을 예정)
용도 2 — 블로그 히어로 이미지 (16:9)
[글의 주제를 상징하는 장면 — 예: "책상 위에 펼쳐진 노트북과 따뜻한 커피잔"],
미니멀 포토그래피 스타일, 부드러운 자연광,
오버헤드 탑다운 구도, 16:9 비율,
따뜻한 베이지 톤,
no people, no text
용도 3 — 인스타 스토리 (9:16)
[홍보할 제품 또는 상징 이미지],
플랫 일러스트 스타일, 브랜드 컬러(#3B82F6 중심),
중앙 배치 구도, 상단에 제목 영역 확보,
9:16 비율,
no cluttered background, no multiple products
세 장 모두 생성하셨으면 ai-images 폴더에 저장하십시오.
여기까지 오신 상황: 5요소 프롬프트, 꼬리 대화, 인페인트/아웃페인트, 레퍼런스 이미지까지 전부 체험하셨고 실제 쓸 이미지 3장이 손에 있으십니다. 다음은 이 과정이 올바르게 이루어졌는지 확인하는 체크리스트입니다.
아래 네 가지가 전부 체크되면 이 튜토리얼을 완주하신 것입니다.
체크 1 — 계정과 첫 이미지
체크 2 — 5요소 프롬프트 체화
체크 3 — 반복 수정 경험
체크 4 — 실제 쓸 이미지 3장
ai-images 폴더에 저장되어 있습니까?4개 중 3개 이상 체크되시면 합격입니다. 전부 체크되시지 않아도 괜찮습니다 — 시간 지나면서 손에 익습니다.
여기까지 오신 상황: 5요소 프롬프트의 기본기가 손에 붙으셨습니다. 다음으로는 같은 원리를 다른 상황에 응용하는 변주를 보시겠습니다.
제품 사진이 없으실 때 AI로 목업을 만드실 수 있습니다.
베이지 린넨 배경에 놓인 흰색 세라믹 머그컵,
컵 앞면에 "로고 자리" 라벨 공간 확보 (나중에 합성할 예정),
부드러운 측광 스튜디오 조명,
하이앵글 45도 구도, 3:2 비율,
no beverage, no human hands, no other props
로고가 있으시면 생성된 이미지에 포토샵이나 캔바에서 덮어씌우시면 됩니다. 혹은 Flux 2를 쓰시면 프롬프트 안에 글자를 직접 렌더링하실 수도 있습니다.
얼굴을 드러내기 부담스러우신 분들이 많으십니다. 상징 캐릭터를 만들어 일관되게 쓰십시오.
30대 후반 남성 일러스트 캐릭터,
미니멀 플랫 디자인 스타일,
네이비 블레이저에 흰 셔츠,
정면 상반신, 중앙 배치,
흰색 또는 베이지 배경, 1:1 비율
한 번 마음에 드는 캐릭터가 나오시면 그 이미지를 레퍼런스로 첨부하시고 매번 "이 레퍼런스와 동일한 캐릭터로, 이번엔 XX 상황" 식으로 꼬리를 이어가십시오. Midjourney 7+의 아이덴티티 잠금 기능을 활용하시면 채널 전체의 비주얼 일관성이 생깁니다.
블로그 글 요약을 10장의 카드 이미지로 만드실 때는 같은 프롬프트 구조에 내용만 바꿔서 반복하시면 됩니다.
카드 #1: [핵심 문장 1], 베이지 배경, 검정 산세리프 폰트 자리, 플랫 일러스트, 1:1
카드 #2: [핵심 문장 2], 베이지 배경, 검정 산세리프 폰트 자리, 플랫 일러스트, 1:1
...
구조를 고정하시고 내용만 바꾸시면 10장이 10분 안에 나옵니다. 여기에 캔바 같은 도구의 일괄 생성 기능을 더하시면 더 빠릅니다.
여기까지 오신 상황: 5요소 프롬프트를 세 가지 실전 용도로 변주하는 방법을 보셨습니다. 다음으로는 막히실 때 꺼내 드실 문제 해결 가이드입니다.
문제 1 — "결과가 너무 스톡 이미지 같습니다"
문제 2 — "손이 이상하게 나옵니다(손가락 6개, 발 왜곡)"
문제 3 — "글자가 깨져서 나옵니다"
문제 4 — "같은 프롬프트인데 매번 다른 결과가 나옵니다"
문제 5 — "한글로 썼는데 엉뚱한 결과가 나옵니다"
이 튜토리얼로 이미지 생성의 기본기가 손에 붙으셨습니다. 다음으로 넘어가실 수 있는 경로는 세 가지입니다.
경로 A — 프롬프트 작성 심화
경로 B — 디자인 시스템으로 연결
경로 C — 영상으로 확장
끝으로 — 오늘의 원칙
완벽한 이미지는 머리 안에 있습니다. AI는 그것을 읽지 못합니다. 당신이 문장으로 꺼내주신 만큼만 그립니다. 디자인 실력이 없다고 하신 건 사실 "머릿속 이미지를 문장으로 꺼내는 훈련이 부족하시다"는 뜻입니다. 오늘 5요소 프롬프트 연습을 30번만 반복하시면, 2주 뒤엔 디자이너 친구보다 빠르게 썸네일을 만드시게 됩니다. 말로 그림을 찍는 시대입니다. 손보다 입이 빠릅니다.
Three short questions. Get them all right and the completion stamp is auto-granted. Answers stay on your device.
Q1. According to this tutorial, what are the "5 elements of an image prompt"?
While text prompts use the 3-element formula "context + instruction + format," image prompts use the 5-element formula "subject + style + lighting + composition + aspect ratio." Resolution and file format are tool-side export settings, not prompt content. Camera settings belong to physical photography, not AI image prompting.
Q2. Why does the tutorial say the same prompt produces different results each time?
Per the glossary box and TROUBLE Problem 4, diffusion models begin from pure random noise and progressively subtract it using what they learned from billions of images. Because the starting noise differs every run, identical prompts yield slightly different results — this is expected behavior. Save results you like immediately and use "regenerate with same seed" (supported by Midjourney, Flux 2, etc.) to reproduce them.
Q3. When a student complains that "draw me a cute dog" produces "stock-photo-like" results, what should you check FIRST according to this tutorial?
Per TROUBLE Problem 1 and WHY reason 3, 90% of "bland stock-like results" are prompt problems, not tool problems. The prompt is under 15 characters, or it has a subject but lacks style, lighting, composition, and/or aspect ratio. Lighting and composition are the most commonly omitted. Before switching tools or debugging the environment, audit the 5 elements in the prompt.
Completion is stored on this device only. See your full passport at /member.