用 AI 工具打造百万播放的 Instagram Reels——从分析到制作的完整工作流

视频信息

项目	详情
频道	Greg Isenberg
视频ID	0b8qQx3FaLE
时长	40:11
发布日期	2026-03-06
主题	用 AI 工具（Manus、FreePik、Adobe Premiere Pro 等）制作病毒式传播的 Instagram Reels
嘉宾	Kova（Stanford 毕业的内容创作者，与 Nvidia、Adobe 等品牌合作）
关键词	Instagram Reels、AI 短视频、Manus AI、FreePik、Adobe Premiere Pro、CapCut、Claude Code、Obsidian、视频编辑、内容创作
链接	https://www.youtube.com/watch?v=0b8qQx3FaLE

引言

How could you create short form videos, Instagram reels, that gets millions of views with AI? I mean, if you were able to do that, you could vibe code software, you can build software, and you’d be able to have attention. Take that attention and sell your startup.

在 AI 时代，注意力就是货币。如果你能用 AI 工具制作出百万播放的 Instagram Reels，你就拥有了最稀缺的资源——流量。但大多数人面临的问题是：如何从零开始？如何让一个普通手机拍摄的视频，看起来像是在好莱坞级别的工作室里制作的？

本期播客中，Greg Isenberg 请来了短视频创作者 Kova。Kova 因其极具辨识度的视觉风格在 Instagram 上获得了数百万的播放量，并与 Nvidia、Adobe 等顶级品牌达成合作。她在这一期中首次公开了自己的完整 AI 工作流——从用 Manus AI 分析竞品视频、到用 FreePik 生成背景元素、再到用 Adobe Premiere Pro 和 CapCut 进行后期编辑，以及用 Obsidian + Claude Code 规划项目。

Everyone has the capability to do exactly what I do, because the tools, the technology is there.

Kova 的核心信念是：工具已经摆在那里了，任何人都可以做到她做的事情。关键在于你是否掌握了正确的工作流。

第一阶段：用 Manus AI 分析创作者风格——让 AI 做你的”创意情报员”

为什么选择 Manus？

I like Manus because it’s probably the closest thing to an actual agent I’ve used… it would actually run scripts to parse the video… it’s actually doing everything granularly and doing the task rather than making assumptions.

Kova 认为 Manus 之所以优于 Claude、ChatGPT 等工具，关键在于它是一个真正的 AI Agent。当你让它分析一段视频时，它不是在”猜测”内容，而是：

实际运行脚本来解析视频
提取转录文本
逐帧分析画面
从搜索结果、标题、缩略图等多维度收集信息

而 Claude 或 ChatGPT 在处理同样的任务时，往往会做假设（making assumptions），而非真正”看”视频。

如何使用 Manus 分析竞品视频

Kova 的提示词策略分为三个层次：

风格与美学分析：要求 Manus 提取关键词（keywords），而非长篇大论的描述——因为具体的关键词更便于后续在 Pinterest 等平台搜索灵感
脚本转录与分段：将视频的脚本内容转录，并按故事段落分隔（story sections）
复制计划：最聪明的一步——把规划的重担交给 AI

Sometimes I like putting the burden of proof on the AI.

Kova 不会自己绞尽脑汁去想”我该怎么模仿这个视频”，而是直接让 Manus 给出一个完整的复制计划（replication plan）。这种做法的好处是让 AI 发挥它的系统化思维能力。

Manus 的分析结果有多惊艳？

Manus 对 Kova 自己视频的分析结果让她本人都感到震惊：

视觉语言分析： > This video operates within a highly specific visual language that blends maker and hacker culture with kawaii nostalgia.

整体氛围：dark academia + maker + cozy hacker den + bedroom devlog + personal tech nostalgia
排版系统：精准地分为 titles（标题）、section headers（段落标题）、captions（字幕）三类

I’m really surprised by how well it got my process here… it separated my typography into titles, section headers, and captions, because that’s exactly what I do. That’s like in my style guide I have those three things.

五幕式叙事结构：Manus 将一段 65 秒的视频拆解为清晰的五幕结构——

段落	内容	功能
Hook（钩子）	展示成品，用一句话说明概念	视觉先行，语言跟进，零铺垫
Conflict（冲突）	引入创作者个人挑战（零硬件经验）	创造共鸣感和紧张感
Build（构建）	三步制作过程	用编号推进节奏
Problem & Resolution（问题与解决）	太慢→太快→刚好	经典三拍喜剧/戏剧弧线
CTA（行动号召）	预告下一集	留悬念，促关注

I follow the hero’s journey, which is pretty much what this is. You have a hook, you have context, then you have conflict, then you have problem solving, and then resolution.

音乐风格描述：

Wow, what an interesting way to put a name on it. Like, the way I did it was just vibes… but I like describing it as low-fi, crunchy texture, chip tune adjacent or lo-fi hip hop with eight-bit elements.

Manus 将 Kova 的背景音乐描述为”70-90 BPM、温暖的、颗粒感的低保真音轨”——Kova 自己过去只是凭”感觉”选歌，从未用如此精确的语言来描述自己的音乐风格。这意味着 AI 分析甚至能帮你更深入地理解自己的创作偏好。

Manus 的实际操作体验

Manus 使用了计算机操控模式（computer use）：

自动打开浏览器
访问创作者的 Instagram 页面
观看和分析视频内容
甚至同时在 Twitter 上做交叉分析

It’s so funny how it’s operating my own browser… the audio is playing and I’m really peeved.

值得注意的一个问题：在录制时，Manus 对 Instagram 的链接解析出现了问题。Kova 建议，如果链接不起作用，可以直接将视频下载后上传到 Manus，同样可以完成分析。

第二阶段：打造创意风格指南——综合多个创作者的精华

不要只模仿一个人

Greg 指出了一个重要的创作理念：

You might have 10 creators that you look up to, and you might say, “I really like Kova’s nostalgic vibe, but I really like someone else’s way they do storytelling.”

不要照搬一个创作者的全部风格，而应该：

用 Manus 分析 5-10 个你欣赏的创作者
从每个人身上提取你最喜欢的元素——视觉风格、叙事手法、音乐选择、排版设计等
将这些元素混搭（mashup），形成你自己的独特风格

Every creator is kind of a mashup of different kinds of creators and different kinds of aesthetics they like.

关于 Manus 的后置检查清单

Manus 在分析的最后会生成一个发布前检查清单，例如：“确保视频是竖屏的”、“前三秒展示成品”、“字幕逐字显示而非整句”等。

但 Kova 明确表示：

You should just disregard it. Because you should already have done these things way earlier on. If you’re checking them in the end, it’s already over.

这些事项应该在编辑初期就已完成，而不是到最后才检查。

第三阶段：用 FreePik 进行 AI 图像生成——把宿舍变成梦幻工作室

核心理念：任何空间都能变好莱坞

No longer is Hollywood level studio sets kind of just gatekept to those studios, and any kind of creator can just do it in their bedroom.

I would not be a creator if I did not use AI.

Kova 的爆款视频背景——精致的书架、小窗户、黑胶唱片机、仙境灯串——全部是在大学宿舍里用 AI 生成并叠加的。

FreePik 的操作流程

截取静态帧：从视频中取一帧静态画面
上传到 FreePik：使用 FreePik 的 Image Editor
选择模型：Kova 最推荐 Animate Banana Pro

I really like to use Animate Banana Pro. That’s kind of my go-to.

使用 Visual 模式标注：直接在图像上标注你想要添加或移除元素的区域
输入提示词：描述你想添加的物品

提示词技巧：越简单越好

People are surprised by how general I can be with my prompts. Sometimes I just put like “orange tulips in a vase,” or I say “more flowers.”

Kova 关于 FreePik 提示词的两条核心原则：

原则一：保持简洁 - 简单的提示词反而效果更好 - 原因：模型会倾向于输出它最擅长的结果 - 如果提示词过于具体，可能反而会把模型推向它不擅长的方向

原则二：多次生成，从中挑选 - 用简短的提示词让模型多次生成 - 从多个结果中挑选最满意的 - 这比精心雕琢一条完美的提示词更高效

实际案例对比

案例一：已有不错布景的进一步美化 - 原始画面：已经布置得不错的房间 - AI 生成后：添加了更多花卉和毛绒玩具（如猩猩毛绒玩偶） - 效果：画面更丰富、更有层次感

案例二：空白墙壁的完全改造

This was the original background. It’s just super bare. You have a full wall that’s just nothing on it… I added fairy lights, a little window behind me, a vinyl record player, a fan, bookshelves, everything.

原始画面：光秃秃的白墙
AI 改造后：仙境灯串 + 小窗户 + 黑胶唱片机 + 风扇 + 书架
效果：完全不像同一个地方

为什么背景美化不仅仅是”好看”

It’s not even just the aesthetics that make it more interesting. It’s the fact that now your retention is probably going to go up on Instagram, and if your retention goes up, Instagram is going to share your video with new audiences.

背景美化的商业逻辑： 1. 更丰富的画面 → 更高的观众留存率（retention） 2. 更高的留存率 → Instagram 算法推荐给更多新受众 3. 更多新受众 → 更多播放量、点赞、评论 4. 更多互动 → 更多品牌合作机会

这不是”锦上添花”，而是直接影响收入的关键因素。

第四阶段：用 FreePik 制作 AI 视频转场——“不可能的镜头”

转场的魔力

Kova 展示了一段视频中两个 AI 生成的转场： 1. 一张照片里的小孩在画面中”动”了起来 2. 一个从静态画面到动态画面的无缝过渡

There was two parts that were AI here, and it’s just super simple transitions… that was an impossible shot.

这些都是现实中不可能拍到的镜头（impossible shots），但用 AI 可以轻松实现。

视频生成的操作步骤

在 FreePik 中切换到 Video Generator
选择模型——Kova 推荐 SeaDance Pro（因为它同时生成视频和音频）

SeaDance Pro is great because it also gives you audio, and you would get like the kid laughing and stuff, and it’s usually pretty nice.

设定参数：高分辨率、约 4 秒时长、开启音频
设定起始帧和结束帧（start frame + end frame）
编写提示词

视频生成的提示词技巧

第一原则：描述摄像机的行为

You always want to be really specific about what the camera is doing. So, I would be like, “Oh, the camera is static.”

在提示词中首先明确说明摄像机是否移动、如何移动。

第二原则：像讲故事一样描述画面

You want to describe it like a story. You never want to write a very generic description. Kind of talk through it like you’re narrating what’s happening in a book you just picked up randomly.

不要写”一个孩子在挥手”这样的干巴巴描述，而要像小说叙述一样：
“桌上放着一张孩子的照片，照片中的孩子欢快地挥动双臂……”

第三原则：避免否定词

For some reason, models don’t really understand “don’t” or “do not”… they would actually do it because of the keyword that’s present in the prompt. They’re comprehending like a string of words.

这一点非常关键： - 不要写”照片不要移动”——模型会因为”移动”这个关键词反而让照片动起来 - 应该用肯定性描述：例如”camera is static”（摄像机是静止的）

第四原则：善用 Prompt Editor

FreePik 内置了 Prompt Editor（提示词编辑器），可以帮你优化提示词以获得最佳输出。Kova 表示她几乎每次使用 Prompt Editor 后都能获得不错的结果。

With the prompt editor, more times than not you’re getting pretty good output. Yeah, always.

第五阶段：掌握”遮罩”（Masking）——AI 与真实素材的无缝融合

遮罩是 AI 创作者最好的朋友

Masks are your best friend when you use AI. If you modify a specific aspect and you want to overlay it on top of existing footage, then you just have to use a mask.

当你用 AI 生成了一个背景元素（如花瓶、毛绒玩偶）后，不能直接覆盖到视频上——因为它会遮住你自己。你需要：

将 AI 生成的图像导入视频编辑软件
使用遮罩工具（mask）圈出你想保留的 AI 生成区域
将遮罩后的元素叠加在原始素材之上

实操注意事项

工具选择： - Adobe Premiere Pro：功能最全，各种效果和滤镜极其丰富（从 VR 效果到各类模糊），适合追求精细控制的专业用户 - CapCut：简化版的 Premiere Pro，同样支持遮罩功能，适合非技术用户

CapCut is basically like a nerfed down, more stripped down, non-technical version of Premiere Pro.

关键技巧：

AI 生成的物体不要离身体太近

Just try to make sure the generation isn’t too close to your body. Otherwise, if your body moves, then you can tell that it’s fake.

如果 AI 生成的物体和你的身体有重叠，当你的身体在视频中移动时，穿帮就会非常明显。

多次尝试是正常的

You might need to take a few tries, but once you get a mask that’s perfect, you just need to draw a little circle or something around the generation.

遮罩不需要一次做到完美，但一旦找到合适的方案，后续操作就非常简单。

回到 FreePik 调整生成位置

如果 AI 生成的物体和你的肩膀重叠，与其在编辑软件中艰难地做遮罩，不如回到 FreePik 重新提示，让物体生成在离你更远的位置。

第六阶段：视频叙事结构与视觉效果设计

五幕叙事结构

Kova 遵循的内容结构本质上是英雄之旅（Hero’s Journey）的简化版：

幕	英文	作用	要点
第一幕	Hook	开场钩子	前 3 秒展示成品，10 秒内说明概念
第二幕	Conflict	冲突与挑战	引入个人难题，增加共鸣
第三幕	Build	构建过程	用编号清晰推进（步骤 1、2、3）
第四幕	Problem & Resolution	遇到困难并解决	经典”太快→太慢→刚好”的三拍节奏
第五幕	Tease & CTA	预告与号召	暗示下一集内容，促进关注

“Aha 时刻”的重要性

The first 15 seconds is generally so important. You kind of want to make sure you have the aha moment that makes people stay.

前 15 秒必须制造一个让观众发出”哇”的瞬间。这就是 AI 转场的战略价值——它能创造出物理上不可能的镜头，让观众停下刷屏的手指。

视觉效果的详细方案（来自 Manus 分析）

效果类型	工具	做法
解释性动画	After Effects	纯黑背景 + 橙色线条 + scanline 扫描线效果 + 辉光
解释性动画（简易版）	CapCut / DaVinci	使用 neon/glow 预设，简单形状绘制
排版系统	统一定义	主标题（圆润、渐变）+ 段落标题 + 逐词字幕
B-roll 拍摄	手机	微距模式拍电路板/引脚、屏幕录制、成品展示
VFX 物体环绕	After Effects	拍摄深色背景 + PNG 抠图 + 动态模糊叠加

关于 VFX 物体环绕效果，Kova 坦言这是她的”护城河”之一：

Yeah, this is pretty hard. I intentionally do it so no one can really create a shot like that. So, good luck for the listener.

B-roll 的正确理解

Kova 对 Manus 分析的一个修正：不应局限于”screen recording”（屏幕录制），而应理解为更广义的过程记录（process shots）：

I would just change screen recording to “process shots,” because screen recording is one part of the process. But if you’re working with hardware electronics, you just want to capture builds at key stages — when something’s working, when something stops working, just take a shot of it.

第七阶段：用 Obsidian + Claude Code 打造创作者的”第二大脑”

为什么 Obsidian？

With notes and projects, it feels incredibly static about a year ago. But since then, I’ve just really loved… I can keep a bunch of different templates.

Obsidian 的核心优势在于文件化——所有内容都是本地的 Markdown 文件，这意味着 AI 工具可以直接读取和操作。

Kova 的 Obsidian 模板体系

Kova 在 Obsidian 中维护多种模板：

故事板模板（Storyboard Template）：追踪视频制作所需的所有要素
编辑器版故事板模板（Editor Storyboard Template）：将自己的模板转化为外部编辑能看懂的格式
KovaKatt 风格指南：自己的创作风格文档

Claude Code / Cursor 的实际用法

Kova 将 Obsidian 的 vault 目录在 Cursor 或 Claude Code 中打开，然后可以：

用法一：脚本转故事板

Turn my future arrow script into the self storyboard template.

把已经写好的脚本，按照自己的故事板模板格式重新组织——AI 在一分钟内就完成了转换，生成了整洁的表格。

用法二：批量重组文件结构

Sometimes I go through mass restructuring… “Hey, this other process worked well. Maybe organize my projects using this kind of folder structure and nomenclature.”

用 AI 批量重新组织项目的文件夹结构和命名规则。

用法三：风格指南驱动的内容生成

When I’m turning a script into a storyboard and starting to fill out that storyboard, I can ask Claude to do a first pass following my style guide.

让 Claude 根据风格指南做故事板的初稿，然后自己再审阅修改。

Greg 的补充建议

If you’re using tools like Manus, create your style guide, you can export that to Obsidian and then sort of edit it yourself. And then now all of a sudden tools like Cursor and Claude Code could access it.

工作流闭环： 1. 用 Manus 分析多个创作者 → 生成风格指南 2. 将风格指南导出到 Obsidian 3. 手动编辑和完善 4. 用 Cursor / Claude Code 基于风格指南自动化后续流程

第八阶段：差异化是创作者的生存之道

创作者文化的碎片化

Creator culture has gotten so much more fragmented that really the creators of the future, to some extent, need to think about scale a lot, but they really, really need to now think about differentiation.

在短视频创作者越来越多的今天，规模化固然重要，但差异化才是真正的护城河。

工具就是差异化的武器

One of the ways to differentiate is to be really, really smart about using the right tools. For myself, my differentiating factor is the artistry that comes with my content, and AI helps me achieve a lot.

Kova 的差异化不在于有更好的摄像机或更大的工作室，而在于她比别人更聪明地使用 AI 工具来提升内容的艺术性。

系统思维是规模化的前提

I really am a big believer in systems. In order to scale content, you always need to build great systems. And one way to do that is to have AI execute on the systems you want to do… by having a well-documented approach already.

内容创作的规模化需要： 1. 建立系统（templates、style guides、workflows） 2. 将系统文档化（写进 Obsidian） 3. 让 AI 执行系统中的重复性工作

核心概念速查表

概念	说明	相关工具
AI Agent 分析	让 AI 深度分析竞品视频的风格、叙事、排版、音乐	Manus AI
图像增强	在静态帧上添加 AI 生成的背景元素	FreePik (Animate Banana Pro)
视频转场	用起始帧/结束帧生成不可能的过渡动画	FreePik (SeaDance Pro)
遮罩叠加	将 AI 生成内容与真实素材无缝融合	Adobe Premiere Pro / CapCut
五幕结构	Hook → Conflict → Build → Resolution → CTA	叙事方法论
风格指南	融合多个创作者精华的个人创作规范	Manus → Obsidian
模板系统	故事板、编辑器模板等标准化流程	Obsidian
AI 辅助规划	用 AI 将脚本转模板、重组文件、初稿生成	Claude Code / Cursor
正向提示词	用肯定性描述代替否定词	所有 AI 工具
差异化	通过工具和艺术性建立个人辨识度	综合运用

实用技巧总结

让 AI 承担规划工作：不要自己绞尽脑汁想”怎么模仿这个视频”，直接让 Manus 给出 replication plan——把”举证责任”交给 AI
提示词要简短：在 FreePik 中，简单的提示词（如”more flowers”）往往比冗长的详细描述效果更好，因为模型会倾向于输出自己最擅长的结果
用正向语言描述：AI 模型对否定词理解很差——“camera is static”远比”camera doesn’t move”有效
生成物远离身体：AI 生成的背景元素如果和身体重叠，视频中的动作会暴露穿帮；保持距离是关键
多次生成、择优选用：不要期望一次生成就完美，多跑几次，从中挑选最好的结果
前 15 秒决定生死：用 AI 转场或惊艳的视觉效果制造”aha moment”，让观众停下刷屏的手
建立模板和系统：在 Obsidian 中维护故事板模板、风格指南等文档，让 AI 基于这些文档执行重复性工作
用 Manus 分析 5-10 个创作者：不要照搬一个人，而是混搭多人的精华，形成独特风格

常见误区

误区：提示词越详细越好
- 现实：过于具体的提示词可能把模型推向它不擅长的方向。保持简洁，让模型发挥所长
误区：Claude / ChatGPT 可以替代 Manus 做视频分析
- 现实：Manus 作为 AI Agent 会实际运行脚本解析视频，而 ChatGPT 等工具更多是基于假设推理
误区：只有昂贵的工作室才能拍出好看的视频
- 现实：Kova 的爆款视频全部在大学宿舍里拍摄，背景完全由 AI 生成
误区：背景美化只是”好看”，没有实际价值
- 现实：更好的背景 → 更高的留存率 → Instagram 推荐给更多新受众 → 更多播放和互动
误区：在视频中使用否定词提示 AI
- 现实：模型不理解”don’t”和”not”，会因为关键词的存在反而做你不想要的事情
误区：AI 生成的元素可以直接叠加到视频上
- 现实：你需要使用遮罩（mask）功能，将 AI 元素精确地叠加在正确的位置，避免遮挡人物
误区：用一个创作者的风格作为模板就够了
- 现实：最好的做法是分析 5-10 个创作者，从中各取所长，混搭出自己的独特风格
误区：发布前的检查清单很重要
- 现实：Kova 认为如果到最后才检查格式、字幕等问题，“it’s already over”——这些应该在编辑初期就处理好
误区：CapCut 功能太弱，必须用 Premiere Pro
- 现实：CapCut 支持遮罩等核心功能，对非技术用户来说完全够用
误区：AI 转场只是花哨的噱头
- 现实：前 15 秒的”aha moment”直接决定观众是否会看完整个视频——AI 转场创造的”不可能镜头”是最有效的留存武器

关键要点

Manus AI 是目前最接近真正 AI Agent 的工具——它不做假设，而是实际执行脚本来解析和分析视频内容
FreePik 的 Animate Banana Pro 是 Kova 的首选图像生成模型——搭配 Visual 模式标注，可以在指定位置生成指定元素
视频生成推荐 SeaDance Pro——它同时生成视频和音频，特别适合制作转场效果
遮罩（masking）是连接 AI 生成内容和真实素材的桥梁——无论用 Premiere Pro 还是 CapCut，遮罩都是必须掌握的核心技能
视频的五幕结构本质是英雄之旅的简化版——Hook、Conflict、Build、Resolution、CTA，每一幕都有明确的功能和节奏
提示词的三大原则：简短、正向、叙事性——简短让模型发挥最佳，正向避免歧义，叙事性确保画面连贯
背景美化直接影响商业价值——更高的视觉质量 → 更高的留存率 → 更多的算法推荐 → 更多的品牌合作
Obsidian + Claude Code 是创作者的”第二大脑”系统——模板化、文档化、然后让 AI 执行重复性工作
差异化比规模化更重要——在创作者越来越多的时代，聪明地使用工具来提升艺术性才是真正的护城河
工具链闭环：Manus 分析 → FreePik 生成 → Premiere/CapCut 编辑 → Obsidian 规划 → Claude Code 自动化——每个环节都有 AI 参与，形成完整的创作飞轮
任何人都能做到——Kova 的核心信念是技术和工具已经存在，门槛已经降到最低，关键在于你是否愿意开始
现在就是最好的时机——正如 Kova 在最后所说：

There is no better time than now to make art. So you should go and do that.

结论

这期播客的价值不在于它介绍了多少工具——Manus、FreePik、Adobe Premiere Pro、CapCut、Obsidian、Claude Code——这些工具本身并不构成壁垒。真正的价值在于 Kova 展示了一个完整的、可复制的工作流闭环。

这个闭环的逻辑非常清晰：用 Manus 做”创意侦察”（分析竞品、提取风格），用 FreePik 做”视觉升级”（AI 生成背景和转场），用 Premiere Pro / CapCut 做”精细缝合”（遮罩叠加），用 Obsidian + Claude Code 做”系统运维”（模板管理、自动化规划）。

对于想要入门的创作者，最实际的第一步是：打开 Manus，找到你欣赏的 5 个创作者的视频，让 AI 帮你拆解他们的风格。从这些分析中提炼出属于你自己的风格指南，然后开始动手。

不需要昂贵的设备，不需要专业的工作室，甚至不需要太多的技术背景。你需要的只是对 AI 工具的合理运用，以及——正如 Kova 所说——现在就开始做的勇气。