← 返回 Blog

Interactions API 叠 3 轮编辑:谷歌这套"香蕉+闪电"流水线,把创作者从 PS 里捞出来了

7 月 1 日,谷歌 DeepMind 同步推出多款多模态产品与技术能力,其中 Nano Banana 2 Lite 轻量化图像生成模型凭借 4 秒出图、单张约 0.23 元人民币的低成本特性引发广泛关注,Gemini Omni Flash 视频生成模型则以对话式编辑能力打开了视频生产的新想象空间。但真正重构内容生产逻辑的,是将两款模型能力串联起来的 Interactions API。

GeminiNano Banana 2 Lite 轻量化图像生成模型凭借 4 秒出图

多轮对话式创作能力落地 端到端多媒体工具链破解内容生产迭代痛点

7 月 1 日,谷歌 DeepMind 同步推出多款多模态产品与技术能力,其中 Nano Banana 2 Lite 轻量化图像生成模型凭借 4 秒出图、单张约 0.23 元人民币的低成本特性引发广泛关注,Gemini Omni Flash 视频生成模型则以对话式编辑能力打开了视频生产的新想象空间。但真正重构内容生产逻辑的,是将两款模型能力串联起来的 Interactions API。

这套接口体系打通了 “文本→图像→视频” 的全链路生产,更通过可延续上下文的多轮编辑设计,解决了长期困扰创作者的 “改版本就得从零重来” 的效率痛点,让内容迭代从线性的重复劳动,转向对话式的持续优化。

传统创作模式的结构性效率损耗

在传统内容生产流程中,视觉素材的迭代始终存在显著的效率浪费。无论是调整一张平面设计,还是修改一段短视频,每次调整都意味着重复的基础操作:新建项目、导入素材、重置参数、重新渲染。哪怕只是更换背景、调整色调、修改镜头角度这类小幅改动,本质上都要重复完整的生产流程。

跨工具协作的损耗更为明显。图像编辑软件中调整好的素材,导出后导入视频剪辑工具,还需重新匹配时间轴、调整画面参数、渲染预览。创作过程被拆分为多个孤立环节,每一次工具切换都会打断思路的连贯性,创作者的大量精力消耗在重复操作与流程衔接上,而非创意本身。

谷歌此次推出的一体化工具链,正是针对这种 “每次迭代都要从零开始” 的结构性痛点,从底层重构了内容修改的交互逻辑。

双模型协同 搭建端到端生产底座

整套生产体系由两款核心模型支撑,分别覆盖静态图像与动态视频两大生产环节。

作为链路起点的 Nano Banana 2 Lite,技术代号为 gemini-3.1-flash-lite-image,生成 1K 分辨率单张图像仅需约 4 秒,速度是标准版 Nano Banana 2 的 5 倍;单张调用成本低至 0.034 美元,仅为标准版的二分之一。谷歌官方将其定位为初代 Nano Banana 的推荐替代方案,以效率与成本的双重升级完成产品迭代。

作为链路终点的 Gemini Omni Flash 于今年 5 月谷歌 I/O 大会首次亮相,7 月 1 日正式向全球开发者开放。该模型支持文本、图像、视频混合输入,可通过自然语言实现多轮视频编辑,当前支持最长 10 秒的视频生成,调用成本为 0.10 美元 / 秒。

两款模型各自均具备极强的单点竞争力,而通过 Interactions API 实现能力串联后,形成了从静态到动态的完整生产闭环,其价值远超两款产品的简单叠加。

有状态交互实现对话式创作 三次迭代重塑工作流

Interactions API 的核心突破,是实现了会话状态的持续保留,让多轮编辑具备了上下文记忆。

传统 API 调用采用无状态模式:每一次请求都是独立交互,模型不会记录上一轮的生成结果与修改指令。若要实现多轮编辑,每次都需要将全部历史信息重新输入提示词中,不仅操作繁琐,也会增加 token 消耗与响应延迟。

Interactions API 改变了这一模式,它会自动保留会话内的历史操作记录。用户生成初始图像后,发出 “将背景更换为海边” 的指令,模型会基于原图进行调整;接着发出 “调暗画面光线” 的指令,模型会在已更换背景的基础上继续优化;后续再调整人物服饰时,前序所有修改都会被完整保留。

官方为这条记忆链设置了 3 次连续编辑的长度限制。看似次数不多,却从根本上改变了创作的交互形态 —— 创作者可以像与人沟通一样,通过自然语言逐步打磨内容,无需每次修改都从头开始。

据科技媒体 TechTimes 报道,开发者可通过自然语言指令调整镜头角度、替换角色形象、重设场景光照,每一次修改都基于上一轮的成果,人物形象保持一致,画面逻辑连贯自然,整个过程更像是与创作助理对话,而非操作复杂的专业软件。

场景化落地验证 创作决策环节前置

为验证这套工作流的实际落地效果,谷歌同步推出了三款演示应用:可实现人物场景迁移、生成动态视频的 Wherever,可生成室内设计动态预览的 Space Lift,以及可将静态商品图转化为电商视频的 Omni Product Studio。三款应用共同传递出清晰的信号:从静态内容到动态内容的转化,不再需要复杂的中间环节、漫长的生产周期与高昂的制作成本。

三次连续编辑的设计,让内容生产从 “一次性生成” 转向了 “迭代式创作”。过去调整一版画面并制作成动态预览,需要在图像软件中修改、导出、导入视频工具、渲染,动辄耗时半小时以上;如今在同一会话中,通过三句自然语言指令即可完成三轮优化,全程仅需一分钟左右。

创作决策逻辑也随之改变:从 “预判效果后再投入生产”,变成了 “边沟通边调整,逐步打磨定稿”,创意试错的时间与资金成本被大幅压缩。

优化而非替代 专业价值回归创意核心

需要明确的是,这套工具链并非要替代专业设计软件。专业设计软件的深度编辑能力与精细化表现力,短期内仍具备不可替代性。但 Interactions API 正在重构创作的前置流程:过去创作者打开专业软件,是为了从零开始产出内容;未来打开专业软件,往往是在 AI 工具中完成多版方案筛选、确定核心方向后,再进行最终的精细化打磨。

Nano Banana 2 Lite 解决了素材产出的效率与成本问题,Gemini Omni Flash 实现了静态内容向动态内容的转化,Interactions API 则破解了迭代修改的流程痛点 —— 三者结合,让 “改一版就要重来” 的低效模式成为过去,创作者得以从碎片化的工具切换与重复操作中解放出来,将更多精力聚焦于创意判断与品质把控。

对于内容创作团队、视频制作机构与企业用户而言,快速接入前沿多模态生产能力、控制整体调用成本,是落地新型生产模式的关键。目前,UseAIAPI 已同步接入 Gemini 全系列、Claude、GPT 系列、DeepSeek 等全球主流热门大模型,覆盖图像生成、视频创作、文本处理、智能交互等多元应用场景,支持一站式便捷调用与企业级定制化接入服务,无需复杂部署即可快速适配各类业务需求。在调用成本方面,平台专属优惠最高可达官方定价的 50%,能够有效降低高并发、大用量场景下的算力消耗压力,帮助企业与创作团队以更可控的成本,落地前沿 AI 生产工具,持续提升内容生产效率。