时间: 2025-08-14 20:59:03 | 作者: 华体会app怎么样
8月11日,昆仑万维SkyWork AI技能发布周正式发动。8月11日至8月15日,咱们每天发布一款新模型,接连五天,掩盖多模态AI中心场景的前沿模型。到现在,咱们已发布SkyReels-A3、Matrix-Game 2.0、Matrix-3D模型。
8月13日,昆仑万维正式开源「Skywork UniPic 2.0」模型——面向一致多模态建模的高效练习和推理结构,环绕生成和修改模块轻量化、衔接多模态了解模型进行联合练习,构建了了解、生图、修改一体化的中心才能,旨在完成“高效、高质、一致”的多模态生成模型。
当时,「Skywork UniPic 2.0」及其系列模型已全面开源,包含模型权重、推理代码、强化战略等,助力开发者与研究者快速上手并构建多模态运用。
生图修改(下图中):根据 SD3.5-Medium 架构将本来只支撑文本输入的模型改善成也承受文本图画一同输入,然后经过高质量图画生成和修改数据的练习将本来生图才能扩展成生图、修改双才能。
一致模型才能(下图左边与中心):经过冻住生图修改模块,多模态模型(Qwen2.5-VL-7B),Pre-Train衔接器来构建出了解生成修改一体化才能,再经过衔接器和生图修改模块一同联合微调,完成终究的一体化了解、生图、修改模型。
生图修改后练习(下图右):为进步生图修改全体功能,规划了根据Flow-GRPO的渐进式双使命强化战略,完成了生成与修改使命在不相互搅扰下的协同优化,在预练习的基础上逐渐进步了模型功能。
根据Flow-GRPO创始渐进式双使命强化战略,有用进步模型对杂乱指令的了解才能与图画生成和修改的一致性,两大使命协同优化、互不搅扰。
将生图修改的Kontext模型与多模态模型端到端整合,微调轻量衔接器,就可以快速构建一致了解-生成-修改模型,而且生图和修改的功能进一步进步。
UniPic2-SD3.5M-Kontext作为单一模型,尽管只要2B的参数量,但生图方针逾越了具有12B参数量的Flux.dev、修改作用逾越了相同具有12B参数量的Flux-Kontext。相同逾越了简直一切一致模型的生图和修改作用,包含19B的UniWorld-V1和14B的Bagel。
在优异的了解、生成和修改才能背面,昆仑万维Skywork团队在预练习、联合练习和后练习阶段均作出立异性优化。
首要赋予SD3.5-Medium根据文本指令和参阅图片组成新图画的才能。在不改动模型结构的前提下,将文本指令与参阅图片一同作为条件输入,文本经文本编码器得到指令表明,参阅图经VAE编码为潜变量并映射为上下文 token;两者与方针图画的噪声token按段拼接为单一序列,并运用模型现有的方位编码区别参阅图token与方针token。在坚持原模型结构不变的一同,使SD3.5M一同具有文生图(T2I)和文本驱动的图画修改(I2I)才能。
在预练习好的生图修改模型的基础上,咱们参阅Metaquery计划,运用多模态模型Qwen2.5-VL来对齐到生图模型上,以构建一致模型的架构。详细经过两个进程来完成:
在Connector预练习之后,将SD3.5M替换成预练习好的详细生图和修改才能的UniPic2-SD3.5M-Kontext模型,然后翻开Connector的参数和UniPic2-SD3.5M-Kontext的参数,运用高质量图画生成和修改数据对Connector和Kontext模型进行联合练习,以完成功能最优的一体化作用。联合练习之后,得到的UniPic2-Metaquery模型除了具有原始多模态模型的了解才能,在生图和修改才能上比较单纯的Kontext模型进行了进一步的进步。
传统多使命强化学习常堕入优化一个使命会危害另一个使命的窘境,为了打破这一瓶颈,咱们根据Flow-GRPO探究了渐进式双使命强化战略,初次完成了在同一模型中,对“文生图”和“图画修改”两大使命的协同优化——且互不搅扰,才能同步进化。
昆仑万维作为我国抢先的人工智能科技公司,曩昔数月,连续开源了多个内行业界获得 SOTA(State-of-the-Art)成果的大模型:我国首个面向AI短剧创造的视频生成模型 SkyReels-V1、全球首个运用分散逼迫结构的无限时长电影生成模型 SkyReels-V2,以及音频驱动(audio-driven)人像视频生成模型SkyReels-A3,不断打破AI技能鸿沟。
在多模态范畴,昆仑万维不只推出了将文本推理才能迁移至视觉的多模态推理模型「Skywork-R1V」系列,以 38B 的轻量级规划功能比美闭源的大参数模型。一同昆仑万维也前瞻性地布局了空间智能范畴,推出了交互国际模型「Matrix-Game 2.0」与3D国际生成模型「Matrix-3D」。