你的位置:世博体育官网2024安卓最新版_手机app官方版免费安装下载 > 新闻 >
世博体育结构性与特征散播性的双重割裂-世博体育官网2024安卓最新版_手机app官方版免费安装下载
发布日期:2025-04-04 09:19 点击次数:60
视觉 Token 不错与 LLMs 词表无缝对王人了!世博体育
V ² Flow,基于 LLMs 不错罢了高保真自讲究图像生成。
跟着 ChatGPT 掀翻自讲究建模编削后,频年来筹商者们脱手探索自讲究建模在视觉生成任务的应用,将视觉和文本数据长入在" next-token prediction "框架下。
罢了自讲究图像生成的关节是联想向量化 ( Vector-Quantization ) 的视觉 Tokenizer,将视觉内容谋害化成相通于大言语模子词表的谋害 Token。
现存圭表虽取得施展,却持久靠近两大枷锁:
1、传统视觉 tokenizer 生成的谋害表征与 LLM 词表存在显耀的散播偏差。
2、维度怀念:图像的二维结构迫使大言语模子以逐行容貌揣摸视觉 token,与一维文本的连贯语义揣摸存在骨子冲突。
结构性与特征散播性的双重割裂,走漏了现时自讲究视觉生成的紧要残障:穷乏唐突既保证高保真图像重建,又能与预教师 LLMs 词汇表在结构上和特征散播上长入的视觉 tokenizer。贬责这一问题关于罢了存效的多模态自讲究建模和增强的指示盲从身手至关遑急。
因此,一个中枢问题是:
能否联想一种视觉 tokenizer,使生成的谋害视觉 token 在保证高质地视觉重建的同期,与预教师 LLMs 词汇表罢了无缝和会?
长入视觉 Token 与大言语模子词表
最新开源的 V ² Flow tokenizer,初度罢了了将视觉内容班师镶嵌现存大言语模子的词汇空间,在保证高质地视觉重建的同期从根底上贬责模态对王人问题。总体而言,V ² Flow 主要包括三点中枢孝敬:
视觉词汇重采样器。
如图 1 ( a ) ,将图像压缩成紧凑的一维谋害 token 序列,每个 token 被涌现为大言语模子(举例 Qwen、LLaMA 系列)词汇空间上的软类别散播。这一联想使得视觉 tokens 不错无缝地镶嵌现存 LLM 的词汇序列中。换言之,图像信息被班师翻译成 LLM "听得懂"的言语,罢了了视觉与言语模态的对王人。
在图 1 ( b ) 中,经由重采样器处理后,视觉 tokens 的潜在散播与大型言语模子(LLM)的词汇表高度一致。这种在结构和潜在散播上的高度兼容性,唐突裁汰视觉 tokens 班师融入已有 LLM 的复杂性。
△ 图 1 视觉词汇重采样器的中枢联想。
掩码自讲究流匹配编码器。
为了罢了谋害化视觉 token 的高保真视觉重建,V ² Flow 建议了掩码自讲究流匹配解码器。该解码器取舍掩码 Transformer 编码 - 解码结构,为视觉 tokens 补充丰富的高下文信息。增强后的视觉 tokens 用于要求化一个有益联想的速率场模子,从尺度正态先验散播中重建出连气儿的视觉特征。在流匹配采样阶段,该解码器取舍相通 MA 的容貌,以" next-set prediction "的容貌持重完成视觉重建。
比较于近期建议的仅依赖掩码编码器 - 解码器结构的 TiTok,V2Flow 自讲究采样的上风是唐突在更少的视觉 token 数目下罢了更高的重建质地,灵验提升了压缩后果。
△ 图 2 掩码自讲究流匹配解码器默示图以及采样阶段算法经由
端到端自讲究视觉生成。
图 3 展示了 V ² Flow 协同 LLMs 罢了自讲究视觉生成的经由。为促进两者无缝和会,在已有 LLM 词汇表基础上彭胀了一系列特定视觉 tokens,并班师应用 V ² Flow 中的码本进走运疗养。教师阶段构建了包含文本 - 图像对的单轮对话数据,文本指示行动输入指示,而谋害的视觉 tokens 则行动揣摸盘算推算反应。
在推理阶段,经过预教师的 LLM 阐述文本指示揣摸视觉 tokens,直至揣摸到 token 为止。随后,谋害视觉 tokens 被送入 V ² Flow 解码器,通过流匹配采样重建出高质地图像。
△ 图 3 V ² Flow 与预教师 LLMs 和会罢了自讲究视觉生成的全体经由。践诺甘休
重建质所在面,V ² Flow 不论是在 ImageNet-1k 测试数据集的 256 和 512 区分率下均取得了竞争性的重建性能。
比较于字节建议的一维谋害化 tokenizer TiTok 比较,V ² Flow 应用更少的谋害 tokens 罢了了更高质地的图像重建,显耀提升了全体压缩后果。
文本训诲图像生成方面,践诺甘休标明,比较于现时两种最先进的自讲究生成模子 Janus-Pro-7B 和 Lumina-mGPT-7B,V ² Flow+LLaMA2-7B 唐突愈加准确地捕捉文本指示中的语义细节,展示了极具竞争力的生成性能。
开源生态与团队招募:共建多模态改日
开源容许:让技能普惠每一位探索者
开源是鼓舞 AI 技能进化的中枢能源。本次发布的 V ² Flow 框架已竣工公开教师与推理代码库,缔造者可基于现存代码快速复现论文中的中枢践诺。更令东说念主期待的是,团队预报将于近期连续发布:
512/1024 区分率预教师模子:维持高清图像重建与生成
自讲究生成模子:集成 LLaMA 等主流大言语模子的开箱即用决策
多模态彭胀器具包:改日将维持视频、3D、语音等跨模态生成任务
加入咱们:共创下一代多模态智能
V ² Flow 作家团队现招募多模态生成算法筹商型实习生!若是你渴慕站在 AI 内容生成的最前沿,参与界说自讲究架构的改日,这里将是你罢了打破的绝佳舞台。
咱们作念什么?
探索文本、图像、视频、语音、音乐的长入自讲究生成范式
构建维持高清、长序列、强语义关联的多模态大模子
攻克数字东说念主、3D 生成、实时交互创作等产业级应用贫寒
咱们需要你具备:
硬核技能力
闪耀 Python,闇练使用 PyTorch/TensorFlow 等框架
深远贯通 Diffusers、DeepSpeed 等 AIGC 器具链
在 CV/NLP 范围顶级会议(CVPR、ICML、NeurIPS 等)发表论文者优先
极致创新欲
对多模态生成、自讲究架构、扩散模子等技能有浓厚酷爱酷爱
曾在 Kaggle、ACM 竞赛等得回 Top 排行者优先
有开源形态孝敬或独处缔造教导者优先
送达容貌:zhangguiwei@duxiaoman.com
论文联结:
https://arxiv.org/abs/2503.07493
开源形态联结:
https://github.com/Davinci-XLab/V2Flow
一键三连「点赞」「转发」「防范心」
接待在驳倒区留住你的思法!
— 完 —
学术投稿请于职责日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 形态主页联结,以及筹划容貌哦
咱们会(尽量)实时回话你
� � 点亮星标 � �
科技前沿施展逐日见世博体育