智谱开源年第一弹：发布首个生成汉字的开源文生图模型CogView4

鞭牛士 2025-03-04 13:30

3月4日，智谱官方宣布推出「智谱2025开源年」的第一个模型：首个支持生成汉字的开源文生图模型——CogView4。

据介绍，CogView4 在 DPG-Bench 基准测试中的综合评分排名第一，在开源文生图模型中达到 SOTA，也是首个遵循 Apache 2.0 协议的图像生成模型。

最新的 CogView4-0304 版本现已开源，并将于 3 月 13 日上线智谱清言（chatglm.cn）。　

性能方面，CogView4 具备较强的复杂语义对齐和指令跟随能力，支持任意长度的中英双语输入，能够生成在给定范围内的任意分辨率图像，同时具备较强的文字生成能力。

CogView4 在 DPG-Bench 基准测试中综合评分排名第一。DPG-Bench 是一个评估文本到图像生成模型的基准测试，主要关注模型在复杂语义对齐和指令跟随能力方面的表现。

中文理解与生成方面，CogView4 支持中英双语提示词输入，擅长理解和遵循中文提示词，是首个能够在画面中生成汉字的开源文生图模型，能更好地满足广告、短视频等领域的创意需求。

微信图片_20250304132915.png

在技术实现上，CogView4 将文本编码器从纯英文的 T5 encoder 换为具备双语能力的 GLM-4 encoder，并通过中英双语图文进行训练，使模型具备双语提示词输入能力。

据介绍，CogView4支持输入任意长度提示词，能够生成范围内任意分辨率图像，不仅使用户创作更加自由，也提升了训练效率。CogView4 模型实现了任意长度的文本描述（caption）和任意分辨率图像的混合训练范式。

此外，CogView4 模型支持 Apache2.0 协议，后续会陆续增加 ControlNet、ComfyUI 等生态支持，全套的微调工具包也即将推出。

此前，智谱官方曾表示，2025年将陆续开源基础模型、推理模型、多模态模型、Agent 模型等。

扫码下载app 最新资讯实时掌握

智谱 AI