智谱AI于2024年1月16日推出了新一代基座大模型GLM-4。GLM-4是智谱AI推出的第四代基座大模型,也是目前国内规模最大的大模型之一。GLM-4的参数量达到了1.75万亿,是GLM-3的1.5倍。GLM-4采用了全新的架构,包括了全新的Trans
9
0
2025-09-07
刚刚,智谱开源了他们的最强多模态模型,GLM-4.5V。
上上周一的晚上,智谱开源了当今最好的模型之一,GLM-4.5。
然后,这个周一,又是突如其来的,开源了他们现在最好的多模态模型:
GLM-4.5v。

16
0
2025-09-03
智谱AI上线最新“自主智能体”,“Her”终于能照进现实了
在对标OpenAI之路上,智谱AI又近了一步。
今年年初,OpenAI被爆出将自研AI Agent软件,它可替代人类,自动导航至任何网站并执行指定任务。
17
0
2025-09-03
SPAR是智谱团队推出的自我博弈框架,能增强大型语言模型在遵循指令方面的能力。框架基于内部的生成者和完善者两个角色进行互动,生成者执行指令生成回复,完善者对回复进行分析和改进。SPAR基于树搜索技术精细化和优化回复,排除无关的干扰因素,从而突出对指令遵循至关重要的关键差异。
20
0
2025-08-30
RoboBrain 2.0 是强大的开源具身大脑模型,能统一感知、推理和规划,支持复杂任务的执行。RoboBrain 2.0 包含 7B(轻量级)和 32B(全规模)两个版本,基于异构架构,融合视觉编码器和语言模型,支持多图像、长视频和高分辨率视觉输入,及复杂任务指令和场景图。
22
0
2025-08-30
LongRAG是清华大学、中国科学院和智谱的研究团队推出的,面向长文本问答(LCQA)的双视角鲁棒检索增强生成(RAG)框架。基于混合检索器、LLM增强信息提取器、CoT引导过滤器和LLM增强生成器四个组件,有效解决长文本问答中的全局上下文理解和事实细节识别难题。
25
0
2025-08-29
GLM-Zero是智谱AI基于扩展强化学习技术的推理模型,专注于提升模型的深度推理能力。擅长处理数理逻辑、代码编写和复杂问题解决,在AIME 2024、MATH500和LiveCodeBench等评测中表现优异,与 OpenAI-o1-Preview 相当。
25
0
2025-08-29
GLM-Realtime是智谱推出的全新端到端多模态模型,具备低延迟的视频理解与语音交互能力,特别融入清唱功能,让大模型在对话中能展现歌唱才能。模型支持长达2分钟的内容记忆以及Function Call功能,支持灵活调用外部知识和工具,拓展应用范围。
20
0
2025-08-29
GLM-PC是智谱推出的基于多模态大模型CogAgent的电脑智能体。能像人类一样“观察”和“操作”计算机,协助用户高效完成各类电脑任务,如文档处理、网页搜索、信息整理、社交互动等。GLM-PC通过代码生成与图形界面理解相结合的方式,实现逻辑推理与感知认知的深度结合,具备任务规划、执行、反思和自我纠错的能力。
26
0
2025-08-29
GLM-4.5V是智谱开源的最新一代视觉推理模型。模型基于106B参数规模构建,拥有12B激活能力,是目前领先的视觉语言模型(VLM)。模型在GLM-4.1V-Thinking的基础上升级而来,继承其优秀架构,结合新一代文本基座模型GLM-4.5-Air进行训练。
21
0
2025-08-29
CogView4 是智谱推出的开源文生图模型,具有60亿参数,支持原生中文输入和中文文字生成。模型在 DPG-Bench 基准测试中综合评分排名第一,达到开源文生图模型的最先进水平(SOTA)。
22
0
2025-08-28
CogVideoX-Flash 是智谱推出的首个免费AI视频生成模型,继承CogVideoX自研的端到端视频理解模型,具备强大的视频生成能力。CogVideoX-Flash支持文生视频,依据输入的文本描述精准地生成相应的动态视频内容。
20
0
2025-08-28
CogVideoX-2 是智谱 AI开源的文本到视频生成模型,基于先进的 3D 变分自编码器(VAE),将视频数据压缩到原本的 2%,减少资源使用,同时确保视频帧之间的连贯流畅。 通过独特的 3D 旋转位置编码技术,视频在时间轴上能够自然流动,赋予画面生命力。
20
0
2025-08-28
CogVideoX是智谱AI最新推出的开源AI视频生成模型,与智谱AI的商业产品“清影”同源。CogVideoX支持英文提示词,能生成6秒长、每秒8帧、分辨率为720*480的视频。模型推理需16-36GB显存,目前不支持量化推理和多卡推理。
19
0
2025-08-28
CogVideoX v1.5是智谱最新开源的AI视频生成模型。模型包含CogVideoX v1.5-5B和CogVideoX v1.5-5B-I2V两个版本,5B 系列模型支持生成5至10秒、768P分辨率、16帧的视频,I2V模型能处理任意尺寸比例的图像到视频的转换,结合即将开放内测的CogSound音效模型能自动生成匹配的AI音效。
21
0
2025-08-28