neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

开源多模态SOTA再易主，19B模型比肩GPT-4v，16G显存就能跑

开源多模态SOTA再易主，19B模型比肩GPT-4v，16G显存就能跑

开源多模态SOTA再易主，19B模型比肩GPT-4v，16G显存就能跑

开源多模态SOTA模型再易主！

Hugging Face开发者大使刚刚把王冠交给了CogVLM2，来自大模型创业公司智谱AI。

CogVLM2甚至在3项基准测试上超过GPT-4v和Gemini Pro，还不是超过一点，是大幅领先。

0 0 2025-09-08

最强开源大模型一夜易主

最强开源大模型一夜易主

最强开源大模型一夜易主

阿里云发布最强开源大模型Qwen2，干翻Llama 3，比闭源模型还强。

开源界最强大语言模型，Qwen2，来了！

智东西6月7日报道，今日，阿里云正式开源通义千问Qwen2系列模型，其中，Qwen2-72B成为全球性能最强的开源模型。

3 0 2025-09-07

大模型开源大战开打！华为盘古720亿参数全开放

大模型开源大战开打！华为盘古720亿参数全开放

2025年6月30日，华为突然宣布开源盘古Pro MoE 720亿参数模型，所有权重和推理代码上线开源平台。24小时内，百度文心4.5系列、腾讯混元A13B混合推理模型相继开源，三大平台累计开放超2000亿参数模型资源。这场开源风暴正改写

9 0 2025-09-06

开源模型突破原生多模态大模型性能瓶颈，上海AI Lab代季峰团队出品

开源模型突破原生多模态大模型性能瓶颈，上海AI Lab代季峰团队出品

开源模型突破原生多模态大模型性能瓶颈，上海AI Lab代季峰团队出品

原生多模态大模型性能瓶颈，迎来新突破！

上海AI Lab代季峰老师团队，提出了全新的原生多模态大模型Mono-InternVL。

与非原生模型相比，该模型首个单词延迟最多降低67%，在多个评测数据集上均达到了SOTA水准。

10 0 2025-09-06

开源模型穷途末路？Stability AI欠下1亿美元，四处找钱寻求「卖身」

开源模型穷途末路？Stability AI欠下1亿美元，四处找钱寻求「卖身」

开源模型穷途末路？Stability AI欠下1亿美元，四处找钱寻求「卖身」

曾经创造出Stable Diffusion系列模型的Stability AI，目前面临前所未有的财务危机。

这个曾经有10亿美元估值，却只有180名员工的明星初创公司正在考虑出售，并积极与潜在买家接触。

19 0 2025-09-03

最强开源多模态生成模型MM-Interleaved：首创特征同步器

最强开源多模态生成模型MM-Interleaved：首创特征同步器

最强开源多模态生成模型MM-Interleaved：首创特征同步器

过去几个月中，随着 GPT-4V、DALL-E 3、Gemini 等重磅工作的相继推出，「AGI 的下一步」—— 多模态生成大模型迅速成为全球学者瞩目的焦点。

17 0 2025-09-03

完全透明开源的共情语音大模型，三阶段训练，四大模块实现端到端对话 - 紫东太初联合长城汽车开源OpenS2S

完全透明开源的共情语音大模型，三阶段训练，四大模块实现端到端对话 - 紫东太初联合长城汽车开源OpenS2S

完全透明开源的共情语音大模型，三阶段训练，四大模块实现端到端对话 | 紫东太初联合长城汽车开源OpenS2S

GPT-4o、Gemini这些顶级语音模型虽然展现了惊人的共情对话能力，但它们的技术体系完全闭源。

现在，紫东太初团队联合长城汽车AI Lab直接把整个技术栈都开源了，推出完全透明开源的端到端共情语音语言大模型OpenS2S。

完全透明开源的共情语音大模型，三阶段训练，四大模块实现端到端对话 | 紫东太初联合长城汽车开源OpenS2S

17 0 2025-09-02

这个团队做了OpenAI没Open的技术，开源OpenRLHF让对齐大模型超简单

这个团队做了OpenAI没Open的技术，开源OpenRLHF让对齐大模型超简单

这个团队做了OpenAI没Open的技术，开源OpenRLHF让对齐大模型超简单

随着大型语言模型（LLM）规模不断增大，其性能也在不断提升。尽管如此，LLM 依然面临着一个关键难题：与人类的价值和意图对齐。在解决这一难题方面，一种强大的技术是根据人类反馈的强化学习（RLHF）。

但是，随着模型越来越大，RLHF 通常需要维持多个模型以及越来越复杂的学习流程，这又会导致内存和计算资源需求增长。举个例子，近端策略优化（PPO，这是 RLHF 常用的一种算法）需要在训练过程中维持四个模型。

19 0 2025-09-01

StarVector – 开源多模态视觉语言模型，支持图像和文本到 SVG 生成

StarVector – 开源多模态视觉语言模型，支持图像和文本到 SVG 生成

StarVector 是开源的多模态视觉语言模型，ServiceNow Research、Mila - Quebec AI Institute 和 ETS Montreal 联合开发，专注于将图像和文本转换为可缩放矢量图形（SVG）代码。模型采用多模态架构，能同时处理图像和文本信息，直接在 SVG 代码空间中操作，生成标准的、可编辑的 SVG 文件。

18 0 2025-08-31

MoshiVis – Kyutai 开源的多模态实时语音模型

MoshiVis – Kyutai 开源的多模态实时语音模型

MoshiVis 是 Kyutai 推出的开源多模态语音模型，基于 Moshi 实时对话语音模型开发，增加了视觉输入功能。能实现图像的自然、实时语音交互，将语音和视觉信息相结合，让用户可以通过语音与模型交流图像内容。

21 0 2025-08-30

‹‹ 1 ››

« 2026年6月 »
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

控制面板

您好，欢迎到访网站！
查看权限

搜索

最近发表