
最强开源大模型一夜易主
最强开源大模型一夜易主
阿里云发布最强开源大模型Qwen2,干翻Llama 3,比闭源模型还强。
开源界最强大语言模型,Qwen2,来了!
智东西6月7日报道,今日,阿里云正式开源通义千问Qwen2系列模型,其中,Qwen2-72B成为全球性能最强的开源模型。

最强开源大模型一夜易主
阿里云发布最强开源大模型Qwen2,干翻Llama 3,比闭源模型还强。
开源界最强大语言模型,Qwen2,来了!
智东西6月7日报道,今日,阿里云正式开源通义千问Qwen2系列模型,其中,Qwen2-72B成为全球性能最强的开源模型。


开源模型突破原生多模态大模型性能瓶颈,上海AI Lab代季峰团队出品
原生多模态大模型性能瓶颈,迎来新突破!
上海AI Lab代季峰老师团队,提出了全新的原生多模态大模型Mono-InternVL。
与非原生模型相比,该模型首个单词延迟最多降低67%,在多个评测数据集上均达到了SOTA水准。

开源模型进展盘点:最新Mixtral、Llama 3、Phi-3、OpenELM到底有多好?
深度学习领域知名研究者、Lightning AI 的首席人工智能教育者 Sebastian Raschka 对 AI 大模型有着深刻的洞察,也会经常把一些观察的结果写成博客。在一篇 5 月中发布的博客中,他盘点分析了 4 月份发布的四个主要新模型:Mixtral、Meta AI 的 Llama 3、微软的 Phi-3 和苹果的 OpenELM。他还通过一篇论文探讨了 DPO 和 PPO 的优劣之处。之后,他分享了 4 月份值得关注的一些研究成果。

开源模型新纪录:超越Mixtral 8x7B Instruct的模型来了
又有新的开源模型可以用了。
从 Llama、Llama 2 到 Mixtral 8x7B,开源模型的性能记录一直在被刷新。由于 Mistral 8x7B 在大多数基准测试中都优于 Llama 2 70B 和 GPT-3.5,因此它也被认为是一种「非常接近 GPT-4」的开源选项。

开源大模型王座易主,谷歌Gemma杀入场,笔记本可跑,可商用
与 Gemini 采用同源技术的开放模型。
刚刚,谷歌杀入开源大模型。
开源领域大模型,迎来了重磅新玩家。

开源全能图像模型媲美GPT-4o!理解生成编辑同时搞定,解决扩散模型误差累计问题
OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。
开源的MLLMs和扩散模型已经过大规模预训练,其从零开始训练统一任务,不如取长补短,将MLLMs的语言建模能力,与扩散模型的像素级图像建模能力,进行有机的结合。
基于这个思路,ModelScope团队提出可同时完成图像理解、生成和编辑的统一模型

开源1.6B小模型「小狐狸」,表现超同类模型Qwen和Gemma
自从 Chatgpt 诞生以来,LLM(大语言模型)的参数量似乎就成为了各个公司的竞赛指标。GPT-1 参数量为 1.17 亿(1.17M),而它的第四代 GPT-4 参数量已经刷新到了 1.8 万亿(1800B)。
像其他 LLM 模型例如 Bloom(1760 亿,176B)和 Chinchilla(700 亿,70B)的参数量也在不断飙升。参数的数量直接影响了模型的性能和能力,更多的参数意味着模型能够处理更复杂的语言模式,理解更丰富的上下文信息,并在多种任务上表现出更高的智能水平。

这个团队做了OpenAI没Open的技术,开源OpenRLHF让对齐大模型超简单
随着大型语言模型(LLM)规模不断增大,其性能也在不断提升。尽管如此,LLM 依然面临着一个关键难题:与人类的价值和意图对齐。在解决这一难题方面,一种强大的技术是根据人类反馈的强化学习(RLHF)。
但是,随着模型越来越大,RLHF 通常需要维持多个模型以及越来越复杂的学习流程,这又会导致内存和计算资源需求增长。举个例子,近端策略优化(PPO,这是 RLHF 常用的一种算法)需要在训练过程中维持四个模型。

开源大模型杀疯了!Mistral新模型三分之一参数卷爆Llama 3.1,“新趋势已显而易见”
Llama 3.1 405B“最强模型”宝座还没捂热乎,就被砸场子了——
Mistral AI发布最新模型Mistral Large 2,参数123B,用不到三分之一的参数量性能比肩Llama 3.1 405B,也不逊于GPT-4o、Claude 3 Opus等闭源模型。