
刚刚,Gemini 2.5 Pro升级,成编程模型新王
刚刚,Gemini 2.5 Pro升级,成编程模型新王
你的默认编程模型是什么?或许可以换一换了。
刚刚,Google DeepMind 发布了 Gemini 2.5 Pro 的最新更新版本:Gemini 2.5 Pro (I/O edition)。


刚刚,Gemini 2.5 Pro升级,成编程模型新王
你的默认编程模型是什么?或许可以换一换了。
刚刚,Google DeepMind 发布了 Gemini 2.5 Pro 的最新更新版本:Gemini 2.5 Pro (I/O edition)。


AI独角兽IPO在即!如何看第四范式的核心竞争力?
据港交所消息,北京第四范式智能技术股份有限公司(下称“第四范式”)于9月18日开启招股。公开信息显示,中金公司为本次该公司保荐人。第四范式表示,此次募集所得资金净额将主要用于加强基础研究、技术能力和解决方案开发;扩展产品、建立品牌并进入新的行业领域;寻求战略投资和收购机会;以及用作一般企业用途。
招股书显示,第四范式是一家人工智能软件公司,专注提供以平台为中心的人工智能软件,使企业能够开发其自有的决策类人工智能应用,让企业实现快速规模化转型落地、发掘数据隐含规律并全面提升经营决策能力。第四范式以其过硬的技术实力,已经积累了一定的B端影响力,按2022年收入计算,第四范式是中国最大的以平台为中心的决策类人工智能提供商,占据22.6%的市场份额,远高于行业第二名12.3%的市场占有率。

AI融资窟窿有多大?大摩:1.5万亿美元!

目前,由人工智能(AI)驱动的科技浪潮仍在席卷全球,并继续成为跨行业和地区市场的核心议题。

前OpenAI员工创业中途“跑路”,带40位员工卖身亚马逊
亚马逊招聘Covariant创始人并达成AI许可协议。
智东西9月2日消息,据GeekWire报道,亚马逊在上周五宣布,将聘请美国AI创企Covariant的三位联合创始人,并获得该公司AI模型的非独占许可。这是近期科技巨头“变相收购”初创公司的一种策略。此前微软挖走初创公司Inflection AI的联合创始人、亚马逊聘请美国AI Agent公司Adept的创始人等都是类似的操作。

真·MoE?路由LLM最全面探索:一种笔记本也能玩的大模型Scaling Up研究
事关路由LLM(Routing LLM),一项截至目前最全面的研究,来了——
共计收集和整理了涉及8500+个LLM,在12个Benchmark上的共2亿条性能记录!

更像人脑的新型注意力机制,Meta让大模型自动屏蔽任务无关信息,准确率提高27%
关于大模型注意力机制,Meta又有了一项新研究。
通过调整模型注意力,屏蔽无关信息的干扰,新的机制让大模型准确率进一步提升。
而且这种机制不需要微调或训练,只靠Prompt就能让大模型的准确率上升27%。


AI芯片独角兽宣布杨立昆加盟,估值暴涨到200亿
谷歌TPU核心团队创立,要做世界最快推理。
芯东西8月6日报道,昨晚,“英伟达劲敌”之一Groq甩出了两个重磅新闻:
1、获得6.4亿美元D轮融资,由贝莱德领投,思科、三星旗下风投机构等跟投,估值达28亿美元(折合约200亿人民币)。

Anthropic「切断」Windsurf,AI Coding 成 AI 巨头「代理人之战」
OpenAI 的一次大收购,正在刺激整个 AI Coding 工具市场的神经。
今年 4 月中旬,OpenAI 被爆将以约 30 亿美元收购「多模型支持」的 AI 编程平台 Windsurf(原名 Codeium)。
在交易推进期间,Windsurf 遭到另一家 AI 巨头 Anthropic 的「当头一棒」: Claude 系列模型访问被限制,连 Claude 4 发布当天,Windsurf 都没拿到接入资格。

2025 年中丨大模型市场分析报告

本文由特工自制 Agent 翻译,宇宙编辑部精校而成。

刚刚,DeepSeek开源FlashMLA,推理加速核心技术,Star量飞涨中
上周五,DeepSeek 发推说本周将是开源周(OpenSourceWeek),并将连续开源五个软件库。
第一个项目,果然与推理加速有关。
北京时间周一上午 9 点,刚一上班(同时是硅谷即将下班的时候),DeepSeek 兑现了自己的诺言,开源了一款用于 Hopper GPU 的高效型 MLA 解码核:FlashMLA。

首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务
在纯文本大模型取得进展的同时,其他模态数据,如语音与文本结合的语言模型(SpeechLMs)也成为了一个热门的研究领域,但现有的模型要么在仅包含语音的数据上进行训练,要么是关注特定任务,如文本转语音(TTS)、自动语音识别(ASR)或翻译,在其他模态数据和任务上的泛化能力十分有限。
在大型语言模型(LLM)性能不断提升的情况下,一个常用的方法是先用ASR模型将语音转录成文本,然后用文本模型来生成新的文本,最后再用TTS模型将文本转换成语音,这种流程的一个显著缺陷就是语音表达性不佳,语言模型无法建模并生成富有表现力的语音数据。

GenFlow 打通了百度的「后花园」
All in One 一站式 AI Agent


4500美元复刻DeepSeek神话,1.5B战胜o1-preview只用RL!训练细节全公开
强化学习迎来重大突破!
近日,来自UC伯克利的研究团队基于Deepseek-R1-Distilled-Qwen-1.5B,通过简单的强化学习(RL)微调,得到了全新的DeepScaleR-1.5B-Preview。
在AIME2024基准中,模型的Pass@1准确率达高达43.1% ——不仅比基础模型提高了14.3%,而且在只有1.5B参数的情况下超越了OpenAI o1-preview!

ICML 2024 | 梯度检查点太慢?不降速、省显存,LowMemoryBP大幅提升反向传播显存效率
本文论文一作是南开大学统计与数据科学学院研二硕士生杨雨辰,指导老师为南开大学统计与数据科学学院的

2020后和爱上AI的孩子们
