
参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?
参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?
多模态 AI 系统的特点在于能够处理和学习包括自然语言、视觉、音频等各种类型的数据,从而指导其行为决策。近期,将视觉数据纳入大型语言模型 (如 GPT-4V) 的研究取得了重要进展,但如何有效地将图像信息转化为 AI 系统的可执行动作仍面临挑战。

参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?
多模态 AI 系统的特点在于能够处理和学习包括自然语言、视觉、音频等各种类型的数据,从而指导其行为决策。近期,将视觉数据纳入大型语言模型 (如 GPT-4V) 的研究取得了重要进展,但如何有效地将图像信息转化为 AI 系统的可执行动作仍面临挑战。

GPT-5红队测试邮件曝光,最早6月发布?网友在线逼问Altman,数十亿美元超算26年启动


GPT-4可能也在用的推测解码是什么?一文综述前世今生和应用情况
推测解码(Speculative Decoding)是谷歌等机构在 2022 年发现的大模型推理加速方法。它可以在不损失生成效果前提下,获得 3 倍以上的加速比。GPT-4 泄密报告也提到 OpenAI 线上模型推理使用了它。针对如此妙的方法,香港理工大学、北京大学、MSRA 以及阿里共同推出了一篇关于推测解码的综述, 帮助读者了解推测解码的前世今生和应用情况,值得一读。

GPT-5马上推出,OpenAI播客放猛料:透露AI硬件,5年后ChatGPT消失?
OpenAI CEO阿尔特曼40分钟深聊:GPT-5将至,AGI未定,AI硬件与5000亿算力项目揭秘。


GPT、DeepSeek们可算把对话记录还给我了!
OpenAI 有个反常规的设定,
他们将我生成的图片整理成一个画廊,但是点开图片并没有跳回到当时对话的选项,只能在这张图的基础上修改。
这也是很多AI目前的交互通病,
我和他们的对话正在丢失。


GPT-4o团队引发OpenAI组织创新热议!应届生领衔Sora,本科生带队GPT-1,经验职级都是浮云
GPT-4o亮相没两天,背后Omni团队就被扒了个底朝天:
领衔者,是DALL·E 2/3研究团队成员、Scaling Law共同提出者。
更深层次的,团队组成和Sora有着类似的规律:不怕启用新人,并且狠狠重任新人

GPT-4搞不定的图推理,港科大7B模型搞定|KDD2024
大模型执行图推理任务,我们是希望大模型仅仅给出结果,还是在给出准确答案的同时,输出详细的推理过程?
先来看GPT-4的表现:
给出了一个非常简短且错误的答案

GPT-4.5泄漏曝出,Altman辟谣!价格疑翻6倍,谷歌或急眼提前发Gemini API


GPT-5编程成绩有猫腻!自删23道测试题,关键基准还是自己提的
别急着用GPT-5编程了,可能它能力没有你想象中那么强。
有人发现,官方测试编程能力用的SWE-bench Verified,但货不对板,只用了477个问题。

