
参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?
参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?
多模态 AI 系统的特点在于能够处理和学习包括自然语言、视觉、音频等各种类型的数据,从而指导其行为决策。近期,将视觉数据纳入大型语言模型 (如 GPT-4V) 的研究取得了重要进展,但如何有效地将图像信息转化为 AI 系统的可执行动作仍面临挑战。

参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?
多模态 AI 系统的特点在于能够处理和学习包括自然语言、视觉、音频等各种类型的数据,从而指导其行为决策。近期,将视觉数据纳入大型语言模型 (如 GPT-4V) 的研究取得了重要进展,但如何有效地将图像信息转化为 AI 系统的可执行动作仍面临挑战。

GPT-4 提示词冠军如何写 prompt:CO-STAR 框架、文本分段、系统提示
当下,如果我们希望通过 ChatGPT 得到有用的信息,就必须知道如何向它发出清晰的指令。为了指导用户写一个好的 prompt,

GPT-5 上线第一剑,先斩意中人!Sam Altman 豪赌输了
上个周五凌晨一点千呼万唤的 GPT-5 终于上线了。
要知道,在 GPT-5 发布前夕,ChatGPT 的全球活跃用户已攀升至每周 7 亿,远超绝大多数消费级互联网产品的历史纪录。


GPT-4可能也在用的推测解码是什么?一文综述前世今生和应用情况
推测解码(Speculative Decoding)是谷歌等机构在 2022 年发现的大模型推理加速方法。它可以在不损失生成效果前提下,获得 3 倍以上的加速比。GPT-4 泄密报告也提到 OpenAI 线上模型推理使用了它。针对如此妙的方法,香港理工大学、北京大学、MSRA 以及阿里共同推出了一篇关于推测解码的综述, 帮助读者了解推测解码的前世今生和应用情况,值得一读。

最强视觉生成模型获马斯克连夜关注,吉卜力风格转绘不再需要GPT了
“史上最强视觉生成模型”,现在属于快手。
一基双子的可灵AI基础模型——文/图生图的可图、文/图生视频的可灵,都重磅升级到2.0版本。

快来看看GPT-5第一波实测
GPT-5的发布让全球震动,网友也都开始了试玩模式。
50万粉Youtuber Matthew Berman也参与其中,用25分钟的视频展示了数十个案例。
利用GPT-5,Berman做出了个魔方生成器,能够生成、打乱或复原任意阶数的魔方。

GPT成熟之路官方笔记 | OpenAI开发者日
ChatGPT产品打造的细节,现在OpenAI自己交了个底。
并且这波干货分享真是信息量满满,包括但不限于:


GPTs正式上线!全民自定义ChatGPT助手时代来啦
11月10日,OpenAI联合创始人兼首席执行官Sam Altman在社交平台宣布,自定义GPTs功能对所有ChatGPT Plus全面开放。
自定义GPTs是OpenAI在开发者大会上推出的一项重磅功能,用户无需任何代码,全程支持可视化点击操作

GPT-5马上推出,OpenAI播客放猛料:透露AI硬件,5年后ChatGPT消失?
OpenAI CEO阿尔特曼40分钟深聊:GPT-5将至,AGI未定,AI硬件与5000亿算力项目揭秘。


GPT、DeepSeek们可算把对话记录还给我了!
OpenAI 有个反常规的设定,
他们将我生成的图片整理成一个画廊,但是点开图片并没有跳回到当时对话的选项,只能在这张图的基础上修改。
这也是很多AI目前的交互通病,
我和他们的对话正在丢失。


GPT-4搞不定的图推理,港科大7B模型搞定|KDD2024
大模型执行图推理任务,我们是希望大模型仅仅给出结果,还是在给出准确答案的同时,输出详细的推理过程?
先来看GPT-4的表现:
给出了一个非常简短且错误的答案

GPT-5编程成绩有猫腻!自删23道测试题,关键基准还是自己提的
别急着用GPT-5编程了,可能它能力没有你想象中那么强。
有人发现,官方测试编程能力用的SWE-bench Verified,但货不对板,只用了477个问题。

