dbic北大_拜读未来科技摆渡人生

DPO与GRPO谁更胜一筹？港中文、北大等联合发布首个系统性对比研究

近年来，强化学习 (RL) 在提升大型语言模型 (LLM) 的链式思考 (CoT) 推理能力方面展现出巨大潜力，其中直接偏好优化 (DPO) 和组相对策略优化 (GRPO) 是两大主流算法。

如今，这股 RL 的浪潮也涌向了图像生成领域。当我们将自回归图像生成也视为一种序列化的 CoT 推理过程时，一个核心问题浮出水面：DPO 和 GRPO 在这个新战场上表现如何？它们各自的优势、挑战以及最佳实践又是什么？

17 0 2025-09-03

DisPose – 北大等多所高校推出的增强人物图像控制动画质量的技术

DisPose是北京大学、中国科学技术大学、清华大学和香港科技大学的研究团队共同推出的，提高人物图像动画质量的控制技术，基于从骨骼姿态和参考图像中提取有效的控制信号，无需额外的密集输入。DisPose将姿态控制分解为运动场引导和关键点对应，生成密集运动场以提供区域级引导，同时保持对不同体型的泛化能力。

23 0 2025-08-28

Being-baidu09M0 – 北大联合人民大学推出的人形机器人通用动作生成模型

Being-M0 是北京大学、中国人民大学等机构联合推出的首个大规模人形机器人通用动作生成模型。Being-M0 基于业界首个百万级动作数据集 MotionLib，用创新的 MotionBook 编码技术，将动作序列转化为二维图像进行高效表示和生成。

20 0 2025-08-28

‹‹ 1 ››

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30