neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

DPO与GRPO谁更胜一筹?港中文、北大等联合发布首个系统性对比研究

DPO与GRPO谁更胜一筹?港中文、北大等联合发布首个系统性对比研究

DPO与GRPO谁更胜一筹?港中文、北大等联合发布首个系统性对比研究

近年来,强化学习 (RL) 在提升大型语言模型 (LLM) 的链式思考 (CoT) 推理能力方面展现出巨大潜力,其中直接偏好优化 (DPO) 和组相对策略优化 (GRPO) 是两大主流算法。


如今,这股 RL 的浪潮也涌向了图像生成领域。当我们将自回归图像生成也视为一种序列化的 CoT 推理过程时,一个核心问题浮出水面:DPO 和 GRPO 在这个新战场上表现如何?它们各自的优势、挑战以及最佳实践又是什么?

17 0 2025-09-03
DisPose – 北大等多所高校推出的增强人物图像控制动画质量的技术

DisPose – 北大等多所高校推出的增强人物图像控制动画质量的技术

DisPose是北京大学、中国科学技术大学、清华大学和香港科技大学的研究团队共同推出的,提高人物图像动画质量的控制技术,基于从骨骼姿态和参考图像中提取有效的控制信号,无需额外的密集输入。DisPose将姿态控制分解为运动场引导和关键点对应,生成密集运动场以提供区域级引导,同时保持对不同体型的泛化能力。
23 0 2025-08-28