
ICML 2025 Oral工作再升级!上海AI Lab联合复旦、港中文推出支持更长视频理解的最佳工具VideoRoPE++
ICML 2025 Oral工作再升级!上海AI Lab联合复旦、港中文推出支持更长视频理解的最佳工具VideoRoPE++
一、背景介绍
虽然旋转位置编码(RoPE)及其变体因其长上下文处理能力而被广泛采用,但将一维 RoPE 扩展到具有复杂时空结构的视频领域仍然是一个悬而未决的挑战。
VideoRoPE++ 这项工作首先进行了全面分析,确定了将 RoPE 有效应用于视频所需的五个关键特性,而先前的工作并未充分考虑这些特性。
17
0
2025-09-01