港大联合办学_拜读未来科技摆渡人生

VideoAnydoor – 港大联合阿里达摩院等机构推出的零样本视频对象插入框架

VideoAnydoor是香港大学、阿里巴巴集团达摩院、湖畔实验室、华中科技大学联合推出的零样本的视频对象插入框架，能将特定对象以高保真度和精确运动控制的方式插入到视频中。VideoAnydoor基于文本到视频的扩散模型，用ID提取器注入全局身份信息，用框序列指导整体运动。

22 0 2025-08-31

UniReal – 港大联合 Adobe 推出的通用图像生成和编辑框架

UniReal是什么 UniReal是香港大学和Adobe研究院共同推出的框架，专注于实现多种图像生成和编辑任务。框架基于模拟现实世界动态，能在单一模型中处理包括图像生成、编辑、定制和合成在内的广泛任务。UniReal将不同...

19 0 2025-08-31

ObjectMover – 港大联合 Adobe 推出的新型图像编辑模型

ObjectMover 是香港大学和 Adobe Research 联合提出的新型图像编辑模型，解决图像中物体移动、插入和移除时出现的光照、阴影不协调以及物体失真等问题。将物体移动视为两帧视频的特殊案例，利用预训练视频生成模型的跨帧一致性学习能力，通过微调模型将其迁移到图像编辑任务。

24 0 2025-08-30

MAETok – 港大联合北大等机构推出的自动编码器

MAETok（Masked Autoencoders Tokenizer）是卡内基梅隆大学、香港大学、北京大学等机构推出的用在扩散模型的新型图像标记化方法。MAETok基于掩码建模（Mask Modeling）训练自编码器（AE），在编码器中随机掩盖部分图像标记，用解码器重建标记的特征，学习到更具区分性的语义丰富潜在空间。

20 0 2025-08-29

GraphAgent – 港大联合港科大开源的智能图形语言助手

GraphAgent是香港大学和香港科技大学（广州）联合推出的智能图形语言助手，能处理现实世界中结构化（如图连接）和非结构化（如文本、视觉信息）格式的数据，数据包含复杂关系和相互依赖性，能用知识图谱展示。

25 0 2025-08-29

GigaTok – 港大联合字节推出用于自回归图像生成的视觉分词器

GigaTok 是用于自回归图像生成的视觉分词器，参数量达 30 亿。通过语义正则化技术，将分词器特征与预训练视觉编码器（如 DINOv2）的语义特征对齐，有效约束潜在空间复杂度，解决了视觉分词器在扩展时重建质量与生成质量之间的矛盾。

25 0 2025-08-29

FilMaster – 港大联合快手、微软、清华推出的AI电影制作系统

FilMaster 是香港大学、快手科技、微软研究院和清华大学联合推出的AI电影制作系统，将电影制作原则与生成式人工智能相结合，实现从剧本到最终影片的全自动制作流程。

22 0 2025-08-29

‹‹ 1 ››

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30