OmniBooth是华为诺亚方舟实验室和港科大研究团队共同推出的图像生成框架,支持基于文本提示或图像参考进行空间控制和实例级定制。框架用用户定义的掩码和相关联的文本或图像指导精确控制图像中对象的位置和属性,提升文本到图像合成技术的可控性和实用性
18
0
2025-08-30
ILLUME是华为诺亚方舟实验室提出的统一多模态大模型,将视觉理解与生成能力融入同一框架中。模型以大型语言模型(LLM)为核心,采用“连续图像输入 + 离散图像输出”的架构,融合了多模态理解与生成的双重能力,深度挖掘了统一框架下理解与生成能力协同增强的潜力。
18
0
2025-08-29
EMOVA(EMotionally Omni-present Voice Assistant)是多模态全能模型,是香港科技大学、香港大学和华为诺亚方舟实验室等机构共同推出的。EMOVA能处理图像、文本和语音模态,实现能看、能听、会说的全模态交互。
20
0
2025-08-28
AtomThink是中山大学、香港科技大学、上海交通大学、香港大学及华为诺亚方舟实验室的研究人员共同推出的多模态数学推理框架。框架基于构建长链的思维(CoT)引导多模态大型语言模型(MLLMs)进行复杂推理,包含自动CoT注释引擎、原子步骤微调和多种搜索策略。
21
0
2025-08-28