UniAct 是新型的具身基础模型框架,解决不同机器人之间行为异构性的问题。通过学习通用行为,捕捉不同机器人共享的原子行为特征,消除因物理形态和控制接口差异导致的行为异构性。
19
0
2025-08-31
Uni-AdaFocus是清华大学自动化系的研究团队推出的通用的高效视频理解框架,框架通过自适应聚焦机制,动态调整计算资源的分配,实现对视频内容的高效处理。
20
0
2025-08-31
Unbounded是谷歌和北卡罗来纳大学教堂山分校共同推出的无限人生模拟游戏。游戏突破传统视频游戏的局限,用生成模型,如大型语言模型(LLM)和视觉生成模型,创造一个没有固定规则和边界的游戏体验。玩家与自己的虚拟角色互动,用自然语言指令引导角色在虚拟世界中探索、互动,形成连贯的故事线。
18
0
2025-08-31
Umi-OCR 是免费开源的离线 OCR 文字识别软件。无需联网,解压即用,支持截图、批量图片、PDF 扫描件的文字识别,能识别数学公式、二维码,可生成双层可搜索 PDF。内置多语言识别库,界面支持多语言切换,提供命令行和 HTTP 接口调用功能。
16
0
2025-08-31
Ultravox是新型的多模态大型语言模型(LLM),能直接理解文本和人类语音,无需依赖单独的自动语音识别(ASR)阶段。基于多模态投影器技术将音频数据转换为高维空间表示,与LLM直接耦合,显著减少处理延迟,提高响应速度。
16
0
2025-08-31
UltraMem 是字节跳动豆包大模型团队提出的全新超稀疏模型架构,解决传统 MoE 架构在推理时的高额访存问题。架构通过优化内存访问和计算效率,显著降低推理成本,推理速度较 MoE 提升了2-6倍,成本最高可降低83%。
19
0
2025-08-31
URO-Bench 是面向端到端语音对话模型(SDMs)的全面基准测试工具。涵盖了多语言、多轮对话、副语言信息等多维度任务,全面评估语音对话模型的性能。
19
0
2025-08-31
URM(Universal Recommendation Model)是阿里妈妈推出的世界知识大模型,基于知识注入和信息对齐,将LLM的通用知识与电商领域的专业知识相结合,解决传统LLM在电商推荐场景中表现欠佳的问题。
19
0
2025-08-31
UNO是字节跳动推出创新的AI图像生成框架,突破传统模型在多主体生成中的局限。通过“少到多”的泛化方法,能高质量地生成单主体和多主体图像,解决了多主体场景下的一致性难题。UNO基于扩散变换器生成高一致性的多主体数据,采用渐进式跨模态对齐技术,分阶段训练模型,逐步提升生成效果。
21
0
2025-08-31
UI-TARS 是字节跳动推出的新一代原生图形用户界面(GUI)代理模型,通过自然语言实现对桌面、移动设备和网页界面的自动化交互。具备强大的感知、推理、行动和记忆能力,能实时理解动态界面,通过多模态输入(如文本、图像)执行复杂的任务。
21
0
2025-08-31
UFO² 是微软推出的面向 Windows 桌面的多Agent操作系统(AgentOS),基于深度系统集成和自然语言交互实现复杂桌面任务的自动化。UFO²基于中央 HostAgent 分解任务协调多个应用专用的 AppAgent 执行操作,结合 GUI 交互和原生 API 调用,提高任务执行的效率和鲁棒性。
20
0
2025-08-31
TÜLU 3是艾伦人工智能研究所(Ai2)推出的一系列开源指令遵循模型,包括8B和70B两个版本,未来计划推出405B版本。模型在性能上超越Llama 3.1 Instruct版本,提供了详细的后训练技术报告,公开数据、评估代码和训练算法。
19
0
2025-08-31
TxGemma 是谷歌推出的用于药物发现的通用人工智能模型,通过 AI 技术加速药物研发进程。基于 Google 的 Gemma 框架开发,能理解常规文本以及化学物质、分子和蛋白质等治疗实体的结构。研究人员可以通过 TxGemma 预测潜在新疗法的关键特性,如安全性、有效性和生物利用度。
18
0
2025-08-31
Twocast是AI驱动的双人播客生成器,支持生成双人对话形式的播客内容。生成器支持多语言、多音色,且能基于主题、链接、文档等多种方式快速生成3-5分钟的播客。
18
0
2025-08-31
TurboSeek是一个开源的AI搜索引擎,由Together.ai提供技术支持。基于现代化的技术栈,包括Next.js、Tailwind、Bing搜索API及先进的语言模型Mixtral 8x7B和Llama-3,为用户提供快速、智能的搜索体验。
20
0
2025-08-31