AI 第24页_拜读未来科技摆渡人生

UniAct – 清华、商汤、北大、上海AI Lab共同推出的具身基础模型框架

UniAct 是新型的具身基础模型框架，解决不同机器人之间行为异构性的问题。通过学习通用行为，捕捉不同机器人共享的原子行为特征，消除因物理形态和控制接口差异导致的行为异构性。

19 0 2025-08-31

Uni-baidu09AdaFocus – 清华大学推出通用的高效视频理解框架

Uni-AdaFocus是清华大学自动化系的研究团队推出的通用的高效视频理解框架，框架通过自适应聚焦机制，动态调整计算资源的分配，实现对视频内容的高效处理。

20 0 2025-08-31

Unbounded – 谷歌推出的首款AI生成式无限人生模拟游戏

Unbounded是谷歌和北卡罗来纳大学教堂山分校共同推出的无限人生模拟游戏。游戏突破传统视频游戏的局限，用生成模型，如大型语言模型(LLM)和视觉生成模型，创造一个没有固定规则和边界的游戏体验。玩家与自己的虚拟角色互动，用自然语言指令引导角色在虚拟世界中探索、互动，形成连贯的故事线。

18 0 2025-08-31

Umi-baidu09OCR – 免费 OCR 文字识别工具，支持截图、批量图片排版解析

Umi-OCR 是免费开源的离线 OCR 文字识别软件。无需联网，解压即用，支持截图、批量图片、PDF 扫描件的文字识别，能识别数学公式、二维码，可生成双层可搜索 PDF。内置多语言识别库，界面支持多语言切换，提供命令行和 HTTP 接口调用功能。

16 0 2025-08-31

Ultravox – 端到端多模态大模型，直接理解文本和人类语音

Ultravox是新型的多模态大型语言模型（LLM），能直接理解文本和人类语音，无需依赖单独的自动语音识别（ASR）阶段。基于多模态投影器技术将音频数据转换为高维空间表示，与LLM直接耦合，显著减少处理延迟，提高响应速度。

16 0 2025-08-31

UltraMem – 字节豆包大模型团队推出的全新超稀疏模型架构

UltraMem 是字节跳动豆包大模型团队提出的全新超稀疏模型架构，解决传统 MoE 架构在推理时的高额访存问题。架构通过优化内存访问和计算效率，显著降低推理成本，推理速度较 MoE 提升了2-6倍，成本最高可降低83%。

19 0 2025-08-31

URO-baidu09Bench – AI基准测试工具，专为端到端语音对话模型设计

URO-Bench 是面向端到端语音对话模型（SDMs）的全面基准测试工具。涵盖了多语言、多轮对话、副语言信息等多维度任务，全面评估语音对话模型的性能。

19 0 2025-08-31

URM – 阿里妈妈推出的世界知识大模型

URM（Universal Recommendation Model）是阿里妈妈推出的世界知识大模型，基于知识注入和信息对齐，将LLM的通用知识与电商领域的专业知识相结合，解决传统LLM在电商推荐场景中表现欠佳的问题。

19 0 2025-08-31

UNO – 字节跳动推出的创新AI图像生成框架

UNO是字节跳动推出创新的AI图像生成框架，突破传统模型在多主体生成中的局限。通过“少到多”的泛化方法，能高质量地生成单主体和多主体图像，解决了多主体场景下的一致性难题。UNO基于扩散变换器生成高一致性的多主体数据，采用渐进式跨模态对齐技术，分阶段训练模型，逐步提升生成效果。

21 0 2025-08-31

UI-baidu09TARS – 字节跳动推出的开源原生 GUI 代理模型

UI-TARS 是字节跳动推出的新一代原生图形用户界面（GUI）代理模型，通过自然语言实现对桌面、移动设备和网页界面的自动化交互。具备强大的感知、推理、行动和记忆能力，能实时理解动态界面，通过多模态输入（如文本、图像）执行复杂的任务。

21 0 2025-08-31

UFO² – 微软推出的 Windows 桌面 Agent 操作系统

UFO² 是微软推出的面向 Windows 桌面的多Agent操作系统（AgentOS），基于深度系统集成和自然语言交互实现复杂桌面任务的自动化。UFO²基于中央 HostAgent 分解任务协调多个应用专用的 AppAgent 执行操作，结合 GUI 交互和原生 API 调用，提高任务执行的效率和鲁棒性。

20 0 2025-08-31

TÜLU 3 – Ai2 推出的系列开源指令遵循模型

TÜLU 3是艾伦人工智能研究所（Ai2）推出的一系列开源指令遵循模型，包括8B和70B两个版本，未来计划推出405B版本。模型在性能上超越Llama 3.1 Instruct版本，提供了详细的后训练技术报告，公开数据、评估代码和训练算法。

19 0 2025-08-31

TxGemma – 谷歌推出的通用医学治疗大模型

TxGemma 是谷歌推出的用于药物发现的通用人工智能模型，通过 AI 技术加速药物研发进程。基于 Google 的 Gemma 框架开发，能理解常规文本以及化学物质、分子和蛋白质等治疗实体的结构。研究人员可以通过 TxGemma 预测潜在新疗法的关键特性，如安全性、有效性和生物利用度。

18 0 2025-08-31

Twocast – AI双人播客生成器，模拟真实双人对话形式

Twocast是AI驱动的双人播客生成器，支持生成双人对话形式的播客内容。生成器支持多语言、多音色，且能基于主题、链接、文档等多种方式快速生成3-5分钟的播客。

18 0 2025-08-31

TurboSeek – AI驱动的开源的智能搜索引擎

TurboSeek是一个开源的AI搜索引擎，由Together.ai提供技术支持。基于现代化的技术栈，包括Next.js、Tailwind、Bing搜索API及先进的语言模型Mixtral 8x7B和Llama-3，为用户提供快速、智能的搜索体验。

20 0 2025-08-31

‹‹ ‹ 20 21 22 23 24 25 26 27 28 29 › ››

« 2026年6月 »
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30