TaskWeaver是由微软推出的一个代码优先的AI智能体框架,专注于无缝规划和执行数据分析任务。基于代码片段解释用户请求,高效协调各种插件(以函数形式)执行数据分析任务,支持状态化的执行方式。TaskWeaver支持丰富的数据结构,支持用户封装自定义算法作为插件,整合领域特定知识提高任务执行的可靠性。
21
0
2025-08-31
Tarsier2是字节跳动推出的先进的大规模视觉语言模型(LVLM),生成详细且准确的视频描述,在多种视频理解任务中表现出色。模型通过三个关键升级实现性能提升,将预训练数据从1100万扩展到4000万视频文本对,丰富了数据量和多样性;在监督微调阶段执行精细的时间对齐;基于模型采样自动构建偏好数据,应用直接偏好优化(DPO)训练。
23
0
2025-08-31
TaoAvatar是阿里巴巴集团研究团队推出的高保真、轻量级的3D全身对话虚拟人技术。基于3D高斯溅射技术,能生成照片级逼真的3D全身虚拟形象,支持高分辨率渲染且存储需求低。
21
0
2025-08-31
Talker-Reasoner是谷歌DeepMind推出的AI代理架构,借鉴人类的认知理论,将代理分为两个模块:Talker和Reasoner。Talker模拟人类的快速直觉思维(System 1),处理即时对话和反应;Reasoner模仿缓慢的逻辑推理(System 2),负责复杂的多步规划和决策。
18
0
2025-08-31
Takin AudioLLM是喜马拉雅Everest团队推出的一系列高质量零样本语音生成模型,包括Takin TTS、Takin VC和Takin Morphing。模型用最新的大型语言模型技术,专注于有声书制作,能生成接近真人的高保真语音,支持个性化定制。Takin TTS用在生成富有表现力的音频内容,Takin VC负责声音的音色转换,Takin Morphing提供声音风格转换功能。
19
0
2025-08-31
Tailor是免费开源的AI视频编辑工具,集成了人脸识别、语音识别等智能技术,提供视频编辑、生成和优化三大功能。能实现人脸剪辑、语音剪辑、口播生成、字幕和色彩生成等,支持背景更换和流畅度、清晰度优化,让视频创作更高效。
22
0
2025-08-31
TableGPT2是浙江大学推出的新型大型多模态模型,针对表格数据的整合与处理。首次将结构化数据作为独立模态进行训练,直接理解并操作数据库、Excel等数据,执行SQL查询、数据分析等任务。模型包含创新的表格编码器,强化对不规则表格和模糊查询的处理能力,在多个基准测试中性能显著提升。
23
0
2025-08-31
TRELLIS是清华大学、中国科学技术大学和微软研究院推出的3D生成模型,基于Structured LATent(SLAT)表示法,从文本或图像提示中生成高质量、多样化的3D资产。模型融合稀疏的3D网格结构和从多视角提取的密集视觉特征,全面捕捉3D资产的几何和外观信息。
21
0
2025-08-31
TPO(Test-Time Preference Optimization)是新型的AI优化框架,在推理阶段对语言模型输出进行动态优化,更符合人类偏好。TPO通过将奖励信号转化为文本反馈,将模型生成的优质响应标记为“选择”输出,低质量响应标记为“拒绝”输出,进而生成“文本损失”并提出“文本梯度”,以此迭代改进模型输出,无需更新模型参数。
15
0
2025-08-31
TPDM(Time Prediction Diffusion Model)是西湖大学MAPLE实验室、南方科技大学、北京大学及西湖大学高等研究院先进技术研究所联合推出的图像生成模型,能自适应地调整去噪时间表,优化图像质量和生成效率。模型用即插即用的时间预测模块(TPM),在每个去噪步骤中根据当前隐空间特征预测下一个噪声水平。
14
0
2025-08-31
TITAN是哈佛医学院研究团队开发的多模态全切片病理基础模型,通过视觉自监督学习和视觉-语言对齐预训练,能在无需微调或临床标签的情况下提取通用的切片表示,生成病理报告。它使用了335,645张全切片图像(WSIs)以及相应的病理报告,结合了423,122个由多模态生成型AI协作者生成的合成字幕。
17
0
2025-08-31
TIP-I2V是大规模真实文本和图像提示数据集,用在图像到视频生成领域。TIP-I2V包含超过170万独特的用户文本和图像提示,及五种SOTA图生视频模型生成的相应视频。数据集能推动更好、更安全的图像到视频模型的发展,帮助研究人员分析用户偏好,评估模型性能,解决图像到视频模型引起的错误信息问题。
17
0
2025-08-31
TIGER(Time-frequency Interleaved Gain Extraction and Reconstruction Network)是清华大学研究团队提出的轻量级语音分离模型,通过时频交叉建模策略,结合频带切分和多尺度注意力机制,显著提升了语音分离的效果,降低了参数量和计算量。
20
0
2025-08-31
TEN VAD 是高性能的实时语音活动检测系统,专为企业级应用设计。TEN VAD能精确地检测音频流中的语音活动,具有低延迟、轻量级和高精度的特点。TEN VAD 基于先进的 AI 技术,如深度学习模型,快速区分语音和非语音信号,显著降低对话系统的响应延迟。
19
0
2025-08-31
TEN Agent是集成OpenAI Realtime API和RTC技术的开源实时多模态AI代理框架。TEN Agent能实现语音、文本、图像的多模态交互,支持高性能的实时通信,具备低延迟的音视频交互能力。TEN Agent支持多语言和跨平台操作,支持开发者基于模块化设计轻松扩展功能,如集成视觉识别和RAG能力。
19
0
2025-08-31