neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

VideoLLaMB – 开源的多模态长视频理解框架

VideoLLaMB – 开源的多模态长视频理解框架

VideoLLaMB 是一种创新的长视频理解框架,通过引入记忆桥接层和递归记忆令牌来处理视频数据,确保在分析时不丢失关键视觉信息。模型特别设计用于理解长时间视频内容,保持语义连续性,并在多种任务中表现出色,如视频问答、自我中心规划和流式字幕生成。
22 0 2025-08-31
OpenUtau – 开源的AI歌声合成工具,自动适配系统语言

OpenUtau – 开源的AI歌声合成工具,自动适配系统语言

OpenUtau 是开源的歌声合成工具,兼容 UTAU 音源库和重采样器,支持 VSQX 导入、多语言界面及预渲染功能,帮助创作者快速预览作品节省时间。OpenUtau现代化的界面和丰富的编辑功能,如音素器、颤音编辑器等,让音乐创作更加直观高效。
20 0 2025-08-30
BrowseComp – OpenAI 开源的 AI Agent 网络浏览能力基准

BrowseComp – OpenAI 开源的 AI Agent 网络浏览能力基准

BrowseComp 是 OpenAI 开源的用于评估 AI Agent网络浏览能力的基准测试。包含 1266 个极具挑战性的问题,覆盖电影、科学与技术、艺术、历史、体育、音乐、电子游戏等多个领域。需要 AI Agent在互联网上搜索并匹配复杂约束条件,例如找出特定的足球比赛或电视剧角色等。
22 0 2025-08-28