neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

阿里通义开源首个CoT音频模型,音·画同步被狠狠拿捏了

阿里通义开源首个CoT音频模型,音·画同步被狠狠拿捏了

阿里通义开源首个CoT音频模型,音·画同步被狠狠拿捏了

AI音效已经进化成这样了吗??


打开声音🦻,来快速感受一下最新feel:


模拟婴儿哭声,那叫一个高低起伏、荡气回肠,整个节奏和婴儿表情姿态神同步了。


阿里通义开源首个CoT音频模型,音·画同步被狠狠拿捏了

17 0 2025-09-05
WebAgent – 阿里开源的自主搜索AI Agent

WebAgent – 阿里开源的自主搜索AI Agent

WebAgent是阿里巴巴开源的自主搜索AI Agent,具备端到端的自主信息检索与多步推理能力。WebAgent能像人类一样在网络环境中主动感知、决策和行动,应用在学术研究、商业决策和日常生活。
22 0 2025-08-31
Qwen2 – 阿里云开源的新一代通义千问大模型

Qwen2 – 阿里云开源的新一代通义千问大模型

Qwen2是由阿里云通义千问团队开源的新一代大语言模型,该系列涵盖了从0.5B到72B不等的五个规模模型,在中文和英文基础上增加了27种语言的高质量数据,大幅提升了模型的自然语言理解、代码编写、数学解题和多语言处理能力。
22 0 2025-08-30
MimicBrush – 阿里等开源的AI图像编辑融合框架

MimicBrush – 阿里等开源的AI图像编辑融合框架

MimicBrush是由阿里巴巴、香港大学和蚂蚁集团的研究人员推出的AI图像编辑融合框架,允许用户通过简单的操作,在源图像上指定需要编辑的区域,并提供一个包含期望效果的参考图像进行图片编辑。
23 0 2025-08-30
LowCodeEngine – 阿里开源的低代码开发框架

LowCodeEngine – 阿里开源的低代码开发框架

LowCodeEngine是阿里巴巴开源的低代码开发框架,基于提供拖拽、配置等简单操作,让开发者快速构建复杂的系统页面。框架以强大的定制能力、优雅的开发体验、丰富的API和插件支持而著称,能满足各种复杂的业务场景需求
21 0 2025-08-29
FunASR – 阿里开源的多功能语音识别工具包

FunASR – 阿里开源的多功能语音识别工具包

FunASR是由阿里巴巴达摩院开源的语音识别工具包,提供包括语音识别(ASR)、语音活动检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离及多说话人ASR等多种功能。FunASR工具包支持工业级语音识别模型的训练和微调,旨在帮助研究人员和开发者更高效地进行语音识别模型的研究和生产,推动语音识别技术的发展。
23 0 2025-08-29
DreaMoving – 阿里开源的基于扩散模型的人类视频生成框架

DreaMoving – 阿里开源的基于扩散模型的人类视频生成框架

DreaMoving是一个基于扩散模型的人类视频生成框架,由阿里巴巴集团的研究团队开发。DreaMoving通过视频控制网络和内容引导器实现对人物动作和外观的精确控制,使得用户可以通过简单的文本描述或图像提示来生成个性化的视频内容。
20 0 2025-08-28