neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

Wear-baidu09Any-baidu09Way – 阿里拍立淘团队推出自由定制的虚拟试穿框架

Wear-baidu09Any-baidu09Way – 阿里拍立淘团队推出自由定制的虚拟试穿框架

Wear-Any-Way是阿里巴巴拍立淘团队推出的创新的虚拟试穿框架。通过稀疏对应对齐机制,实现了高保真度且可定制的虚拟试穿效果。用户可以生成逼真的试穿图像,通过简单的点击和拖动操作,精准操控服装的穿着方式,如卷起袖子、调整大衣开合等,为虚拟试穿带来了全新的交互体验。
17 0 2025-08-31
WeKnora – 腾讯开源的文档理解与语义检索框架

WeKnora – 腾讯开源的文档理解与语义检索框架

WeKnora 是腾讯开源的基于大语言模型(LLM)的文档理解与语义检索框架。框架基于模块化设计,支持多模态文档解析(如 PDF、Word、图片等),通过 RAG(检索增强生成)机制实现精准问答。
28 0 2025-08-31
WeGen – 中科大联合上海交大等推出的统一多模态生成模型

WeGen – 中科大联合上海交大等推出的统一多模态生成模型

WeGen 是中国科学技术大学联合上海交通大学、微信团队、中国科学院等机构推出的统一多模态生成模型,基于自然对话实现多样化的视觉生成任务。WeGen结合多模态大语言模型(MLLM)和扩散模型,处理文本到图像生成、条件驱动生成、图像编辑、风格迁移等多种任务。
21 0 2025-08-31
WeClone – 开源AI数字分身一站式解决方案

WeClone – 开源AI数字分身一站式解决方案

WeClone是从聊天记录创造数字分身的一站式解决方案。基于聊天记录微调大语言模型(LLM),让模型具有特定的风格,绑定到微信、QQ、Telegram等聊天机器人,实现数字分身。
19 0 2025-08-31
Wav2Lip – 开源的唇形同步工具

Wav2Lip – 开源的唇形同步工具

Wav2Lip是开源的唇形同步工具,支持用户将音频文件转换成与口型同步的视频,广泛应用于视频编辑和游戏开发等领域。Wav2Lip不仅能够实现实时口型生成,还支持多种语言,适用于不同场景下的需求。
18 0 2025-08-31
WarriorCoder – 微软联合华南理工大学推出的代码生成大模型

WarriorCoder – 微软联合华南理工大学推出的代码生成大模型

WarriorCoder 是华南理工大学计算机科学与工程学院和微软推出的代码生成大语言模型(LLM)。基于模拟专家模型之间的对抗生成高质量训练数据,提升模型性能。与传统方法不同,WarriorCoder 不依赖于现有的专有模型或数据集,从零开始挖掘指令,基于 Elo 评分系统和裁判模型评估对抗结果,选择最优响应作为训练数据。
20 0 2025-08-31
Wan2.1 – 阿里开源的AI视频生成大模型

Wan2.1 – 阿里开源的AI视频生成大模型

Wan2.1是阿里云开源的AI视频生成大模型,具备强大的视觉生成能力。Wan2.1支持文生视频和图生视频任务,包含两种尺寸的模型,14B参数的专业版擅长复杂运动生成和物理建模,性能卓越;1.3B参数的极速版能在消费级显卡上运行,显存需求低,适合二次开发和学术研究。
20 0 2025-08-31
VtripGPT – 视旅科技推出首个旅游领域的AI大模型

VtripGPT – 视旅科技推出首个旅游领域的AI大模型

VtripGPT是视旅科技推出的专注于旅游领域的AI大模型,基于深度合成服务为旅游对话生成提供智能支持。模型基于Transformer架构,结合旅游行业数据和常规知识进行增量预训练,基于人工构建的有监督指令数据及对话数据进行微调,生成旅游相关的文本回复。
18 0 2025-08-31
Voyage Multimodal-baidu093 – Voyage AI 推出的多模态嵌入模型

Voyage Multimodal-baidu093 – Voyage AI 推出的多模态嵌入模型

Voyage Multimodal-3 是 Voyage AI 推出的先进的多模态嵌入模型,能处理交错的文本和图像,并从 PDF、幻灯片、表格等截图中捕捉关键视觉特征,无需复杂文档解析。Voyage Multimodal-3模型在多模态检索任务中表现出色,平均检索准确率比现有最佳模型高出19.63%,支持文本和内容丰富的图像,具有类似现代视觉-语言转换器的架构,能统一处理文本和视觉数据,提供更准确的语义搜索和文档理解能力。
21 0 2025-08-31
Voxtral – Mistral AI开源的语音模型

Voxtral – Mistral AI开源的语音模型

Voxtral 是 Mistral AI 推出的先进音频模型,基于卓越的语音转录和深度理解能力,推动语音作为自然的人机交互方式。Voxtral提供 24B 和 3B 两种版本,分别适用生产规模和本地部署。Voxtral 支持多语言、长文本上下文、内置问答和总结功能,能直接触发后端功能调用。
15 0 2025-08-31
Voost – 创新的双向虚拟试穿和试脱AI模型

Voost – 创新的双向虚拟试穿和试脱AI模型

Voost 是NXN实验室推出创新的虚拟试穿和试脱模型,基于统一且可扩展的扩散 Transformer(DiT)框架开发。能同时处理虚拟试穿(try-on)和试脱(try-off)任务,生成高质量的图像结果。通过联合学习这两个任务,Voost 利用双向监督机制,使每对服装 - 人物数据能为两个方向的生成提供监督信号
18 0 2025-08-31
VoltAgent – 开源的AI Agent构建和编排框架

VoltAgent – 开源的AI Agent构建和编排框架

VoltAgent 是开源的 TypeScript 框架,用在构建和编排 AI Agent。VoltAgent 提供构建 AI 应用的基础结构和工具,简化与大语言模型(LLM)的交互、状态管理、外部工具连接和工作流编排的复杂性。
21 0 2025-08-31