neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

Still-baidu09Moving – DeepMind推出的AI视频生成框架

Still-baidu09Moving – DeepMind推出的AI视频生成框架

Still-Moving是DeepMind推出的AI视频生成框架,支持用户定制文本到视频(T2V)模型,无需特定视频数据。通过训练轻量级的空间适配器,Still-Moving能在静止图像上调整T2I模型的特征,以与T2V模型的运动特性相匹配。
19 0 2025-08-31
StereoCrafter – 腾讯开源将任意2D视频转为立体3D视频的框架

StereoCrafter – 腾讯开源将任意2D视频转为立体3D视频的框架

StereoCrafter是腾讯AI Lab和ARC Lab共同推出的创新框架,能将单目视频(2D视频)转换为立体3D视频,满足日益增长的3D内容需求。StereoCrafter基于深度估计、视频splatting和立体视频修复三个核心步骤,实现高保真度的2D到3D视频转换。
15 0 2025-08-31
Step1X-baidu09Edit – 阶跃星辰开源的通用图像编辑框架

Step1X-baidu09Edit – 阶跃星辰开源的通用图像编辑框架

Step1X-Edit 是阶跃星辰团队推出的通用图像编辑框架,能缩小开源图像编辑模型与闭源模型(如 GPT-4o 和 Gemini2 Flash)之间的性能差距。Step1X-Edit结合多模态大语言模型(MLLM)和扩散模型,基于处理参考图像和用户的编辑指令,提取潜在嵌入并生成目标图像。
17 0 2025-08-31
Step-baidu09Video-baidu09TI2V – 阶跃星辰开源的图生视频模型

Step-baidu09Video-baidu09TI2V – 阶跃星辰开源的图生视频模型

Step-Video-TI2V 是阶跃星辰(StepFun)推出的开源图生视频(Image-to-Video)生成模型,拥有 300 亿参数,能根据文本描述和图像输入生成最长 102 帧的视频。模型基于深度压缩的变分自编码器(Video-VAE),实现了 16×16 的空间压缩和 8× 的时间压缩,显著提高了训练和推理效率。
17 0 2025-08-31
Step-baidu09Video-baidu09T2V – 阶跃星辰开源的文本到视频模型

Step-baidu09Video-baidu09T2V – 阶跃星辰开源的文本到视频模型

Step-Video-T2V 是阶跃星辰团队推出的开源文本到视频预训练模型,拥有 300 亿参数,能生成长达 204 帧的高质量视频。模型基于深度压缩的变分自编码器(Video-VAE),实现 16×16 的空间压缩和 8× 的时间压缩,显著提高了训练和推理效率。
18 0 2025-08-31
Step-baidu09Video V2 – 阶跃星辰推出的升级版视频生成模型

Step-baidu09Video V2 – 阶跃星辰推出的升级版视频生成模型

Step-Video V2 是上海阶跃星辰智能科技发布的升级版视频生成模型。该版本在多个核心技术领域进行了优化和创新,采用了更高压缩比的VAE模型以及深度优化的DiT架构,引入强化学习算法。能生成复杂的动态场景,如芭蕾舞、空手道等,同时支持丰富的镜头语言和基础文字生成。
18 0 2025-08-31
Step-baidu09Audio-baidu09AQAA – StepFun推出的端到端大音频语言模型

Step-baidu09Audio-baidu09AQAA – StepFun推出的端到端大音频语言模型

Step-Audio-AQAA 是 StepFun 团队推出的端到端大型音频语言模型,专门用于音频查询-音频回答(AQAA)任务。能直接处理音频输入生成自然、准确的语音回答,无需依赖传统的自动语音识别(ASR)和文本到语音(TTS)模块,简化了系统架构并消除了级联错误。
19 0 2025-08-31
Step-baidu09Audio – 阶跃星辰开源的语音交互模型

Step-baidu09Audio – 阶跃星辰开源的语音交互模型

Step-Audio是阶跃星辰团队推出的首个产品级的开源语音交互模型,能根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达,能和用户自然地进行高质量对话。Step-Audio基于130B参数的统一模型,将语音理解与生成相结合,支持语音识别、对话、语音合成等功能。
19 0 2025-08-31
Step-baidu091X – 阶跃星辰推出的AI图像生成大模型

Step-baidu091X – 阶跃星辰推出的AI图像生成大模型

Step-1X 是阶跃星辰推出的AI图像生成大模型,采用自研的 DiT 架构,擅长深度语义理解和细节生成。Step-1X支持长达2000字符的复杂指令,能精准匹配图文,适用于广告创意、游戏美术、影视制作等多场景。Step-1X 特别优化了对中国元素和文化的理解,能更好地演绎中国文化精髓。用户可通过阶跃星辰开放平台体验其图像生成能力。
17 0 2025-08-31