24
0
2025-08-30
STIV(Scalable Text and Image Conditioned Video Generation)是苹果公司推出的视频生成大模型。STIV拥有8.7亿参数,能处理文本到视频(T2V)和文本图像到视频(TI2V)任务,基于联合图像-文本分类器自由引导(JIT-CFG)提升视频生成质量。
23
0
2025-08-30
START(Self-Taught Reasoner with Tools)是阿里巴巴集团和中国科学技术大学推出的新型工具增强型推理模型,结合外部工具(如Python代码执行器)提升大型语言模型(LLMs)的推理能力。START基于“Hint-infer”技术在推理过程中插入提示,激发模型使用外部工具,基于“Hint-RFT”框架进行自学习和微调。
23
0
2025-08-30
STAR是南京大学、字节跳动、西南大学联合推出的,创新的现实世界视频超分辨率(VSR)框架,能从低分辨率(LR)视频生成高分辨率(HR)视频,同时保持细节清晰度和时间一致性。STAR整合强大的文本到视频(T2V)扩散模型增强视频的空间细节和时间建模能力。STAR引入局部信息增强模块(LIEM),在全局注意力块之前丰富局部细节,减轻复杂退化引入的伪影问题。
18
0
2025-08-30
SPRIGHT(SPatially RIGHT)是亚利桑那州立大学 、Intel 实验室 、Hugging Face 、华盛顿大学等机构联合推出的,专注于空间关系的大型视觉-语言数据集,能解决现有文本到图像(T2I)模型在生成图像时空间一致性不足的问题。
20
0
2025-08-30
SPDL(Scalable and Performant Data Loading)是 Meta AI 推出的开源数据加载工具,能提高 AI 模型训练效率。基于多线程技术,实现高吞吐量数据加载,减少计算资源消耗。与传统基于进程的方法相比,SPDL 提升2-3倍的吞吐量,与 Free-Threaded Python 兼容,能在禁用 GIL 的环境中进一步提升30%的性能。
21
0
2025-08-30
SPAR3D是Stability AI和伊利诺伊大学香槟分校推出的,先进的单图生成3D模型方法,能从单张图像中高效重建出高质量的3D对象。SPAR3D基于两阶段设计,第一阶段用点扩散模型生成稀疏的3D点云,第二阶段结合采样的点云和输入图像生成高度详细的网格。SPAR3D结合回归模型和生成模型的优势,能准确重建图像中的可见表面,又能合理生成被遮挡部分的几何和纹理细节。
18
0
2025-08-30
SPAR是智谱团队推出的自我博弈框架,能增强大型语言模型在遵循指令方面的能力。框架基于内部的生成者和完善者两个角色进行互动,生成者执行指令生成回复,完善者对回复进行分析和改进。SPAR基于树搜索技术精细化和优化回复,排除无关的干扰因素,从而突出对指令遵循至关重要的关键差异。
21
0
2025-08-30
SOLAMI是创新的VR端3D角色扮演AI系统,是南洋理工大学研究团队推出的。支持用户用语音和肢体语言与虚拟角色进行沉浸式互动,基于社交视觉-语言-行为模型,提供超越传统文本和语音交互的自然交流体验。
24
0
2025-08-30
SNOOPI是创新的文本到图像生成框架,基于增强单步扩散模型的指导提升模型性能和控制力。SNOOPI包括PG-SB(适当指导 - SwiftBrush)和NASA(负向远离转向注意力)两种技术。PG-SB用随机尺度的无分类器引导方法,增强训练稳定性;NASA用交叉注意力机制整合负面提示,有效抑制生成图像中的不期望元素。
19
0
2025-08-30
SHMT(Self-supervised Hierarchical Makeup Transfer)是阿里巴巴达摩院与武汉理工大学等机构联合研发的先进自监督化妆转移技术。技术通过潜在扩散模型实现,能在无需成对训练数据的情况下,将各种化妆风格自然地应用到目标面部图像上。
19
0
2025-08-30
SFR-RAG是由Salesforce AI Research推出的一款大型语言模型,专注于提升机器在理解和生成文本方面的应用能力。模型特别强调对上下文的忠实理解,在检索增强生成领域进行优化。
20
0
2025-08-30
SEMIKONG是专门为半导体行业定制的大型语言模型(LLM),是Aitomatic、FPT Software和东京电子有限公司联合推出的。基于深入的领域知识,解决半导体制造和设计中的独特挑战,如复杂的物理和化学问题。
16
0
2025-08-30
SEED-Story是腾讯联合香港科技大学、香港中文大学推出的多模态故事生成模型。基于多模态大语言模型(MLLM),能预测文本和视觉token,通过视觉de-tokenizer生成风格一致的图像。SEED-Story引入了多模态注意力机制,支持生成长达25个序列的连贯故事。
15
0
2025-08-30
SDXL-Lightning是由字节跳动的研究团队推出的一种基于扩散模型的文本到图像生成技术,旨在解决传统扩散模型在图像生成速度和计算成本上的局限性。该模型基于 SDXL(Stable Diffusion XL)架构,通过结合渐进式和对抗式蒸馏方法,实现了在一步或少数几步内快速生成1024像素分辨率的高质量图像。
20
0
2025-08-30