挤爆字节服务器的Agent到底啥水平?一手实测来了
“字节版Manus”有多能打?量子位实测在此。

16
0
2025-09-04
ResAdapter是由字节跳动的研究人员推出的一种为扩散模型(如Stable Diffusion)设计的分辨率适配器,允许这些图像生成模型生成具有任意分辨率和宽高比的图像,同时保持其原始的风格域。
19
0
2025-08-30
PhotoDoodle是新加坡国立大学、上海交通大学、北京邮电大学、字节跳动和Tiamat团队联合推出的艺术化图像编辑框架,基于少量样本学习艺术家的独特风格,实现照片涂鸦(photo doodling)。PhotoDoodle用两阶段训练策略:基于大规模数据预训练通用图像编辑模型OmniEditor,用少量艺术家策划的前后图像对进行微调,捕捉特定的编辑风格。
21
0
2025-08-30
LiveCC 是新加坡国立大学Show Lab 团队联合字节跳动推出的实时视频解说模型,基于自动语音识别(ASR)字幕进行大规模训练。LiveCC像专业解说员一样快速分析视频内容,同步生成自然流畅的语音或文字解说。
26
0
2025-08-29
LatentSync是字节跳动、北京交通大学联合推出的端到端唇形同步框架,基于音频条件的潜在扩散模型,无需任何中间的3D表示或2D特征点。LatentSync用Stable Diffusion的强大生成能力,捕捉复杂的视听关联,生成动态逼真的说话视频。
23
0
2025-08-29