neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

OpenVision – 加州大学开源的视觉编码器家族

admin|
19

OpenVision是加州大学圣克鲁兹分校(UCSC)推出的完全开放、高效且灵活的高级视觉编码器家族,专注于多模态学习。提供从5.9M到632.1M参数的多种规模模型,适用于从边缘设备到高性能服务器的不同场景。OpenVision采用渐进式多阶段分辨率训练策略,训练效率比同类专有模型快2到3倍。在多模态基准测试中表现出色,与OpenAI的CLIP和SigLIP等模型相当。OpenVision支持8×8和16×16的可变大小patch,能灵活应对详细视觉理解或高效处理的需求。

(图片来源网络,侵删)
(图片来源网络,侵删)