neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

4000万蛋白结构训练,西湖大学开发基于结构词表的蛋白质通用大模型,已开源

4000万蛋白结构训练,西湖大学开发基于结构词表的蛋白质通用大模型,已开源

4000万蛋白结构训练,西湖大学开发基于结构词表的蛋白质通用大模型,已开源

蛋白质结构相比于序列往往被认为更加具有信息量,因为其直接决定了蛋白质的功能。而随着AlphaFold2带来的巨大突破,大量的预测结构被发布出来供人研究使用。如何利用这些蛋白质结构来训练强大且通用的表征模型是一个值得研究的方向。


西湖大学的研究人员利用Foldseek来处理蛋白质结构,将其编码成一维的离散token,并与传统的氨基酸进行结合,形成了

17 0 2025-09-03