输入蛋白质单体的一级结构(1D序列),预测蛋白质的三级结构(3D位置),同时给出预测结果的置信度。
本模型主要用于蛋白质单体的预测。
目前仅支持GPU运行,需要额外安装Uni-Core。
from modelscope.pipelines import pipeline
pipeline_ins = pipeline(
task='protein-structure',
model='DPTech/uni-fold-monomer')
protein = 'LILNLRGGAFVSNTQITMADKQKKFINEIQEGDLVRSYSITDETFQQNAVTSIVKHEADQLCQINFGKQHVVC'
outputs = pipeline_ins(protein)
只适用于单体蛋白质、多聚体蛋白请使用 Uni-Fold-Multimer。
模型性能依赖于同源序列的数量,如果同源序列数量少,模型可能无法保证预测结果。
对于超长序列,预测时间需要较久,显存也可能不够。
模型根据AlphaFold的论文描述训练,训练代码开源在GitHub。
训练使用的数据 Uni-Fold-Data 也在 ModelScope 上开放。
@article {uni-fold,
author = {Li, Ziyao and Liu, Xuyang and Chen, Weijie and Shen, Fan and Bi, Hangrui and Ke, Guolin and Zhang, Linfeng},
title = {Uni-Fold: An Open-Source Platform for Developing Protein Folding Models beyond AlphaFold},
year = {2022},
doi = {10.1101/2022.08.04.502811},
URL = {https://www.biorxiv.org/content/10.1101/2022.08.04.502811v3},
eprint = {https://www.biorxiv.org/content/10.1101/2022.08.04.502811v3.full.pdf},
journal = {bioRxiv}
}