UniProt是Universal Protein的英文縮寫,是信息最豐富、資源最廣的蛋白質(zhì)數(shù)據(jù)庫。它由整合Swiss-Prot、TrEMBL和 PIR-PSD三大數(shù)據(jù)庫的數(shù)據(jù)而成。他的數(shù)據(jù)主要來自于基因組測(cè)序項(xiàng)目完成后,后續(xù)獲得的蛋白質(zhì)序列。它包含了大量來自文獻(xiàn)的蛋白質(zhì)的生物功能的信息。
UniProtKB全稱UniProt Knowledgebase(UniProt知識(shí)庫)它是經(jīng)過專家校驗(yàn)的數(shù)據(jù)集,主要由兩部分組成:UniProtKB/Swiss-Prot(包含檢查過的、手工注釋的條目)和UniProtKB/TrEMBL(包含未校驗(yàn)的、自動(dòng)注釋的條目),在2010年8月是10日發(fā)布的版本中,UniProtKB/Swiss-Prot包含519,348條注釋條目,UniProtKB/TrEMBL包含11,636,205條注釋條目。
UniProtKB/Swiss-Prot
高質(zhì)量的、手工注釋的、非冗余的數(shù)據(jù)集;主要來自文獻(xiàn)中的研究成果和E-value校驗(yàn)過計(jì)算分析結(jié)果。有質(zhì)量保證的數(shù)據(jù)才被加入該數(shù)據(jù)庫。
UniProtKB/TrEMBL
該數(shù)據(jù)集包含高質(zhì)量的計(jì)算分析結(jié)果,一般都在自動(dòng)注釋中富集,主要應(yīng)對(duì)基因組項(xiàng)目獲得的大量數(shù)據(jù)流以人工校驗(yàn)在時(shí)間上和人力上的不足。他能注釋所有可用的蛋白序列。在三大核酸數(shù)據(jù)庫(EMBL-Bank/GenBank/DDBJ)中注釋的編碼序列都被自動(dòng)翻譯并加入該數(shù)據(jù)庫中。它也有來自PDB數(shù)據(jù)庫的序列,以及Ensembl、Refeq和CCDS基因預(yù)測(cè)的序列。
UniParc
UniParc全稱是UniProt Archive,他是一個(gè)綜合性的非冗余數(shù)據(jù)庫,他包含了所有主要的、公開的數(shù)據(jù)庫的蛋白質(zhì)序列。 由于蛋白質(zhì)可能在不同的數(shù)據(jù)庫中存在,并且可能在同一個(gè)數(shù)據(jù)庫中有多個(gè)版本,為了去冗余,UniaraParc對(duì)每條唯一的序列只存一次。無論是否為同一物種的序列,只要序列相同就被合并為一條,每條序列提供穩(wěn)定的、唯一的編號(hào)UPI。該數(shù)據(jù)庫只含有蛋白質(zhì)的序列信息,而沒有注釋數(shù)據(jù)。