UniProt

Da Wikipedia, l'enciclopedia libera.
UniProt Taxonomy Database
URL http://www.uniprot.org
Commerciale no
Tipo di sito Database
Lingua EN
Proprietario UniProt Consortium
Creato da EMBL-EBI, UK; SIB, Switzerland; PIR, US.
Lancio dicembre 2003
Stato attuale Attivo

UniProt (Universal Protein) è il più grande database bioinformatico per le sequenze proteiche di tutti gli organismi viventi e dei virus. Molte informazioni derivano da progetti di sequenziamento del genoma.

Il Consorzio UniProt[modifica | modifica sorgente]

Il Consorzio UniProt (UniProt Consortium) comprende l'European Bioinformatics Institute (EBI), lo Swiss Institute of Bioinformatics (SIB) e la Protein Information Resource (PIR). EBI, che si trova presso il Wellcome Trust Genome Campus a Hinxton, Regno Unito, ospita un grande centro di database e servizi di bioinformatica. SIB, con sede a Ginevra, Svizzera, gestisce i server della ExPASy (Expert Protein Analysis System) che sono una risorsa centrale per strumenti e database di proteomica. PIR, ospitato dal National Biomedical Research Foundation (NBRF) al Georgetown University Medical Center a Washington, DC, USA, è l'erede del più antico database di sequenze proteiche, Atlas of Protein Sequence and Structure di Margaret Dayhoff, pubblicato la prima volta nel 1965.[1] Nel 2002 EBI, SIB, e PIR hanno unito le loro forze, con il nome di Consorzio UniProt[2].

Le origini dei database UniProt[modifica | modifica sorgente]

Ogni membro del consorzio è fortemente impegnato nella gestione del database di proteine e nelle annotazioni. Fino a poco tempo fa, EBI e SIB insieme producevano i database Swiss-Prot e TrEMBL, mentre PIR produceva il suo database delle sequenze proteiche (Protein Sequence, PIR-PSD).[3][4][5] Questi database coesistevano con priorità diverse di copertura e annotazioni delle sequenze proteiche.

Swiss-Prot è stata creata nel 1986 da Amos Bairoch durante il suo dottorato e sviluppata dal Swiss Institute of Bioinformatics e dall'European Bioinformatics Institute.[6][7] Swiss-Prot ha lo scopo di fornire sequenze proteiche affidabili associate a un elevato livello di annotazioni (come la descrizione della funzione di una proteina, la struttura del suo dominio, le modificazioni post traduzionali, le varianti, etc.), un livello minimo di ridondanza e un alto livello di integrazione con altre banche dati. Riconoscendo che i dati della sequenza venivano prodotte ad un ritmo superiore alla capacità di gestirli di Swiss-Prot, venne creata TrEMBL (Translated EMBL Nucleotide Sequence Data Library) per fornire annotazioni automatizzate per le proteine non ancora presenti in Swiss-Prot. Nel frattempo, PIR mantenne il PIR-PSD e i relativi database, compreso iProClass, un database di sequenze proteiche e famiglie.

I membri del consorzio hanno unito le loro risorse e competenze che si sovrapponevano, e lanciato UniProt nel dicembre 2003.[8]

Organizzazione dei database UniProt[modifica | modifica sorgente]

UniProt fornisce quattro database principali:

UniProtKB[modifica | modifica sorgente]

UniProt Knowledgebase (UniProtKB) è un database di proteine curato da esperti, composto da due sezioni. UniProtKB/Swiss-Prot (contenente voci revisionate, annotate manualmente) e UniProtKB/TrEMBL (contenente voci non revisionate, annotate automaticamente).[9] Nella versione 2010_09 del 10 agosto 2010, UniProtKB/Swiss-Prot conteneva 519.348 voci, e UniProtKB/TrEMBL conteneva 11.636.205 voci.[10][11]

UniProtKB/Swiss-Prot[modifica | modifica sorgente]

UniProtKB/Swiss-Prot è un database di sequenze proteiche di alta qualità, annotato manualmente, non ridondante. Esso combina le informazioni estratte dalla letteratura scientifica e l'analisi computazionale valutata da biocurator. Lo scopo di UniProtKB/Swiss-Prot è quello di fornire tutte le informazioni note relative ad una particolare proteina. Le annotazioni vengono riviste periodicamente per tenere il passo con le attuali conoscenze scientifiche. Le annotazioni manuali di una voce comprendono analisi dettagliate delle sequenze proteiche e della letteratura scientifica.[12]

Le sequenze dello stesso gene e della stessa specie vengono fuse nella stessa voce del database. Le differenze tra le sequenze vengono identificate, e la loro causa documentata (per esempio Splicing alternativo, variazione naturale, luoghi di iniziazione non corretti, confini di esone non corretti, frameshifts, conflitti non identificati). Una gamma di strumenti di analisi di sequenza viene utilizzata nelle annotazioni delle voci di UniProtKB/Swiss-Prot. Previsioni computerizzate sono valutate manualmente, e i risultati pertinenti vengono selezionati per essere inclusi nella voce. Queste previsioni includono le modificazioni post-traduzionali, dominii transmembrani e topologia, peptide segnali, identificazione di dominio, e classificazione della famiglia di proteine.[12][13]

Vengono identificate tramite banche dati di ricerca come Pubmed le pubblicazioni sull'argomento. Viene letto il testo completo di ogni documento, e l'informazione viene estratta ed inserita nella voce. Le annotazioni derivanti dalla letteratura scientifica includono (ma non si limitano):[12][13][14]

Le voci annotate vengono sottoposte al controllo di qualità, prima dell'inclusione nell'UniProtKB/Swiss-Prot. Quando i nuovi dati sono disponibili, le voci vengono aggiornate.

UniProtKB/TrEMBL[modifica | modifica sorgente]

UniParc[modifica | modifica sorgente]

UniRef[modifica | modifica sorgente]

UniMes[modifica | modifica sorgente]

Note[modifica | modifica sorgente]

  1. ^ Dayhoff, Margaret O., Atlas of protein sequence and structure, Silver Spring, Md, National Biomedical Research Foundation, 1965, ISBN.
  2. ^ 2002 Release: NHGRI Funds Global Protein Database
  3. ^ O'Donovan C, Martin MJ, Gattiker A, Gasteiger E, Bairoch A, Apweiler R, High-quality protein knowledge resource: SWISS-PROT and TrEMBL in Brief. Bioinformatics, vol. 3, nº 3, settembre 2002, pp. 275–84, PMID 12230036.
  4. ^ Wu CH, Yeh LS, Huang H, et al., The Protein Information Resource in Nucleic Acids Res., vol. 31, nº 1, gennaio 2003, pp. 345–7, PMC 165487, PMID 12520019.
  5. ^ Boeckmann B, Bairoch A, Apweiler R, et al., The SWISS-PROT protein knowledgebase and its supplement TrEMBL in 2003 in Nucleic Acids Res., vol. 31, nº 1, gennaio 2003, pp. 365–70, PMC 165542, PMID 12520024.
  6. ^ Bairoch Amos, Serendipity in bioinformatics, the tribulations of a Swiss bioinformatician through exciting times! in Bioinformatics, vol. 16, nº 1, 2000, pp. 48–64, DOI:10.1093/bioinformatics/16.1.48, PMID 10812477.
  7. ^ Séverine Altairac, "Naissance d’une banque de données: Interview du prof. Amos Bairoch". Protéines à la Une, agosto 2006. ISSN 1660-9824.
  8. ^ Ongoing and future developments at the Universal Protein Resource in Nucleic Acids Research, vol. 39, Database issue, gennaio 2011, pp. D214–9, DOI:10.1093/nar/gkq1020, PMC 3013648, PMID 21051339.
  9. ^ The Universal Protein Resource (UniProt) in 2010 in Nucleic Acids Res., vol. 38, Database issue, gennaio 2010, pp. D142–8, DOI:10.1093/nar/gkp846, PMC 2808944, PMID 19843607.
  10. ^ UniProtKB/SwissProt release statistics
  11. ^ UniProtKB/TrEMBL release statistics
  12. ^ a b c Annotazioni di UniProtKB
  13. ^ a b Apweiler R, Bairoch A, Wu CH, et al., UniProt: the Universal Protein knowledgebase in Nucleic Acids Res., vol. 32, Database issue, gennaio 2004, pp. D115–9, DOI:10.1093/nar/gkh131, PMC 308865, PMID 14681372.
  14. ^ Apweiler R, Bairoch A, Wu CH, Protein sequence databases in Curr Opin Chem Biol, vol. 8, nº 1, febbraio 2004, pp. 76–80, DOI:10.1016/j.cbpa.2003.12.004, PMID 15036160.

Collegamenti esterni[modifica | modifica sorgente]