GenBank

Da Wikipedia, l'enciclopedia libera.
Vai alla navigazione Vai alla ricerca
CD della versione 100 di GenBank

GenBank è una banca dati open access, istituita nel 1982, che riporta tutte le sequenze di nucleotidi e le relative proteine ottenute dopo la loro traduzione. Il database è prodotto e mantenuto dal National Center for Biotechnology Information (NCBI), che è parte dei National Institutes of Health statunitensi, all'interno della International Nucleotide Sequence Database Collaboration (INSDC).[1]

GenBank riceve le proprie informazioni dai risultati ottenuti su oltre 300.000 distinti organismi da laboratori sparsi in tutto il mondo,[2] rappresentando il più importante punto di riferimento nel suo campo di ricerca. La versione 236.0, datata 15 febbraio 2020, contiene oltre 216 milioni di loci e oltre 399 miliardi di basi da più di 216 milioni di sequenze riportate.[3]

Storia[modifica | modifica wikitesto]

L'idea di creare un database per le sequenze di nucleotidi nacque originariamente nel 1979 avendo tra i principali promotori Walter Goad, ricercatore del gruppo di biologia teorica e biofisica presso il Los Alamos National Laboratory.[4] Tre anni dopo si ebbe la creazione di GenBank, con il finanziamento dei National Institutes of Health e di altri enti federali. Il Los Alamos National Laboratory iniziò a collaborare con la società Bolt, Beranek and Newman e nel giro di un anno GenBank raccolse oltre 2.000 sequenze.

Verso la metà degli anni '80 la società Intelligenetics bioinformatics dell'Università di Stanford gestì il progetto GenBank, sempre in collaborazione con il Los Alamos National Laboratory.[5] Una tra le prime comunità di bioinformatica presenti su Internet, il GenBank cominciò a promuovere le comunicazioni scientifiche ad accesso aperto. Tra il 1989 e il 1992 si ebbe il passaggio del progetto al nuovo National Center for Biotechnology Information.[6]

Invio dei dati[modifica | modifica wikitesto]

Possono essere presentate a GenBank solamente sequenze originali. L'invio diretto dei dati può essere effettuato online tramite BankIt oppure offline utilizzando il software Sequin. Ricevuta la sequenza, il personale addetto esamina l'originalità dei dati e le assegna un numero d'accesso garantendo il controllo di qualità. Infine i dati vengono inseriti nel database e resi pubblici, diventando raggiungibili attraverso Entrez o scaricabili via FTP. Gli invii massivi di Expressed sequence tag (EST), Sequence-tagged site (STS), Genome survey sequence (GSS), e High-throughput genome sequence (HTGS) sono più spesso opera di centri di sequenziamento su larga scala. GenBank gestisce ed elabora anche sequenze genomiche microbiche complete.

Note[modifica | modifica wikitesto]

  1. ^ (EN) GenBank Overview, su ncbi.nlm.nih.gov. URL consultato il 4 luglio 2016.
  2. ^ E.W. Sayers e I. Karsch-Mizrachi, Using GenBank, in Methods Mol Biol, vol. 1374, 2016, pp. 1-22, DOI:10.1007/978-1-4939-3167-5_1.
  3. ^ (EN) Distribution Release Notes (TXT), su ftp.ncbi.nih.gov, National Center for Biotechnology Information, 15 febbraio 2020. URL consultato il 23 febbraio 2020.
  4. ^ (EN) Walter B. Goad, GenBank (PDF), su fas.org. URL consultato il 4 luglio 2016.
  5. ^ (EN) LANL GenBank History, su bio.net. URL consultato il 4 luglio 2016.
  6. ^ D. Benton, Recent changes in the GenBank On-line Service, in Nucleic Acids Res, vol. 18, n. 6, 1990, pp. 1517–1520, PMID 2326192.

Altri progetti[modifica | modifica wikitesto]

Collegamenti esterni[modifica | modifica wikitesto]

Controllo di autoritàLCCN (ENn85375442 · J9U (ENHE987007604246305171