Allineamento di sequenze

Da Wikipedia, l'enciclopedia libera.

L'allineamento di sequenze è una procedura bioinformatica nella quale vengono messe a confronto ed allineate due o più sequenze primarie di aminoacidi, DNA o RNA. L'allineamento permette di individuare regioni identiche o simili che possono avere relazioni funzionali, strutturali o filogenetiche (evolutive). Spesso, l'allineamento viene utilizzato per verificare se una sequenza di interesse sia già presente all'interno di un database di sequenze conosciute, oppure se ne esista già una simile.

Un allineamento di sequenze, prodotto dal programma ClustalW tra due proteine a dito di zinco identificate dal loro numero di accesso GenBank.

Le basi di sequenze allineate formano delle righe all'interno di una matrice, mentre le colonne sono formate dove possibile da basi identiche o simili. Spazi (gaps, identificati in un allineamento dal trattino -) possono essere introdotti per ottenere il maggior numero di identità tra sequenze, e per compensare eventuali inserimenti o rimozioni (indels) evolutive di basi. Se due sequenze sono omologhe, gli errori in un allineamento possono essere interpretati come singole mutazioni, mentre gli spazi come indels, introdotti in una sequenza dopo il punto di divergenza.

Nell'allineamento di sequenze di aminoacidi, la similarità tra basi nella stessa colonna fornisce informazioni sulla conservazione di una particolare regione della proteina. L'assenza di sostituzioni, o la presenza esclusiva di sostituzioni conservative (un aminoacido sostituito ad un altro con un gruppo laterale R con simili proprietà biochimiche) in una regione del polipeptide può indicare che questa regione è importante a livello strutturale o funzionale.

Programmi specializzati nell'allineamento possono offrire due opzioni: allineamenti globali o locali. L'allineamento globale è un'ottimizzazione che cerca di estendere l'appaiamento delle basi lungo le intere sequenze; l'allineamento locale invece cerca di identificare regioni di similarità all'interno di sequenze che possono essere molto diverse. L'allineamento locale è solitamente preferito, nonostante sia più difficile da produrre, dato l'aggiunto problema dell'identificazione di regioni simili.

Algoritmi di allineamento[modifica | modifica sorgente]

Storicamente uno dei primi algoritmi di allineamento di tipo globale è l'algoritmo Needleman-Wunsch[1] del 1970, basato sulla programmazione dinamica. Successivamente, nel 1981 è stato proposto l'algorimo Smith-Waterman[2] basato sempre sulla programmazione dinamica ma che produce un allineamento di tipo locale.

Per determinare l'edit distance (cioè quanto le sequenze sono differenti) si possono usare diverse metriche. Le più famose sono la distanza di Levenshtein (che conta il numero di sostituzioni, inserimenti e cancellazioni) o la distanza di Hamming (che conta solo il numero di sostituzioni e non ammette inserimenti e cancellazioni).

Software[modifica | modifica sorgente]

Esistono molti software di allineamento, uno dei più usati e famosi è BLAST (Basic Local Alignment Search Tools).

Note[modifica | modifica sorgente]

  1. ^ Needleman, Saul B.; and Wunsch, Christian D., A general method applicable to the search for similarities in the amino acid sequence of two proteins in Journal of Molecular Biology, vol. 48, nº 3, 1970, pp. 443–53, DOI:10.1016/0022-2836(70)90057-4, PMID 5420325.
  2. ^ Smith, Temple F.; and Waterman, Michael S., doi=10.1016/0022-2836(81)90087-5 Identification of Common Molecular Subsequences in Journal of Molecular Biology, vol. 147, 1981, pp. 195–197.

Voci correlate[modifica | modifica sorgente]