Onset (audio)

Da Wikipedia, l'enciclopedia libera.

Nell'audio l'onset si riferisce all'inizio di un suono o di una nota. In altre parole l'onset si riferisce all'istante in cui un evento ha inizio, la fase di attacco nella modellizzazione ADSR. Nell'onset l'ampiezza cresce da zero al valore di picco. È legato (ma differente) al concetto di transitorio: tutte le note musicali hanno un onset, ma non necessariamente includono un transitorio iniziale (si pensi ad esempio ai legati).

In fonetica il termine è usato in maniera differente.

Onset detection[modifica | modifica wikitesto]

In signal processing la ricerca dell'onset è tutt'altro che semplice ed è oggetto di una competizione annuale: l'Audio Onset Detection contest.

I differenti approcci all'onset posso operare nel dominio del tempo, della frequenza, della fase o complesso. È caratterizzato da:

  • aumento dell'energia spettrale
  • cambiamenti nella distribuzione dell'energia spettrale (flusso spettrale) o nella fase
  • cambiamenti nel pitch rilevato, ad esempio usando un algoritmo di polyphonic pitch detection
  • pattern spettrali riconoscibili attraverso tecniche di machine learning come ad esempio le reti neurali.

Semplici tecniche basate sulla valutazione dell'incremento dell'ampiezza nel dominio del tempo possono portare a risultati non soddisfacenti. L'auspicio spesso è quello di giudicare l'onset similmente a come un uomo vorrebbe: quindi possono essere usate tecniche motivate dalla psicoacustica. A volte la ricerca dell'onset può essere ristretta ad un dominio particolare (a seconda di cosa si vuole ottenere), per esempio cercando esclusivamente gli onset dei suoni percussivi. Con un obiettivo più preciso è più semplice sviluppare ed utilizzare delle tecniche che permettono di ottenere risultati soddisfacenti.

Metodi di rilevamento dell'onset[modifica | modifica wikitesto]

Onset detection nel dominio della frequenza[modifica | modifica wikitesto]

Nel dominio della frequenza l'aumento di energia dovuto ad un transitorio tende a distribuirsi in una banda molto ampia dello spettro. Mentre l'energia di un segnale è normalmente concentrata alle basse frequenze, i cambiamenti dovuti ai transitori sono più visibili alle alte frequenze.

Una successione di frame è come una successione di fotografie dello spettro del segnale che evolve nel tempo. La funzione di HFC (High Frequency Content) è definita per ogni frame come:

 D_H[j] = \sum_{k} k |X_j[k]|

dove |X_j[k]| è il modulo dello spettro del frame j-esimo. Scopo della HFC è quello di enfatizzare le alte frequenze e funziona molto bene per identificare l'onset di suoni di tipo percussivo. La particolarità della HFC è quella di avere una maggiore ampiezza durante il transitorio/attacco del suono.

Onset detection attraverso l'energia locale[modifica | modifica wikitesto]

Tutti i metodi riferiti al dominio del tempo si basano sul calcolo di una funzione alle differenze del primo ordine dell'inviluppo del segnale per ottenere il punto in cui c'è il massimo gradiente di salita ed identificarlo come onset.

Normalmente si utilizza la funzione di detection D(t): derivata nel tempo dell'energia del segnale

 D(t) = \frac {\operatorname d E(t)}{\operatorname d t}

(per i segnali discreti la differenza prima). In questo modo incrementi improvvisi di energia (onset del suono) vengono evidenziati da picchi molto stretti della derivata.

Se si considera anche la percezione di un suono la psicoacustica indica che il volume di un suono è percepito in maniera logaritmica, quindi si avrà una funzione del tipo:

 D(t) = \frac {\operatorname d (log(E(t)))}{\operatorname d t} = \frac {\operatorname 1}{\operatorname E(t)} \cdot \frac {\operatorname d E(t)}{\operatorname d t}

Parallelamente nel dominio discreto calcolando la differenza prima del log(E[n]) approssimativamente si simula la percezione uditiva del volume.

Bibliografia[modifica | modifica wikitesto]

musica Portale Musica: accedi alle voci di Wikipedia che trattano di musica