Les algorithmes de classification de parole ou musique utilisent le plus souvent des descripteurs basés sur des MFCC, calculés sur des petits intervales de 25ms. Ces coefficients ne capturent pas les structures de longue durées à l'échelle de la seconde ou plus, qui sont fondamentales en musiques.
Nous introduirons une représentation non-linéaire par ondelettes qui est localement invariante et permet de caractériser les structures de modulation multiéchelles des sons.../...