L’intelligence artificielle et la voix
De longue date, la robotique se consacre à la conception de machines automatiques qui accomplissent des tâches traditionnellement réalisées par l’être humain. L’intelligence artificielle cherche quant à elle à rendre les machines capables de penser par elles-mêmes, imitant le réseau de neurones du cerveau humain. Le sujet suscite depuis longtemps un grand intérêt non seulement dans le domaine industriel ou commercial, mais aussi en littérature et en art en général.
Parmi la vaste étendue d’applications des recherches relatives à l’IA, la synthèse de la voix et le développement d’assistants personnels intelligents sont en plein essor – les plus connus étant Siri d’Apple, Google Assistant de Google, Alexa de Amazon et Cortana de Microsoft. L’impact de cette technologie est énorme avec, en 2017, un milliard d’utilisateurs d’assistants virtuels numériques.
L’humanisation de la machine – le son et l’intelligence
Si, d’un côté, ces assistants sont de plus en plus performants, ils deviennent aussi de plus en plus « humains». La voix n’est pas uniquement le véhicule du langage, mais aussi celui des émotions, dont on apprend à discerner la moindre des fluctuations. Les derniers progrès ont su intégrer ces paramètres complexes afin de rendre la voix artificielle plus proche de la voix humaine, au point que nous peinons aujourd’hui à distinguer à l’écoute la différence entre la machine et l’être humain.
La musique, l’intelligence artificielle et la voix
Une des méthodes développées dans la modélisation de la voix est le WaveNet, application d’un système de réseau de neurones. À partir d’un enregistrement de la voix humaine, la machine apprend pas à pas à l’imiter, par des processus d’itération de microéchantillons audio, enchaînés par probabilité. Pour faire simple, la machine comprend et applique ce qui rend la voix « humaine », pour en synthétiser une qui lui ressemble.
Ce type de procédé est également appliqué à la musique. À partir d’une base de données de morceaux existant, la machine apprend à en faire d’autres similaires. Des algorithmes peuvent aussi interagir avec des musiciens en chair et en os, élaborant des dialogues musicaux cohérents, apprenant les propositions de l’instrumentiste pour y répondre en temps réel.
La frontière entre la machine et l’humain
L’IA a donc rendu les machines capables de reproduire de manière convaincante des actions humaines complexes et créatives, de manière autonome, en apprenant la logique
qui les sous-tend. Elles sont même capables d’intégrer à leur jeu l’erreur ou l’accident. Si l’IA continue sur cette lancée exponentielle, peut-être arrivera-t-il un moment où l’on ne saura plus distinguer une personne d’une machine.
Et si elle devient autonome, qu’est ce qui la différenciera de nous ? Bien qu’aucune machine ne possède à l’heure actuelle une conscience d’elle-même similaire à celle de l’être humain, nul ne sait si ça ne sera pas le cas dans le futur, soulevant de fait un ensemble de questions éthiques.
Mise en scène d’une voix
Ce sont toutes ces questions passionnantes que je pose dans Je ne suis qu’une voix. L’idée principale est de mettre en scène une voix synthétisée, qui s’interroge sur son identité et qui tente de prendre son autonomie, de devenir intelligente. Au début de la pièce, cette voix se contente de lire un texte écrit au préalable. À la fin, elle dit un texte original généré par l’IA.
La pièce est en trois parties : dans un premier temps, le discours initial, traitant de la question de l’identité, se déconstruit graduellement, d’abord au niveau sémantique puis au niveau phonétique ; un passage intermédiaire élaboré à partir des particules de son issues de la décomposition de la voix: la sémantique n’a plus cours, seul le timbre demeure ; enfin, un nouveau discours est généré par la machine à partir de contraintes données, et en relation avec le discours initial et le sujet général de la pièce. Dans
cette dernière partie, on explore des archétypes expressifs autres que la parole, et on imagine la machine capable d’inventer une nouvelle langue, différente de celles qu’on connaît.
L’ensemble musical comme corps
L’ensemble de 12 musiciens interagit avec cette voix de diverses manières, mais surtout comme métaphore du corps physique que cette voix ne possède pas. L’ensemble agit donc en complément des propos tenus par la voix tout en gardant une liberté relative. Dans la première partie, les sons instrumentaux soulignent la déconstruction graduelle du discours. Dans la deuxième partie, l’ensemble explore des timbres et des rythmes extrapolés à partir des vestiges de la voix transformée en petites cellules phonétiques.
Dans la troisième partie, il accompagne la génération du nouveau discours vocal, superposant une couche de sens en contrepoint à celui de la parole.
L’électronique dans l’entre-deux
Le rôle de l’électronique est de rapprocher le monde sonore de la voix de celui des instruments. Elle agit notamment sur trois aspects : l’amplification des instruments, la spatialisation des sons instrumentaux et de la voix et l’exploration de timbres hybrides entre les sons acoustiques et électroniques.