Reproduction de la voix par intelligence artificielle, est-ce qu'on tire la sonnette d'alarme ?
Reproduction de la voix par intelligence artificielle, est-ce qu'on tire la sonnette d'alarme ? La technologie de l’IA pour les deepfakes est déjà assez convaincante, et il y a lieu de s’attendre à ce que sa qualité s’améliore avec le temps. Mais même lorsque les gens font de leur mieux, ils ne semblent pas très doués pour distinguer les sons authentiques des faux. Pire encore, une nouvelle étude suggère que les gens ne peuvent actuellement pas faire grand-chose, même après avoir essayé d'améliorer leurs compétences de détection. Selon une étude publiée dans PLOS One, les faux sons sont en fait capables de tromper les auditeurs humains environ une fois sur quatre. Ces statistiques alarmantes sont dues à des chercheurs de l’University College London au Royaume-Uni, qui ont récemment demandé à plus de 500 volontaires d’examiner un ensemble de fausses voix et de vraies voix en anglais et en chinois. Certains participants ont reçu au préalable des échantillons de faux sons pour les aider et les préparer à identifier les syllabes générées par l’IA. Quelle que soit la formation, les chercheurs ont constaté qu’en moyenne, les participants étaient capables d’identifier les faux votes environ 73 % mieux. Bien que ce pourcentage soit considéré comme une réussite sur le plan académique, le taux d’erreur a de quoi susciter de sérieuses inquiétudes, d’autant plus que ce pourcentage était en moyenne le même parmi les participants ayant suivi une formation préalable et parmi les participants ne l’ayant pas suivi. C’est extrêmement inquiétant compte tenu de ce que la technologie deepfake a pu accomplir au cours de sa courte durée de vie. Par exemple, plus tôt cette année, des escrocs ont tenté d’extorquer une rançon à une mère en utilisant un faux audio affirmant que sa fille avait été kidnappée. Elle n’est pas la seule à être confrontée à des situations aussi terrifiantes. Les résultats sont encore plus troublants lorsqu’on lit entre les lignes. Les chercheurs suggèrent que les participants savaient avant de commencer l’expérience que son objectif était d’écouter de fausses voix, et que certains d’entre eux étaient peut-être déjà prêts à être en état d’alerte pour détecter les fausses voix. Cela signifie que des cibles sans méfiance pourraient facilement avoir des résultats pires que ceux qui ont participé à l’expérience. L’étude note également que l’équipe n’a pas utilisé une technologie avancée d’IA pour générer de la parole, ce qui signifie que les voix générées les plus convaincantes existent déjà. Étonnamment, lorsque les faux sons étaient correctement identifiés, les signaux de détection potentiels des faux sons différaient en fonction de la langue parlée par les participants. Ceux qui parlent couramment l'anglais citent souvent la respiration comme indicateur, tandis que les locuteurs chinois se concentrent sur la fluidité, le rythme et l'intonation comme marqueurs permettant de différencier les sons faux des vrais. Cependant, l’équipe conclut maintenant que l’amélioration des systèmes de détection automatique constitue un objectif précieux et réaliste pour lutter contre le clonage de voix avec des techniques d’IA, mais elle suggère également qu’une analyse humaine approfondie en communiquant au public sur les faux votes pourrait contribuer à améliorer les choses. Quoi qu’il en soit, c’est un autre argument en faveur de la nécessité d’une surveillance réglementaire et d’une évaluation approfondies des faux votes et d’autres technologies d’IA.