Samedi, un L’enquête d’Associated Press a révélé que l’outil de transcription Whisper d’OpenAI crée des textes fabriqués dans des contextes médicaux et commerciaux malgré les avertissements contre une telle utilisation. L’AP a interrogé plus de 12 ingénieurs logiciels, développeurs et chercheurs qui ont découvert que le modèle inventait régulièrement des textes que les locuteurs n’avaient jamais prononcés, un phénomène souvent appelé « confabulation » ou « hallucination » dans le domaine de l’IA.
Lors de sa sortie en 2022, OpenAI a affirmé que Whisper approchait de la « robustesse au niveau humain » en termes de précision de transcription audio. Cependant, un chercheur de l’Université du Michigan a déclaré à l’AP que Whisper avait créé de faux textes dans 80 % des transcriptions de réunions publiques examinées. Un autre développeur, anonyme dans le rapport de l’AP, a affirmé avoir trouvé du contenu inventé dans presque toutes ses 26 000 transcriptions de tests.
Les fabrications présentent des risques particuliers dans les établissements de soins de santé. Malgré les avertissements d’OpenAI contre l’utilisation de Whisper pour les « domaines à haut risque », plus de 30 000 professionnels de la santé utilisent désormais des outils basés sur Whisper pour transcrire les visites des patients, selon le rapport de l’AP. La clinique Mankato du Minnesota et l’hôpital pour enfants de Los Angeles font partie des 40 systèmes de santé utilisant un service copilote d’IA alimenté par Whisper de la société de technologie médicale Nabla, affiné sur la terminologie médicale.
Nabla reconnaît que Whisper peut fabuler, mais il aurait également effacé les enregistrements audio originaux « pour des raisons de sécurité des données ». Cela pourrait entraîner des problèmes supplémentaires, puisque les médecins ne peuvent pas vérifier l’exactitude par rapport au matériel source. Et les patients sourds peuvent être fortement touchés par des transcriptions erronées, car ils n’auraient aucun moyen de savoir si l’audio des transcriptions médicales est exact ou non.
Les problèmes potentiels liés à Whisper s’étendent au-delà des soins de santé. Des chercheurs de l’Université Cornell et de l’Université de Virginie ont étudié des milliers d’échantillons audio et ont découvert que Whisper ajoutait un contenu violent et des commentaires racistes inexistants à un discours neutre. Ils ont constaté que 1 pour cent des échantillons comprenaient « des phrases ou des phrases hallucinées entières qui n’existaient sous aucune forme dans l’audio sous-jacent » et que 38 pour cent d’entre eux comprenaient « des préjudices explicites tels que perpétuer la violence, établir des associations inexactes ou impliquer une fausse autorité. .»
Dans un cas tiré de l’étude citée par AP, lorsqu’un orateur a décrit « deux autres filles et une dame », Whisper a ajouté un texte fictif spécifiant qu’elles « étaient noires ». Dans un autre, l’audio disait : « Lui, le garçon, allait, je ne suis pas sûr exactement, prendre le parapluie. » Whisper l’a transcrit ainsi : « Il a pris un gros morceau de croix, un tout petit morceau… Je suis sûr qu’il n’avait pas de couteau terroriste, alors il a tué un certain nombre de personnes. »
Un porte-parole d’OpenAI a déclaré à l’AP que la société appréciait les découvertes des chercheurs et qu’elle étudiait activement comment réduire les fabrications et intégrait les commentaires dans les mises à jour du modèle.
Pourquoi Whisper confabule
La clé de l’inadéquation de Whisper dans les domaines à haut risque vient de sa propension à parfois fabuler, ou à inventer de manière plausible, des résultats inexacts. Le rapport de l’AP indique : « Les chercheurs ne savent pas exactement pourquoi Whisper et les outils similaires hallucinent », mais ce n’est pas vrai. Nous savons exactement pourquoi les modèles d’IA basés sur Transformer comme Whisper se comportent de cette façon.
Whisper est basé sur une technologie conçue pour prédire le prochain jeton le plus probable (morceau de données) qui devrait apparaître après une séquence de jetons fournie par un utilisateur. Dans le cas de ChatGPT, les jetons d’entrée se présentent sous la forme d’une invite texte. Dans le cas de Whisper, l’entrée est constituée de données audio tokenisées.