Google et l'impérialisme linguistique,Il pleut des chats et des chiens*
Au début du mois de décembre dernier*, quiconque demandait à Google Traduction l’équivalent italien de l’expression « Cette fille est jolie » obtenait une proposition étrange : Questa ragazza è abbastanza, littéralement « Cette fille est assez ». La beauté s’était lost in translation – perdue en cours de traduction.Comment un des traducteurs automatiques les plus performants du monde, fort d’un capital linguistique unique constitué de milliards de phrases, peut-il commettre une erreur aussi grossière ? La réponse est simple : il passe par l’anglais. « Jolie » peut se traduire par pretty, qui signifie à la fois « joli » et « assez ». Le second sens correspond à l’italien abbastanza.
Ce principe connu, il devient aisé de produire des phrases insolites et souvent amusantes. « Je pense que vous avez un président magnifique » devient Penso che tu abbia una bella sedia, c’est-à-dire : « Je pense que tu as une jolie chaise », car « président » peut se traduire par chair en anglais. L’usage de l’anglais comme pivot conduit parfois à des contresens. Hai fatto un compito terrificante, c’est-à-dire «Tu as fait un devoir terriblement mauvais », se traduit dans Google par «Vous avez fait un travail formidable » par l’entremise de l’anglais terrific ; l’expression idiomatique « Il pleut des cordes » se transforme en un très poétique Piove gatti e cani – il pleut des chats et des chiens. Cette traduction de It’s raining cats and dogs s’avère incompréhensible pour un Italien.
Pour élaborer un traducteur automatique, il faut disposer de grands corpus de textes identiques traduits d’une langue à l’autre. Entreprise américaine, Google a logiquement construit son outil sur des paires textuelles utilisant presque toujours l’anglais comme langue pivot. Pour aller du français vers l’italien, il faut ainsi, « par construction », passer par une traduction anglaise intermédiaire. Ce processus engendre un biais linguistique important. Le français et l’italien sont des langues relativement proches. En comparaison, l’anglais est une langue particulière, compacte, riche en formules idiomatiques. Une mauvaise compréhension du contexte ouvre la voie à de nombreuses erreurs. Projeter une expression vers l’espace anglophone puis la renvoyer vers une langue cible induit des innovations linguistiques involontaires.
Les bizarreries produites par les traducteurs automatiques peuvent sembler anecdotiques. La traduction en général et la traduction automatique en particulier posent des problèmes notoirement difficiles. Dans ces conditions, comment s’étonner que les machines se trompent ? Leurs erreurs présentent d’ailleurs un intérêt ; elles nous font réfléchir aux spécificités de chaque langue. Et puis, à terme, le développement de corpus bilingues évitant l’entremise de l’anglais tout comme les corrections effectuées par les internautes eux-mêmes devraient améliorer les traductions. Peut-être les fautes mentionnées dans cet article sont-elles déjà corrigées au moment où, selon la formule consacrée, nous mettons sous presse – une locution que Google traduit en espagnol par vamos a presionar : « nous allons appuyer ». Faut-il alors vraiment s’inquiéter du phénomène ?
Pour comprendre les effets réels de l’anglais comme langue pivot, il faut replacer la traduction automatique dans le contexte plus large des textes faisant appel aux algorithmes sur Internet. Ces programmes informatiques engendrent non seulement des innovations linguistiques dans le contexte de traductions robotisées, mais sont également utilisés pour rédiger automatiquement des articles de presse, corriger syntaxiquement et sémantiquement le contenu des pages Wikipédia, produire des messages publicitaires ciblés ou optimiser le contenu d’une page Web pour faciliter son indexation par les moteurs de recherche.
Dès lors, comment distinguer les ressources linguistiques primaires, produites par des humains sans médiation algorithmique (conversations écrites, contenus de livres numérisés, etc.), des ressources linguistiques secondaires, qui découlent de transformations algorithmiques de ressources primaires ?
Avec la généralisation de l’autocomplétion dans beaucoup d’interfaces de saisie – l’utilisateur tape un début d’expression, et un programme complète automatiquement la phrase –, les algorithmes sont devenus des intermédiaires presque systématiques quand nous écrivons en ligne. Dans bien des cas,nous cessons de saisir nos textes lettre par lettre ou mot à mot : nous nous contentons de choisir parmi plusieurs prolongations possibles proposées par des algorithmes. Cette forme d’écriture allie rapidité et eff icacité, en particulier lorsqu’on utilise le clavier réduit d’un téléphone portable. Dans ce nouveau cadre, rédiger consiste juste à choisir agilement un chemin dans l’arborescence des expressions prédictibles. D’ici quelques années, il sera sans doute difficile de trouver une interface qui n’utilise pas cette technologie.
Comme les autres ressources secondaires, les textes produits algorithmiquement par des traducteurs automatiques ne sont pas nécessairement identifiés ou labellisés comme tels. Ils se présentent au contraire souvent comme des ressources primaires, naturelles, que des lecteurs peuvent éventuellement prendre pour modèle. Un internaute dont l’italien N’est pas la langue maternelle n’a aucune raison de juger fautive l’expression Piove gatti e cani. La remarque vaut a fortiori pour les algorithmes qui passent au crible la structure de la langue dans le but de produire artificiellement de nouveaux textes. Un algorithme cherchant une source primaire pour optimiser ses capacités de traduction peut utiliser par mégarde un texte produit par un autre algorithme, comportant faux sens et faux amis.
Frederic Kaplan et Dana Kianfar
*2014
* ce texte est issu du #730 du Monde diplomatique, janvier 2015, page 28
Ce principe connu, il devient aisé de produire des phrases insolites et souvent amusantes. « Je pense que vous avez un président magnifique » devient Penso che tu abbia una bella sedia, c’est-à-dire : « Je pense que tu as une jolie chaise », car « président » peut se traduire par chair en anglais. L’usage de l’anglais comme pivot conduit parfois à des contresens. Hai fatto un compito terrificante, c’est-à-dire «Tu as fait un devoir terriblement mauvais », se traduit dans Google par «Vous avez fait un travail formidable » par l’entremise de l’anglais terrific ; l’expression idiomatique « Il pleut des cordes » se transforme en un très poétique Piove gatti e cani – il pleut des chats et des chiens. Cette traduction de It’s raining cats and dogs s’avère incompréhensible pour un Italien.
Pour élaborer un traducteur automatique, il faut disposer de grands corpus de textes identiques traduits d’une langue à l’autre. Entreprise américaine, Google a logiquement construit son outil sur des paires textuelles utilisant presque toujours l’anglais comme langue pivot. Pour aller du français vers l’italien, il faut ainsi, « par construction », passer par une traduction anglaise intermédiaire. Ce processus engendre un biais linguistique important. Le français et l’italien sont des langues relativement proches. En comparaison, l’anglais est une langue particulière, compacte, riche en formules idiomatiques. Une mauvaise compréhension du contexte ouvre la voie à de nombreuses erreurs. Projeter une expression vers l’espace anglophone puis la renvoyer vers une langue cible induit des innovations linguistiques involontaires.
Les bizarreries produites par les traducteurs automatiques peuvent sembler anecdotiques. La traduction en général et la traduction automatique en particulier posent des problèmes notoirement difficiles. Dans ces conditions, comment s’étonner que les machines se trompent ? Leurs erreurs présentent d’ailleurs un intérêt ; elles nous font réfléchir aux spécificités de chaque langue. Et puis, à terme, le développement de corpus bilingues évitant l’entremise de l’anglais tout comme les corrections effectuées par les internautes eux-mêmes devraient améliorer les traductions. Peut-être les fautes mentionnées dans cet article sont-elles déjà corrigées au moment où, selon la formule consacrée, nous mettons sous presse – une locution que Google traduit en espagnol par vamos a presionar : « nous allons appuyer ». Faut-il alors vraiment s’inquiéter du phénomène ?
Pour comprendre les effets réels de l’anglais comme langue pivot, il faut replacer la traduction automatique dans le contexte plus large des textes faisant appel aux algorithmes sur Internet. Ces programmes informatiques engendrent non seulement des innovations linguistiques dans le contexte de traductions robotisées, mais sont également utilisés pour rédiger automatiquement des articles de presse, corriger syntaxiquement et sémantiquement le contenu des pages Wikipédia, produire des messages publicitaires ciblés ou optimiser le contenu d’une page Web pour faciliter son indexation par les moteurs de recherche.
Dès lors, comment distinguer les ressources linguistiques primaires, produites par des humains sans médiation algorithmique (conversations écrites, contenus de livres numérisés, etc.), des ressources linguistiques secondaires, qui découlent de transformations algorithmiques de ressources primaires ?
Avec la généralisation de l’autocomplétion dans beaucoup d’interfaces de saisie – l’utilisateur tape un début d’expression, et un programme complète automatiquement la phrase –, les algorithmes sont devenus des intermédiaires presque systématiques quand nous écrivons en ligne. Dans bien des cas,nous cessons de saisir nos textes lettre par lettre ou mot à mot : nous nous contentons de choisir parmi plusieurs prolongations possibles proposées par des algorithmes. Cette forme d’écriture allie rapidité et eff icacité, en particulier lorsqu’on utilise le clavier réduit d’un téléphone portable. Dans ce nouveau cadre, rédiger consiste juste à choisir agilement un chemin dans l’arborescence des expressions prédictibles. D’ici quelques années, il sera sans doute difficile de trouver une interface qui n’utilise pas cette technologie.
Comme les autres ressources secondaires, les textes produits algorithmiquement par des traducteurs automatiques ne sont pas nécessairement identifiés ou labellisés comme tels. Ils se présentent au contraire souvent comme des ressources primaires, naturelles, que des lecteurs peuvent éventuellement prendre pour modèle. Un internaute dont l’italien N’est pas la langue maternelle n’a aucune raison de juger fautive l’expression Piove gatti e cani. La remarque vaut a fortiori pour les algorithmes qui passent au crible la structure de la langue dans le but de produire artificiellement de nouveaux textes. Un algorithme cherchant une source primaire pour optimiser ses capacités de traduction peut utiliser par mégarde un texte produit par un autre algorithme, comportant faux sens et faux amis.
Frederic Kaplan et Dana Kianfar
*2014
* ce texte est issu du #730 du Monde diplomatique, janvier 2015, page 28
Post a Comment