Petición de contribuciones (libro)
La traducción automática neuronal entre lenguas romances. Proyecto de publicación de un volumen colectivo
En los últimos años, tanto la sociedad civil como la comunidad científica se han visto impactadas por el deslumbrante progreso observado en el campo de la traducción automática. Desde que se generalizó su uso a partir de 2016 (cf. Kenny 2022), los nuevos modelos de traducción automática neuronal (en adelante TAN) han despertado un gran interés por el "salto cualitativo" (Poibeau 2019: 28) que han evidenciado. El número de publicaciones sobre este tema está en constante aumento (cf. Stahlberg 2020: 344).
En el ámbito de la traductología, los motores de TAN se han abordado en relación con muchas dimensiones, tales como las siguientes:
- la descripción de su arquitectura, funcionamiento y proceso de aprendizaje (Pérez-Ortiz et al. 2022, Zimina-Poirot et al. 2020),
- la comparación con otros métodos y modelos de traducción automática (Bentivogli et al. 2016, Poibeau 2019, Sánchez-Gijón et al. 2019, Toral et al. 2017),
- la comparación con textos originales o con traducciones humanas (Briva-Iglesias 2021, Jia & Sun 2022, Kenny 2022, Loock 2018),
- la identificación de fuentes de problemas y tipologías de errores (Esperança-Rodier & Becker 2018, Grass 2022, Koehn & Knowles 2017),
- la evaluación de la calidad y la posedición de resultados (Barbin 2022, Rossi & Carré 2022, O'Brien 2022, Way 2018),
- los efectos en el mercado de la traducción y en la profesión del/de la traductor/a (Fiorini 2022, Mion 2022, Rossi & Chevrot 2019, Tremblay 2019, Yvon 2019),
- los desafíos para la didáctica de las lenguas y de la traducción (Bourdais & Guichon 2020, Loock et al. 2022, Moorkens 2018, Tomaszkiewicz 2018, Zimina-Poirot & Gledhill 2019), etc.
Las dimensiones examinadas y las perspectivas adoptadas son múltiples. Sin embargo, huelga subrayar que, debido a las sinergias propias de la investigación académica actual y a la accesibilidad de cierto tipo de datos, el inglés tiene un lugar preponderante entre los idiomas estudiados en la gran mayoría de las publicaciones. Sin embargo, los resultados del TAN, y, en consecuencia, de los estudios basados en tales datos, dependen del par de lenguas utilizadas (cf. Pérez-Ortiz et al. 2022). Por tanto, es necesario diversificar las fuentes de información integrando una mayor variedad de combinaciones lingüísticas. El presente proyecto de publicación pretende hacer una contribución en esta dirección, centrando la atención en la TAN entre lenguas romances.
Las especificidades que revisten a priori las lenguas tipológicamente cercanas en el contexto de la traducción automática nos han llevado a elegir esta área lingüística, ya que debido a la arquitectura de los motores de TAN "la identificación de equivalencias de traducción" se vuelve más fácil, cuando la lengua de origen y la lengua de destino admiten una "división en palabras relativamente similar" (Poibeau 2019: 137). Otras dimensiones como el orden de las palabras y la existencia de palabras comunes entre las lenguas de trabajo parecerían constituir criterios adicionales para evaluar la incidencia de la distancia entre las lenguas (cf. Sun et al. 2021).
Asimismo, el interés por las lenguas romances también se hace visible en el informe elaborado por los expertos del grupo de trabajo "Traduction et science ouverte" (Fiorini et al. 2020). Este grupo, que se propone abordar el estudio de las herramientas de traducción automática, postula la necesidad de examinar los resultados del TAN de determinadas combinaciones lingüísticas a medio plazo, entre las cuales las lenguas romances ocupan un lugar considerable (ibid. p. 15-16).
Si bien ya existen publicaciones sobre la TAN entre lenguas romances (Boncompte & Costa-Jussà 2020, Casos Berbel & Nieto García 2021, Minervini 2021, Oliver 2020, Valdez & Lomeña 2021), el presente proyecto de publicación tiene como objetivo reunir los resultados de análisis sistemáticos de datos empíricos. En definitiva, se trata de contribuir al desarrollo de una traductología de corpus (Laviosa 2002, Loock 2016) aplicada al estudio de la TAN entre lenguas romances. Por ello, en las propuestas cabría dar prioridad a los análisis de datos empíricos (corpus construidos ad hoc o corpus ya existentes) o a los metaanálisis de los resultados expuestos en la literatura. Del mismo modo, los análisis mediante herramientas informáticas, ya sean cuantitativos o cualitativos, también serán considerados como prioritarios. Las propuestas de contribución pueden enmarcarse en las siguientes áreas temáticas (sin exclusión de otras perspectivas originales).
Áreas temáticas
Especificidades lingüísticas de la TAN entre lenguas romances
¿Existen características de la TAN entre lenguas romances comunes a otras combinaciones lingüísticas? ¿Existen especificidades? ¿Cómo pueden detectarse, describirse e integrarse en un estudio sistemático? ¿Qué relaciones se pueden establecer con el estudio de la TAN entre lenguas con poco recursos disponibles (cfr. Haque et al. 2021)?
La influencia de los campos de especialización y el lugar de una perspectiva textual
¿Qué desafíos plantea la/s lengua/s de especialidad para la TAN entre langues romances? Por otro lado, ¿qué lugar ocupa la perspectiva textual en el análisis (cfr. Bawden et al. 2018, Jean et al. 2017, Voita et al. 2018)? ¿Debe limitarse el análisis al nivel frástico? O ¿es preferible optar por una perspectiva más amplia? ¿Cuáles son las consecuencias metodológicas de tal decisión?
Posedición y evaluación de la calidad
¿Existe una tipología de errores específica a la TAN entre lenguas romances? ¿Cuáles son los errores más frecuentes? ¿A cuáles hay que dar prioridad en la postedición ligera? ¿Y en el caso de la posedición completa? ¿Qué papel desempeñan los corpus de traducción en la posedición de estos errores (cfr. Kübler et al. 2022a, 2022b)? ¿Qué lugar ocupan fenómenos ampliamente identificados para otras combinaciones lingüísticas, tales como el sesgo de género (cfr. Wisniewski et al. 2021)?
Enseñanza de segundas lenguas y de la traducción
¿En qué fase de la formación de traductores/as o de la enseñanza de segundas lenguas es pertinente integrar las herramientas TAN? ¿Qué metodología y recursos existen para las lenguas romances? ¿Qué papel desempeñan las herramientas de TAN en el desarrollo de la autonomía de los/las aprendientes? ¿Qué formación para los/las docentes?
Situación del mercado y perspectivas profesionales
¿Cuál es el impacto de TAN en el mercado de las lenguas romances? ¿En qué medida la división entre los dos tipos de posedición (ligera y completa) puede aplicarse en la práctica profesional en el caso de las lenguas romances? ¿Qué repercusiones tiene el uso de la TAN en la práctica profesional de los/las traductores?
Información práctica
Lenguas de estudio: toda combinación que implique lenguas romances
Lenguas de redacción de los capítulos: español, francés, catalán
Cronograma
Envío de los resúmenes 15 de marzo
Confirmación de los editores 30 de marzo
Envío de la versión completa de los artículos 30 de junio
Evaluación por pares (doble ciego) 20 de septiembre
Confirmación de la editorial 30 de noviembre
Nota bene: los resúmenes deben incluir un título provisional, una descripción detallada del tipo de estudio (análisis de corpus, metaanálisis), la metodología de trabajo, los resultados que se esperan y una corta bibliografía. Dichos resúmenes no deben superar las 500 palabras (sin las referencias bibliográficas) y deben ir acompañados de una breve nota biográfica.
Las propuestas serán sometidas a un proceso de evaluación por pares (doble ciego).
Responsabilidad científica
Cristian Valdez - Université Paris Cité, CLILLAC-ARP
María Lomeña Galiano - Université Rennes 2, LIDILE
Contacto: cristian.valdez@u-paris.fr ; maria.lomena@univ-rennes2.fr
------------------------
La traduction automatique neuronale entre langues romanes. Projet de publication d’ouvrage collectif
Au cours des dernières années, aussi bien la société civile que la communauté scientifique ont été frappées par les progrès fulgurants attestés dans le domaine de la traduction automatique. Depuis leur généralisation à partir de 2016 (cf. Kenny 2022), les nouveaux modèles de traduction automatique neuronale (désormais TAN) ont en effet suscité un vif intérêt à cause du « saut qualitatif » (Poibeau 2019 : 28) dont ils ont fait preuve. Le nombre de publications à ce propos n’a de cesse d’augmenter (cf. Stahlberg 2020 : 344). Dans le champ de la traductologie, les moteurs de TAN ont été abordés par rapport à de nombreuses dimensions, telles que : la description de leur architecture, fonctionnement et processus d’apprentissage (Pérez-Ortiz et al. 2022, Zimina-Poirot et al. 2020 i.a.), la comparaison avec d’autres méthodes et modèles de traduction automatique (Bentivogli et al. 2016, Poibeau 2019, Sánchez-Gijón et al. 2019, Toral et al. 2017 i.a.), la comparaison avec des textes originaux ou avec des traductions humaines (Briva-Iglesias 2021, Jia & Sun 2022, Kenny 2022, Loock 2018 i.a.), l’identification de sources de problèmes et de typologies d’erreurs (Esperança-Rodier & Becker 2018, Grass 2022, Koehn & Knowles 2017 i.a.), l’évaluation de la qualité et la post-édition des résultats (Barbin 2022, Rossi & Carré 2022, O’Brien 2022, Way 2018 i.a.), les effets sur le marché de la traduction et sur la profession de traducteur/trice (Fiorini 2022, Mion 2022, Rossi & Chevrot 2019, Tremblay 2019, Yvon 2019 i.a.), les enjeux pour la didactique des langues et de la traduction (Bourdais & Guichon 2020, Loock et al. 2022, Moorkens 2018, Tomaszkiewicz 2018, Zimina-Poirot & Gledhill 2019 i.a.), etc.
Les dimensions examinées et les perspectives adoptées sont multiples. Force est cependant de souligner que, en raison des synergies propres à la recherche académique actuelle et de l’accessibilité de certains types de données, l’anglais a une place prépondérante parmi les langues étudiées dans la grande majorité des publications. Or, les résultats de la TAN, et par conséquent des études fondées sur ces données, sont tributaires de la paire de langues retenue (cf. Pérez-Ortiz et al. 2022). Il convient dès lors de diversifier les sources d’information en intégrant une plus grande variété de combinaisons linguistiques. Le présent projet de publication vise à faire une contribution dans ce sens, en centrant l’attention sur la TAN entre langues romanes.
Le choix de cette aire linguistique est motivé par les spécificités qu’a priori revêtent les langues typologiquement voisines dans le cadre de la traduction automatique, car en raison de l’architecture des moteurs de TAN « le repérage d’équivalents traductionnels » est rendu plus facile lorsque la langue source et la langue cible admettent un «découpage en mots relativement similaire » (Poibeau 2019 : 137). D’autres dimensions telles que l’ordre des mots et l’existence de mots communs entre les langues de travail sembleraient constituer des critères supplémentaires d’évaluation de l’impact de la distance entre les langues (cf. Sun et al. 2021).
Par ailleurs, l’intérêt pour les langues romanes est également rendu visible dans le rapport dressé par les experts du groupe de travail « Traduction et science ouverte » (Fiorini et al. 2020). Ce groupe, dont l’un des objectifs consiste à aborder l’étude des outils de traduction automatique, postule la nécessité d’examiner à moyen terme les résultats de la TAN de certaines combinaisons linguistiques. Dans ces combinaisons, la part accordée aux langues romanes est loin d’être négligeable (ibid. p. 15-16).
Si les publications au sujet de la TAN entre langues romanes ne sont pas inexistantes (Boncompte & Costa-Jussà 2020, Cases Berbel & Nieto García 2021, Minervini 2021, Oliver 2020, Valdez & Lomeña 2021 i.a.), l’objectif du présent projet de publication correspond à réunir des résultats issus de l’analyse systématique de données empiriques. In fine, il s’agit de contribuer à une traductologie de corpus (Laviosa 2002, Loock 2016) appliquée à l’étude de la TAN entre langues romanes. Pour cette raison, dans les propositions, sont à privilégier les analyses de données empiriques (corpus construits ad hoc ou corpus déjà existants) ou les méta-analyses des résultats présentés dans la littérature. Dans le même sens, les analyses outillées, qu’elles soient quantitatives ou qualitatives, seront également considérées en priorité. Ces propositions de contribution peuvent s’inscrire dans les axes thématiques ci-après (sans exclure toutefois d’autres perspectives originales).
Axes d’étude
Spécificités linguistiques de la TAN entre langues romanes
Y a-t-il des caractéristiques de la TAN entre langues romanes partagées avec d’autres combinaisons linguistiques ? Y a-t-il des spécificités ? Comment les détecter, les décrire et les intégrer dans une étude systématique ? Quels ponts établir avec l’étude de la TAN intégrant des langues peu dotées (cf. Haque et al. 2021) ?
L’influence des domaines de spécialité et la place d’une perspective textuelle
Quel défis la/les langue/s de spécialité pose-t-elle à la TAN entre langues romanes ? Par ailleurs, quelle est la place d’une perspective textuelle dans l’analyse (cf. Bawden et al. 2018, Jean et al. 2017, Voita et al. 2018) ? Doit-on restreindre l’analyse au niveau phrastique ? Ou est-il souhaitable d’opter pour une perspective plus large ? Quelles conséquences une telle décision entraine-t-elle du point de vue méthodologique ?
Post-édition et évaluation de la qualité
Existe-t-il une typologie d’erreurs propre à la TAN entre langues romanes ? Quelles sont les erreurs les plus fréquentes ? Lesquelles devraient être prioritaires dans le cadre d’une post-édition légère ? Et dans le cas d’une post-édition complète ? Quel est le rôle des corpus de traduction pour la post-édition de ces erreurs (cf. Kübler et al. 2022a, 2022b) ? Quelle est la place des phénomènes largement identifiés pour d’autres combinaisons de langues, tels que le biais de genre (cf. Wisniewski et al. 2021) ?
Didactique des langues secondes et de la traduction
À quel stade de la formation des apprentis-traducteurs ou de l’enseignement des langues secondes est-il pertinent d’intégrer les outils de TAN ? Quelle méthodologie et quelles ressources pour le cas des langues romanes ? Quel est le rôle des outils de TAN dans l’autonomisation des apprenants ? Quelle formation pour les enseignants ?
État du marché et perspectives professionnelles
Quel est l’impact de la TAN dans le marché des langues romanes ? À quel degré la division entre les deux types de post-édition (légère et complète) peut-elle être appliquée dans la pratique professionnelle pour le cas des langues romanes ? Quel est l’impact de l’utilisation de la TAN dans la pratique professionnelle des traducteurs/trices ?
Détails pratiques
Langues d’étude : toute combinaison impliquant des langues romanes Langues de rédaction des chapitres : espagnol, français, catalan
Calendrier
Envoi des résumés 15 mars
Confirmation des éditeurs 30 mars
Envoi de la version complète des chapitres 30 juin
Évaluation par les paires 20 septembre
Confirmation de la maison d’édition 30 novembre
Nota bene : les résumés intégreront un titre provisoire, une description détaillée du type d’étude (analyse de corpus, méta-analyse), de la méthodologie de travail et des résultats escomptés ainsi qu’une courte bibliographie. Ils ne dépasseront pas les 500 mots (bibliographie non comprise) et seront par ailleurs accompagnés d’une notice biographique brève.
Les propositions seront soumises à un processus d'évaluation par les pairs en double aveugle.
Responsables scientifiques
Cristian VALDEZ - Université Paris Cité, CLILLAC-ARP
María LOMEÑA GALIANO - Université Rennes 2, LIDILE
Adresse de contact : cristian.valdez@u-paris.fr ; maria.lomena@univ-rennes2.fr
Referencias bibliográficas / références bibliographiques
Barbin, F. (2022). Neural MT and Human Post-editing : A Method to Improve Editorial Quality. In C. Expósito Castro, M. del M. Ogea Pozo, & F. Rodríguez Rodríguez (Eds.), Theory and practice of translation as a vehicle for knowledge transfer / Théorie et pratique de la traduction comme véhicule de transfert des connaissances (pp. 15–36). Sevilla : Editorial Universidad de Sevilla.
Bawden, R., Sennrich, R., Birch, A., & Haddow, B. (2018). Evaluating discourse phenomena in neural machine translation. NAACL HLT 2018 - 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies - Proceedings of the Conference, 1, 1304–1313. https://doi.org/10.18653/v1/n18-1118
Bentivogli, L., Bisazza, A., Cettolo, M., & Federico, M. (2016). Neural versus phrase-based machine translation quality: A case study. EMNLP 2016 - Conference on Empirical Methods in Natural Language Processing, Proceedings, 257–267. https://doi.org/10.18653/v1/d16-1025
Boncompte, P. V., & Costa-Jussà, M. R. (2020). Multilingual Neural Machine Translation: Case-study for Catalan, Spanish and Portuguese Romance Languages. 5th Conference on Machine Translation, WMT 2020 - Proceedings, 447–450.
Bourdais, A., & Guichon, N. (2020). Représentations et usages du traducteur en ligne par les lycéens. Alsic, Vol. 23, n° 1. http://journals.openedition.org/alsic/4533
Briva-Iglesias, V. (2021). Traducción humana vs. traducción automática: análisis contrastivo e implicaciones para la aplicación de la traducción automática en traducción jurídica. Mutatis Mutandis. Revista Latinoamericana de Traducción, 14(2), 571–600. https://doi.org/10.17533/udea.mut.v14n2a14
Cases Berbel, E., & Nieto García, P. (2021). Traducción de DeepL de los sujetos nulos de un texto literario español hacia lenguas románicas pro drop y no pro drop. CLINA, 7(2), 41–59.
Esperança-Rodier, E., & Becker, N. (2018). Comparaison de systèmes de traduction automatique, probabiliste et neuronal, par analyse d’erreurs. 4ème Journée “Traitement Automatique Des Langues et Intelligence Artificielle” - TALIA 2018 Journée de La Plate-Forme Intelligence Artificielle (PFIA, 2018). http://iwslt2010.fbk.eu/
Fiorini, S. (2022). L’intelligence artificielle au défi du multilinguisme : usages et perspectives de la traduction automatique neuronale dans la communication scientifique. I2D - Information, Données & Documents, n° 1(1), 73–76. https://doi.org/10.3917/i2d.221.0073
Fiorini, S., Barbin, F., Garnier-Rizet, M., Morin, K. H., Humphreys, F., Josselin-Leray, A., Kübler, N., Loock, R., Martikainen, H., Jean-François, N., Plag, C., Rossi, C., & Yvon, F. (2020). Rapport du groupe de travail Traductions et science ouverte.
Grass, T. (2022). L’erreur n’est pas humaine. Traduire, 246, 10–23. https://doi.org/10.4000/traduire.2763
Haque, R., Liu, C.-H., & Way, A. (2021). Recent advances of low-resource neural machine translation. Machine Translation, 35(4), 451–474. https://doi.org/10.1007/s10590-021-09281-1
Jia, Y., & Sun, S. (2022). Man or machine? Comparing the difficulty of human translation versus neural machine translation post-editing. Perspectives: Studies in Translation Theory and Practice.
Jean, S., Lauly, S., Firat, O., & Cho, K. (2017). Does Neural Machine Translation Benefit from Larger Context? https://doi.org/10.48550/arXiv.1704.05135
Kenny, D. (2022). Human and machine translation. In D. Kenny (Ed.), Machine translation for everyone: Empowering users in the age of artificial intelligence (pp. 23–50). Berlín: Language Science Press.
Koehn, P., & Knowles, R. (2017). Six Challenges for Neural Machine Translation. Proceedings of the First Workshop on Neural Machine Translation, 28–39.
Kübler, N., Mestivier, A., & Pecman, M. (2022a). Using comparable corpora for translating and post-editing complex noun phrases in specialised texts: Insights from English-to-French in specialised translation. In G. Sylviane & M.-A. Lefer (Eds.), Extending the scope of corpus-based translation studies. London/Oxford/New York/New Delfi/Sydney: Bloomsbury Publishing Plc.
Kübler, N., Martikainen, H., Mestivier, A., & Pecman, M. (2022b). Post-editing neural machine translation in specialised languages: the role of corpora in the translation of phraseological structures. In J. Monti, G. Corpas Pastor, & R. Mitkov (Eds.), Recent advances in Multiword Units in Machine Translation and Translation Technology. Amsterdam/Philadelphia : John Benjamins Publishing Company.
Laviosa, S. (2002). Corpus-Based Translation Studies : Theory, Findings, Applications. Amsterdam / New York: Rodopi.
Loock, R. (2016). Traductologie de corpus. Villeneuve d’Ascq: Presses universitaires du Septentrion.
Loock, R. (2018). Traduction automatique et usage linguistique : Une analyse de traductions anglais-français réunies en corpus. Meta (Canada), 63(3), 786–806. https://doi.org/10.7202/1060173ar
Loock, R., Lechauguette, S., & Holt, B. (2022). Dealing with the “Elephant in the Classroom”: Developing Language Students’ Machine Translation Literacy. Australian Journal of Applied Linguistics, 5(3), 118–134. https://doi.org/10.29140/ajal.v5n3.53si2
Minervini, R. (2021). La traducción automática del género (español-italiano): análisis de ejemplos traducidos con DeepL y Google Traductor. Rivista Internazionale Di Tecnica Della Traduzione / International Journal of Translation, 23, 105–127. https://doi.org/10.13137/2421-6763/33237
Mion, E. A. (2022). Un dialogue de sourds. Traduire, 246, 46–54.
Moorkens, J. (2018). What to expect from Neural Machine Translation: a practical in-class translation evaluation exercise. Interpreter and Translator Trainer, 12(4), 375–387. https://doi.org/10.1080/1750399X.2018.1501639
O’Brien, S. (2022). How to deal with errors in machine translation: Post-editing. In D. Kenny (Ed.), Machine for everyone: Empowering users in the age of artificial intelligence (pp. 105–120). Berlín: Language Science Press.
Oliver, A. (2020). Traducción automática para las lenguas románicas de la península ibérica. Studia Romanica et Anglica Zagrabiensia, 65, 367–375. https://doi.org/10.17234/sraz.65.45
Pérez-Ortiz, J. A., Forcada, M. L., & Sánchez-Martínez, F. (2022). How neural machine translation works. In D. Kenny (Ed.), Machine translation for everyone: Empowering users in the age of artificial intelligence (pp. 141–164). Berlín: Language Science Press.
Poibeau, T. (2019). Babel 2.0 : où va la traduction automatique ? París: Odile Jacob.
Rossi, C., & Carré, A. (2022). How to choose a suitable neural machine translation solution: Evaluation of MT quality. In D. Kenny (Ed.), Machine translation for everyone: Empowering users in the age of artificial intelligence (pp. 51–79). Berlín: Language Science Press.
Rossi, C., & Chevrot, J.-P. (2019). Uses and perceptions of machine translation at the European Commission. JoSTrans The Journal of Specialised Translation, 31.
Tomaszkiewicz, T. (2018). Traduction automatique dans la formation des traducteurs : une analyse expérimentale de la post-édition. In Studia Romanica Posnaniensia (Vol. 45, Issue 4, pp. 75–89). Wydawnictwo Naukowe INVIT. https://doi.org/10.14746/strop.2018.454.005
Toral, A., & Sánchez-Cartagena, V. M. (2017). A Multifaceted Evaluation of Neural versus Phrase-Based Machine Translation for 9 Language Directions. Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics, 1(I), 1063–1073.
Sánchez-Gijón, P., Moorkens, J., & Way, A. (2019). Post-editing neural machine translation versus translation
Université Paris Cité (Francia)
<cristian.valdez
