Un equipo de investigadores de la Universidad de Tel Aviv ha creado una inteligencia artificial capaz de traducir al inglés textos del acadio cuneiforme, una de las lenguas más antiguas que se conocen con más de 5.000 años de antigüedad y que servía para que personas de distintas regiones pudieran comunicarse entre sí. La nueva tecnología permite a cualquier persona conocer los secretos de los pueblos que lo hablaban y que no han sido revelados todavía por la falta de traductores expertos.
El acadio es una lengua que se escribió y se usó ampliamente en Mesopotamia y Oriente Próximo entre el 3.000 a.C. y el 100 d.C. aproximadamente. El acadio es sucesor del sumerio, con él comparte la técnica cuneiforme que consiste en una forma de escribir sobre tablillas de arcilla húmeda en la que una caña afilada crea marcas en forma de cuña.
El sumerio y el acadio cuneiforme son las primeras lenguas escritas que se han descubierto hasta ahora, pero hasta nuestros días han llegado muchas más muestras de la segunda que de la primera. En concreto se han recuperado más de medio millón de textos acadios escritos en tablillas repartidas por todo el mundo, decenas de miles de las cuales se han digitalizado ya. Sin embargo, la escasez de expertos traductores ha hecho que muchos de esos textos no se hayan traducido todavía.
"Traducir todas las tablillas que permanecen sin traducir podría exponernos a los primeros días de la historia, a la civilización de aquellas gentes, en qué creían, de qué hablaban, qué documentaban", afirma Gai Gutherz, científico informático que comenzó el proyecto en la Universidad de Tel Aviv, en declaraciones recogidas por The Times of Israel. Tanto él como sus colaboradores acaban de hacer públicos los resultados de sus investigaciones en la revista PNAS Nexus, de Oxford University Press.
El traductor al acadio se empezó a fraguar en 2020 cuando Gutherz, el arqueólogo Shai Gordin, de la Universidad Ariel y otros investigadores publicaron un artículo sobre una IA que traduce del cuneiforme acadio a la transliteración del latín (una técnica que reproduce la forma exacta en que una determinada palabra se representa en la lengua original). El equipo logró con este método un 97% de precisión en las traducciones cuneiforme acadio al alfabeto latino transliterado.
El proceso actual para la traducción de estos textos suele requerir que los expertos pasen primero el cuneiforme a la transliteración latina y de ahí, en la mayoría de los casos, al inglés. Sin embargo, crear un ‘software’ capaz de traducir del acadio al inglés directamente es mucho más complicado que hacerlo al latín transliterado, ya que este permite traducir los símbolos cuneiformes a una sola palabra, manteniendo las palabras en el mismo orden en que fueron encontradas. Pasarlo al inglés, sin embargo, requiere que la máquina encadene frases u oraciones completas que tengan sentido dentro del órden sintáctico en inglés.
El equipo tuvo que enfrentarse también a la dificultad de contar con muy pocos textos e imágenes de tablas con la que entrenar a la IA. El equipo consiguió sus muestras de ORACC (Open Richly Annotated Cuneiform Corpus), una base de datos de la Universidad de Pensilvania. El 90% del material (50.544 frases) lo usaron para el entrenamiento, mientras que del resto, el 5% (2.808 frases) se usó para la validación y el 5% restante (2.808 frases) para la fase de pruebas.
A la dificultad de la escasez de material hay que añadir que durante los 3.000 años en los que estuvo en uso el acadio se produjeron enormes variaciones y surgieron dialectos que dieron lugar a símbolos cuneiformes completamente distintos. "La cantidad de datos con los que se entrena es correlativa a su rendimiento y cuantos más datos se tengan, mejores serán los modelos", afirma Gutherz. "ChatGPT funciona tan bien porque han conseguido entrenarlo básicamente con todo Internet. Para nosotros, la tarea principal al principio era recopilar todas las traducciones posibles que pudiéramos conseguir, para generar tantos ejemplos como fuera posible."
A pesar de esto, Gutherz asegura que aunque su tecnología está dando todavía sus primeros pasos, la nueva IA funciona mejor de lo esperado. La inteligencia artificial, dice, consigue más precisión en textos formulistas, como decretos reales o adivinaciones que siguen un patrón determinado, que en textos más literarios y poéticos, como cartas de sacerdotes o tratados, donde se ha observado una mayor incidencia de fallos o "alucinaciones".
Para determinar la calidad de las traducciones, los investigadores utilizaron el Best Bilingual Evaluation Understudy 4 (BLEU4), una herramienta de evaluación que mide automáticamente la precisión de las traducciones creadas por máquinas. Según el estudio, obtuvieron una puntuación BLEU4 de 36,52 sobre 100 para el cuneiforme al inglés y una puntuación de 37,47 para el cuneiforme transliterado al inglés.
Estar cerca de 37 se considera bastante bueno para un modelo de traducción en una fase inicial como esta, explica Gutherz. El investigador asegura que Google Translate, uno de los traductores más usados y que lleva más de una década de evolución, obtendría una puntuación BLEU4 de alrededor de 60 traduciendo del español al inglés.
"Lo asombroso es que no necesito entender nada de acadio para traducir [una tablilla] y entender lo que hay detrás del cuneiforme”, asegura Gutherz. “Me basta con utilizar el algoritmo para entender y descubrir lo que el pasado tiene que decir".