The Conversation

lunes 26 de abril | 2021

Por qué las máquinas no hablan bien español y por qué deberían hacerlo

(Por Elena González-Blanco, IE University) Cada día se habla con mayor naturalidad de inteligencia artificial (IA). Nos vamos acostumbrando a que esta etiqueta –con un significado para muchos aún rodeado de un halo enigmático– penetre con mayor frecuencia en nuestra rutina.

Metamorworks / Shutterstock

Sin ser apenas conscientes, sonreímos para desbloquear el teléfono móvil sin saber que tras ese segundo delante de la cámara, miles de píxeles convertidos en datos alimentan a gran velocidad algoritmos de deep learning. Estos son hoy día capaces de automatizar el reconocimiento facial en unos porcentajes superiores al 98 % de exactitud.

La eclosión ha sido estelar. Podemos considerar como punto esencial la victoria de DeepMind frente al primer jugador mundial de Go en 2016. En apenas 5 años, la afortunada combinación del volumen exponencial de datos generados, la creación de sistemas de procesamiento suficientemente potentes (unidades de procesamiento gráfico o GPU) y la madurez y liberación de los algoritmos de redes neuronales (como Tensorflow), han hecho realidad programable toda la teoría matemática que sienta sus bases en los años 50 del siglo XX, con las primeras teorías de Marvin Minsky o John McCarthy sobre el aprendizaje automático.

¿Robots que hablan? No es tan sencillo

Debajo de esa magia, que hace que la informática trate de comportarse como el cerebro humano, hay una combinación de distintas tecnologías y tipos de datos que no funciona con el mismo éxito ni de la misma forma para resolver todos los problemas.

La paradoja está servida: nos atemoriza un mundo en el que los robots amenazan con suplantar nuestras funciones laborales, pero a día de hoy, asistentes como Siri, Alexa y Google Home son todavía incapaces de mantener una conversación de más de unos minutos, más allá de solicitar una serie de datos, dar órdenes sencillas o establecer rutinas concretas.

Hacer hablar –y escribir– a las máquinas es una de las labores más complejas a las que se ha enfrentado jamás la computación. Ya en 1951 Alan Turing planteó el reto del juego de la imitación, en el que ser humano y máquina podrían confundirse a través del lenguaje, realidad aún muy lejana hoy.

El lenguaje humano es altamente complejo y variado. Es un sistema vivo sobre el cual los algoritmos que tejen estas neuronas digitales que constituyen la inteligencia artificial van aprendiendo con los datos de los que se nutren. Así, estas células informáticas van adquiriendo vocabulario y mejorando sus estructuras lingüísticas gracias a su exposición constante a los datos conversacionales.

Mejor en inglés que en español

La realidad nos demuestra que, a día de hoy, la competencia de esta tecnología es muy superior en inglés que en el resto de las lenguas. Esto se debe a que tanto los principales desarrollos científicos como las grandes empresas que los han explotado comercialmente se han creado en países angloparlantes y entrenado con datos en inglés.

La realidad lingüística es muy distinta de la tecnológica: el español es el segundo idioma del mundo y cuenta con más de 585 millones de hablantes y un crecimiento del 7,5 % anual. Aun así, no existe una inteligencia artificial hoy que sea capaz de procesar con calidad sus numerosas variantes (debidas a diferentes circunstancias geográficas, sociales o contextuales).

La razón de este retraso con respecto al inglés se debe a la fragmentación de las empresas de tecnología lingüística hispanas. En general, son pequeñas y están orientadas a funciones específicas y muy concretas, con un histórico fuertemente vinculado a la traducción y a la variedad lingüística peninsular.

Además, a pesar de la gran cantidad de datos que poseemos en nuestra lengua, estos no se encuentran disponibles para su explotación, pues muchos son privados. Incluso aquellos que están en manos de las instituciones públicas y culturales se encuentran en silos no preparados para su consumo abierto.

Por estos motivos, en muchas ocasiones, las empresas y los grandes clientes eligen soluciones que no se han fabricado en nuestra lengua ni entrenado con nuestros datos, sino mediante la traducción posterior. Esto hace que su nivel de éxito sea mucho menor.

He aquí algunos ejemplos: para poder entrenar a un robot en el ámbito legal español, es necesario contar con abundantes textos legales en nuestra lengua, pero también de un conocimiento del Derecho Romano y del funcionamiento de la jurisprudencia en España.

Para poder discernir las diferentes variedades del español en Latinoamérica, es imprescindible conocer no solamente las variantes de léxico, sino también la fonética, e incluso el funcionamiento situacional (pragmática) de algunas expresiones en determinados contextos. Todos estos matices se pierden en la traducción.

Una oportunidad para el avance

A pesar de todo, nos encontramos hoy en un momento de interés creciente por el desarrollo de la inteligencia artificial aplicada al lenguaje. Ha habido un incremento del 34,5 % de papers científicos sobre procesamiento del lenguaje natural e IA aplicado a lenguaje entre 2019 y 2020, que hace patente la creciente madurez de la tecnología.

Además, el interés por su desarrollo se ha convertido en clave para el desarrollo económico. Actualmente, China lidera con fuerza la revolución tecnológica, seguida por Estados Unidos. Mientras, Europa lucha por no quedar más rezagada buscando nichos para brillar ligados a nuevas oportunidades y a la propia realidad cultural, económica e histórica del viejo continente. La lengua es, sin lugar a dudas, una de ellas, pues los activos que sirven de punto de partida, los datos, están aquí y prácticamente no se han aprovechado aún.

Dentro de esta carrera por el desarrollo de la inteligencia artificial, la importancia del español como lengua nativa de IA, ligada al potencial de mercado y a la riqueza y variedad de sus datos, es una mina de oro que apenas se ha comenzado a explotar.

No es necesario reinventar la pólvora, tan solo proporcionar datos abiertos y disponibles para poder entrenar los algoritmos existentes y alinear el tejido empresarial hacia una misma dirección.

El objetivo es crear una inteligencia artificial tan poderosa como el número de hablantes de español, que allanaría el camino no solo para crear nuevas empresas y mejores algoritmos, sino también para la digitalización y preservación digital de un acervo cultural, lingüístico e histórico que merece un espacio privilegiado dentro del futuro de la transformación digital internacional. El momento es ahora, y los responsables, nosotros.

Elena González-Blanco, Directora de investigación en el Center for the Governance of Change, IE University

Este artículo fue publicado originalmente en The Conversation. Lea el original.

Tu opinión enriquece este artículo:

Ingresar con Google

Y Además...

Menorca se llena de sabor con nueve showcookings en directo de chefs locales

Las demostraciones de cocina menorquina en directo vuelven este diciembre. Un año más regresa la iniciativa de los showcookings en directo, que se podrán disfrutar del 6 al 27 de diciembre en los diferentes municipios de la isla.

Plus

Solo 1 de cada 4 profesionales disfruta de la celebración de Navidad corporativa, mientras que la Gen Z impulsa el cambio de formato

El final de año activa las tradicionales cenas corporativas de Navidad, pero estas están cambiando. Según la encuesta de Hays realizada a más de 700 personas, la mitad de los empleados en España se muestra indiferente ante las iniciativas navideñas de su empresa; solo un 26% se siente motivado y un 25% percibe estrés o agobio. Los datos del líder global en selección y soluciones de recursos humanos muestran que el desafío no es celebrar, sino diseñar experiencias con valor real. Asimismo, la llegada de la Gen Z al mercado laboral está acelerando esta transformación, impulsando formatos más auténticos, flexibles y alineados con sus expectativas.

Y Además...

Los mejores lugares de España para disfrutar de las Gemínidas, la lluvia de estrellas más intensa del año

Diciembre trae consigo uno de los eventos astronómicos más esperados y espectaculares del calendario: la lluvia de estrellas Gemínidas. Este fenómeno, considerado el más intenso y generoso del año por la frecuencia y el brillo de sus meteoros, será visible en España durante varios días, alcanzando su máximo esplendor la noche del 13 al 14 de diciembre.

Plus

El precio de la vivienda interanual sube un 14,3% en noviembre en Cataluña

El precio de la vivienda de segunda mano en Cataluña sube un 0,7% en su variación mensual y un 14,3% en su variación interanual, situando el precio medio de las viviendas ofertadas en noviembre en 3.181 euros/m2, según los datos del Índice Inmobiliario Fotocasa.

Nota Principal

LEVEL se hace Mayor: inicia una nueva etapa como aerolínea y empieza a operar con su propio código IATA “LL”

LEVEL inicia una nueva etapa como aerolínea. Desde esta semana, ha empezado a operar con su propio código IATA “LL”, un nuevo hito en la historia de la compañía que impulsará su crecimiento y consolidará su posición como una de las aerolíneas de referencia en el largo radio desde Barcelona. Con este logro, LEVEL, que nació en 2017 como una marca comercial operada por Iberia, culmina su proceso de autonomía operativa como una aerolínea más de International Airlines Group (IAG).

Y Además...

Grand Hyatt Barcelona, El mejor hotel urbano del 2025 da el pistoletazo de salida a la temporada festiva 2025

El icónico hotel de cinco estrellas barcelonés, recientemente galardonado como Mejor Hotel Urbano 2025 por Condé Nast Traveler, celebra la temporada festiva bajo el lema The Grand Urban Spirit.

Plus

La Agencia Catalana del Consumo y los Gremios de Comercio, Servicios y Turismo cooperarán para consolidar la confianza en el comercio de proximidad

El director de la Agencia Catalana del Consumo (Departamento de Empresa y Trabajo), Isidor Garcia Sanchez, y el presidente del Consejo de Gremios de Comercio, Servicios y Turismo, Joan Manel Guillén Espín, han firmado un convenio de colaboración entre ambos organismos, con el fin de acompañar a las empresas en procesos de mejora de la calidad y la atención a las personas consumidoras.

InfoStartUps

La 'startup' Adcities levanta más de tres millones en una ronda 'Serie Seed' liderada por Adara Ventures

Adcities, la 'startup' que permite a las agencias de medios y marcas planificar, comprar, gestionar y medir sus campañas publicitarias en tiempo real, ha cerrado una ronda de inversión 'Serie Seed' de más de tres millones de euros liderada por Adara Ventures, según ha indicado en un comunicado este lunes.

InfoStartUps

El Puerto de Barcelona recibe el premio "Startup Ecosystem Star 2025" de la ICC

El Puerto de Barcelona recibió ayer el prestigioso galardón "Startup Ecosystem Star for 2025" de la International Chamber of Commerce (ICC), en una ceremonia celebrada en la sede mundial de la organización en París. Los encargados de recoger el premio, que reconoce la labor del Puerto de Barcelona como referente internacional en la promoción de la innovación y el emprendimiento dentro de su ecosistema, han sido Carles Rúa, jefe de Innovación del Puerto de Barcelona, y Javier Garrido, responsable técnico de Innovación.

InfoArgentinos

El consorcio argentino Southern Energy exportará gas natural licuado a Alemania por 7.000 millones de dólares

El consorcio argentino Southern Energy, compuesto por firmas como la estatal YPF o Pampa Energía, ha cerrado su mayor acuerdo para exportar gas natural licuado a la empresa alemana SEFE Securing Energy for Europe por 7.000 millones de dólares (6.019 millones de euros) durante los próximos ocho años.

Por qué las máquinas no hablan bien español y por qué deberían hacerlo

¿Robots que hablan? No es tan sencillo

Mejor en inglés que en español

Una oportunidad para el avance

Compartir con tus amigos de

Tu opinión enriquece este artículo:

Te puede interesar:

Suscribite gratis a nuestro newsletter