Por qué las máquinas no hablan bien español y por qué deberían hacerlo

(Por Elena González-Blanco, IE University) Cada día se habla con mayor naturalidad de inteligencia artificial (IA). Nos vamos acostumbrando a que esta etiqueta –con un significado para muchos aún rodeado de un halo enigmático– penetre con mayor frecuencia en nuestra rutina.

Image description

 
Metamorworks / Shutterstock

Sin ser apenas conscientes, sonreímos para desbloquear el teléfono móvil sin saber que tras ese segundo delante de la cámara, miles de píxeles convertidos en datos alimentan a gran velocidad algoritmos de deep learning. Estos son hoy día capaces de automatizar el reconocimiento facial en unos porcentajes superiores al 98 % de exactitud.

La eclosión ha sido estelar. Podemos considerar como punto esencial la victoria de DeepMind frente al primer jugador mundial de Go en 2016. En apenas 5 años, la afortunada combinación del volumen exponencial de datos generados, la creación de sistemas de procesamiento suficientemente potentes (unidades de procesamiento gráfico o GPU) y la madurez y liberación de los algoritmos de redes neuronales (como Tensorflow), han hecho realidad programable toda la teoría matemática que sienta sus bases en los años 50 del siglo XX, con las primeras teorías de Marvin Minsky o John McCarthy sobre el aprendizaje automático.

¿Robots que hablan? No es tan sencillo

Debajo de esa magia, que hace que la informática trate de comportarse como el cerebro humano, hay una combinación de distintas tecnologías y tipos de datos que no funciona con el mismo éxito ni de la misma forma para resolver todos los problemas.

La paradoja está servida: nos atemoriza un mundo en el que los robots amenazan con suplantar nuestras funciones laborales, pero a día de hoy, asistentes como Siri, Alexa y Google Home son todavía incapaces de mantener una conversación de más de unos minutos, más allá de solicitar una serie de datos, dar órdenes sencillas o establecer rutinas concretas.

Hacer hablar –y escribir– a las máquinas es una de las labores más complejas a las que se ha enfrentado jamás la computación. Ya en 1951 Alan Turing planteó el reto del juego de la imitación, en el que ser humano y máquina podrían confundirse a través del lenguaje, realidad aún muy lejana hoy.

El lenguaje humano es altamente complejo y variado. Es un sistema vivo sobre el cual los algoritmos que tejen estas neuronas digitales que constituyen la inteligencia artificial van aprendiendo con los datos de los que se nutren. Así, estas células informáticas van adquiriendo vocabulario y mejorando sus estructuras lingüísticas gracias a su exposición constante a los datos conversacionales.

Mejor en inglés que en español

La realidad nos demuestra que, a día de hoy, la competencia de esta tecnología es muy superior en inglés que en el resto de las lenguas. Esto se debe a que tanto los principales desarrollos científicos como las grandes empresas que los han explotado comercialmente se han creado en países angloparlantes y entrenado con datos en inglés.

La realidad lingüística es muy distinta de la tecnológica: el español es el segundo idioma del mundo y cuenta con más de 585 millones de hablantes y un crecimiento del 7,5 % anual. Aun así, no existe una inteligencia artificial hoy que sea capaz de procesar con calidad sus numerosas variantes (debidas a diferentes circunstancias geográficas, sociales o contextuales).

La razón de este retraso con respecto al inglés se debe a la fragmentación de las empresas de tecnología lingüística hispanas. En general, son pequeñas y están orientadas a funciones específicas y muy concretas, con un histórico fuertemente vinculado a la traducción y a la variedad lingüística peninsular.

Además, a pesar de la gran cantidad de datos que poseemos en nuestra lengua, estos no se encuentran disponibles para su explotación, pues muchos son privados. Incluso aquellos que están en manos de las instituciones públicas y culturales se encuentran en silos no preparados para su consumo abierto.

Por estos motivos, en muchas ocasiones, las empresas y los grandes clientes eligen soluciones que no se han fabricado en nuestra lengua ni entrenado con nuestros datos, sino mediante la traducción posterior. Esto hace que su nivel de éxito sea mucho menor.

He aquí algunos ejemplos: para poder entrenar a un robot en el ámbito legal español, es necesario contar con abundantes textos legales en nuestra lengua, pero también de un conocimiento del Derecho Romano y del funcionamiento de la jurisprudencia en España.

Para poder discernir las diferentes variedades del español en Latinoamérica, es imprescindible conocer no solamente las variantes de léxico, sino también la fonética, e incluso el funcionamiento situacional (pragmática) de algunas expresiones en determinados contextos. Todos estos matices se pierden en la traducción.

Una oportunidad para el avance

A pesar de todo, nos encontramos hoy en un momento de interés creciente por el desarrollo de la inteligencia artificial aplicada al lenguaje. Ha habido un incremento del 34,5 % de papers científicos sobre procesamiento del lenguaje natural e IA aplicado a lenguaje entre 2019 y 2020, que hace patente la creciente madurez de la tecnología.

Además, el interés por su desarrollo se ha convertido en clave para el desarrollo económico. Actualmente, China lidera con fuerza la revolución tecnológica, seguida por Estados Unidos. Mientras, Europa lucha por no quedar más rezagada buscando nichos para brillar ligados a nuevas oportunidades y a la propia realidad cultural, económica e histórica del viejo continente. La lengua es, sin lugar a dudas, una de ellas, pues los activos que sirven de punto de partida, los datos, están aquí y prácticamente no se han aprovechado aún.

Dentro de esta carrera por el desarrollo de la inteligencia artificial, la importancia del español como lengua nativa de IA, ligada al potencial de mercado y a la riqueza y variedad de sus datos, es una mina de oro que apenas se ha comenzado a explotar.

No es necesario reinventar la pólvora, tan solo proporcionar datos abiertos y disponibles para poder entrenar los algoritmos existentes y alinear el tejido empresarial hacia una misma dirección.

El objetivo es crear una inteligencia artificial tan poderosa como el número de hablantes de español, que allanaría el camino no solo para crear nuevas empresas y mejores algoritmos, sino también para la digitalización y preservación digital de un acervo cultural, lingüístico e histórico que merece un espacio privilegiado dentro del futuro de la transformación digital internacional. El momento es ahora, y los responsables, nosotros.

Elena González-Blanco, Directora de investigación en el Center for the Governance of Change, IE University

Este artículo fue publicado originalmente en The Conversation. Lea el original.

Tu opinión enriquece este artículo:

Irse a vivir de alquiler hoy supone destinar más del 35% de los ingresos familiares (y Baleares, madrileños y catalanes registran la mayor tasa de esfuerzo para cumplir con el alquiler)

En España, alrededor del 18% de las familias actualmente vive de alquiler. Sin embargo, quienes decidan optar por esta modalidad habitacional hoy se enfrentan a un panorama complicado: en las condiciones actuales del mercado inmobiliario, el alquiler representa más del 35% de los ingresos netos familiares, según un análisis de la consultora AIS, parte del grupo PFSTECH y especialista en big data y analytics. 

Las empresas catalanas han recibido más de 1.500 millones de euros de los fondos Next Generation desde 2021

El consejero de Empresa y Trabajo, Miquel Sàmper, ha anunciado hoy que "las empresas catalanas han captado 1.540millones de euros desde 2021 en el conjunto de convocatorias competitivas de alcance estatal de los fondos Next Generation" , destacando ámbitos sectoriales como la movilidad sostenible (30%) o los proyectos de I+D (29%). Sàmper ha hecho público el balance de captación de los tres años de estos fondos europeos, durante la inauguración del tercer Congreso de la Asociación TECNIO en Terrassa.

Barcelona afianza su posición internacional mientras redefine su imagen global

El último informe de la consultora de comunicación y estrategia digital, evercom, sobre La percepción de Barcelona a nivel internacional revela un aumento exponencial en la presencia digital de la ciudad. Este análisis tiene el objetivo de compartir cuál es la visión que se tiene en la actualidad sobre la ciudad, a través de un análisis reputacional que sirva como guía sobre cómo las prácticas y proyectos que se producen en la misma relanzan su imagen.

De los jamones a los productos personalizados: la evolución del regalo navideño corporativo

Dar un obsequio corporativo se ha convertido en una de las prácticas más comunes entre las empresas españolas, especialmente durante épocas festivas como la Navidad, como una manera de reconocer y agradecer el esfuerzo y la dedicación del equipo, la confianza de los clientes o el servicio de los proveedores más habituales. Sin embargo, los regalos de empresa han cambiado con el tiempo, y donde antes el jamón era la estrella; ahora la personalización de los regalos y la tecnología ganan cada vez más terreno. Con la época navideña a la vuelta de la esquina, MediaMarkt Business, división de MediaMarkt especializada en soluciones para empresas, resalta la importancia de la antelación y personalización en los regalos corporativos, como estrategia de fidelización y reconocimiento de marca.

IMPT y Desigual marcan un hito en la moda sostenible con una innovadora alianza en e-commerce ecológico

La nueva era del e-commerce consciente ha llegado para quedarse. Desigual, una de las marcas de moda más icónicas y creativas del panorama internacional, ha dado un paso decisivo hacia la sostenibilidad al incorporarse a IMPT, la plataforma líder en soluciones para compensar la huella de carbono. Esta colaboración representa un avance significativo en la creación de un comercio electrónico más responsable, donde los consumidores pueden seguir disfrutando de la moda única de Desigual mientras contribuyen activamente a la protección del medio ambiente.

La inteligencia artificial avanza a pasos agigantados: 1 de cada 3 empleados en Cataluña ya la utiliza diariamente

Este mes se cumplen exactamente dos años desde el lanzamiento de ChatGPT (30 de noviembre de 2022), un modelo de lenguaje avanzado que marcó el inicio de la democratización en el uso de la inteligencia artificial por parte de la ciudadanía, pero también de las empresas, que han visto en ella la oportunidad perfecta de generar disrupción en toda su cadena de valor. Desde entonces, la IA no solo ha demostrado su capacidad para revolucionar diversos sectores, sino que también ha ganado protagonismo como una herramienta clave en el ámbito laboral y, en concreto, en dos vertientes claras: en el empleo en sí y en el desempeño diario de los trabajadores (es decir, en las formas de trabajar).

CaixaBank entregará 34.000 regalos a niños en situación de vulnerabilidad a través del programa ‘El Árbol de los Sueños’

CaixaBank repartirá 34.000 regalos a niños en situación de vulnerabilidad de toda España gracias al programa ‘El Árbol de los Sueños’, una iniciativa solidaria que tiene por objetivo ayudar a que menores en situación de riesgo reciban estas Navidades el regalo que han pedido en sus cartas. La entidad llegará este año a casi 5.000 niños más que el año pasado.

Éste sitio web usa cookies, si permanece aquí acepta su uso. Puede leer más sobre el uso de cookies en nuestra política de cookies.