Por qué las máquinas no hablan bien español y por qué deberían hacerlo

(Por Elena González-Blanco, IE University) Cada día se habla con mayor naturalidad de inteligencia artificial (IA). Nos vamos acostumbrando a que esta etiqueta –con un significado para muchos aún rodeado de un halo enigmático– penetre con mayor frecuencia en nuestra rutina.

 
Metamorworks / Shutterstock

Sin ser apenas conscientes, sonreímos para desbloquear el teléfono móvil sin saber que tras ese segundo delante de la cámara, miles de píxeles convertidos en datos alimentan a gran velocidad algoritmos de deep learning. Estos son hoy día capaces de automatizar el reconocimiento facial en unos porcentajes superiores al 98 % de exactitud.

La eclosión ha sido estelar. Podemos considerar como punto esencial la victoria de DeepMind frente al primer jugador mundial de Go en 2016. En apenas 5 años, la afortunada combinación del volumen exponencial de datos generados, la creación de sistemas de procesamiento suficientemente potentes (unidades de procesamiento gráfico o GPU) y la madurez y liberación de los algoritmos de redes neuronales (como Tensorflow), han hecho realidad programable toda la teoría matemática que sienta sus bases en los años 50 del siglo XX, con las primeras teorías de Marvin Minsky o John McCarthy sobre el aprendizaje automático.

¿Robots que hablan? No es tan sencillo

Debajo de esa magia, que hace que la informática trate de comportarse como el cerebro humano, hay una combinación de distintas tecnologías y tipos de datos que no funciona con el mismo éxito ni de la misma forma para resolver todos los problemas.

La paradoja está servida: nos atemoriza un mundo en el que los robots amenazan con suplantar nuestras funciones laborales, pero a día de hoy, asistentes como Siri, Alexa y Google Home son todavía incapaces de mantener una conversación de más de unos minutos, más allá de solicitar una serie de datos, dar órdenes sencillas o establecer rutinas concretas.

Hacer hablar –y escribir– a las máquinas es una de las labores más complejas a las que se ha enfrentado jamás la computación. Ya en 1951 Alan Turing planteó el reto del juego de la imitación, en el que ser humano y máquina podrían confundirse a través del lenguaje, realidad aún muy lejana hoy.

El lenguaje humano es altamente complejo y variado. Es un sistema vivo sobre el cual los algoritmos que tejen estas neuronas digitales que constituyen la inteligencia artificial van aprendiendo con los datos de los que se nutren. Así, estas células informáticas van adquiriendo vocabulario y mejorando sus estructuras lingüísticas gracias a su exposición constante a los datos conversacionales.

Mejor en inglés que en español

La realidad nos demuestra que, a día de hoy, la competencia de esta tecnología es muy superior en inglés que en el resto de las lenguas. Esto se debe a que tanto los principales desarrollos científicos como las grandes empresas que los han explotado comercialmente se han creado en países angloparlantes y entrenado con datos en inglés.

La realidad lingüística es muy distinta de la tecnológica: el español es el segundo idioma del mundo y cuenta con más de 585 millones de hablantes y un crecimiento del 7,5 % anual. Aun así, no existe una inteligencia artificial hoy que sea capaz de procesar con calidad sus numerosas variantes (debidas a diferentes circunstancias geográficas, sociales o contextuales).

La razón de este retraso con respecto al inglés se debe a la fragmentación de las empresas de tecnología lingüística hispanas. En general, son pequeñas y están orientadas a funciones específicas y muy concretas, con un histórico fuertemente vinculado a la traducción y a la variedad lingüística peninsular.

Además, a pesar de la gran cantidad de datos que poseemos en nuestra lengua, estos no se encuentran disponibles para su explotación, pues muchos son privados. Incluso aquellos que están en manos de las instituciones públicas y culturales se encuentran en silos no preparados para su consumo abierto.

Por estos motivos, en muchas ocasiones, las empresas y los grandes clientes eligen soluciones que no se han fabricado en nuestra lengua ni entrenado con nuestros datos, sino mediante la traducción posterior. Esto hace que su nivel de éxito sea mucho menor.

He aquí algunos ejemplos: para poder entrenar a un robot en el ámbito legal español, es necesario contar con abundantes textos legales en nuestra lengua, pero también de un conocimiento del Derecho Romano y del funcionamiento de la jurisprudencia en España.

Para poder discernir las diferentes variedades del español en Latinoamérica, es imprescindible conocer no solamente las variantes de léxico, sino también la fonética, e incluso el funcionamiento situacional (pragmática) de algunas expresiones en determinados contextos. Todos estos matices se pierden en la traducción.

Una oportunidad para el avance

A pesar de todo, nos encontramos hoy en un momento de interés creciente por el desarrollo de la inteligencia artificial aplicada al lenguaje. Ha habido un incremento del 34,5 % de papers científicos sobre procesamiento del lenguaje natural e IA aplicado a lenguaje entre 2019 y 2020, que hace patente la creciente madurez de la tecnología.

Además, el interés por su desarrollo se ha convertido en clave para el desarrollo económico. Actualmente, China lidera con fuerza la revolución tecnológica, seguida por Estados Unidos. Mientras, Europa lucha por no quedar más rezagada buscando nichos para brillar ligados a nuevas oportunidades y a la propia realidad cultural, económica e histórica del viejo continente. La lengua es, sin lugar a dudas, una de ellas, pues los activos que sirven de punto de partida, los datos, están aquí y prácticamente no se han aprovechado aún.

Dentro de esta carrera por el desarrollo de la inteligencia artificial, la importancia del español como lengua nativa de IA, ligada al potencial de mercado y a la riqueza y variedad de sus datos, es una mina de oro que apenas se ha comenzado a explotar.

No es necesario reinventar la pólvora, tan solo proporcionar datos abiertos y disponibles para poder entrenar los algoritmos existentes y alinear el tejido empresarial hacia una misma dirección.

El objetivo es crear una inteligencia artificial tan poderosa como el número de hablantes de español, que allanaría el camino no solo para crear nuevas empresas y mejores algoritmos, sino también para la digitalización y preservación digital de un acervo cultural, lingüístico e histórico que merece un espacio privilegiado dentro del futuro de la transformación digital internacional. El momento es ahora, y los responsables, nosotros.

Elena González-Blanco, Directora de investigación en el Center for the Governance of Change, IE University

Este artículo fue publicado originalmente en The Conversation. Lea el original.

Cataluña capta más de la mitad de los 53,2 millones de euros adjudicados por el Gobierno a 37 proyectos del Perte Chip

El Ministerio de Industria y Turismo ha adjudicado 53,2 millones de euros a 37 proyectos presentados a la segunda convocatoria del Perte Chip dentro de la sección de impulso de iniciativas de la cadena de valor de la microelectrónica y, según la resolución provisional, un total de 17 propuestas ubicadas en Cataluña recibirán casi el 52% de las subvenciones (27,65 millones de euros).

Los catalanes son quienes más confían en que la nueva empresa pública de vivienda facilitará el acceso al alquiler

Los catalanes son los más optimistas con relación al efecto que pueda tener en el mercado inmobiliario la creación por parte del Gobierno de la nueva empresa pública de vivienda, especialmente en lo relativo al acceso al alquiler. Concretamente, un 36% de los encuestados en Cataluña opinan que este proyecto facilitará alquilar un inmueble a los potenciales inquilinos (la tasa más alta entre los principales mercados inmobiliarios de España), mientras que un 21% afirman lo contrario. Con todo, la mayoría de los catalanes se mantienen equidistantes sobre el impacto de la nueva sociedad pública de vivienda: un 43% se muestran neutros sobre el eventual efecto de la iniciativa, según los datos extraídos a partir de una encuesta de Fotocasa Research realizada en febrero de 2025.

Las empresas catalanas captan más de la mitad de la financiación de la convocatoria española de apoyo a proyectos en el ámbito de los semiconductores

El conseller Sàmper destaca que "los resultados ponen de manifiesto que Cataluña ya se ha convertido en un actor clave en el ámbito de los semiconductores en España" y reitera la apuesta del Govern por "hacer crecer y consolidar esta industria, no sólo a escala local sino también global"
Las empresas catalanas han captado 27,65 millones de euros de la convocatoria de “cadena de valor de la microelectrónica” de subvenciones del PERTE Chip, que financia proyectos de semiconductores. de este programa de ayudas que adjudica el Ministerio de Industria y Turismo.

En mayo llega Argentina VIBRA 2025 a Barcelona, Mallorca y Madrid con un line-up de lujo, con los Fabulosos Cadillacs como cabeza de Cartel

Nada menos que Los Fabulosos Cadillacs, los creadores de “Matador”, aquel hit que medio mundo ha bailado desde los ‘90, con su “El León del Ritmo Tour” y Los Fundamentalistas del Aire Acondicionado, la banda que mantiene vivo el “espíritu ricotero” desde que el Indio Solari inició su carrera solista, que regresan a la península por tercer año consecutivo afianzando su fama de ser una de las bandas con más convocatoria no sólo en suelo argentino, sino también europeo.

El volumen de negocio de la ciberseguridad en Cataluña factura más de 1.400 millones de euros, un 18,4% más que el año anterior

El informe anual 'La ciberseguridad en Cataluña' , elaborado por ACCIÓ -la agencia para la competitividad de la empresa del Departamento de Empresa y Trabajo- y la Agencia de Ciberseguridad de Cataluña, vuelve a posicionar a Cataluña como polo estratégico para la ciberseguridad en Europa. En concreto, el sector de la ciberseguridad en Catalunya suma un volumen de negocio de 1.473 millones anuales, un 18,4% más que el año anterior.

Roxette regresa a los escenarios este 2025 y anuncia conciertos en Barcelona y Valencia

Casi una década después de lo que creíamos serían sus últimos conciertos Roxette regresa a los escenarios con una nueva gira internacional. Gessle, líder, compositor y fundador de la icónica banda sueca, recoge el legado junto a la superestrella sueca Lena Philipsson, en una producción renovada que celebra la historia, la música y la energía de Roxette. Actuarán en el Roig Arena de Valencia el 15 de noviembre y en el Sant Jordi Club de Barcelona el 16 de noviembre.

Alexia Putellas, nueva embajadora de Pepsi, inaugura su mural de arte urbano en Mollet del Vallès

Pepsi® presenta a sus nuevas embajadoras a nivel global, jugadoras que están redefiniendo el fútbol femenino. La primera en unirse a la nueva lista de embajadoras de Pepsi ha sido la dos veces ganadora del Balón de Oro, Alexia Putellas, cuyo talento ha marcado a toda una generación. Reconocida por su dominio del balón, su exquisita visión de juego y su técnica, es hoy un referente para las futuras generaciones de futbolistas.

LEGO y la F1: redefinen el marketing deportivo, la experiencia y expansión de marca en Miami

(Por Maurizio y Maqueda) Miami, el Nuevo Laboratorio de Creatividad Global En una época donde la saturación de contenidos es la norma y la atención es el recurso más escaso, la pregunta clave es: ¿cómo lograr que una marca destaque entre el ruido? Este fin de semana, la Fórmula 1 y LEGO respondieron con una jugada maestra en el Gran Premio de Miami: por primera vez en la historia, los 20 pilotos desfilaron en coches LEGO a tamaño real. Una activación que no solo robó miradas, sino que elevó el listón del marketing experiencial, fusionando deporte, innovación y creatividad. ¿Qué hay detrás de esta movida? ¿Por qué es relevante para negocios, marcas y líderes del sur de la Florida? ¿Qué enseñanzas estratégicas deja para quienes buscan diferenciarse? Aquí, el análisis.

(Información de valor: Micro Nota 1 Minuto de lectura. Nota Expandida (Paper), si se desea amplificar información, 3 minutos de lectura)