Por qué las máquinas no hablan bien español y por qué deberían hacerlo

(Por Elena González-Blanco, IE University) Cada día se habla con mayor naturalidad de inteligencia artificial (IA). Nos vamos acostumbrando a que esta etiqueta –con un significado para muchos aún rodeado de un halo enigmático– penetre con mayor frecuencia en nuestra rutina.

Image description

 
Metamorworks / Shutterstock

Sin ser apenas conscientes, sonreímos para desbloquear el teléfono móvil sin saber que tras ese segundo delante de la cámara, miles de píxeles convertidos en datos alimentan a gran velocidad algoritmos de deep learning. Estos son hoy día capaces de automatizar el reconocimiento facial en unos porcentajes superiores al 98 % de exactitud.

La eclosión ha sido estelar. Podemos considerar como punto esencial la victoria de DeepMind frente al primer jugador mundial de Go en 2016. En apenas 5 años, la afortunada combinación del volumen exponencial de datos generados, la creación de sistemas de procesamiento suficientemente potentes (unidades de procesamiento gráfico o GPU) y la madurez y liberación de los algoritmos de redes neuronales (como Tensorflow), han hecho realidad programable toda la teoría matemática que sienta sus bases en los años 50 del siglo XX, con las primeras teorías de Marvin Minsky o John McCarthy sobre el aprendizaje automático.

¿Robots que hablan? No es tan sencillo

Debajo de esa magia, que hace que la informática trate de comportarse como el cerebro humano, hay una combinación de distintas tecnologías y tipos de datos que no funciona con el mismo éxito ni de la misma forma para resolver todos los problemas.

La paradoja está servida: nos atemoriza un mundo en el que los robots amenazan con suplantar nuestras funciones laborales, pero a día de hoy, asistentes como Siri, Alexa y Google Home son todavía incapaces de mantener una conversación de más de unos minutos, más allá de solicitar una serie de datos, dar órdenes sencillas o establecer rutinas concretas.

Hacer hablar –y escribir– a las máquinas es una de las labores más complejas a las que se ha enfrentado jamás la computación. Ya en 1951 Alan Turing planteó el reto del juego de la imitación, en el que ser humano y máquina podrían confundirse a través del lenguaje, realidad aún muy lejana hoy.

El lenguaje humano es altamente complejo y variado. Es un sistema vivo sobre el cual los algoritmos que tejen estas neuronas digitales que constituyen la inteligencia artificial van aprendiendo con los datos de los que se nutren. Así, estas células informáticas van adquiriendo vocabulario y mejorando sus estructuras lingüísticas gracias a su exposición constante a los datos conversacionales.

Mejor en inglés que en español

La realidad nos demuestra que, a día de hoy, la competencia de esta tecnología es muy superior en inglés que en el resto de las lenguas. Esto se debe a que tanto los principales desarrollos científicos como las grandes empresas que los han explotado comercialmente se han creado en países angloparlantes y entrenado con datos en inglés.

La realidad lingüística es muy distinta de la tecnológica: el español es el segundo idioma del mundo y cuenta con más de 585 millones de hablantes y un crecimiento del 7,5 % anual. Aun así, no existe una inteligencia artificial hoy que sea capaz de procesar con calidad sus numerosas variantes (debidas a diferentes circunstancias geográficas, sociales o contextuales).

La razón de este retraso con respecto al inglés se debe a la fragmentación de las empresas de tecnología lingüística hispanas. En general, son pequeñas y están orientadas a funciones específicas y muy concretas, con un histórico fuertemente vinculado a la traducción y a la variedad lingüística peninsular.

Además, a pesar de la gran cantidad de datos que poseemos en nuestra lengua, estos no se encuentran disponibles para su explotación, pues muchos son privados. Incluso aquellos que están en manos de las instituciones públicas y culturales se encuentran en silos no preparados para su consumo abierto.

Por estos motivos, en muchas ocasiones, las empresas y los grandes clientes eligen soluciones que no se han fabricado en nuestra lengua ni entrenado con nuestros datos, sino mediante la traducción posterior. Esto hace que su nivel de éxito sea mucho menor.

He aquí algunos ejemplos: para poder entrenar a un robot en el ámbito legal español, es necesario contar con abundantes textos legales en nuestra lengua, pero también de un conocimiento del Derecho Romano y del funcionamiento de la jurisprudencia en España.

Para poder discernir las diferentes variedades del español en Latinoamérica, es imprescindible conocer no solamente las variantes de léxico, sino también la fonética, e incluso el funcionamiento situacional (pragmática) de algunas expresiones en determinados contextos. Todos estos matices se pierden en la traducción.

Una oportunidad para el avance

A pesar de todo, nos encontramos hoy en un momento de interés creciente por el desarrollo de la inteligencia artificial aplicada al lenguaje. Ha habido un incremento del 34,5 % de papers científicos sobre procesamiento del lenguaje natural e IA aplicado a lenguaje entre 2019 y 2020, que hace patente la creciente madurez de la tecnología.

Además, el interés por su desarrollo se ha convertido en clave para el desarrollo económico. Actualmente, China lidera con fuerza la revolución tecnológica, seguida por Estados Unidos. Mientras, Europa lucha por no quedar más rezagada buscando nichos para brillar ligados a nuevas oportunidades y a la propia realidad cultural, económica e histórica del viejo continente. La lengua es, sin lugar a dudas, una de ellas, pues los activos que sirven de punto de partida, los datos, están aquí y prácticamente no se han aprovechado aún.

Dentro de esta carrera por el desarrollo de la inteligencia artificial, la importancia del español como lengua nativa de IA, ligada al potencial de mercado y a la riqueza y variedad de sus datos, es una mina de oro que apenas se ha comenzado a explotar.

No es necesario reinventar la pólvora, tan solo proporcionar datos abiertos y disponibles para poder entrenar los algoritmos existentes y alinear el tejido empresarial hacia una misma dirección.

El objetivo es crear una inteligencia artificial tan poderosa como el número de hablantes de español, que allanaría el camino no solo para crear nuevas empresas y mejores algoritmos, sino también para la digitalización y preservación digital de un acervo cultural, lingüístico e histórico que merece un espacio privilegiado dentro del futuro de la transformación digital internacional. El momento es ahora, y los responsables, nosotros.

Elena González-Blanco, Directora de investigación en el Center for the Governance of Change, IE University

Este artículo fue publicado originalmente en The Conversation. Lea el original.

Tu opinión enriquece este artículo:

La actividad de los anfitriones en Airbnb y el gasto de los viajeros en eventos, comercios y restaurantes ayudaron a promover 130.000 empleos en España durante 2023

La actividad de los anfitriones en Airbnb y el gasto de los viajeros que utilizan la plataforma están impulsando la economía y el empleo en miles de localidades en toda España. Un análisis económico de Airbnb estima que en 2023 los viajes a través de la plataforma tuvieron un impacto económico superior a 8.500 millones de euros en España, que se distribuyeron por más de 5.200 municipios. Según los datos arrojados por la metodología utilizada, la actividad económica generada por el gasto de anfitriones y huéspedes aportó aproximadamente  a las arcas del estado un total de 3.600 millones de euros en impuestos.

Celonis nombra a Greg Czajkowski vicepresidente ejecutivo de Ingeniería para impulsar la innovación de la plataforma

Celonis, líder mundial de inteligencia y minería de procesos, ha anunciado hoy el nombramiento de Grzegorz (Greg) Czajkowski como vicepresidente ejecutivo de Ingeniería=. Czajkowski se encargará de supervisar los equipos de ingeniería de la empresa en todo el mundo a medida que avanza su plataforma de inteligencia de procesos líder en el mercado. Antes de unirse a Celonis, Czajkowski fue vicepresidente ejecutivo de Ingeniería y Soporte en Snowflake durante cinco años, donde supervisó el equipo mundial de ingeniería responsable del desarrollo y la entrega de Snowflake Data Cloud.

Popeyes® lanza ‘The Imperial Cesar’: una nueva hamburguesa gourmet disponible por tiempo limitado (la favorita de Carmen Lomana)

Popeyes®, una de las mayores cadenas de restauración organizada especializada en pollo, lanza una nueva hamburguesa: The Imperial Cesar. Esta nueva y exclusiva hamburguesa ya está disponible por tiempo limitado en los más de 140 restaurantes Popeyes® en España y a través de todos sus canales de venta (en sala, take away y servicio a domicilio).

Vino, gastronomía y astronomía: Jean Leon celebra su particular Noche de Perseidas (una experiencia que tendrá lugar en la bodega del Penedès)

El próximo sábado, 3 de agosto, a las 19:30 horas, Jean Leon celebra una nueva edición de La Noche de las Perseidas, su cita anual que combina el vino y la gastronomía con la astronomía, una actividad que se celebra coincidiendo con el mes en el que se puede observar el fenomeno popualarmente conocido como Las lagrimas de San Lorenzo. 

Factorenergia celebra 25 años apostando por la innovación energética y la expansión internacional (14 oficinas en España, más de 400 empleados y más de 300.000 clientes)

Factorenergia conmemora su 25 aniversario como la comercializadora pionera del sector energético español. La compañía catalana ha celebrado este jueves por la noche un gran evento en el Palau de Congressos de Catalunya y en los jardines del hotel Torremelina, que ha contado con la presencia de unos 1.300 invitados, entre plantilla, colaboradores y una amplia representación de instituciones y de la sociedad civil catalana.

CataloniaBio & HealthTech se transforma en Catalonia.Health para liderar la innovación empresarial en salud

Catalonia.Health es la nueva denominación que adopta a partir de hoy CataloniaBio & HealthTech. Nueva marca y nuevo logotipo para reflejar la dimensión que ha adquirido la asociación desde su creación. Convertida actualmente en referente del ecosistema innovador, empresarial e inversor del sector salud y ciencia de la vida en Cataluña, destaca en su nuevo eslogan los conceptos Science, Innovation, Business, tres ejes que identifican el conjunto de actores que conforman la comunidad presidida por Mariona Serra y dirigida por Javier Selva.

CaixaBank, distinguido como ‘Mejor Banco en España 2024’, ‘Mejor Banco en ESG’ y ‘Mejor Banco Digital’ (en los premios Euromoney a la excelencia bancaria)

CaixaBank ha vuelto a confirmar su liderazgo en el mercado español con la obtención de tres galardones en los premios Awards for Excellence concedidos por la revista británica Euromoney, que cada año otorga estas distinciones tras un proceso exhaustivo de investigación y análisis de datos de las candidaturas presentadas.

BBVA firma un acuerdo con Telefónica Tech para impulsar la ciberseguridad a escala global

BBVA ha elegido a Telefónica Tech para impulsar la ciberseguridad de sus operaciones a escala global con la incorporación de las tecnologías más avanzadas en inteligencia artificial y automatización de procesos para la prevención de ciberamenazas. Además, esta alianza conlleva la creación de un nuevo centro especializado en México, que funcionará como espejo del Centro Global de Ciberseguridad de BBVA ya existente en España. La combinación de ambos permitirá ofrecer una cobertura integral e ininterrumpida a todo el Grupo.

Descubre el Camino de Santiago Fránces por Galicia: vive una aventura a pie o de forma virtual (a través de una app)

El Camino de Santiago Francés, una ruta milenaria que ha guiado a peregrinos desde tierras francesas hasta la mística Santiago de Compostela, transcurre a través de todo el norte de la Península. Sin embargo es momento de acotar, de reducir y centrarse en un tramo de increíble belleza como es el Camino de Santiago Francés por Galicia. 11 concellos, cada uno con una historia rica, una cultura vibrante y tradiciones que han resistido la prueba del tiempo y a los que se suman 4 ayuntamientos leoneses. Este Camino es mucho más que una simple ruta de peregrinación. Es un lugar de encuentro, reflexión y crecimiento personal que ha dejado una huella indeleble en la cultura y la historia de España.

El intercambio de casas: la clave para alojarte de forma más económica en París durante los Juegos Olímpicos

París siempre está en el top de destinos de verano y, especialmente, este año con motivo de la celebración de los Juegos Olímpicos y Paralímpicos. De hecho, según HomeExchange, plataforma líder mundial de intercambio de casas, está previsto que se realicen 69.353 pernoctaciones entre los meses de julio y agosto y, en concreto, del 26 de julio al 11 de agosto, fecha en la que tendrá lugar los JJOO, 29.946, un 52% más que en el mismo periodo el año pasado.

Éste sitio web usa cookies, si permanece aquí acepta su uso. Puede leer más sobre el uso de cookies en nuestra política de cookies.