Por qué las máquinas no hablan bien español y por qué deberían hacerlo

(Por Elena González-Blanco, IE University) Cada día se habla con mayor naturalidad de inteligencia artificial (IA). Nos vamos acostumbrando a que esta etiqueta –con un significado para muchos aún rodeado de un halo enigmático– penetre con mayor frecuencia en nuestra rutina.

Image description

 
Metamorworks / Shutterstock

Sin ser apenas conscientes, sonreímos para desbloquear el teléfono móvil sin saber que tras ese segundo delante de la cámara, miles de píxeles convertidos en datos alimentan a gran velocidad algoritmos de deep learning. Estos son hoy día capaces de automatizar el reconocimiento facial en unos porcentajes superiores al 98 % de exactitud.

La eclosión ha sido estelar. Podemos considerar como punto esencial la victoria de DeepMind frente al primer jugador mundial de Go en 2016. En apenas 5 años, la afortunada combinación del volumen exponencial de datos generados, la creación de sistemas de procesamiento suficientemente potentes (unidades de procesamiento gráfico o GPU) y la madurez y liberación de los algoritmos de redes neuronales (como Tensorflow), han hecho realidad programable toda la teoría matemática que sienta sus bases en los años 50 del siglo XX, con las primeras teorías de Marvin Minsky o John McCarthy sobre el aprendizaje automático.

¿Robots que hablan? No es tan sencillo

Debajo de esa magia, que hace que la informática trate de comportarse como el cerebro humano, hay una combinación de distintas tecnologías y tipos de datos que no funciona con el mismo éxito ni de la misma forma para resolver todos los problemas.

La paradoja está servida: nos atemoriza un mundo en el que los robots amenazan con suplantar nuestras funciones laborales, pero a día de hoy, asistentes como Siri, Alexa y Google Home son todavía incapaces de mantener una conversación de más de unos minutos, más allá de solicitar una serie de datos, dar órdenes sencillas o establecer rutinas concretas.

Hacer hablar –y escribir– a las máquinas es una de las labores más complejas a las que se ha enfrentado jamás la computación. Ya en 1951 Alan Turing planteó el reto del juego de la imitación, en el que ser humano y máquina podrían confundirse a través del lenguaje, realidad aún muy lejana hoy.

El lenguaje humano es altamente complejo y variado. Es un sistema vivo sobre el cual los algoritmos que tejen estas neuronas digitales que constituyen la inteligencia artificial van aprendiendo con los datos de los que se nutren. Así, estas células informáticas van adquiriendo vocabulario y mejorando sus estructuras lingüísticas gracias a su exposición constante a los datos conversacionales.

Mejor en inglés que en español

La realidad nos demuestra que, a día de hoy, la competencia de esta tecnología es muy superior en inglés que en el resto de las lenguas. Esto se debe a que tanto los principales desarrollos científicos como las grandes empresas que los han explotado comercialmente se han creado en países angloparlantes y entrenado con datos en inglés.

La realidad lingüística es muy distinta de la tecnológica: el español es el segundo idioma del mundo y cuenta con más de 585 millones de hablantes y un crecimiento del 7,5 % anual. Aun así, no existe una inteligencia artificial hoy que sea capaz de procesar con calidad sus numerosas variantes (debidas a diferentes circunstancias geográficas, sociales o contextuales).

La razón de este retraso con respecto al inglés se debe a la fragmentación de las empresas de tecnología lingüística hispanas. En general, son pequeñas y están orientadas a funciones específicas y muy concretas, con un histórico fuertemente vinculado a la traducción y a la variedad lingüística peninsular.

Además, a pesar de la gran cantidad de datos que poseemos en nuestra lengua, estos no se encuentran disponibles para su explotación, pues muchos son privados. Incluso aquellos que están en manos de las instituciones públicas y culturales se encuentran en silos no preparados para su consumo abierto.

Por estos motivos, en muchas ocasiones, las empresas y los grandes clientes eligen soluciones que no se han fabricado en nuestra lengua ni entrenado con nuestros datos, sino mediante la traducción posterior. Esto hace que su nivel de éxito sea mucho menor.

He aquí algunos ejemplos: para poder entrenar a un robot en el ámbito legal español, es necesario contar con abundantes textos legales en nuestra lengua, pero también de un conocimiento del Derecho Romano y del funcionamiento de la jurisprudencia en España.

Para poder discernir las diferentes variedades del español en Latinoamérica, es imprescindible conocer no solamente las variantes de léxico, sino también la fonética, e incluso el funcionamiento situacional (pragmática) de algunas expresiones en determinados contextos. Todos estos matices se pierden en la traducción.

Una oportunidad para el avance

A pesar de todo, nos encontramos hoy en un momento de interés creciente por el desarrollo de la inteligencia artificial aplicada al lenguaje. Ha habido un incremento del 34,5 % de papers científicos sobre procesamiento del lenguaje natural e IA aplicado a lenguaje entre 2019 y 2020, que hace patente la creciente madurez de la tecnología.

Además, el interés por su desarrollo se ha convertido en clave para el desarrollo económico. Actualmente, China lidera con fuerza la revolución tecnológica, seguida por Estados Unidos. Mientras, Europa lucha por no quedar más rezagada buscando nichos para brillar ligados a nuevas oportunidades y a la propia realidad cultural, económica e histórica del viejo continente. La lengua es, sin lugar a dudas, una de ellas, pues los activos que sirven de punto de partida, los datos, están aquí y prácticamente no se han aprovechado aún.

Dentro de esta carrera por el desarrollo de la inteligencia artificial, la importancia del español como lengua nativa de IA, ligada al potencial de mercado y a la riqueza y variedad de sus datos, es una mina de oro que apenas se ha comenzado a explotar.

No es necesario reinventar la pólvora, tan solo proporcionar datos abiertos y disponibles para poder entrenar los algoritmos existentes y alinear el tejido empresarial hacia una misma dirección.

El objetivo es crear una inteligencia artificial tan poderosa como el número de hablantes de español, que allanaría el camino no solo para crear nuevas empresas y mejores algoritmos, sino también para la digitalización y preservación digital de un acervo cultural, lingüístico e histórico que merece un espacio privilegiado dentro del futuro de la transformación digital internacional. El momento es ahora, y los responsables, nosotros.

Elena González-Blanco, Directora de investigación en el Center for the Governance of Change, IE University

Este artículo fue publicado originalmente en The Conversation. Lea el original.

Tu opinión enriquece este artículo:

5 restaurantes catalanes están en la carrera por las Mejores Aperturas del 2023 en la III edición de los Thefork Awards

Un total de 36 restaurantes, repartidos por la geografía española, han sido nominados como las mejores aperturas del pasado 2023, en la tercera edición de los TheFork Awards. Un jurado compuesto por más de 50 personalidades de la gastronomía española, reconocidos con una, dos y tres Estrellas MICHELIN, de la talla de Paco Morales (Noor), Dabiz Muñoz (Diverxo), Diego Guerrero (D Stage), Elena Arzak (Arzak), Begoña Rodrigo (La Salita) o Jesús Sánchez (El Cenador de Amós), entre otros, ha sido el encargado de elaborar la prestigiosa lista. No obstante, habrá que esperar hasta el próximo 11 de noviembre para que se den a conocer los finalistas, en una gala que tendrá lugar en el Gran Teatro Caixabank Príncipe Pío en Madrid.

ALDI pone a la venta su casco de moto flip-up por 64,99 euros (estará disponible en todas las sucursales a partir de mañana)

ALDI pone a la venta este miércoles un casco de moto con sistema flip-up por tan solo 64,99 euros. La compañía también ofrecerá otros accesorios imprescindibles a la hora de conducir una moto a precios bajos, todos ellos disponibles a partir de este miércoles 11 de septiembre y por tiempo limitado, en los más de 440 supermercados de ALDI repartidos por toda España.

Ebro iniciará la producción en noviembre: arrancaría con la fabricación del S700 y el S800

EBRO, compañía automovilística especializada en el diseño, fabricación y comercialización de vehículos en España, está a la espera de la inminente homologación definitiva de sus modelos SUV S700 y S800, de tecnología avanzada, para iniciar la producción en la planta
de la Zona Franca de Barcelona, prevista para el próximo mes de noviembre. Ello significará la plena ocupación de las líneas de ensamblaje de la fábrica y la reincorporación de un centenar de trabajadores.

DXC Technology ha sido reconocida en la lista Forbes de las Mejores Consultoras de Gestión del Mundo 2024

DXC Technology (NYSE: DXC), empresa líder mundial de servicios tecnológicos, ha sido reconocida en la lista Forbes de las Mejores Firmas de Consultoría de Gestión del Mundo 2024. Este prestigioso premio es otorgado por Forbes y Statista Inc, el portal líder de estadísticas y proveedor de rankings de la industria. La lista de premios se anunció el 13 de agosto de 2024 y puede consultarse en el sitio web de Forbes.

El 43% de los inquilinos no puede acceder a una vivienda en propiedad (mientras que en 2023 era el 38%)

Cuando alguien decide vivir de alquiler en lugar de comprar una vivienda, el primer motivo aducido suele ser la imposibilidad de acceder al mercado de propiedad por motivos económicos. Es una barrera que, además, este año ha crecido en altura, ya que en 2024 es un motivo para el 43% de los demandantes de vivienda en arrendamiento frente al 38% de 2023. Es decir, un incremento de cinco puntos porcentuales en tan solo un año. Esta es la principal conclusión del informe “Experiencia en alquiler en 2024” que pretende trazar una exhaustiva radiografía del mercado de la vivienda en arrendamiento.

The District 2024 posicionará a Barcelona como el centro de capital inmobiliario europeo, centrado en la vivienda asequible

A dos semanas del arranque de The District 2024, la mayor cumbre del Real Estate en Europa diseñada por y para el capital, que tendrá lugar del 25 al 27 de septiembre en Barcelona, ha sido presentada oficialmente esta mañana. En su tercera edición, que será la más internacional, el evento devendrá el escaparate donde se anticiparán las macrotendencias inmobiliarias de 2025 y se examinará lo que ha sido el primer semestre del año en curso.

Las oficinas se revitalizan: la contratación de espacios de trabajo aumenta un 9% en Europa en el segundo trimestre del año

La pandemia es el principal causante del nuevo ciclo inmobiliario en el que estamos inmersos y de toda la transformación que estamos viendo en el Real Estate. En este sentido, las oficinas son las que han experimentado un cambio más notable antes y después de la crisis sanitaria. Y es que la consolidación del teletrabajo y la búsqueda del bienestar del empleado, que en época precovid no era entendido como una prioridad, ha dado un vuelco en el desarrollo de los workspaces, así como en las dinámicas de trabajo. Es por este motivo que las oficinas están viviendo un cambio trascendental a fin de adaptarse a la demanda actual y recuperarse de la crisis que se les auguraba hace un par de años, cuando parecía que los conceptos híbridos y virtuales iban a terminar con el apetito inversor en este activo.

CaixaBank bate su récord histórico y supera las 6.150.000 nóminas domiciliadas (la entidad consolida así su posición de liderazgo, con una cuota de mercado del 36,8%)

CaixaBank ha cerrado el mes de julio batiendo el récord histórico de nóminas domiciliadas, superando la cifra de 6.150.000, un 2,16% más que los alcanzados hace justo un año, en julio de 2023. De esta manera, la entidad sigue consolidando su posición de liderazgo en este segmento, con una cuota de mercado del 36,8% en uno de los segmentos más atractivos para la banca puesto que supone una gran vinculación de los clientes.

Opentext y Stratesys optimizan la gestión de calidad y cumplimiento normativo (utilizando tecnologías avanzadas como la inteligencia artificial generativa y la nube)

Opentext y Stratesys han firmado un nuevo acuerdo estratégico diseñado para revolucionar la digitalización de los procesos de innovación en la gestión de calidad y el acceso al mercado para organizaciones sujetas a estrictos requisitos normativos como ISO, GMP, ANSI o IEC. Gracias a esta alianza, Stratesys podrá integrar las soluciones de Opentext como una plataforma OEM en su Good Practices Suite, incorporando tanto las innovaciones actuales como las futuras de la plataforma de Opentext en la gestión de información, la automatización de procesos y el uso de inteligencia artificial generativa.

Éste sitio web usa cookies, si permanece aquí acepta su uso. Puede leer más sobre el uso de cookies en nuestra política de cookies.