Pedro Fuertes, director del GIR Centro Internacional de Lexicografía y coordinador del proyecto. Rodrigo Jiménez
Valladolid

El sello vallisoletano del primer diccionario digital de español apoyado en IA

Pedro Fuertes es el coordinador del glosario Dides, que se actualiza constantemente con 40 definiciones nuevas cada día

Sergio García

Valladolid

Sábado, 30 de diciembre 2023, 19:33

Imagina ese momento de duda existencial cuando lees una palabra en internet y piensas, ¿y esto qué significa? Digamos, por ejemplo, que esa palabra es pacay. Te decides a buscarlo en el diccionario y te encuentras con la siguiente definición: dícese del guamo o fruto ... del pacay. Se puede decir también que te has quedado con la duda. En la era de la inmediatez esto es un problema, ya no te ha servido la primera búsqueda, sino que ahora tienes que saber qué es un guamo. Y quizá, después buscar una foto de lo que es, porque más vale una imagen que mil palabras. Lo que era una simple consulta ya se ha convertido en otra cosa. En esta época donde la rapidez impera, la tecnología vuelve a tener la solución. Para ser más directos, la universidad de Valladolid presentó este noviembre Dides, un diccionario digital del español para el siglo XXI, el primero del mundo que se actualiza y se apoya en la inteligencia artificial.

Publicidad

«Hablamos de una herramienta en constante actualización. Donde se recoge lo útil y las expresiones que se utilizan de manera habitual», explica Pedro Fuertes, director del GIR Centro Internacional de Lexicografía y coordinador del proyecto. Qué significa esto. Pues que vive acorde a la realidad social y lingüística. Dentro caben expresiones como 'acabar como el rosario de la aurora', otras que se usan de manera habitual en el lenguaje español, pero que no aparecen registradas en otros diccionarios oficiales. «Todo tiene cabida, siempre que sean expresiones cuya definición podamos comprobar. Cada vez que se genera un tema de debate, lo estudiamos y actuamos en consecuencia. Por ejemplo con términos como Colectivo LGTBI, que son expresiones sociales presentes en el día a día», añade Fuertes.

Una de las características esenciales de este diccionario es que no emplea fórmulas lexicográficas como 'profesor, ra' y que además es un diccionario que tiene en cuenta el femenino, atendiendo los logros e inquietudes de las mujeres. «Aquí tienen vida, existen. Las entradas las describen, lo que hacen y sus labores. Puedes encontrar profesor y profesora, conductor y conductora. No una definición para ambos sexos. En los diccionarios actuales no aparecen de esta manera», asegura el coordinador. Otro ejemplo, chófer y choferesa, cada una con su definición diferenciada.

Para ayudar a entender, el diccionario no se sirve solo de texto. También usa imágenes, gifs y vídeos. «Implementamos sonidos en algunos casos. Por ejemplo en las definiciones de pájaros», explica Fuertes. De vuelta al pacay, en Dides aparecen tres acepciones, en la que habla de botánica -ese famoso fruto- aparece una foto del árbol y del propio fruto. Otra de las diferencias con un diccionario tradicional es que se actualiza de manera constante y las definiciones no están cerradas. «Las palabras siempre quedan ahí, de manera que si metemos una expresión de actualidad y se deja de usar, no se elimina. Pero las definiciones siempre se pueden actualizar», asegura el coordinador.

Publicidad

Inteligencia artificial

El diccionario se sirve de inteligencia artificial para aumentar las palabras en su glosario. «Cuando comenzó el proyecto, la IA era algo en mantillas. Colaboramos con una empresa danesa, que hacía experimentos con ella, pero sin buenos resultados. Todo cambia en 2017, cuando surge el 'deep learning'. Esto se aplica a millones de textos y palabras, que empiezan a hacer programas como Chat GPT», explica Fuertes. El coordinador añade que el proceso ha requerido de tres etapas. Tener un modelo corpus de billones de palabras, «un modelo lingüístico largo». Desarrollar una tecnología de aprendizaje profundo que permita relacionar estas palabras y un tercer paso, la financiación para llevarlo a cabo. En el caso de Dides -de las siglas Diccionario Digital del Español- su uso es gratuito y se puede encontrar con una búsqueda en internet en diesgital.com.

650.000

El número de datos indexados en el diccionario digital, que añade 40 definiciones nuevas cada día.

Pero no se fía todo a la IA, también hay inteligencia humana de por medio. «Hay que tener cuidado de hacer entradas con datos falsos. Si ahora haces una pregunta a la IA y la repites en un rato, obtienes respuestas diferentes. Si no estas de acuerdo con una, puedes comprobarlo por medios humanos y si no está claro, no lo reflejamos en el diccionario. Es una tecnología aún en fase de desarrollo, no está totalmente claro donde va a ir», afirma Fuertes. Por el momento, el diccionario se actualiza con 40 definiciones nuevas cada día. «Una expresión tiene una o dos definiciones, mientras que una palabra individual tiene de media cinco o seis», expresa.

Publicidad

Y para conseguir que la inteligencia artificial hiciera posible este diccionario, adaptaron un modelo. «Esto te permite construir entradas con la inteligencia artificial a un ritmo de mil a la hora. El proceso es hacer un 'prompt', pedir que te diga el significado de una palabra. Luego: ponme cada significado en una línea y enuméralo, dame también la categoría gramatical de cada palabra y un ejemplo por cada significado, sinónimos, antónimos y en qué países de habla hispana se utiliza», explica. Y así hasta llegar a los más de 650.000 datos indexados y a otras decenas de miles de definiciones. El uso de estos 'prompts' es tan importante en la actualidad que ya empieza a haber cursos universitarios para estudiarlos. «Cómo hacer que la herramienta saque algo que merezca la pena. Es un proceso de prueba y error. A nuestro sistema le pregunto en inglés y en español. En inglés da mejores resultados porque funciona con textos sacados de internet y hay diez veces más en inglés que en español. A más textos más resultados obtienes», explica Fuertes.

Este contenido es exclusivo para suscriptores

0,99€ primer mes

Publicidad