Durante las últimas semanas la sociedad ha asistido sorprendida a la aparición estelar en medios de comunicación de ChatGPT como un producto revolucionario, llamado a cambiar las formas de trabajo en actividades consideradas hasta ahora puramente intelectuales, por ser capaz de generar automáticamente lenguaje natural ... de alta calidad en respuesta a peticiones de los usuarios. ChatGPT proporciona un servicio de diálogo, al que se pueden hacer peticiones del tipo «desarrolla un ensayo sobre la autoría del Lazarillo de Tormes» o «resume en una frase el pensamiento filosófico de Kant» o «mejora la redacción de este artículo para que parezca más culto», «ponle un título a este artículo»... La calidad de las respuestas es sorprendente, no sólo por generarse rápidamente, sino también porque los textos están bien estructurados, bien redactados y porque generalmente las respuestas son sensatas y bien documentadas. A diferencia de otros servicios como Siri o Alexa, los textos no se generan con una consulta en una base de datos o con una consulta en la web, sino que la máquina utiliza representaciones internas de la información aprendida después del análisis de millones de textos.
Titulares de prensa, tertulias y reportajes en radio y televisión, manifestaciones de autoridades políticas… todo el mundo, al menos todo el mundo con trabajos intelectuales, habla de ChatGPT estos días. La situación recuerda a otros momentos vividos en la historia de la humanidad cuando un hito tecnológico impacta de tal manera que está en boca de todos. Sucedió por ejemplo con el lanzamiento de las primeras aeronaves, con la aparición del ferrocarril o con la construcción de las primeras catedrales góticas. Al igual que aquellas catedrales góticas, que dejaban boquiabierta a la población, que se preguntaba cómo era posible construir tan altos edificios con paredes delgadas, de igual manera ChatGPT es ahora la cara visible de una tecnología resultado de muchos años de evolución y de una gran inversión, que deja clara las capacidades de ésta. Si la tecnología empleada para construir las catedrales se basó, entre otros aspectos, en el diseño de grúas, materiales y geometrías específicas, la tecnología soporte de ChatGPT es la inteligencia artificial y más concretamente las redes neuronales.
Las redes neuronales son un recurso computacional inspirado en las conexiones del sistema nervioso de los seres vivos. La unidad más básica, el perceptrón, simula el funcionamiento de una neurona, tal y como la describió Ramón y Cajal a finales del siglo XIX. Las neuronas reciben estímulos y producen una respuesta eléctrica que es transmitida a otras neuronas vecinas. Las conexiones neuronales y los estados de las neuronas, permiten a los seres vivos percibir el entorno y tomar decisiones. De forma similar, las redes neuronales artificiales son sensibles al entorno (datos de entrada), y reaccionan actuando con el mismo (datos de salida), adaptando su estado al problema concreto para el que sean entrenadas (parámetros internos). Todo esto puede parecer magia, pero en realidad son sólo operaciones de sumas y multiplicaciones y aplicaciones de valores límite.
Las redes neuronales artificiales son un invento bastante antiguo. Surgieron después de la segunda guerra mundial como un modelo para simular el funcionamiento de las neuronas naturales, pero fueron despreciadas por los padres de la inteligencia artificial por su incapacidad para resolver algunos problemas relativamente sencillos. Unos años después, su uso cobró fuerza al inventarse un mecanismo de entrenamiento de los sistemas neuronales artificiales que consiste en exponer a la red neuronal a un número elevado de casos que incluyen el estímulo y la respuesta deseada. Los estados internos de las neuronas artificiales se adaptan para que, dado un estímulo determinado, no observado en el entrenamiento, la respuesta de la neurona sea la esperada dependiendo del problema. Por ejemplo, si queremos hacer un sistema inteligente que distinga entre perros y gatos, podemos presentar miles de fotos de perros y gatos a la red neuronal (datos de entrada) para que ajuste sus conexiones (parámetros internos) y que produzca predicciones precisas (datos de salida).
Este paradigma permitió realizar avances importantes en la inteligencia artificial, pero los resultados no terminaron de ser los esperados. Patrick Winston, profesor de Aprendizaje Automático en el MIT, afirmó que hacia 2010 plantearon retirar las redes neuronales de los temarios de inteligencia artificial porque el rendimiento de las mismas seguía siendo bajo. Poco después, un resultado lo cambió todo. Jeff Hinton, investigador de la Universidad de Toronto, presentó un trabajo de descripción automática de fotografías que devolvió el interés por las redes neuronales porque la precisión de las descripciones era excelente. Incluso cuando la red neuronal se equivocaba, la respuesta tenía cierta consistencia. Por ejemplo, el sistema se equivocaba al decir que la foto de un jaguar era una imagen de un leopardo, pero ¿Cuántos humanos sabemos distinguir un jaguar de un leopardo? Jeff Hinton acuñó el término de Deep Learning para describir una nueva forma de trabajar en la que el número de datos de entrenamiento es enorme, y el número de parámetros en la red es muy superior. Además, el Deep Learning procura no añadir información extra basada en conocimiento experto que condicione el entrenamiento, la red debe buscar dicha información por sí misma. La red de Hinton tenía 60 millones de parámetros. Hasta la fecha no había sido posible disponer de tanta información para entrenar una red neuronal y tampoco se había dispuesto de arquitecturas hardware lo suficientemente potentes como para hacer los cálculos del entrenamiento en un tiempo razonable. Desde el experimento de Hinton, el crecimiento del uso de las redes neuronales ha sido exponencial y también la cantidad de logros conseguidos, uno de ellos ChatGPT.
Las redes neuronales empleadas en ChatGPT pertenecen a una línea específica de redes neuronales especializadas en lenguaje natural o, de forma más general, especializadas en secuencias coherentes de símbolos, que en el caso del lenguaje son las palabras o las letras de un alfabeto. Dentro de este tipo de redes neuronales encontramos decenas de siglas como RNN, STLM, seq2seq, EncDec, Transformers, BERT etc. a las que hay que ir acostumbrándose. Estas siglas incluyen métodos que, como hemos dichos son especiales para aprender, representar y generar lenguaje y sus aplicaciones más celebradas están en traducción automática, resumen automático, revisión de redacción, generación de respuestas, reconocimiento y síntesis de voz etc… GPT son las siglas de Generative Pre-training Transformer. Transformer porque la petición del usuario se convierte en una representación interna, compacta y numérica que tiene en cuenta el conocimiento del dominio y las posiciones relativas de los símbolos; pre-trained porque, una vez entrenado el modelo, éste puede adaptarse fácilmente a nuevas tareas; generative porque utiliza el propio texto que el sistema va generando para completar la respuesta. Esta funcionalidad permite a ChatGPT resolver problemas como «Desarrolla una historia que empiece con la frase: érase una vez un lobo bueno que vivía feliz…». Conforme ChatGPT va generando frases, utiliza dichas frases para seguir elaborando la respuesta.
Además del algoritmo, lo que hace que ChatGPT responda bien y rápido a las peticiones del usuario, es que está entrenado con una ingente cantidad de información, bien seleccionada y que utiliza arquitecturas hardware que le permiten paralelizar la búsqueda de la mejro solución en cada caso. Estamos hablando de decenas de Terabytes de texto en el entrenamiento y de 174 billones de parámetros. Se estima que el servicio consume cientos de miles de euros diarios de electricidad para realizar los cálculos. Realmente son cifras del tamaño de una catedral. Si el coste de elevar catedrales era sufragado por la Iglesia en la Edad Media para ganar admiración y como muestra de poder, ahora lo sufragan las grandes multinacionales del sector de las tecnologías de la información con unos fines similares.
La tecnología que utiliza ChatGPT no es ni la última ni la más potente aportación de la inteligencia artificial al procesamiento de lenguaje natural. ChatGPT es sólo una muestra de los nuevos productos que veremos en los próximos meses, posiblemente aún más sorprendentes, y que pondrán en evidencia que la inteligencia artificial ha venido para quedarse.
Las implicaciones de la inteligencia artificial como una tecnología definidora de comportamientos tendrán sin duda impactó en el mercado laboral. Durante estos días se celebran en las universidades jornadas de puertas abiertas para informar a los alumnos sobre la oferta de titulaciones. Los jóvenes que se vean en situación de elegir una titulación deberían procurar evitar profesiones cuyo trabajo pueda ser sustituido por el trabajo de una inteligencia artificial, y, sobre todo, deberían elegir carreras que les permitan entender cómo funcionan estos sistemas para poder construir con ellos nuevos productos. Aunque las aplicaciones que estamos viendo recientemente se refieren al lenguaje, en realidad estas técnicas se pueden extender a cualquier proceso o ámbito en el que podamos representar los problemas como una transformación de sucesos que se producen de forma ordenada en el tiempo en acciones que responden de forma inteligente a dichos patrones, también en secuencia. El número de aplicaciones puede ser tan grande como como las que seamos capaces de imaginar y hará falta espíritus creativos en todos los dominios del conocimiento que sean conscientes de que las máquinas van a ser una ayuda, tal vez imprescindible
Comentar es una ventaja exclusiva para suscriptores
¿Ya eres suscriptor?
Inicia sesiónNecesitas ser suscriptor para poder votar.