Javier Blasco y Carmen Morán, del departamento de Literatura de la UVA y estudiosos de la lingüística forense y la estilometría. Henar Sastre

La UVA analiza textos a través del Big Data para detectar plagios o solventar casos de acoso

Una empresa participada por la Universidad de Valladolid utiliza el método, perfecionado, que permitió atrapar al terrorista Unabomber

Antonio G. Encinas

Valladolid

Viernes, 9 de marzo 2018, 08:18

Javier Blasco se adentra en el código de la herramienta, cambia un parámetro aquí y unas especificaciones allá y le pide que analice una docena de novelas. En cuestión de segundos, el ordenador ‘lee’ 29 millones de palabras y devuelve el diagrama que este catedrático del Departamento de Literatura de la UVA ... le ha pedido. A juicio de la herramienta, las dos novelas en verde son de Giménez Bartlett; las dos en amarillo, de Delibes; las dos en rojo, deRuiz Zafón...

Publicidad

-Parece que la máquina se ha equivocado- dice.

Junto a las dos novelas de José Calvo Poyato aparece otra de Peter Harris. Según la máquina, el autor es el mismo. ¿Hay un error? Lo cierto es que no. Peter Harris es el seudónimo de José Calvo Poyato.

Esta es solo una de las herramientas que utiliza la empresa Agilice Digital, creada por profesores de la Universidad de Valladolid, para un trabajo que tiene bastante de detectivesco: la lingüística forense. Determinar, por ejemplo, si el autor de un texto es quien dice ser. O si existe plagio entre dos obras. Es una disciplina que, en cierto modo, tiene algo de intuitivo. El ojo entrenado puede discernir que hay ‘algo’ que no encaja. Comparar, sin embargo, dos tesis doctorales para comprobar si existe plagio puede suponer un esfuerzo brutal y centenares de horas de trabajo.

La máquina detecta elementos inconscientes en la escritura que un ojo entrenado no puede siquiera atisbar

Ahí entra la segunda faceta de esta tarea, la tecnológica. Con las herramientas actuales, el Big Data se ha convertido en un aliado imprescindible. Volviendo al caso del plagio. En unos segundos el ordenador puede listar todos los términos cuya presencia considera relevante por su especificidad, incluso sintagmas completos. Si encuentra «certidumbre abisal», por ejemplo, (que en Google solo arroja un resultado), y esta frase literal se encuentra en las dos tesis, es un indicio importante. Si existen más, y se unen a otros análisis en los que aparecen estructuras similares, o formas parecidas de puntuar... «Se fija la probabilidad en cinco categorías», explica Javier Blasco, desde la más baja a la más alta. «Luego es el juez el que debe determinar si, a la luz de estos informes periciales, existe plagio o no, porque es un delito». Y es que esto es, en realidad, un peritaje. Y sus aplicaciones, además, son enormes. Agilice Digital tiene otras áreas de negocio, por así decirlo, pero esta vía se ha demostrado muy interesante para un buen número de casos de diferentes tipos. Eso es positivo para la empresa y también para la propia Universidad de Valladolid, puesto que se trata de una ‘spin-off’, es decir, una empresa de base tecnológica participada por la UVA, que recibe así unos ingresos extraordinarios. Junto a la institución hay «siete u ocho socios», explica Javier Blasco, que pusieron en marcha la empresa hace cinco años.

Retratro robot de Unabomber, el terrorista norteamericano atrapado gracias a su Manifiesto, publicado por el New York Times y el Washington Post, después de 17 años de búsqueda.

«Hemos actuado, por ejemplo, en casos de conflictos de marcas, cuando alguien ha ido a registrar una marca y podía tener un conflicto con otras ya registradas, y hemos tenido que hacer análisis de fonética, del nombre, ver qué parecido había o no, si se podía confundir... En el caso del logo recurrimos a expertos de diseño», explica Blasco. En el PP municipal y en Ciudadanos aún recuerdan el conflicto de las papeletas de Candidatura Independiente en las últimas elecciones. El incremento de votos de CI, muy significativo, se achacó en parte al parecido del logo (que decía en los carteles CI-Ciudadanos en color naranja). Una diferencia de votos, respecto a su porcentaje habitual en los comicios anteriores, que de haber caído en la urna a favor de Cs podía haber supuesto, entonces, el tercer edil naranja. Y quién sabe qué más...

Publicidad

«Hay casos más delicados, como los de plagio. Una persona que ha escrito un guion cinematográfico por encargo pero que después no se convierte en película. Tiempo más tarde se publica una novela con el mismo argumento. Nos tocó dilucidar si el texto del guion estaba presente», señala Blasco. Porque de lo que se trata, para que exista plagio, es de constatar que «se hubiera podido escribir la segunda sin la obra del denunciante».

Las herramientas permiten indagar en los dos textos hasta extremos increíbles. «Porcentaje de palabras que se repiten en ambos casos, léxico único, porcentaje de sustantivos o adjetivos utilizados, estructuras comunes...». Aunque también se da el caso contrario, la comparación preventiva. «Una academia que manejaba libros de una editorial italiana decidió dejar de pagar la licencia anual y que sus profesores escribieran sus propios manuales. Ante el temor de que pudieran denunciarlos nos pidieron un peritaje para saber si se les podría denunciar por plagio», cuenta Blasco.

Publicidad

Manifiesto original de Unabomber.

Como una huella

En El Norte, la jefa de Edición puede identificar al periodista autor de un texto sin ver la firma. «Siempre ha sido así de manera intuitiva», concede Blasco. Sin embargo, el aporte de la tecnología va más allá. «Antes podíamos jugar con quince o veinte variantes, mientras que ahora el ordenador, con un golpe de teclado, nos permite comparar quinientos o seiscientos elementos, la proporción de adjetivos y sustantivos, los caracteres, cuál es la música o el habla en comparación con otro, el tamaño de las frases, de las palabras... Nos permite realizar análisis muy finos».

Publicidad

¿Y qué ocurre si un autor o un periodista intenta escribir con el estilo de otro? ¿Podría engañar a la jefa de Edición?

«Puedo imitar el léxico o determinadas muletillas, cosas conscientes», admite Javier Blasco. «Pero la máquina mide fenómenos inconscientes, como el número de veces que empleas la vocal ‘a’ en relación con la consonante ‘l’. O los signos de puntuación, el modo en que se usan es una de las marcas más fiables para establecer la autoría de un texto». Es, por así decirlo, como si cada uno tuviera una huella individual. «Hay un viejo principio que dice que el habla es una especie de ADN que nos identifica y hay varios niveles de identificación», señala Blasco. «Por ejemplo, palabras propias del lugar del que procedes, variables diatópicas, podemos saber la clase social, nivel cultural, el grado de formalidad con que esa persona utiliza el lenguaje o no... Y en última instancia nos permite identificar al individuo».

Pone el ejemplo de dos hermanos con la misma formación. «El modo en que uno asocia las palabras nunca va a ser idéntico al de su hermano».

¿Y qué pasa cuando se trata de dilucidar un caso de acoso por Whatsapp o por las redes sociales, donde los mensajes son más cortos y trufados de emoticonos, abreviaturas y faltas de ortografía? «En Whatasapp, por ejemplo, el modo en que se distribuyen los elementos o las abreviaturas es muy importante. La dificultad está en que hay que estudiar una línea completa de chateo para poder determinar los usos de una persona». Con el correo electrónico es más sencillo. «Hemos trabajado para un gabinete en el que una empresa recibió seis burofax con determinada firma y sospechaban que no los había escrito la persona que los firma. Hemos tenido que determinar si era así o no».

Publicidad

Quizá usted piense que la evolución de un escritor, por ejemplo, puede suponer que sus textos no se correlacionen tan fácilmente. «El libro más complejo de Góngora es ‘Las soledades’. Si se compara con los más sencillos de su primera época-como ‘Ándeme yo caliente’-, la máquina detecta que es el mismo autor». Así que Dámaso Alonso, cuando dijo que el segundo Góngora ya estaba presente en el primero, tenía razón.

Unabomber, el terrorista que inauguró la lingüística forense

Solo tienen que ir a Netflix. ‘Mindhunter’ y ‘Man hunt’ tratan la historia de ‘Unabomber’, un matemático obsesionado con los peligros de la tecnología -podría haber sido un fanático de ‘Black Mirror’, por no salir de la plataforma- que se dedicó a enviar bombas por carta durante 17 años. Mató a 3 personas, hirió a otras 29 y se convirtió en un icono del terrorismo.

Tras ese retrato robot reproducido millones de veces se encontraba un genio de las matemáticas, Theodore Kazcynski. Había escrito un manifiesto que envió a los dos periódicos norteamericanos más importantes, el New York Times y el Washington Post, después de sus primeros atentados: La sociedad industrial y su futuro. Durante mucho tiempo, ninguno de ellos aceptó publicar el manifiesto. Hasta 1995 no se publicó el manifiesto en los dos diarios. Constaba de unas 35.000 palabras. Supuso el comienzo del cerco a un criminal que hasta entonces había demostrado una gran capacidad para eludir las sospechas. No dejaba pruebas, ni utilizaba materiales complejos para construir sus bombras. Tampoco se trataba de víctimas relacionadas entre sí: atacó a un genetista, al propietario de una tienda de ordenadores, a una aerolínea...

Tras la publicación del Manifiesto de Unabomber, el FBI empezó a recibir llamadas con posibles pistas. De entre todas ellas, atrajo la atención la de David Kazcynski, quien explicaba que el texto le había recordado a algunas cartas y documentos escritos por su hermano Theodore muchos años atrás. El matemático se había recluido en una vida de ermitaño desde 1978.

La lingüística forense tuvo aquí su primera ocasión de ponerse a prueba en un gran escenario. Unabomber fue detenido en abril de 1996, según explica la web biography.com, con miles de escritos sobre sus atentados.

Este contenido es exclusivo para suscriptores

0,99€ primer mes

Publicidad