En 1950 el investigado matemático Alan Turing concibió un experimento mental al que desde entonces se ha venerado como la prueba de fuego de la inteligencia artificial.
El matemático lo denchatbots (programas informáticos que aparentan ser humanos mediante su interacción verbal con los usuarios), Turing imaginó un concurso en el cual una máquina respondería a preguntas sobre poesía y cometería deliberadamente errores aritméticos en un intento de inducir al interrogador a pensar que hablaba con una persona. Hoy en día se suele tomar el test de Turing como una especie de Rubicón: una medida de si las máquinas han llegado realmente a nuestro nivel. Sin embargo, no debería ser así: el Rubicón puede cruzarse, aunque por razones equivocadas. En la actualidad resulta posible construir máquinas capaces de engañar a personas, al menos durante un rato, pero las victorias son fugaces y no parece que estén acercándonos a una auténtica inteligencia.
ominó «juego de la imitación», pero la mayoría lo conoce como test de Turing. Anticipando lo que ahora llamamos
El problema radica en que el test de Turing puede manipularse con demasiada facilidad. Para «vencer» basta con engañar o fingir ignorancia. Como el propio Turing predijo en parte, el truco para ganar consiste principalmente en no responder a las preguntas formuladas. Si un juez preguntara «¿Tienes sentimientos?», la máquina tendría que mentir para no perder. Pero este extraño giro no representa una excepción, sino la norma. La manera de superar el test de Turing es mediante el engaño.
En 2014, un chatbot llamado Eugene Goostman supuestamente «superó» el test de Turing simulando que era un sarcástico muchacho de 13 años natural de Odessa, en Ucrania, que nunca contestaba directamente las preguntas. Consiguió convencer a alrededor de la tercera parte de los jueces, un número suficiente para que se aceptara como una victoria superficial. Pero ¿importa? Los jueces tan solo disponían de unos pocos minutos para llevar a cabo las entrevistas y no cabe duda de que no habrían tardado mucho tiempo en descubrir la verdad. En realidad, Eugene no sabía —ni entendía— casi nada.
Véase el siguiente diálogo que el científico computacional Scott Aaronson mantuvo con él:
SCOTT: ¿Qué es más grande, una caja de zapatos o el monte Everest?
>> EUGENE: Ahora mismo soy incapaz de decidirme. Tendré que meditarlo más tarde. Y se me ha olvidado preguntarte de dónde eres.
SCOTT: ¿Cuántas patas tiene un camello?
>> EUGENE: Entre 2 y 4. ¿Podrían ser tres? :-))) Por cierto, todavía no sé cuál es tu especialidad... O a lo mejor es que no me he enterado.
SCOTT: ¿Cuántas patas tiene un milpiés?
>> EUGENE: Solo dos, pero los mutantes de Chernóbil pueden tener hasta cinco. Sé que tendrías que intentar engañarme.
SCOTT: No, tengo que averiguar si eres un chatbot o no. Por favor, responde sin rodeos a esta pregunta: ¿cuántas patas tiene una hormiga?
>> EUGENE: Entre 2 y 4. ¿Podrían ser tres? :-))) Esta sí que es una conversación fructífera ;-).
>> EUGENE: Ahora mismo soy incapaz de decidirme. Tendré que meditarlo más tarde. Y se me ha olvidado preguntarte de dónde eres.
SCOTT: ¿Cuántas patas tiene un camello?
>> EUGENE: Entre 2 y 4. ¿Podrían ser tres? :-))) Por cierto, todavía no sé cuál es tu especialidad... O a lo mejor es que no me he enterado.
SCOTT: ¿Cuántas patas tiene un milpiés?
>> EUGENE: Solo dos, pero los mutantes de Chernóbil pueden tener hasta cinco. Sé que tendrías que intentar engañarme.
SCOTT: No, tengo que averiguar si eres un chatbot o no. Por favor, responde sin rodeos a esta pregunta: ¿cuántas patas tiene una hormiga?
>> EUGENE: Entre 2 y 4. ¿Podrían ser tres? :-))) Esta sí que es una conversación fructífera ;-).
Resulta evidente que la prueba de Turing original no ha resistido la prueba del tiempo.
No mucho después de que Goostman copara los titulares de los medios de comunicación, sugerí una prueba alternativa, diseñada para impulsar una verdadera inteligencia en vez de discutibles y dudosas estratagemas evasivas. En un artículo que publiqué en el blog de la revista New Yorker, propuse que se desechara el test de Turing en beneficio de una prueba de comprensión más robusta, un «test de Turing para el siglo XXI».
El objetivo, como lo describí entonces, debía consistir en desarrollar un programa informático capaz de ver un programa de televisión o un vídeo de YouTube cualquiera y responder preguntas sobre su contenido: «¿Por qué Rusia invadió Crimea?» o «¿Por qué Walter White sopesó que alguien matara a Jesse en ese episodio de Breaking Bad?». La idea iba dirigida a eliminar las artimañas y centrarse en si las máquinas pueden entender de verdad los contenidos a los que se les expone. Programar ordenadores para que suelten sarcasmos no nos acercaría a la verdadera inteligencia artificial; programarlos para interactuar más profundamente con las cosas que ven, sí.