Los puntos ciegos de un modelo de Inteligencia Artificial
Cualquiera que haya pasado tiempo en las redes sociales probablemente haya notado que las GAN, o redes adversas generativas, se han vuelto notablemente buenas para dibujar caras. Pueden predecir cómo se verá cuando sea viejo y cómo se vería como una celebridad. Pero pídale a un GAN que dibuje escenas del mundo más grande y las cosas se ponen raras.
Una nueva demostración del MIT-IBM Watson AI Lab revela lo que un modelo entrenado en escenas de iglesias y monumentos decide dejar de lado cuando dibuja su propia versión del, por ejemplo, el Panteón en París o la Piazza di Spagna en Roma. El estudio más amplio, Seeing What a GAN Cannot Generate , se presentó en la Conferencia Internacional sobre Visión por Computadora la semana pasada.
"Los investigadores generalmente se centran en caracterizar y mejorar lo que puede hacer un sistema de aprendizaje automático: a qué presta atención y cómo las entradas particulares conducen a salidas particulares", dice David Bau , un estudiante graduado en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT y Laboratorio de Ciencias de la Computación y Ciencias Artificiales (CSAIL). "Con este trabajo, esperamos que los investigadores presten tanta atención a caracterizar los datos que estos sistemas ignoran".
En una GAN, un par de redes neuronales trabajan juntas para crear imágenes hiperrealistas con el patrón de los ejemplos que se les han dado. Bau se interesó en las GAN como una forma de mirar dentro de las redes neuronales de caja negra para comprender el razonamiento detrás de sus decisiones. Una herramienta anterior desarrollada con su asesor, el profesor del MIT Antonio Torralba, y el investigador de IBM Hendrik Strobelt , permitió identificar los grupos de neuronas artificiales responsables de organizar la imagen en categorías del mundo real como puertas, árboles y nubes. Una herramienta relacionada, GANPaint , permite a los artistas aficionados agregar y eliminar esas características de sus propias fotos.
Un día, mientras ayudaba a un artista a usar GANPaint, Bau dio con un problema. "Como siempre, estábamos persiguiendo los números, tratando de optimizar la pérdida de reconstrucción numérica para reconstruir la foto", dice. “Pero mi asesor siempre nos ha alentado a mirar más allá de los números y examinar las imágenes reales. Cuando miramos, el fenómeno saltó de inmediato: la gente estaba abandonando selectivamente ".
Del mismo modo que las GAN y otras redes neuronales encuentran patrones en un montón de datos, también ignoran los patrones. Bau y sus colegas entrenaron diferentes tipos de GAN en escenas interiores y exteriores. Pero no importa dónde se tomaron las fotos, las GAN omitieron constantemente detalles importantes como personas, automóviles, letreros, fuentes y muebles, incluso cuando esos objetos aparecían prominentemente en la imagen. En una reconstrucción de GAN , un par de recién casados que se besan en los escalones de una iglesia quedan fantasmarados, dejando una misteriosa textura de vestido de novia en la puerta de la catedral.
"Cuando las GAN encuentran objetos que no pueden generar, parecen imaginar cómo sería la escena sin ellos", dice Strobelt. "A veces las personas se convierten en arbustos o desaparecen por completo en el edificio detrás de ellos".
Los investigadores sospechan que la pereza de la máquina podría ser la culpable; Si bien una GAN está capacitada para crear imágenes convincentes, es posible que aprenda que es más fácil enfocarse en edificios y paisajes y evitar personas y automóviles más difíciles de representar. Los investigadores saben desde hace tiempo que las GAN tienden a pasar por alto algunos detalles estadísticamente significativos. Pero este puede ser el primer estudio que muestre que las GAN de última generación pueden omitir sistemáticamente clases enteras de objetos dentro de una imagen.
Una IA que deja caer algunos objetos de sus representaciones puede lograr sus objetivos numéricos sin tener en cuenta los detalles más importantes para nosotros los humanos, dice Bau. A medida que los ingenieros recurren a las GAN para generar imágenes sintéticas para entrenar sistemas automatizados como los autos sin conductor, existe el peligro de que las personas, los letreros y otra información crítica puedan caerse sin que los humanos se den cuenta. Muestra por qué el rendimiento del modelo no debe medirse solo por la precisión, dice Bau. "Necesitamos entender qué son y qué no están haciendo las redes para asegurarnos de que están tomando las decisiones que queremos que tomen".
Una nueva demostración del MIT-IBM Watson AI Lab revela lo que un modelo entrenado en escenas de iglesias y monumentos decide dejar de lado cuando dibuja su propia versión del, por ejemplo, el Panteón en París o la Piazza di Spagna en Roma. El estudio más amplio, Seeing What a GAN Cannot Generate , se presentó en la Conferencia Internacional sobre Visión por Computadora la semana pasada.
"Los investigadores generalmente se centran en caracterizar y mejorar lo que puede hacer un sistema de aprendizaje automático: a qué presta atención y cómo las entradas particulares conducen a salidas particulares", dice David Bau , un estudiante graduado en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT y Laboratorio de Ciencias de la Computación y Ciencias Artificiales (CSAIL). "Con este trabajo, esperamos que los investigadores presten tanta atención a caracterizar los datos que estos sistemas ignoran".
En una GAN, un par de redes neuronales trabajan juntas para crear imágenes hiperrealistas con el patrón de los ejemplos que se les han dado. Bau se interesó en las GAN como una forma de mirar dentro de las redes neuronales de caja negra para comprender el razonamiento detrás de sus decisiones. Una herramienta anterior desarrollada con su asesor, el profesor del MIT Antonio Torralba, y el investigador de IBM Hendrik Strobelt , permitió identificar los grupos de neuronas artificiales responsables de organizar la imagen en categorías del mundo real como puertas, árboles y nubes. Una herramienta relacionada, GANPaint , permite a los artistas aficionados agregar y eliminar esas características de sus propias fotos.
Un día, mientras ayudaba a un artista a usar GANPaint, Bau dio con un problema. "Como siempre, estábamos persiguiendo los números, tratando de optimizar la pérdida de reconstrucción numérica para reconstruir la foto", dice. “Pero mi asesor siempre nos ha alentado a mirar más allá de los números y examinar las imágenes reales. Cuando miramos, el fenómeno saltó de inmediato: la gente estaba abandonando selectivamente ".
Del mismo modo que las GAN y otras redes neuronales encuentran patrones en un montón de datos, también ignoran los patrones. Bau y sus colegas entrenaron diferentes tipos de GAN en escenas interiores y exteriores. Pero no importa dónde se tomaron las fotos, las GAN omitieron constantemente detalles importantes como personas, automóviles, letreros, fuentes y muebles, incluso cuando esos objetos aparecían prominentemente en la imagen. En una reconstrucción de GAN , un par de recién casados que se besan en los escalones de una iglesia quedan fantasmarados, dejando una misteriosa textura de vestido de novia en la puerta de la catedral.
"Cuando las GAN encuentran objetos que no pueden generar, parecen imaginar cómo sería la escena sin ellos", dice Strobelt. "A veces las personas se convierten en arbustos o desaparecen por completo en el edificio detrás de ellos".
Los investigadores sospechan que la pereza de la máquina podría ser la culpable; Si bien una GAN está capacitada para crear imágenes convincentes, es posible que aprenda que es más fácil enfocarse en edificios y paisajes y evitar personas y automóviles más difíciles de representar. Los investigadores saben desde hace tiempo que las GAN tienden a pasar por alto algunos detalles estadísticamente significativos. Pero este puede ser el primer estudio que muestre que las GAN de última generación pueden omitir sistemáticamente clases enteras de objetos dentro de una imagen.
Una IA que deja caer algunos objetos de sus representaciones puede lograr sus objetivos numéricos sin tener en cuenta los detalles más importantes para nosotros los humanos, dice Bau. A medida que los ingenieros recurren a las GAN para generar imágenes sintéticas para entrenar sistemas automatizados como los autos sin conductor, existe el peligro de que las personas, los letreros y otra información crítica puedan caerse sin que los humanos se den cuenta. Muestra por qué el rendimiento del modelo no debe medirse solo por la precisión, dice Bau. "Necesitamos entender qué son y qué no están haciendo las redes para asegurarnos de que están tomando las decisiones que queremos que tomen".
Comentarios
Publicar un comentario