A continuación reproducimos dos artículos en los que la comunidad científica alertan sobre la imposibilidad de comprender cómo aprenden los sistemas de inteligencia artificial, y por lo tanto, las limitaciones para replicar resultados positivos.
Matthew Hutson, Revista Science- 3 de mayo de 2018Ali Rahimi, uno de los investigadores en inteligencia artificial de Google lanzó un directo a la comunidad científica el pasado diciembre y recibió una ovación de 40 segundos por ello. Hablando en una conferencia sobre IA, Rahimi denunció que los algoritmos de aprendizaje automático, con los que las computadoras aprenden a través del ensayo y el error, se han convertido en una forma de «alquimia». Los investigadores, dijo, no saben por qué algunos algoritmos funcionan y otros no, ni tienen criterios rigurosos para elegir una arquitectura de IA en lugar de otra. Ahora, en un documento presentado el 30 de abril en la Conferencia Internacional sobre Representaciones del Aprendizaje en Vancouver, Rahimi y sus colaboradores documentan ejemplos de lo que consideran el problema de la alquimia y ofrecen recetas para reforzar el rigor de la IA.«Hay angustia en el sector», dice Rahimi. «Muchos de nosotros sentimos que estamos operando con tecnología alienígena».El problema es distinto del de la reproducibilidad del IA, en el que los investigadores no pueden replicar los resultados de los demás debido a la inconsistencia de las prácticas experimentales y de publicación. También difiere del problema de la «caja negra» o «interpretabilidad» en el aprendizaje automático. El problema es: la dificultad de explicar cómo ha llegado a sus conclusiones una determinada IA. Como dice Rahimi, «quiero diferenciar entre un sistema de aprendizaje automático que es una caja negra y un campo entero que se ha convertido en una caja negra».Sin un conocimiento profundo de las herramientas básicas necesarias para construir y entrenar nuevos algoritmos, dice, los investigadores que crean IAs recurren a los rumores, como los alquimistas medievales. «La gente gravita en torno a las prácticas de culto cargo», basándose en «el folclore y los hechizos mágicos», añade François Chollet, un informático de Google en Mountain View. Por ejemplo, dice, adoptan métodos conductistas de entrenamiento para ajustar los «ritmos de aprendizaje» de sus IAs -cuánto se corrige un algoritmo después de cada error- sin entender por qué uno es mejor que otro. En otros casos, los investigadores que entrenan sus algoritmos simplemente tropiezan en la oscuridad. Por ejemplo, implementan lo que se denomina «descenso estocástico por gradiente» con el fin de optimizar los parámetros de un algoritmo para obtener la tasa de fallo más baja posible. Sin embargo, a pesar de los miles de trabajos académicos sobre el tema y de las innumerables maneras de aplicar el método, el proceso sigue basándose en el ensayo y el error.El artículo de Rahimi destaca el esfuerzo desperdiciado y el rendimiento subóptimo que este problema produce. Por ejemplo, observa que cuando otros investigadores quitaron la mayor parte de los elementos más complejos de un algoritmo de traducción de idiomas de última generación, en realidad tradujo del inglés al alemán o al francés mejor y de manera más eficiente, lo que demuestra que sus creadores no entendían plenamente para qué servían esas partes adicionales. Por el contrario, a veces la parafernalia añadida a un algoritmo es la única parte buena, dice Ferenc Huszár, un investigador de aprendizaje de máquinas de Twitter. En algunos casos, dice, el núcleo de un algoritmo es técnicamente defectuoso, lo que implica que sus buenos resultados son «atribuibles totalmente a otros trucos puestos encima».Rahimi ofrece varias sugerencias para averiguar qué algoritmos funcionan mejor y cuándo. Para empezar, dice, los investigadores deberían realizar «estudios de ablación» como los realizados con el algoritmo de traducción: borrar partes de un algoritmo una por una para ver la función de cada componente. Pide un «análisis por partes», en el que se analice detalladamente el rendimiento de un algoritmo para ver cómo las mejoras en algunas áreas pueden tener un coste en otras. Y dice que los investigadores deberían probar sus algoritmos con muchas condiciones y ajustes diferentes, y deberían reportar el desempeño de todos ellos.Ben Recht, un científico informático de la Universidad de California, Berkeley, y coautor de la charla principal de Rahimi sobre la alquimia, dice que la IA necesita imitar a la física, donde los investigadores a menudo reducen un problema a un pequeño «problema de juguete». «Los físicos son increíbles en idear experimentos sencillos para conseguir explicar fenómenos», dice. Algunos investigadores de IA ya están adoptando ese enfoque, probando algoritmos de reconocimiento de imágenes en pequeños caracteres escritos a mano en blanco y negro antes de abordar grandes fotografías en color, para comprender mejor la mecánica interna de los algoritmos.Csaba Szepesvári, un científico informático de DeepMind en Londres, dice que el campo también necesita reducir su énfasis en las pruebas competitivas. En la actualidad, es más probable que se publique un artículo si el algoritmo reportado supera algún punto de referencia que si el artículo arroja luz sobre el funcionamiento interno del software, dice. Así es como el algoritmo de traducción de fantasía llegó a través de la revisión por pares. «El propósito de la ciencia es generar conocimiento», dice. «Quieres producir algo que otras personas puedan utilizar y construir».No todos están de acuerdo con la crítica de Rahimi y Recht. A Yann LeCun, científico jefe de AI en Facebook, le preocupa que el hecho de apartar demasiado esfuerzo de las técnicas de vanguardia hacia la comprensión básica podría frenar la innovación y desalentar la adopción de la IA en el mundo real. «No es alquimia, es ingeniería», dice. «La ingeniería es un lío».Recht ve un lugar para la investigación metódica y aventurera por igual. «Necesitamos ambas cosas», dice.
«Necesitamos entender dónde están los puntos de fallo para poder construir sistemas confiables, y tenemos que llevar más allá los límites para poder tener sistemas aún más impresionantes en el futuro».
Gregory Barber, Revista Wired – 16 de septiembre de 2019Hace unos años, Joelle Pineau, profesora de informática en McGill, ayudaba a sus estudiantes a diseñar un nuevo algoritmo cuando éstos tropezaron con obstáculo en apariencia, imposible de salvar. Su laboratorio estudia el aprendizaje de refuerzo, un tipo de inteligencia artificial que se utiliza, entre otras cosas, para ayudar a los personajes virtuales a aprender a moverse en los mundos virtuales. Es un requisito previo para construir robots y coches autónomos. Los estudiantes de Pineau esperaban mejorar el sistema de otro laboratorio. Pero primero tuvieron que reconstruirlo, y su diseño, por razones desconocidas, no alcanzaba los resultados prometidos. Hasta que los estudiantes probaron algunas «manipulaciones creativas» que no aparecían en el trabajo del otro laboratorio.Y he aquí que el sistema comenzó a funcionar como se anunciaba. El golpe de suerte fue un síntoma de una tendencia preocupante, según Pineau. Las redes neuronales, la técnica que nos han dado los robots Go-mastering y los generadores de texto que crean la poesía clásica china, a menudo se llaman cajas negras debido a los misterios de cómo funcionan. Lograr que se desempeñen bien puede ser como un arte, que involucra ajustes sutiles que no se reportan en las publicaciones. Las redes también son cada vez más grandes y complejas, con enormes conjuntos de datos y arreglos informáticos masivos que encarecen la posibilidad de réplica y el estudio de esos modelos, haciendo su reproducción imposible, excepto para los laboratorios mejor financiados.Anna Rogers, investigadora de machine learning de la Universidad de Massachusetts, se pregunta si eso sigue siendo acaso investigación.
«No está claro si estás demostrando la superioridad de tu modelo o tu presupuesto».
Pineau está tratando de cambiar los estándares. Es la presidenta de reproducibilidad de NeurIPS, un congreso de inteligencia artificial de primer nivel. Bajo su supervisión, el congreso pide ahora a los investigadores que presenten una «lista de comprobación – o checklist- de la reproducibilidad» que incluya elementos que a menudo se omiten en las ponencias, como el número de modelos entrenados antes de que se seleccionara «el mejor», la potencia de cálculo utilizada y los enlaces al código y a los conjuntos de datos. Es todo un cambio para un campo donde el prestigio se basa en clasificaciones que determinan qué sistema es el «estado del arte» para una tarea en particular, y ofrece un gran incentivo para pasar por alto las tribulaciones que llevaron a esos resultados espectaculares.La idea, dice Pineau, es animar a los investigadores a ofrecer una hoja de ruta para que otros repliquen su trabajo. Una cosa es maravillarse de la elocuencia de un nuevo generador de texto o de la agilidad sobrehumana de un robot de videojuegos. Pero incluso los investigadores más sofisticados tienen una idea muy vaga de cómo funcionan. Replicar esos modelos de IA es importante para identificar nuevas vías de investigación, y además supone una manera de investigar algoritmos a medida que aumentan, y en algunos casos suplantan, la toma de decisiones humanas -desde quién ingresa en prisión y por cuánto tiempo hasta quién recibe una hipoteca.No son los únicos que están denunciando el problema. Los investigadores de Google han propuesto las llamadas «tarjetas modelo» para detallar cómo se han sido testados los sistemas de machine learning, incluyendo resultados que señalan posibles sesgos. Otros han intentado mostrar lo frágil que es el término «estado del arte» cuando los sistemas, optimizados para los conjuntos de datos utilizados en las clasificaciones, se aplican en otros contextos. La semana pasada, investigadores del Instituto Allen de Inteligencia Artificial, o AI2, publicaron un artículo que pretende ampliar la lista de control de reproducibilidad de Pineau a otras partes del proceso experimental. Lo llaman «Show your work».«Empezar donde alguien lo dejó es un dolor porque nunca describimos completamente el montaje experimental», dice Jesse Dodge, un investigador de AI2 que fue coautor de la investigación. «Otros investigadores no podrán reproducir lo que hicimos si no contamos lo que hicimos». Lo raro, añade, es que un equipo reporte detalles básicos sobre cómo fue construido un determinado sistema. Un estudio sobre los documentos de aprendizaje de refuerzo realizada el año pasado concluyó que sólo la mitad de ellos incluía código.A veces, falta información básica porque es propietaria, un problema especialmente recurrente en los laboratorios de empresas. Pero es más a menudo una señal de la incapacidad del campo para mantenerse al día con los cambios de métodos, dice Dodge. Hace una década, era más sencillo ver lo que un investigador cambiaba para mejorar sus resultados. Las redes neuronales, en comparación, son quisquillosas; obtener los mejores resultados a menudo implica afinar miles de pequeñas palancas, lo que Dodge llama una forma de «magia negra». Elegir el mejor modelo a menudo requiere un gran número de experimentos. La magia se vuelve cara muy rápidamente.Incluso los grandes laboratorios corporativos, que disponen de los recursos para diseñar los sistemas más grandes y complejos, se han dado cuenta del problema. Cuando Facebook intentó replicar AlphaGo, el sistema desarrollado por Alphabet’s DeepMind para dominar el antiguo juego del Go, los investigadores parecían agotados por la tarea. Los enormes requerimientos computacionales -millones de experimentos ejecutados en miles de dispositivos durante días- combinados con código no disponible, hicieron que el sistema fuera «muy difícil, si no imposible, de reproducir, estudiar, mejorar y ampliar», escribieron en un artículo publicado en mayo. (El equipo de Facebook finalmente tuvo éxito.)La investigación AI2 propone una solución a este problema. La idea es proporcionar más datos sobre los experimentos que se llevan a cabo. Cualquiera puede reportar el mejor modelo que obtuvo después de, digamos, 100 experimentos -el resultado que podría ser declarado «estado del arte»- pero también debería reportar el rango de rendimiento esperado si sólo tuviera el presupuesto para probarlo 10 veces, o sólo una vez.El punto de reproducibilidad, según Dodge, no es replicar los resultados exactamente. Eso sería casi imposible dada la aleatoriedad natural de las redes neuronales y las variaciones en el hardware y el código. En su lugar, la idea es ofrecer una hoja de ruta para llegar a las mismas conclusiones que la investigación original, especialmente cuando esto implica decidir qué sistema de aprendizaje por máquina es el mejor para una tarea en particular.Eso podría ayudar a que la investigación sea más eficiente, explica Dodge. Cuando su equipo reconstruyó algunos sistemas populares de aprendizaje de máquinas, descubrieron que para algunos presupuestos, los métodos más anticuados tenían más sentido que los que estaban a la última. La idea es ayudar a los laboratorios académicos más pequeños esbozando cómo obtener el mejor beneficio dadas sus limitaciones financieras. Un beneficio secundario, añade, es que el enfoque podría fomentar una investigación más ecológica, dado que la formación de modelos de gran escala puede requerir tanta energía como las emisiones de un coche durante su vida útil.Pineau asegura sentirse alentada al ver a otros tratando de «abrir modelos», pero no puede asegurar que la mayoría de laboratorios se beneficien del ahorro de costos. Muchos investigadores seguirán bajo la presión de utilizar cuanta mayor capacidad de computación sea posible. Y por otro lado están las dificultades para informar sobre los resultados de la investigación. Es posible que el enfoque de AI2 de «show your work» pueda enmascarar complejidades; estas variaciones en los métodos son en parte la razón por la cual la lista de control de reproducibilidad de NeurIPS es voluntaria. Un obstáculo, especialmente para los laboratorios corporativos, es el código propietario y la confidencialidad de los datos. Si, por ejemplo, Facebook está investigando con sus fotos de Instagram, hay un problema para compartir esos datos públicamente. La investigación clínica con datos de salud es otro punto conflictivo. En otras palabras, es difícil desarrollar estándares de reproducibilidad que funcionen sin limitar a los investigadores, especialmente a medida que los métodos evolucionan rápidamente.