Sales de la oficina con el estómago rugiendo y vas camino a la fonda (cocina económica) donde sabes que comerás bien, pero te encuentras un nuevo puesto de comida orgánica que se ve bastante apetitoso, ¿cuál elegirías?, ¿o recuerdas la vez que tuviste que decidir entre salir con tu amigo de hace tiempo o simpático desconocido que conociste en el trabajo?
Cada día debemos decidir si probar nuevas cosas o apegarnos a nuestras favoritas. La vida es un balance de novedad y tradición; las elecciones que hoy son nuestras preferidas empezaron siendo una entre tantas nuevas por conocer, pero justo como en el parado óptimo, ¿cuál es el balance a probar?
Sobra decir que los científicos de las computadoras se han enfrentado a este problema anteriormente e incluso le han dado un nombre: el balance explorar/explotar (explore/exploit tradeoff)
El bandido multibrazo
Para los computólogos, el término explore/exploit tiene una connotación cotidiana; explore se refiere a recolectar información y exploit al uso de esta con buenos resultados. Este concepto se ha generaliza en el problema del bandido multibrazo.
Imaginemos estar en un casino de Las Vegas y sentirmos afortunados para las tragamonedas. Llegamos a un salón llena de ellas, cada una con una probabilidad diferente de ganar, y no sabremos cuál es más lucrativa hasta que hayamos jugado suficientes partidas en ellas. Al final, queremos saber cuál es la combinación ideal de tiradas en diferentes máquinas que permitirá obtener el máximo beneficio y solo podremos saberlo probándolas.
Si cambiamos el contexto a qué película ver o qué comer, nos encontramos en el casino de la vida. El beneficio definitivo es una combinación desconocida de palancas de las que hay que tirar, por lo que cada decisión es importante en un conjunto. Sin embargo, la decisión óptima se logra empezando con una pregunta, ¿cuánto tiempo piensas jugar en el casino?
Hablando de magnitudes
Es curioso como los antiguos romanos tenían un dicho que se ha popularizado en canciones y películas:
Carpe diem, quam minimum credula postero
«Aprovecha el día, no confíes en el mañana.»
Mientras que otra máxima popular es aprende un nuevo oficio, habla con extraños e incursiona en muchas cosas porque la vida es larga. Cuando se trata de encontrar el peso ideal entre nuestras experiencias favoritas y las nuevas, nada es más importante que el tiempo en el que pensamos disfrutarlas.
Es mucho más fácil visualizar esto comparándolo con cambios de residencia. Si nos mudamos a una nueva ciudad, es más probable que tengamos ganas de probar un nuevo restaurante que cuando la dejemos y justo antes de irnos de la anterior, solemos ir a aquellos lugares que conocemos y son nuestros favoritos.
Una facultad de probar nuevas cosas es que el valor de la exploración, o de encontrar nuevos favoritos, solo puede disminuir con el tiempo, así como las oportunidades para disfrutarlo. Del otro lado de la moneda, el valor de la explotación solo puede incrementar, lo que nos deja con un interesante enunciado: explora cuando tengas tiempo de usar el conocimiento obtenido, explota cuando sea el momento oportuno.
Win-Stay
Las primeras aproximaciones para resolver el problema del bandido fueron propuestas por el matemático Herbert Robbins cerca de los 50’s. Bajo la suposición de que existen solo dos máquinas, sigue la premisa de Win-Stay (Ganar-Quedarse) como fundamento principal: Tiramos de una palanca y si el resultado es favorable, continuamos tirando de ella. Apenas la tirada no satisfaga nuestras expectativas, cambiamos a la otra.
Aunque se ha probado matemáticamente que Win-Stay resulta más provechoso que elegir al azar, nos deja algunas lagunas difíciles de argumentar: Si mi restaurante favorito sirve mal la comida una solo vez, ¿debería de cambiarlo?
Gajes del oficio
Fue en los 70’s cuando la compañía Unilever consultó al matemático John Gittins para optimizar la forma en que se probaban los medicamentos, ¿cuál es la forma más rápida de determinar cuál compuesto de cierto medicamento parecer ser efectivo contra alguna enfermedad?
Si generalizamos el problema, tenemos lo siguiente: múltiples opciones para probar, diferente probabilidad de recompensa para cada una y cierta cantidad de esfuerzo para cada una de ellas. Una variación para el problema del bandido multibrazo.
La medicina y farmacéutica están interesadas en ideas que son bastante parecidas: Los médicos quieren dar los mejores tratamientos para que los pacientes sean aliviados y a la vez apoyar las investigaciones para que sean cada vez mejores, mientras que los segundos desean invertir dinero en descubrir nuevos medicamentos sin descuidar la prosperidad de los actuales.
En ambos casos, el lapso es indefinido: las empresas quieren generar ganancias por siempre, mientras que la medicina puede hacer un progreso que beneficie a las generaciones posteriores. Sin embargo, un paciente curado hoy tiene más valor que uno el día de mañana, por lo que el resultado posterior tiene valor descontado.
En la cotidianeidad no estamos acostumbrados al valor descontado, a menos que salgamos de vacaciones el fin de semana y debamos hacer nuestras decisiones de restaurantes. En su lugar, pensamos inconscientemente en él cuando vemos a futuro; nos preocupa más lo que vamos a cenar hoy que lo que vamos a comer mañana e incluso más que la cena de ensayo el año siguiente.
Gittins asumió que el descuento sería de proporción geométrica: cada visita a un restaurante vale una fracción constante del valor de la visita anterior. En palabras más simples, sería que una comida mañana vale 99% de una comida de hoy porque existe un 1% de probabilidades de que me atropelle un autobús y nunca llegue a comerla.
Sin embargo, aún faltaba una estrategia que incorporase el valor de las otras máquinas contra la actual y su solución fue muy ingeniosa: un soborno.
El índice Gittins
Un juego de televisión popular es Deal or No Deal, en donde el concursante elige un maletín de entre 26, el cual contiene centavos o millones de dólares. A medida que el juego progresa, se destapan los maletines revelando las cantidades y una entidad llamada La Banca, le ofrece al jugador sumas de dinero por no abrir el maletín en función de la información ya conocida.
Mucho antes de que se transmitiera el programa, Gittins abordó el problema de esa manera: Por cada máquina del casino tenemos poca o ninguna información, sin embargo, hay cierto porcentaje de retorno que nos tendrá contentos y evitará que jalemos de otra máquina.
El número – llamado índice de asignación dinámica o índice de Gittins – sugiere la estrategia de elegir siempre el brazo con el índice más alto. Las columnas representan los éxitos y las filas los fallos.
f | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
0 | 0.7029 | 0.8001 | 0.8452 | 0.8723 | 0.8905 | 0.9039 | 0.9141 | 0.9221 | 0.9287 |
1 | 0.5001 | 0.6346 | 0.7072 | 0.7539 | 0.7869 | 0.8115 | 0.8307 | 0.8461 | 0.8588 |
2 | 0.3796 | 0.5163 | 0.601 | 0.6579 | 0.6996 | 0.7318 | 0.7573 | 0.7782 | 0.7956 |
3 | 0.3021 | 0.4342 | 0.5184 | 0.5809 | 0.6276 | 0.6642 | 0.694 | 0.7187 | 0.7396 |
4 | 0.2488 | 0.372 | 0.4561 | 0.5179 | 0.5676 | 0.6071 | 0.6395 | 0.6666 | 0.6899 |
5 | 0.2103 | 0.3245 | 0.4058 | 0.4677 | 0.5168 | 0.5581 | 0.5923 | 0.6212 | 0.6461 |
6 | 0.1815 | 0.2871 | 0.3647 | 0.4257 | 0.4748 | 0.5156 | 0.551 | 0.5811 | 0.6071 |
7 | 0.1591 | 0.2569 | 0.3308 | 0.39 | 0.4387 | 0.4795 | 0.5144 | 0.5454 | 0.5723 |
8 | 0.1413 | 0.2323 | 0.3025 | 0.3595 | 0.4073 | 0.4479 | 0.4828 | 0.5134 | 0.5409 |
Es curioso notar que se cumple la condición Win-Stay, dado que, entre más ganas, el índice incrementa, pero no descarta la posibilidad apenas perdemos, si no que le reduce el índice: Si tenemos 8 victorias seguidas, el perder la siguiente nos dará un índice de 0.8588, mejor que probar una nueva.
Otro punto interesante es que el resultado 0/0 – máquina sin probar – tiene un valor de 0.7029. En otras palabras, ¡algo en lo que no se tiene experiencia resulta más atractivo que una posibilidad del 70%!
Remordimiento y optimismo
Intentar y fallar es al menos aprender; fallar en intentar es sufrir la inestimable pérdida de lo que pudo haber sido
El índice de Gittins puede parecer complicado en algunas situaciones y como baza alternativa existe una medida más humana: arrepentimiento.
Al elegir entre distintas alternativas como qué comer, con quien salir o en donde vivir, es fácil torturarnos con las consecuencias si elegimos la opción incorrecta. En el problema del bandido multibrazo, el arrepentimiento puede tener un número: es la diferencia entre el beneficio total obtenido de seguir una estrategia particular y el de tirar de la mejor máquina en cada ocasión (de haberlo sabido).
En 1985, los matemáticos Herbert Robbins y Tze Leung Lai probaron ciertos aspectos del arrepentimiento. Bajo la asunción de que no somos omniscientes:
Logarítmico suena a jerga matemática, pero para este caso particular, significa cometer 5 errores en los primeros 10 intentos, 5 en los siguientes 100 y 5 en los siguientes 1000, lo que vuelve la proporción de errores mínima a medida que tenemos más oportunidades.
De Lai y Robbins surgieron investigaciones para encontrar algoritmos que ofrecieran el arrepentimiento mínimo y, entre otros, descubrieron aquellos para calcular el intervalo de confianza (UCB).
UCB se basa en asignar un número a cada máquina, el cual representa el valor más alto que el brazo razonablemente podría tener, basándonos en la información conocida hasta ahora. Tal comportamiento señala que UCB no considera ganadores a las máquinas que se han desempeñado mejor, más bien elige a las que podrían ser mejor en el futuro.
La novedad es más atractiva en este caso, así como un restaurante con una solo crítica media resulta más enganchante que otro con cientos de las mismas. Es por ello que esta técnica tiene el eslogan de optimismo frente a la incertidumbre.
Los algoritmos de intervalo de confianza ofrecen una explicación formal al beneficio de la duda. Con la guía de ellos, debemos estar emocionados de conocer nuevas personas e intentar nuevas cosas, esperando lo mejor de ellas y con la obvia falta de pruebas que indiquen lo contrario. A largo plazo, el optimismo es la mejor manera de prevenir el arrepentimiento.
Conclusión
Al navegar en Internet somos bombardeados con anuncios y múltiples interfaces con A/B Testing, las cuales tratan de acertarle a la mejor máquina donde el premio no es nada más y nada menos que ¡tu dinero!
Tal vez lo recordemos vagamente, pero existió una etapa en nuestras vidas donde solamente exploramos posibilidades sin temor a ningún riesgo; nuestra infancia. Éramos terribles a la hora de capitalizar nuestros conocimientos, pero si se trataba de tocar juguetes y meternos cosas a la boca, no teníamos igual. Desde este punto de vista, ser osado en la niñez es sabiduría natural.
Por otro lado, cuando la senectud toca la puerta estamos en una fase de explotación casi total. Las personas suelen reducir sus círculos sociales a medida que envejecen, debido a que durante su vida han experimentado diversas interacciones y solo prefieren aquellas que maximicen su ganancia social y emocional, evitando el riesgo. De este hecho deriva que los abuelos tengan lecciones importantes para aconsejarnos.
Al parecer, sabemos intuitivamente en qué etapa de nuestra vida nos encontramos del balance explorar/explotar: siendo jóvenes preferimos la novedad y como ancianos, la tradición. ¿Listo para sacar el máximo valor de tu vida?
Si quieres conocer más al respecto, checa
This is very interesting, You’re a very skilled blogger.
I have joined your feed and look forward to seeking more of your excellent post.
Also, I’ve shared your web site in my social networks!