Así que, tenemos alguna tasa de conversión a lo largo del tiempo y lanzamos una nueva característica aquí y luego rastreamos su rendimiento a lo largo del tiempo. Vemos este gráfico, ¿verdad? Entonces, ¿creemos que esto es exitoso? ¿Movió la métrica? Bueno, la métrica subió y hacia la derecha. Así que, tal vez, pero la respuesta real es que no tenemos idea porque no puedes saber a menos que realices un experimento controlado porque no tienes contrafactuales, ¿verdad? Así que, como si no hubiéramos realizado esa prueba, el gráfico podría haber lucido así. Y aquí hay un ejemplo real de Airbnb donde lanzaron una nueva característica y luego terminaron retirándola. Pero si solo miras el agregado, es realmente difícil decir causalmente qué pasó porque hay tanto ruido en tu señal. La gente está desplegando otras características todo el tiempo. Tienes cambios en el tráfico y vacaciones y todo tipo de cosas que lo afectan. Y las pruebas A-B están realmente diseñadas para controlar esas variantes.
El otro ejemplo que escuchamos sobre por qué no realizan experimentación es, bueno, no necesitamos porque hicimos pruebas de usuario. Bueno, si estás familiarizado con las pruebas de usuario, generalmente, están probando con cinco, tal vez incluso 10 si tienes suerte, pruebas. Es solo un tamaño de muestra realmente pequeño para tratar de averiguar lo que quieres y hay todo tipo de otros sesgos que no tendré tiempo de abordar. Y generalmente, si estás de acuerdo en realizar pruebas de usuario para empezar, estás de acuerdo en realizar pruebas más grandes con más personas después. Así que, deberías estar de acuerdo con eso.
Muy bien. Así que, echemos un vistazo a la mejor manera de construir productos. No obtienes puntos por adivinar que creemos que integrar las pruebas A-B en tu proceso es cómo lo haces. Y así, cada producto debería definir cómo se ve el éxito antes de comenzar a construirlo. Y así, el proceso que nos gusta hacer es, básicamente, antes de comenzar a construir cualquier cosa, te sientas y decides, ¿cuál es la hipótesis? ¿Por qué estamos construyendo esta cosa? ¿Qué esperamos que haga? Y luego, ¿qué acciones o comportamientos demostrarían que la hipótesis es correcta? Y luego, ¿qué métricas necesitaríamos rastrear para eso? Así que, podría ser una tasa de registro o evento de compra. Y luego, el paso final aquí es, ¿cuál es la cosa más pequeña que podemos construir para probar esta hipótesis y ver si es correcta? Porque quieres llegar a la señal lo más rápido posible para no perder tiempo construyendo cosas que no funcionan. Llamamos a esto HAM. Hay Jonham. Y luego, si tienes el tráfico para realizar ese experimento, entonces deberías hacerlo. Y así, cómo podría lucir el proceso ajustado es, básicamente, en tu planificación de tus proyectos, como que se te ocurre la hipótesis, los criterios de éxito, y luego lo reduces al mínimo posible. Y luego, haces tu proceso de producto regular. Pero luego, en lugar de simplemente enviarlo a producción al 100% de todos, lo envías como una prueba A-B. Y luego, decides, basado en los resultados de esa prueba, una vez que llegas a un poder significativo, si deberías desplegarlo o retirarlo. Y luego, haces una revisión, como presentar los experimentos a tu equipo y como iterar desde allí. Y la buena noticia es que esto es súper fácil, particularmente si estás usando feature flags, ¿verdad? Así que, como desarrolladores, cuando enviamos algo a producción, como, el objetivo principal, al menos inicialmente, es asegurarnos de que no rompimos nada, ¿verdad? Ese es el mínimo para lo que acabamos de enviar. Y los feature flags son realmente útiles con eso porque puedes realmente envolver tu cambio en solo un poco de lógica condicional.
Comments