Playwright tiene soporte MCP, Midscene tiene soporte MCP, ESLint tiene soporte MCP. Entonces, todas estas herramientas están aprovechando MCP, y puedes usarlo para hacer cosas increíbles. En el caso de Playwright, en el caso de Midscene, puedes usarlo básicamente para decirle a tu LLM, oye, ve a este sitio web, realiza este montón de acciones, y luego usa las herramientas que usaste, aprovecha las herramientas que usaste para hacer estas cosas, para generarme una prueba. Y te dará tu prueba, lo cual es bastante, bastante genial. Solo una vez más, asegúrate de verificar si es realmente el resultado o la prueba real que escribirías.
Luego tenemos una pregunta, que es, ¿qué tan lejos estamos de las pruebas de autocuración? Y bueno, en 2024, ya había una empresa que hizo esta increíble publicación en un blog, y ya tenían una versión de cómo se veía la autocuración para ellos. Sin embargo, siento que esto, como la IA, podría estar ya un poco... Como algunas cosas en IA podrían estar ya un poco desactualizadas, porque, bueno, ahora tenemos cosas como AutoPlaywright, CyPrompt y Midscene que te permiten escribir esta prueba, donde solo usas lenguaje natural, y generará tu prueba a partir de ello. Esto es lo más cercano que creo que vamos a estar de la autocuración en pruebas por un tiempo, porque, bueno, dices llenar campo de nombre de usuario, llenar campo de contraseña. El modelo no necesita saber dónde están estas cosas en ese momento. Así que incluso si refactorizas tu página por un tiempo, o si la ajustas, aún las encontrará. Así que estas pruebas podrían recuperarse un poco y podrían ser lo más cercano que llegues a la autocuración.
Sin embargo, una cosa importante a tener en cuenta cuando hablamos de estas cosas es, tienden a ser más lentas, porque aún tienes que ir a cuando todavía estás aprovechando un LLM, todavía aprovechando un modelo, por lo que aún necesita ir y volver para hacer todo el razonamiento, el pensamiento y averiguar dónde están las cosas. Así que estas pruebas podrían tener un costo. Y aquí estos ejemplos están en Midscene, que es construido por ByteDance. Y hablando de ByteDance, también crearon esta cosa llamada UiTars, que es un agente de modelo de código abierto construido sobre un VLM. Así que un VLM es un modelo de lenguaje de visión que integrará razonamiento avanzado habilitado por aprendizaje por refuerzo. Y curiosamente, UiTars es súper poderoso. Esta cosa es incluso mejor jugando Doom que yo, lo cual no soy bueno. Pero cuando tienes una comparación de un LLM versus un VLM, básicamente captura la totalidad de la página y la examina, en lugar de obtener texto mirando una representación de tu HTML o captura de pantalla de cómo se ve tu página y razonando. Esta es la diferencia entre usar un LLM y un VLM para tus pruebas. ByteDance vio algunos escenarios en los que usando UiTars, los prompts no tienen que ser tan descriptivos como cuando estás usando GPT. Sin embargo, cuando estás usando cosas como GPT, son mejores al generar afirmaciones. Así que hay estos pros y contras cuando estamos midiendo cada uno de ellos, diría yo. Así que sí, volviendo a donde estábamos al principio, comenzamos mirando este gráfico que curiosamente decía que el 13% de las personas no prueban. Y si no estás probando, comienza a probar, por favor. Y nos llevó a través de este viaje de preguntarle a un montón de amigos cómo estamos escribiendo nuestras cosas y comenzando a hacer un análisis de dónde estamos y hacia dónde vamos. Así que recapitulemos cuál es el estado actual de las pruebas de JavaScript en 2025. Primero, todos seguirán haciendo sus propias cosas y teniendo diferentes formas de probar. No veo que eso cambie.
Comments