Video Summary and Transcription
Esta charla aborda varios aspectos de la inteligencia artificial y la experiencia del usuario en el desarrollo de software. Explora la evolución y capacidades de los modelos de lenguaje grandes, la importancia de la ingeniería de respuestas rápidas y la necesidad de diseñar aplicaciones de IA pensando en los usuarios humanos. La charla también enfatiza la necesidad de diseñar defensivamente para el fallo de la IA, considerar la felicidad del usuario y abordar la responsabilidad y los riesgos de la implementación de la IA. Concluye con recomendaciones para lecturas adicionales y destaca la importancia de la confiabilidad en las herramientas de código de IA.
1. Introducción a la IA y la Experiencia del Usuario
Hola a todos. Mi nombre es Chris y hoy quiero hablarles sobre inteligencia artificial y experiencia del usuario. En mi vida pasada, solía ser un desarrollador de software y pasé mucho tiempo desarrollando herramientas de código abierto para desarrolladores. Trabajo en GitHub Next, un grupo encargado de descubrir el futuro del desarrollo de software utilizando IA.
Hola a todos. Mi nombre es Chris y hoy quiero hablarles sobre inteligencia artificial y la experiencia del usuario. ¿Quién soy? En mi vida pasada, solía ser un desarrollador de software, como probablemente la mayoría de ustedes en esta sala. Solía ser un consultor independiente, principalmente en el espacio de .NET, lo cual suena aburrido, pero pagaba bastante bien. Así que eso era durante el día. Durante la noche, pasé mucho tiempo desarrollando herramientas de código abierto para desarrolladores.
Y debido a eso, me pidieron que me uniera al equipo de co-pilot en los primeros días del desarrollo de co-pilot. Así que trabajo en la organización llamada GitHub Next. Es un grupo especial dentro de GitHub. Somos 20 investigadores y desarrolladores responsables de descubrir qué es la próxima idea loca. ¿Cuál es el próximo GitHub co-pilot? ¿Cuál es el futuro del desarrollo de software? Desarrollamos muchas cosas con IA, porque obviamente la IA está muy de moda en estos días, pero también hacemos cosas diferentes como fuentes. Recientemente lanzamos una familia de fuentes muy bonita llamada Monospace, si te interesa. Y lo más importante de esta charla es que trata sobre lo que sucede en el medio. No les hablaré sobre el entrenamiento de modelos o sobre la ciencia de datos. No sé absolutamente nada sobre este aspecto del stack. No soy un científico de datos. No tengo un doctorado en algo elegante con matemáticas.
2. Introducción a los Modelos de Lenguaje Grandes
Esta charla no trata de llevar un proyecto a producto o de los desafíos de escalar y ganar dinero. Se trata de crear prototipos de ideas geniales y presentarlos como vistas previas técnicas. Discutiremos la inteligencia artificial, específicamente los modelos de lenguaje grandes, y cómo han evolucionado a lo largo de los años. Los modelos de lenguaje grandes se entrenan con cantidades masivas de texto y están diseñados para predecir la siguiente palabra en un prompt dado. Aunque pueden parecer capaces, es importante recordar que pueden proporcionar respuestas poco confiables, similares a un estudiante que se inventa una respuesta a una pregunta.
Además, en realidad no se trata de llevar el proyecto a producto, porque como probablemente todos ustedes saben, llevar productos a millones de personas es muy difícil. Se trata de escalar, se trata de latencia, se trata de capacidad, se trata de cómo observar resultados, se trata de descubrir cómo ganar dinero con el proyecto. Eso no es lo que hacemos.
Lo que hacemos es crear prototipos de ideas geniales y lanzar esos prototipos a las personas como vistas previas técnicas. Pudieron haber visto múltiples vistas previas técnicas provenientes de GitHub. Así que permítanme hacer una breve introducción a la inteligencia artificial, una breve introducción a los modelos de lenguaje grandes, solo para que sepan de qué estamos hablando.
La inteligencia artificial ha sido un término que ha existido durante años. No es un término nuevo. Sé que la ola de hype está aquí en estos días. El término en sí proviene de los años 50, de los años 60, algo así. El espacio ha tenido múltiples ciclos de hype y luego los llamados inviernos de IA, que es el período en el que el hype desaparece y la financiación se agota y todos dicen, oh, no, esta cosa de IA no tiene sentido. Entonces, la ola actual de hype alrededor de la IA ha sido principalmente sobre los modelos de lenguaje grandes. Este es el tipo de sistema de inteligencia artificial que se entrenó con millones y millones de líneas de texto encontradas en internet, en libros, en todas las fuentes que puedas imaginar. Y esos modelos se entrenaron de manera no supervisada. Los investigadores simplemente arrojan este texto a los modelos y los modelos aprenden algo de él. Esos modelos están diseñados para hacer una cosa y solo una cosa. Dado un prompt, una entrada, un comienzo del texto, intentan averiguar cuál es la siguiente palabra más probable que viene en este texto. Eso es lo único que hacen esos modelos.
Cada habilidad de alto nivel que ves en esos modelos, como chatear, llamar a funciones, todas esas cosas elegantes que la IA abierta está poniendo en esos modelos, se construye sobre esa funcionalidad básica. Y lo más importante que debes recordar sobre la IA es que tienen esta capacidad genial que los investigadores llaman alucinaciones. Pero realmente prefiero llamarlo de otra manera, que es inventar cosas. Los modelos de IA, esos modelos de lenguaje grandes, siempre responderán tu pregunta, incluso si no saben la respuesta. No tienes absolutamente ninguna forma de saber si lo que dicen es correcto. Son los mejores estudiantes de todos porque, ya sabes, probablemente todos hemos estado en la escuela y hemos tenido ese momento en el que, oh, había alguna pregunta del profesor. Necesitas pararte frente a la clase y comenzar a responder y no tienes absolutamente ninguna idea. Luego comienzas a decir algo solo para decir algo y fingir que sabes cosas. Eso es el modelo de lenguaje grande. Solo a escala. Así que debes recordar que no puedes confiar realmente en esos modelos. Son máquinas probabilísticas y tratan de averiguar cuál es la cosa más probable que decirte.
3. Understanding Chat GPT and Prompt Engineering
Cuando se habla con Chat GPT, las respuestas del modelo se basan en probabilidad, no en emociones. Los modelos de lenguaje grandes son muy generales y pueden ser dirigidos por el contexto a través de la ingeniería de prompts. El prompt tiene dos partes: una parte constante que describe la personalidad y la tarea, y una parte dinámica que incorpora el contexto del usuario a través de la recuperación. Los métodos de recuperación varían según la aplicación, como consultar una base de datos o utilizar embeddings para la búsqueda no estructurada.
Así que cada vez que hablas con Chat GPT y te gusta la discusión, el resultado de la discusión hace que Chat GPT diga: 'oh, te amo' o 'te odio'. El modelo realmente no tiene esos sentimientos. Es solo que en esta conversación resultó que esa era la palabra más probable que debería aparecer en esta conversación.
Una cosa muy interesante de estos modelos, estos modelos de lenguaje grandes y lo que realmente los hace únicos es que son muy generales. Debido a que han sido entrenados en todo, en el antiguo internet, saben muchas cosas y tienen muchas capacidades como capacidades de razonamiento. Lo realmente interesante es que podemos dirigir su comportamiento al poner contexto en nuestras entradas en los prompts y este proceso se llama ingeniería de prompts. Se trata de tomar este modelo muy general y dirigirlo hacia tu tarea específica, tu contexto particular, el contexto particular de tu usuario. Así que primero centrémonos en la parte superior del prompt. Básicamente, hay dos partes diferentes del prompt cuando lo pensamos. Una es lo que me gusta llamar parte constante. Se trata de describir qué personalidad debe tomar la IA, cuál es la tarea que debe resolver el sistema de IA. Se trata de decir cosas como 'eres una herramienta que debe ayudar a los desarrolladores a construir un mejor código' o algo así. Hay bastantes, oh, por cierto, olvidé mencionar que en la charla hay bastantes códigos QR, que a menudo son enlaces, que van a alguna investigación elegante o a algún blog elegante sobre cosas que no entiendo. Así que por favor léelos en tu tiempo libre. Y la segunda parte del prompt es algo más dinámico. Se trata de poner el contexto de tu usuario específico, de tu sesión específica en el prompt, de tu base de datos específica. Y este proceso se llama recuperación. Es la palabra más popular entre los líderes de GitHub/Microsoft en estos días, pero si tienes un número de teléfono de Satya, por favor no le digas que te lo he dicho. Hay una cosa sobre la recuperación y es que hay mucha gente que intentará aprovechar la ola y te dirá que para hacer recuperación necesitas usar embeddings y bases de datos vectoriales y algunas herramientas elegantes. Esto no es cierto. La recuperación es algo que depende mucho de tu aplicación específica. En algunos casos, puede tratarse simplemente de consultar tu base de datos SQL.
4. AI and User Experience Design
En algunos casos, la recuperación implica mirar el IDE y encontrar código interesante en archivos abiertos o usar embeddings para la búsqueda no estructurada. Es importante diseñar aplicaciones teniendo en cuenta a los usuarios humanos, ya que la IA está destinada a mejorar las capacidades humanas, no a reemplazarlas. La IA nunca debe tomar decisiones, ya que carece de la capacidad de comprender el proceso de toma de decisiones. Diseñar teniendo en cuenta a los usuarios humanos implica comprender las partes del flujo de trabajo en las que la IA puede ayudar, como ayudar con el código de plantilla en el desarrollo de software.
En otros casos, puede tratarse de mirar tu IDE y averiguar qué archivos tienes abiertos en el IDE, tal vez haya algún código interesante en esos archivos. Solo un ejemplo aleatorio. En otros casos, se utilizarán embeddings para realizar una búsqueda muy no estructurada en los data. Pero no hay una solución única. Supongo que eso es lo que quiero decirte.
De acuerdo. Esa fue una breve introducción. Primera mitad de la charla. Estaba perfectamente a tiempo. Impresionante. Ahora hablaré un poco sobre lo que está más cerca de mi corazón, que es el diseño de la experiencia de usuario para esas aplicaciones. Y habrá algunas opiniones controvertidas en esta parte, así que ten paciencia.
En primer lugar, la más controvertida. Debes diseñar tu aplicación teniendo en cuenta a los usuarios humanos. La IA es excelente para mejorar las capacidades humanas. La IA no debe reemplazar a los humanos. No debe reemplazar a tus usuarios, no debe reemplazar a los desarrolladores en nuestro caso. Simplemente no es lo suficientemente bueno para eso. Nunca debe tomar decisiones. La IA es mala tomando decisiones, porque como te mencioné, se trata solo de predecir la siguiente palabra más probable. Así no funciona el proceso de toma de decisiones. Por lo tanto, la computadora nunca puede ser responsable de la decisión que tomes. Eso significa que no puede tomar decisiones de gestión, porque si no puedes tener ninguna responsabilidad por la decisión, ¿qué sucede entonces? Eso rompe toda la cadena de mando en tu empresa, lo que sea. Así que siempre diseña pensando en los humanos.
Siguiendo con eso, debes comprender muy bien cuáles son las partes del flujo de trabajo en las que tus usuarios desean ayuda. Por ejemplo, en el proceso de desarrollo de software, hemos realizado una gran cantidad de investigación de usuarios, estudios de usuarios sobre ese tema, y sabemos, hemos aprendido que los desarrolladores están muy contentos si la IA los ayuda con el código de plantilla, con las partes aburridas de la codificación. Pero no quieren que la IA tome decisiones por ellos. No quieren que la IA se lleve cosas muy importantes como problemas algorítmicos complejos porque los desarrolladores creen que eso es lo que les da valor. Y bueno, estoy totalmente de acuerdo. Así que siempre que diseñes una aplicación utilizando IA, por favor piensa o pregunta a tus usuarios, investiga qué parte del proceso debe ser resuelta por la IA, en qué debe ayudar la IA. Como mencioné, estas son máquinas probabilísticas.
5. Designing for AI Failure and User Happiness
Diseñar defensivamente para el fallo en los sistemas de IA. Informar a los usuarios que parte del contenido es generado por IA y puede ser incorrecto. Permitir a los usuarios regenerar respuestas o proporcionar más detalles para que la IA genere una mejor respuesta. Siempre presentar respuestas para la aceptación humana y proporcionar la capacidad de editarlas. La precisión de los modelos de IA no siempre se traduce en más valor. Considerar el impacto del poder del modelo y la latencia en la experiencia del usuario. La felicidad del usuario se puede lograr incluso con sugerencias imperfectas que los impulsen hacia adelante. La importancia de la latencia depende del diseño de la experiencia del usuario. Considerar el uso de transmisión o generar respuestas de una vez basadas en el caso de uso.
Les gusta hacer tonterías. Así que necesitas diseñar defensivamente para el fallo. Los sistemas de IA fallarán. A veces te darán respuestas incorrectas. No puedes hacer nada para resolver eso. Físicamente no es posible resolver ese problema. Por lo tanto, debes diseñar tu experiencia de usuario teniendo esto en cuenta. Debes informar al usuario que parte del contenido es generado por IA porque los usuarios deben estar conscientes de que puede ser incorrecto. Debes diseñar tu experiencia de usuario de tal manera que, por ejemplo, el usuario pueda regenerar fácilmente la respuesta o preguntar de nuevo, o proporcionar más detalles, y luego la IA genera la respuesta nuevamente basándose en el contexto adicional. Por lo tanto, la forma en que presentas la respuesta siempre debe ser aceptada por un humano, y siempre debes darle al humano la capacidad de editar la respuesta. No es como, oh, hay algo de IA, vamos a ejecutarlo automáticamente en tu base de datos SQL. Esa es una idea realmente terrible, créeme. Lo he intentado.
Lo realmente interesante de recordar es que la mayor precisión no siempre significa más valor. Si pensamos en cómo obtener la mayor precisión de los modelos de IA, siempre se trata de usar el modelo más grande posible, el más potente, el más reciente, el modelo más elegante de IA abierta u otros proveedores. Vamos a poner la mayor cantidad de contexto posible en el estímulo. Pero esto tiene un gran impacto en la experiencia de usuario porque cuanto más potente es el modelo, más cosas pones en el contexto, mayor será la latencia. A veces esto no es realmente lo que necesitas. En los días originales de co-pilot, decidimos ejecutar un co-pilot con el modelo más pequeño, no el modelo más potente disponible en ese momento. Porque con la experiencia de usuario que hemos diseñado, hay sugerencias en línea en tu IDE, resultó que el modelo más potente, sí, era más preciso, las sugerencias eran mejores, pero como veías muchas menos de ellas, el valor para ti era menor. Además, incluso si la precisión, incluso si la sugerencia no es perfecta, eso no significa necesariamente que el usuario no esté contento con ella. Muy a menudo, y nuevamente, bajo este código QR, está vinculado a la investigación que hicieron mis compañeros de equipo sobre la felicidad del usuario al usar co-pilot. Lo que descubrimos es que los usuarios están muy contentos con malas sugerencias siempre y cuando esas sugerencias puedan impulsarlos hacia adelante. Si estás atascado y no sabes qué hacer, y obtienes alguna sugerencia, tal vez no sea perfecta pero al menos te desbloquea, te ayuda a avanzar. Esto es algo muy valioso. Entonces, la latencia puede ser importante o puede que no lo sea. Realmente depende de cómo diseñes tu experiencia de usuario. Todos esos modelos admiten transmisión, por lo que puedes pedirle al modelo que genere toda la respuesta de una vez y esperar como una solicitud y respuesta HTTP normales, o hacen transmisión utilizando HTTP2 streaming. En algunos casos, tal vez necesites hacerlo todo de una vez. En el caso de co-pilot, decidimos hacerlo todo de una vez siempre porque sería muy extraño si la sugerencia, el texto fantasma, la sugerencia en línea que ves en tu IDE se transmitiera y agregara nuevas líneas.
6. Designing with the Human in Mind
Diseñar teniendo al humano en mente y defensivamente para el fallo. Proporcionar sugerencias opcionales que se puedan ignorar fácilmente. Mantener al usuario en el flujo. Utilizar un enfoque más estructurado para tareas específicas para aumentar la precisión. Considerar diferentes casos de uso y diseñar la experiencia del usuario en consecuencia. Introducir el espacio de trabajo de copilot para un proceso de intercambio estructurado.
Eso sería una experiencia de usuario muy extraña. Por ejemplo, en casos de aplicaciones de chat, a menudo utilizan el modo de transmisión para aparentar que son más rápidas de lo que realmente son. Hay un par de formas típicas de diseñar teniendo al humano en mente y defensivamente para el fallo. Creo que esos son un par de ejemplos principales que hemos descubierto a lo largo de los años al construir esas aplicaciones.
El primero es proporcionar al usuario algo muy opcional, como esta sugerencia en línea en tu IDE. Puedes ignorarlas fácilmente si algo está mal. Si la sugerencia de copilot es incorrecta, todo lo que necesitas hacer es seguir escribiendo. Nada ha cambiado. No ha afectado negativamente tu experiencia de usuario demasiado. Tal vez te detuviste a leerlo, pero si es obviamente incorrecto, entonces sigues programando lo que has estado programando. Se trata de mantener al humano en el flujo.
El segundo potencial es un poco más estructurado. Se trata de, por ejemplo, seleccionar el código, o seleccionar un rango, o seleccionar alguna imagen, y ejecutar alguna transformación sobre ella. Este es un proceso muy definido, muy estructurado, pero debido a que es tan estructurado, podemos aumentar la precisión de las respuestas. Podemos aumentar la probabilidad de que la solución sea mejor. Y obviamente está el chat que es muy útil para, por ejemplo, iterar. No sé qué hacer. Vamos a pensar en el proceso. Entonces, realmente, si lo pones en una escala, algo como GhostX se trata mucho de hacer cosas y mantenerse en el flujo, mientras que algo como el chat se trata de planificar. Entonces, dependiendo de tu caso de uso y lo que quieras hacer con tu aplicación y el diseño de la experiencia de usuario para el sistema de IA será diferente. Y hablemos un poco sobre el intercambio estructurado por un momento. Recientemente, anunciamos el proyecto llamado espacio de trabajo de copilot. Es un proyecto al que puedes señalar el problema, y tratará de resolver este problema, generar una solicitud de extracción completa con cambios en varios archivos en tu repositorio. Pero no lo estamos haciendo directamente. No es como, oh, simplemente lee el problema y luego genera un montón de código porque eso sería terrible. Eso no le da control al usuario. La precisión sería terrible. Así que creamos este proceso estructurado de múltiples pasos, sí, la IA primero lee el problema. Luego genera una especificación de cuál es el estado actual de tu aplicación y cuál se supone que debe ser el nuevo estado de tu aplicación basado en este problema. Puedes cambiarlo.
7. Diseñando Experiencias de Usuario con IA
Puedes editar las especificaciones y controlar el proceso de generación de código. Piensa de manera creativa al diseñar experiencias de usuario con IA. Evita depender únicamente de los chatbots. Experimenta y comprende a tus usuarios. El camino hacia la producción de sistemas de IA es largo y requiere consideraciones como alojar el modelo y medir los resultados.
Puedes editarlo. Será una serie de puntos clave, ¿verdad? Para ambas especificaciones. Luego, si aceptas la especificación, le pedimos al modelo que genere un plan específico de implementación, cambios paso a paso, qué cambios habrá en qué archivo. Nuevamente, esto es algo que puedes ver antes de comenzar a generar el code, por lo que puedes editarlo fácilmente. Puedes cambiarlo si la IA está equivocada. Y solo entonces, si aceptas el plan, generaremos el code por ti. Eso te brinda mucho control sobre lo que está sucediendo. Se asegura de que el humano esté en el centro del proceso.
Y hay otros ejemplos de experiencias de usuario. Puedes imaginar algo así. Este es solo un ejemplo aleatorio que pensamos hace un tiempo, pero realmente no hemos logrado hacerlo bien. Pero puedes imaginar que, ya sabes, tienes dos paneles diferentes en tu editor, por ejemplo, y escribes code y luego hay una descripción en lenguaje natural que se actualiza automáticamente a medida que escribes el code. Pero también si editas la descripción natural, el code se actualiza automáticamente. Hay mucho potencial en esas diferentes experiencias de usuario y creo que lo principal es que debes pensar en lo que está haciendo tu aplicación y hacer algo interesante. El uso de IA es algo nuevo para las personas. El uso de IA es un fenómeno bastante nuevo. Entonces no puedes simplemente volver a las mismas experiencias de usuario que han funcionado para nosotros durante los últimos 30 años y pretender que esto también funcionará. Necesitas pensar un poco fuera de la caja.
Y eso me lleva al último punto, que todos hoy en día escriben chatbots cuando piensan en IA. Pero realmente tal vez esa no sea la mejor idea. Cada vez que le proporcionas al usuario un cuadro de texto, que es muy no estructurado, el usuario escribirá lo que quiera allí. No importa cuánto intentes limitar el chat a tu caso de uso particular, los usuarios harán preguntas extrañas sobre cómo construir un arma o cualquier otra cosa ilegal. Entonces realmente no hay un único camino hacia el éxito. Necesitas experimentar, necesitas comprender muy bien a tus usuarios. Francamente, no es muy diferente de lo que estamos haciendo ahora mismo con la experiencia de usuario que diseñamos en sistemas reales. Pero simplemente debes recordar que necesitas pensar en cosas. Y después de todo lo que he hablado durante estos 20 minutos, debes recordar que recién estás al comienzo de tu viaje, el viaje hacia la producción de esos sistemas de IA es largo. Necesitas descubrir cómo alojar el modelo si no estás utilizando directamente Open AI u otro proveedor. Necesitas descubrir cómo medir los resultados. Este es otro tema muy interesante del que debería haber hablado, bueno, podría, habría hablado si tuviera más tiempo hoy.
8. Responsabilidad y Riesgos de la Implementación de IA
Considera las implicaciones y los posibles riesgos antes de implementar soluciones de IA. Las historias de un uso incorrecto de la IA resaltan la necesidad de precaución. Piensa en el impacto en la confianza y seguridad del usuario, como reemplazar a especialistas humanos con modelos de lenguaje. No confíes ciegamente en la IA para tareas críticas como declaraciones de impuestos. Tu responsabilidad es considerar cuidadosamente las consecuencias y proteger la privacidad y seguridad del usuario.
Sí, eso es. Y realmente, lo último, y me estoy pasando un poco de tiempo, pero necesito decirte esta última cosa, es que, ya sabes, si tu jefe, tu CEO, tu CTO, tu gerente viene a tu habitación como desarrollador y te dice que cinco de nuestros competidores ahora tienen soluciones de IA, también necesitamos una solución de IA. Es tu responsabilidad preguntarte a ti mismo y preguntarles, ¿es realmente una buena idea? ¿Deberíamos hacerlo realmente? Quiero decir, aquí en los medios, toda esa información sobre personas que usan la IA de formas muy extrañas. Hubo una historia del abogado que generó una lista de precedentes en los Estados Unidos usando JAPGPT. Y el juez miró esta lista cuando se le presentó. Y resultó que esta lista era absolutamente falsa. Ninguno de los precedentes era verdadero. No había casos reales allí. El juez no quedó impresionado, créeme. Hubo otra historia sobre este servicio que se construyó para poner a las personas en contacto con especialistas en salud mental a través de una interfaz web. Es una aplicación realmente genial, ¿verdad? Ayuda a las personas en lugares como pueblos pequeños, por ejemplo, o ciudades más pequeñas o países menos desarrollados a ponerse en contacto con especialistas en salud mental. Tal vez no sea posible para ellos. No hay nadie así viviendo en su área. Y este servicio decidió reemplazar al azar algunos de sus especialistas en salud mental con modelos de lenguaje después de que se lanzara GPT-4. ¿Cómo te sentirías si te das cuenta de que no estás hablando con un médico sino con un gran modelo de lenguaje? Probablemente no muy bien. Y, sabes, estoy bastante seguro de que las personas este año estaban usando JAPGPT para la declaración de impuestos o algo así, y estoy bastante seguro de que el IRS tampoco quedó impresionado. Sí, es tu responsabilidad pensar en eso, como, ¿quiero que la IA tenga acceso a mi dinero, a mi cuenta bancaria? Nunca. Por favor, por favor, piénsalo.
Libros y Preguntas y Respuestas sobre la Experimentación de Copilot
Tengo dos libros para recomendar: uno sobre ingeniería de indicaciones para modelos de lenguaje y otro sobre observabilidad para modelos de lenguaje grandes. La sesión de preguntas y respuestas abordará preguntas sobre la experimentación sin conexión de Copilot y las métricas para mejorar la experiencia del usuario.
Y, sí, gracias por ver. Eso fue divertido. APLAUSOS Muchas gracias. Tengo una cosa más que mostrarte. Para presentarte dos libros. Uno es de uno de mis ex colegas del equipo sobre ingeniería de indicaciones para un modelo de lenguaje. Es un libro muy interesante, así que definitivamente lo recomiendo.
Y otro es un informe de O'Reilly de mi buen amigo, Phillip Carter, sobre observabilidad para modelos de lenguaje grandes. Es parte de esto, como lo que sucede, cómo llevar el modelo a producción, lo cual es muy, muy importante, porque entender los resultados del sistema de AI es muy difícil, así que este es un libro realmente bueno.
Gracias. Muchas gracias, Christophe, y te quedas con nosotros. Puedes tomar asiento. Ahora tenemos la sesión de preguntas y respuestas. Ahora tenemos algunas preguntas. Intentaremos responder tantas como sea posible. Depende de qué tan rápido y bien respondas. Oh, no. Eso es difícil. Ese es el juego. Ese es el juego. Así que comenzaremos con esta. También puedes ver las preguntas en la parte superior. La primera es ¿cómo experimenta Copilot sin conexión para diferentes características? ¿Qué métricas sin conexión se correlacionan con la mejora de la experiencia del usuario? Oh, esto es... Podría dar una charla completa sobre ese tema. ¡Ese es el desafío! Así que intentemos hacerlo en un minuto. Básicamente tenemos este sistema de evaluación sin conexión donde clonamos miles y miles de repositorios de Python, creo, y no se trata de la experiencia del usuario, sino de medir la precisión de la mejora de la indicación en particular. Clonamos esos repositorios. Determinamos si el código está bien probado en términos de pruebas unitarias. Ejecutamos las pruebas para capturar el estado de la aplicación, y luego encontramos las funciones que fueron probadas por este conjunto de pruebas, eliminamos el cuerpo de la función, regeneramos eso con Copilot, ejecutamos la prueba nuevamente para ver si las cosas son iguales. Esto es útil, aunque no es súper...
Confianza en LLMs y Herramientas de Código de IA
No hay una correlación directa entre los resultados de evaluación sin conexión y la experiencia real del usuario. Se realizan experimentos A-B en usuarios reales. Hacer que los LLMs sean más confiables puede implicar pedirle a la IA que genere código y validarlo. Sin embargo, para respuestas más genéricas, se necesita más investigación.
No es 100% preciso. No hay una correlación directa entre esos resultados y los resultados reales para los usuarios, o algo así como la user experience especialmente. Entonces, realmente lo único que podemos hacer es realizar experimentos A-B, y hacemos muchos experimentos A-B en usuarios reales. Muchas gracias. El siguiente es ¿hay formas de hacer que los LLMs sean más confiables? Hablaste de alucinación. ¡No tengo idea! No, obviamente puedes... Cuando hablamos de sistemas de IA completos, entonces sí. Potencialmente, podrías, por ejemplo, uno de los métodos muy buenos es pedirle a la IA, en lugar de hacer cálculos matemáticos, porque la IA es mala en matemáticas, que genere el código para realizar esos cálculos, y luego ejecutas el código, y eso generalmente te da resultados mucho mejores. Probablemente podrías preguntarle a la IA sobre, no sé, generar las pruebas para tu código en el contexto de la generación de código, pero eso es... El código en general es bastante fácil de validar, ¿verdad? Para respuestas más genéricas, no tengo idea. Estoy bastante seguro de que es... Bueno, sé que es un área de investigación y a mucha gente le interesa eso, pero no tengo una buena respuesta en este momento. Gracias. El siguiente es ¿qué contexto deben considerar las herramientas de código de IA antes de hacer una finalización? Bueno, esa es otra pregunta sobre la que podría dar una charla completa. ¡Ustedes están lanzando esas preguntas! Bueno, lo que deberían considerar es, no sé, lo que deberían considerar, puedo decirte lo que hacemos. Tomamos en consideración obviamente el código que está antes de la posición del cursor, porque esa es la solución más genérica. También averiguamos si hay algunas funciones debajo de la posición del cursor que pueden ser de interés para tu contexto actual. También miramos los otros archivos abiertos en el IDE y averiguamos si hay algún código que sea similar a lo que estás escribiendo en este momento, y ponemos eso en el contexto que permite que los modelos tengan un estilo de codificación similar al que usas, o simplemente tener más contexto sobre de qué se trata tu proyecto. Incluso algo tan simple como poner el nombre del archivo en el prompt es realmente útil. Por ejemplo, en los primeros días del compilador, descubrimos que cuando hacemos eso, de repente los archivos de prueba con la palabra `test` en la ruta o en el nombre del archivo, en realidad obtienen sugerencias con las pruebas que usan cualquier biblioteca que estés usando. Incluso algo tan simple como una línea en el prompt puede ser muy útil. Bueno, se acabó nuestro tiempo. Muchas gracias, Christoph. Muchas gracias, y también puedes encontrarte con él afuera muy pronto.
Comments