Video Summary and Transcription
Maya Chavin, una ingeniera de software senior en Microsoft, habla sobre IA generativa y el modelo central para LM. Se exploran el flujo de un servicio de preguntas y respuestas de documentos y la importancia de las indicaciones para mejorarlo. Se explican las fases de inyección y consulta de preguntas y respuestas de documentos, haciendo hincapié en la necesidad de un almacenamiento eficiente, indexación y cálculo de indicaciones relevantes. La charla también aborda el uso de modelos de incrustación, estrategias de optimización y los desafíos de probar y validar los resultados de IA. Se mencionan usos creativos de LLMs y el impacto de la IA en la seguridad laboral.
1. Introducción a la IA generativa y LM
Hola a todos. Soy Maya Chavin, una ingeniera de software senior en Microsoft. La charla de hoy trata sobre la IA generativa y el modelo central para LM. Discutiremos el flujo de un servicio de preguntas y respuestas de documentos y cómo mejorarlo utilizando indicaciones. LM es un modelo de lenguaje grande que nos permite procesar la entrada humana y entrenar sus propios datos. Funciona con tokens. Un token es una pieza de palabras que deben traducirse para que el modelo las entienda. Para contar los tokens, podemos usar una aplicación contador de tokens.
Hola a todos. ¿Ya almorzaron? ¿Están despiertos o somnolientos? Bueno, porque no tengo café real aquí, así que espero que ya tengan su café. Si no, lo siento, pero esta va a ser la charla más aburrida de su vida. No, realmente espero que no. Pero de todos modos, antes que nada, mi nombre es Maya Chavin. Soy una ingeniera de software senior en Microsoft. Trabajo en un equipo llamado Microsoft Industrial AI, en el que aprovechamos diferentes tecnologías de AI para construir soluciones y aplicaciones integradas de AI para sectores específicos de la industria.
Disculpen mi voz hoy, se perdió durante el vuelo, así que no sé qué pasó. Si les resulta difícil entenderme, lo siento mucho. Y si quieren entenderme mejor, no duden en contactarme después de la charla, ¿de acuerdo? He estado trabajando con web y JavaScript y TypeScript, pero la charla de hoy no tiene nada que ver con TypeScript o JavaScript o cualquier cosa. Se trata de IA. Y en primer lugar, ¿cuántas personas aquí trabajan con IA o IA generativa? Bueno, entonces podemos saltarnos esta diapositiva.
Ahora, de todos modos, para las personas que no conocen la IA generativa o tal vez conocen el término pero nunca tuvieron la oportunidad de experimentarlo. La IA generativa es una IA que puede generar texto y medios a partir de una variedad de datos de entrada, que llamamos indicaciones, básicamente texto o cualquier cosa, ahora también podemos enviarle alguna imagen para que la analice y también aprenda de sus datos del sistema. Y eso es de lo que trata nuestra charla, en la que nos basaremos para hablar sobre cuáles son los modelos centrales, cuáles son los modelos centrales para LM o IA generativa que se utilizan. Y nuestra charla también se centrará en cómo vamos a utilizar el modelo y definir cuál es el flujo central de un servicio muy simple, preguntas y respuestas de documentos, que se puede encontrar en Google cientos de veces cuando buscas preguntas y respuestas de documentos utilizando IA. Pero en esta charla, aprenderemos un poco más sobre el flujo detrás de él, qué podemos, qué tipo de servicio podemos utilizar para cada componente diferente dentro del flujo en LM, y finalmente cómo podemos mejorar y expandir el servicio utilizando indicaciones o cualquier técnica a la que podamos prestar atención cuando desarrollamos un nuevo servicio de preguntas y respuestas de documentos como un servicio genérico. De acuerdo.
Pero en primer lugar, LM. ¿Cuántas personas aquí trabajan con LM, algún modelo de LM? ¿Qué LM utilizan? GPT? GPT? Text embedded? DALY? Levanten la mano. Vamos, creo que ya tienen café, ¿verdad? De todos modos, solo un resumen, LM como servicio es un modelo de lenguaje grande que nos permite, que es capaz de procesar la entrada humana. Y luego también es capaz de entrenar sus propios datos, ya sea supervisados o no supervisados, y funciona con tokens. Y lo bueno de LM es que proporciona un conjunto de API en la caja negra que ayudan a los desarrolladores a desarrollar aplicaciones de IA de manera más directa y sencilla que antes. De acuerdo. Algunos de los LM que podemos ver aquí son OpenAI, Google, Microsoft, Meta, Anthropic, Hugging Face, nada nuevo aquí. De acuerdo. Entonces hablamos de que LM funciona con tokens, ¿verdad? ¿Qué es exactamente un token? Bueno, para simplificarlo, un token es simplemente una pieza de palabras, lo que significa que cada palabra individual en una oración debe traducirse a un token. Y para contar los tokens, tenemos una calculadora que podemos usar para contar los tokens. Se llama contador de tokens, que está aquí.
2. Funcionalidades principales para preguntas y respuestas de documentos
En esta parte, discutiremos las funcionalidades principales para preguntas y respuestas de documentos, incluyendo completado, chat y recuperación. La API de completado permite que la IA complete las tareas del usuario, mientras que el chat es una extensión del completado. La recuperación permite la búsqueda, generando representaciones vectoriales del texto. Las preguntas y respuestas de documentos no son complejas, pero es crucial implementarlas correctamente para evitar problemas como el chatbot de IA utilizado por Air Canada. Como servicio, las preguntas y respuestas de documentos son una entrada de texto simple y un botón donde los usuarios hacen preguntas y reciben respuestas generadas por IA.
Lo tengo aquí, estas son aplicaciones, puedes ir aquí y escribir tu texto aquí y te generará cuántos tokens te llevará, cuánto te costará pasar esta cadena a la IA. De acuerdo. Esto es solo un token y también puedes ver el cálculo aproximado de tokens basado en el sitio web de OpenAI. Y es muy importante porque el token es dinero. Literalmente. No trabajamos con dinero, con IA, trabajamos con tokens.
Entonces, cuando hablamos de las capacidades principales de LM, tenemos varias capacidades hasta ahora, seis diferentes y está mejorando. En esta charla, nos enfocaremos solo en tres capacidades principales para preguntas y respuestas de documentos. Completado y chat. Completado y chat, el chat es en realidad una extensión del completado, por lo general, cuando comienzas una API de completado, verás que la API para chat tiene una barra diagonal como una extensión, no es nada, no es un modelo separado, utiliza el mismo completado.
Entonces, ¿qué es la API de completado? La API de completado es la API que permite que la IA realice, complete la tarea dada por el usuario y el chat también es una tarea dada por el usuario. Algunas de las famosas API de completado son GPT, Gemini, Cloudy y Lama, es muy difícil pronunciar este tipo de palabras. De todos modos. Entonces, algunas de estas famosas completaciones que siempre usamos cuando chateamos o completamos texto y demás, la otra es recuperación. ¿Qué es la recuperación? Recuperación significa búsqueda. Básicamente, este es un modelo que te permite tomar, dar, generar alguna incrustación en la representación vectorial de un cierto texto.
Y uno de los modelos más populares de esto, API de esto es la incrustación de texto. Text Embedding AIDA, si alguna vez has oído hablar de eso para OpenAI, lo usamos mucho para crear, para ayudarnos a crear una representación vectorial de un documento para que el algoritmo de búsqueda pueda basarse en eso para encontrar las coincidencias. Entonces, estos son los tres modelos que vamos a usar mucho en preguntas y respuestas de documentos. De acuerdo. Pero antes de pasar a las preguntas y respuestas de documentos, como dije antes, no es algo listo para usar. No es algo realmente complejo, pero es algo que puede salir mal fácilmente. Por ejemplo, Air Canada, bueno, tuvieron problemas con el chatbot de IA y tuvieron que pagar por eso. Ahora, hay un argumento de que el chatbot de IA aquí en realidad no es un chatbot de IA. Como, fueron escritos con algún algoritmo tonto detrás y realmente no usan GPT de chat o cualquier GPT detrás de eso. Pero de nuevo, esa es otra historia. Todo lo que sé es que el chatbot salió mal y ahora las aerolíneas tienen que pagar por eso porque proporcionó información engañosa. Y eso es solo una parte del problema al que se enfrenta las preguntas y respuestas de documentos si no prestas atención a lo que implementas o no entiendes lo que implementas. Así que veamos qué es preguntas y respuestas de documentos como servicio. Entonces, para decirlo de manera simple, es solo una entrada de texto y un botón donde el usuario escribiría dentro una pregunta y enviaría las preguntas a la IA y pediría una respuesta.
3. Fases de Inyección y Consulta para Preguntas y Respuestas de Documentos
En la fase de inyección, el servicio de IA recibe un documento y procesa las consultas de los usuarios para proporcionar respuestas relevantes. El almacenamiento e indexación de fragmentos de documentos son esenciales para un procesamiento eficiente de consultas. Cuanto más pequeños y relevantes sean los fragmentos, menos tokens se necesitarán. Se utilizan incrustaciones para la búsqueda vectorial o semántica. En la fase de consulta, es importante calcular las indicaciones correctas y obtener los fragmentos de datos relevantes sin exceder los límites de tokens.
Lo que significa que el usuario pregunta, la IA responde. Pero no con cualquier cosa. Tiene que estar dentro de un rango de documentos que llamamos fundamentación. De hecho, cuando miras esta descripción, hay dos cosas que suceden aquí. La primera es la fase de inyección donde el servicio de IA recibe muchos documentos, un solo documento, ya sea predefinido o cargado por el usuario sobre la marcha. Se llama fase de inyección. Y luego, en base a este documento proporcionado, puede procesar una consulta o preguntas dadas por el usuario y devolver al usuario una respuesta con la sección relevante del documento o datos del documento proporcionado. De hecho, tenemos dos flujos aquí que van así. Entonces, hay dos fases aquí. La más importante es la fase de inyección porque proporciona el lugar base para que la IA pueda procesar la consulta del usuario y dar la respuesta correcta. Inyección y consulta.
Entonces, ¿qué es importante en la fase de inyección a la que debemos prestar atención? Cada documento, cada párrafo, cada texto son tokens. Nuevamente, todo lo que está presente en un documento se puede traducir a tokens e incurrir en un costo bajo. ¿Cómo vamos a almacenar los datos? ¿Cómo vamos a almacenar el documento para que la IA o el servicio puedan encontrar y procesar la consulta en los datos correctos? Veamos la fase de inyección, el flujo. Supongamos que tienes varios archivos aquí y pueden ser un PDF, pueden ser simulados, incluso pueden ser un archivo de código en caso de que desees generar preguntas y respuestas de documentos para tu repositorio de código.
Entonces, lo que necesitas hacer es cargar y analizar este documento y dividirlo en fragmentos estructurales. Cuanto más pequeños y relevantes sean los fragmentos, más fácil será pasar un token, pasarlo a la IA y ahorrarte muchos tokens. Y luego, después de eso, necesitas crear fragmentos incrustados. Como decimos, la incrustación es la representación de los fragmentos y esto es importante porque necesitas indexar estos fragmentos con las incrustaciones en una base de datos de índices, de manera que cada vez que la IA, el servicio, haga una pregunta, buscará los fragmentos relevantes para informar las preguntas y luego pasarlos a la IA. Lo importante a tener en cuenta es que el algoritmo de incrustación aquí, el modelo de incrustación, se utiliza para la búsqueda vectorial o semántica. Entonces, ¿qué es la incrustación? Permíteme decirte que la incrustación es cómo vamos a calcular una representación numérica de un texto. Por ejemplo, en `Hola Mundo`, a través de este modelo, generaría para ti una matriz de números. Lo llamamos matriz numérica por simplicidad. Y luego podemos pasarlo al algoritmo de búsqueda, que el algoritmo de búsqueda más popular es el vecino más cercano o el vecino k más cercano para la búsqueda.
4. Consulta y Generación de Indicaciones en Preguntas y Respuestas de Documentos
En la fase de consulta, debemos centrarnos en calcular las indicaciones correctas y obtener fragmentos de datos relevantes sin exceder los límites de tokens. El flujo implica crear incrustaciones a partir de la consulta de entrada, calcular indicaciones y resúmenes, formatear la respuesta y el fragmento, y realizar una búsqueda vectorial y semántica eficiente para encontrar el fragmento más coincidente. Además, podemos mejorar el cálculo de las indicaciones proporcionando ejemplos para entrenar el modelo de IA.
Y en esta fase se encuentra la que está a la izquierda. Cuando recibe la entrada, crea incrustaciones listas para que el algoritmo de búsqueda pueda realizar la consulta.
Para la fase de consulta, hay varias cosas a las que debemos prestar atención y en las que debemos centrarnos. Lo primero es cómo calcular las indicaciones correctas. La indicación también es dinero. Cómo vamos a calcular la indicación correcta, si podemos calcular la misma indicación para cada escenario específico de la industria o si tenemos que cambiarla o modificarla. También debemos pensar en cómo obtener los datos correctos, los fragmentos correctos en lugar de pasar un documento grande junto con la consulta del usuario a la IA y hacer que nuestro servicio se colapse porque no tenemos suficientes tokens. Y luego, cómo calculamos la respuesta con todos los metadatos como citas, nombres, títulos, etc.
Veamos el flujo. En el flujo de consulta, crearemos una incrustación a partir de la consulta de entrada porque necesitamos esto para que el algoritmo de búsqueda pueda encontrar la coincidencia basándose en esta incrustación. Luego, enviaremos, calcularemos las indicaciones junto con los fragmentos y pediremos a la IA que realice resúmenes de los fragmentos y la consulta que recibimos. Después de eso, también debemos formatear la respuesta y el fragmento según lo que queremos mostrar al usuario. Y devolvemos la respuesta. Para la búsqueda, digamos, la búsqueda semántica vectorial, en este flujo nuevamente, estará a la derecha donde creamos la incrustación para la consulta. Y luego, lo usaremos. Pasaremos la incrustación al algoritmo de búsqueda y este buscará en el índice de almacenamiento y encontrará los fragmentos más similares y nos los devolverá. Y es muy, muy eficiente. La búsqueda vectorial y la búsqueda semántica juntas son muy eficientes para encontrar el fragmento más coincidente. No hago eso. De acuerdo. La segunda parte del flujo aquí que podemos mejorar es el cálculo de las indicaciones. Todo lo que puedes decir es ingeniero de indicaciones, aunque no sé por qué lo llamamos ingeniero porque no hay ingenieros aquí. Solo estamos jugando con texto. Entonces, ¿cómo vamos a mejorar eso? Este es un ejemplo de una indicación de usuario, una muy simple que simplemente le dice que lea la pregunta y responda la pregunta en función del documento proporcionado. Y te da y pasas los fragmentos como parte de la pregunta, como parte de la indicación. Y luego también pasas el fragmento y pasas la pregunta como parte de la indicación. Entonces, ¿cómo vamos a entrenar, cómo vamos a entrenar nuestro modelo, nuestra IA con esto, con esta indicación? Bueno, podemos hacer algo como esto. Podemos agregar algunos ejemplos aquí donde podemos dar algunos fragmentos de ejemplo y cómo se verá el formato de la respuesta, como con citas cómo se mostraría. Y también podemos darle algunas preguntas de ejemplo para que sepa a qué debe referirse. A esto, lo llamamos ajuste fino o algunos lo llamarán pocas iteraciones.
5. Mejorando la Indicación del Usuario y la Generalidad del Servicio
Para mejorar la indicación del usuario, puedes proporcionar más de un ejemplo y admitir la localización especificando el idioma deseado. Sin embargo, no existe un servicio genérico de preguntas y respuestas de documentos, ya que las indicaciones deben dirigirse a industrias específicas con formatos específicos. Para hacer que el servicio sea más genérico, puedes implementar múltiples instancias para diferentes industrias.
También puedes proporcionar más de un ejemplo. Y otra forma de mejorar la indicación del usuario es cuando necesitas admitir la localización. Digamos que quieres tener los documentos en inglés pero quieres que las preguntas y respuestas de documentos respondan en chino o italiano, entonces hay varias formas de hacerlo. Puedes hacerlo dando una indicación, una oración que diga que siempre devuelva la respuesta en este idioma y si GPT admite el idioma adecuado, te devolverá la respuesta correcta en el idioma correcto o también puedes hacerlo con otras cosas como preprocesar los data en el idioma o preprocesar la consulta en el idioma objetivo, y así sucesivamente. Pero esta es la forma más fácil de hacer la localización. De acuerdo. Otras cosas para hacer que tu servicio sea más genérico. Bueno, lo primero, descargo de responsabilidad, no existe un servicio genérico de preguntas y respuestas de documentos. Cada indicación debe dirigirse a una industria específica porque el informe financiero es diferente de el informe de presentación y el informe de presentación es diferente del informe de sostenibilidad, y así sucesivamente. Entonces, la indicación debe estar vinculada a una industria específica con un formato específico. Una forma de hacerlo un poco más genérico es cuando implementas el servicio, puedes crear varias instancias e inyectar dentro de tu propia indicación. Como aquí, puedes inyectar el tema dentro y asegurarte de que la indicación se ajuste a un objetivo por instancia. Así que puedes implementar varias instancias para varias industrias.
6. Flujo y Componentes para la Asistencia de Documentos
Para analizar documentos, puedes usar Azure Document Intelligence para PDFs o text splitter para archivos estructurados. Para crear embeddings de fragmentos, prueba el text embedding adder de OpenAI. Almacena los embeddings en un servicio de búsqueda como Azure AI Search o PyCon. Divide la base de datos en dos para evitar bases de datos de índices pesados. Para las consultas, utiliza el text embedding de OpenAI para crear embeddings.
Puede costar un poco más, pero puede brindar soporte a tus clientes si eso es lo que se necesita.
De acuerdo. Y eso es suficiente con la indicación. Así que ahora pasamos a la siguiente sección. Hablaremos sobre el flujo y los componentes. Qué servicio, qué servicios de LM podemos usar para cada componente.
De acuerdo. Echemos un vistazo. Entonces, flujo de asistencia de documentos para inyecciones. Para analizar documentos, necesitamos algo que pueda analizar el documento, ¿verdad? Entonces, si tienes un PDF, debes usar algún tipo de lector de PDF. Por lo tanto, debes usar algo que tome el PDF y luego te proporcione el texto estructurado. Para eso, puedes usar un servicio llamado Azure, oops, perdón. Para eso, podemos usar un servicio llamado Azure Document Intelligence, que es muy bueno para analizar PDF en una tabla de datos estructurados. Pero si solo usas documentación en un archivo marcado o en un archivo de código que ya está estructurado, realmente no necesitas document intelligence porque es costoso y también muy pesado. Puedes usar text splitter, que es una leyenda de leyendas y también es bueno para dividir el texto en fragmentos.
El otro componente es crear embeddings de fragmentos. Para esto, puedes usar text embedding adder de OpenAI. Esta herramienta de text embedding adder es muy buena para crear embeddings y casi no tienes que hacer mucho trabajo para crear los embeddings. Y después de crear los embeddings, necesitas almacenarlos en algún lugar. Para almacenarlos, debes ponerlos en un servicio de búsqueda, el servicio de búsqueda inteligente, que puede ser Azure AI Search. Tengo que mencionar Azure AI Search porque trabajo en Microsoft. Pero de todos modos, puedes usar PyCon. PyCon es un producto de código abierto que también es muy bueno. Y tiene esa base de datos de vectores donde puedes guardar tus índices. Y eso no es todo. No guardas tus fragmentos con los embeddings en la base de datos de índices porque sería muy pesado para la base de datos de índices y podrías tener que pagar más. Por eso, sugiero que dividas la base de datos en dos. Una solo para la base de datos de índices, una solo para el índice y los embeddings y la otra para guardar los fragmentos originales, y se conectarían entre sí según el ID o algo así para que podamos buscarlos.
De acuerdo. Para las consultas, el primer componente es crear embeddings, nuevamente, usamos Open AI con text embedding para crear embeddings.
7. Modelos de Embedding y Optimización del Flujo
Para garantizar una coincidencia precisa, utiliza el mismo modelo para el embedding. GPT 3.5 tuple y un bot proporcionan resultados confiables. Utiliza PyCon y Azure AI Search para buscar fragmentos coincidentes. Utiliza Lengen para una fácil orquestación de componentes. Recuerda actualizar el índice con nuevos documentos en lugar de volver a ejecutar el servicio. Guarda metadatos mínimos con los embeddings en la base de datos de índices. Optimiza los tokens limpiando las consultas y comprimiendo las indicaciones.
Necesitamos utilizar el mismo modelo para que el algoritmo de búsqueda pueda encontrar la coincidencia porque un modelo diferente haría el embedding de manera diferente. Y GPT se utiliza para resúmenes en el fragmento y así sucesivamente, si quieres obtener un buen resultado, hicimos esta investigación al respecto y descubrimos que GPT 3.5 tuple y un bot darán resultados más y más confiables.
Buscar fragmentos coincidentes, nuevamente, tenemos que utilizar este algoritmo de búsqueda, ¿verdad? Utilizamos el servicio de búsqueda inteligente que es PyCon y Azure AI Search. Y por último, para poder monitorear todo el flujo sin mucho esfuerzo, sugiero no escribir en tu propio pipeline, sino intentar utilizar el encadenamiento de Lengen y de esta manera todos los componentes estarán conectados entre sí y no tendrás que perder tiempo en hacer que una entrada, una salida de un componente se convierta en la otra entrada de otro componente. Lengen se encargará de eso por ti. Y esto es lo que llamamos orquestación. Y Lengen tiene muchas formas diferentes de hacerlo que están disponibles en la documentación para que puedas consultarla. Además, puedes hacer un kernel semántico pero de todos modos no es compatible con JavaScript. Estos son algunos recursos que puedes utilizar para construir el flujo con este componente. Y por último, una regla general. Si tienes que hacer una pre-inyección de preguntas y respuestas de documentos, lo que significa basado en los documentos existentes, lo que significa que a veces el usuario tiene que agregar un nuevo documento dentro del sistema, no quieres volver a ejecutar el servicio nuevamente. Crea un programador o algo así solo para actualizar el índice existente con el nuevo documento lo que significa hacer todo el flujo de inyección nuevamente pero solo en ese documento. En segundo lugar, siempre guarda los metadatos mínimos junto con el embedding en la base de datos de índices para ahorrarte algo de tiempo. Y por último, optimización. La optimización de tokens es crucial porque no quieres gastar dinero en eso. Por lo tanto, siempre debes limpiar la consulta. Sabes que los espacios, los espacios finales o cualquier software se contarán como token. Entonces, una de las cosas que puedes hacer es pasarlo al AI, al GBT y pedirle que lo limpie por ti, recibir la consulta limpia y ponerla en la indicación o intentar optimizar la indicación mediante un algoritmo de compresión. Creo que MongoDB tiene una buena charla sobre cómo puedes comprimir esto. Y esto te ahorrará muchos tokens y hará que tu servicio de preguntas y respuestas de documentos sea mucho mejor.
Testing Embedding Models and AI Validation
Gracias por unirse a mi charla. Los modelos de embedding pueden proporcionar resultados diferentes. Probar diferentes modelos es importante pero desafiante. Se utilizan pruebas manuales y automatización para validar los resultados. Las pruebas de IA en sí mismas pueden ser poco confiables. Otras preguntas y una mención de AstroDB de DataStax.
Y eso es todo. Gracias por unirse a mi charla. Voy a comenzar. Por eso dije que hay muchas cosas nuevas que tenemos que aprender para trabajar con esta IA generada y gracias por explicarlo.
Me preguntaba acerca de los modelos de embedding. ¿Has encontrado resultados diferentes al usar diferentes modelos de embedding?
Sí. Entonces, en realidad, cuando lo hacemos en el estado inicial, lo probamos con tres módulos de modelos diferentes y el resultado es bastante diferente. Como, debo decir, tengo la diapositiva pero no tengo suficiente tiempo para mostrarla. Pero la diferencia será engañosa dependiendo del modelo que uses y la indicación que uses. Puede darte desde 20, como, de 40 preguntas en el conjunto de datos, puede darte desde 20 preguntas correctas hasta 29 preguntas correctas. Alrededor del 40%, 50%, algo así. Y había un margen del 10% entre las diferentes indicaciones. Entonces, ¿hay alguna forma de probar estos diferentes modelos para ver cuál te dará el resultado correcto para tu caso de uso?
Sí, ese también es otro aspecto importante, las pruebas, ¿verdad? Entonces, sí, inicialmente, tenemos las pruebas manuales donde los humanos tienen que validar una por una pero luego tenemos que hacer 400 conjuntos de datos de preguntas para las pruebas y nadie puede hacer eso. Eso es un nuevo trabajo para el control de calidad, ¿no?
Sí. Los científicos de datos tienen que idear algo como la automatización para LLM, este proceso de automatización. Entonces, pasan las preguntas a la IA y permiten que la IA las valide y luego las devuelva. Y luego haces la prueba final con los humanos.
Correcto, entonces la IA la crea y la prueba y luego finalmente la revisamos. Pero nuevamente, es como pedirle a la IA que pruebe su propio trabajo y aún no estás seguro si es bueno o no.
Bueno, al menos no creo que tengan ego. Entonces, si están equivocados, está bien. Está bien.
Bueno, si la IA está equivocada, ese es el problema, ¿verdad?
Correcto. Tenemos algunas otras preguntas. Muy bien, eso es encantador. Tengo que señalar mientras estoy aquí que mencionaste Pinecone, mencionaste el servicio de IA de Azure. Trabajo para DataStax. También tenemos un almacén de vectores que puedes usar, echa un vistazo a AstroDB. Un pequeño anuncio, lo siento. De acuerdo, esta es una interesante que acabo de perder.
Token Usage and Meta Prompts
La construcción de indicaciones con muchos tokens puede ser costosa. Agregar una meta indicación con personalización puede optimizar el uso de tokens. La limpieza de las consultas puede eliminar palabras innecesarias. Se recomienda la charla de Jesse Hall sobre la optimización de las meta indicaciones. Construir una meta indicación específica es importante, pero las indicaciones más pequeñas también pueden funcionar. Azure AI prioriza la seguridad, mientras que otras plataformas pueden requerir validación de contenido adicional.
La indicación construida, ahí vamos, agregar las instrucciones sobre cómo responder utiliza bastantes tokens cuando has recuperado tus fragmentos y tienes un montón de cosas. ¿Hay alguna forma de abstraer eso de alguna manera, hacerlo más pequeño para que, sí, supongo que no te cueste tanto dinero. Los tokens son dinero. Bueno, una de las cosas es que, esa es una pregunta complicada, para ser honesto. Si pones muchas cosas en las indicaciones, puedes proteger mejor a la IA.
Una vez vi una de nuestras, no puedo decir cuál porque es trabajo, pero de todos modos, tenemos una meta indicación que, él, el chico que la escribió, dice que cubre todos los aspectos legales de una IA, pero cuesta alrededor de 900 a 1000 tokens y eso es una meta indicación. Y si agregas tu propia indicación del sistema, como indicaciones adicionales para personalizarla, puede llegar a 1500 tokens solo para tu propia indicación con la meta indicación. Y para poder optimizar esto, la única forma que tienes es ejecutar algún tipo de consulta de limpieza para eliminar todas estas palabras que no tienen sentido, como `haz esto` o algo así. Yo diría, sugeriría a todos que vean una charla de Jesse Hall, creo que es Jesse Hall de MongoDB. Habló sobre cómo optimizar las indicaciones, las meta indicaciones, para ahorrar tokens, ahorrar costos. Y esa charla fue muy buena. Sí, genial. Creo que también está aquí en algún lugar, así que. De acuerdo, impresionante. Sí, supongo que, ya sabes, construir una gran meta indicación como esa es importante cuando necesitas que el modelo se comporte de manera muy específica, pero si no tienes requisitos tan estrictos, puedes hacerlo más pequeño. Sí, quiero decir, si no quieres cubrir todo, como la seguridad del contenido, no sé, como engañoso, o que la IA se vuelva muy feliz y conversacional, entonces está bien, puedes hacerlo más pequeño y más. En realidad, creo, no lo he usado yo mismo, pero creo que Azure AI hace mucho trabajo para mantenerte más seguro también. No sé si eso usa una meta indicación para ello. Así que sí, eso es todo. Si usas OpenAI, entonces ya está en el nivel de seguridad del contenido. Así que no tienes que lidiar con eso. Pero si usas otra plataforma de OpenAI, tienes que agregar el contenido, como necesitas ser responsable y escribir otro componente para validar que la consulta no vaya a ser perjudicial, etc. Así que sí, soy de todos...
Creative Uses of LLM and Business Rush
Los usos creativos de LLM incluyen generar música y descripciones de productos a partir de imágenes. Analizar videos para encontrar puntos relevantes ganó un hackathon. La prisa de las empresas por utilizar IA con fines de marketing sigue siendo una pregunta desafiante. Los LLM aún requieren observación y mejora para diversas aplicaciones.
Lo mencioné, está bien.
Esa es una buena pregunta. ¿Cuál es el uso más creativo de un LLM que has encontrado? Bueno, muchos. Alguien generó music utilizando LLM. Uno de mis proyectos actuales, quiero decir, aquí en la red de gemas, estoy trabajando en generar algunas descripciones de productos a partir de imágenes. Básicamente, paso la imagen al GPT, la imagen del producto. Y luego quiero obtener la descripción de la imagen y el texto relacionado con ese producto y la descripción para poder subirlo, no sé, a una tienda y tenerlo implementado.
Muy bien. Muy bien. Supongo que también se podría utilizar para construir texto alternativo para imágenes para una mejor accessibility en aplicaciones. Sí. Además, uno de los proyectos que ganó nuestro hackathon en Microsoft consiste en analizar video y darte el... ¿Cómo se llama? El punto en el que el discurso es relevante para ti. Muy interesante. Sí. Genial. Muy bien. Tenemos una pregunta más. Hablaste sobre cómo los LLM pueden fallar y diste el ejemplo de Air Canada. ¿Crees que las empresas se están apresurando a utilizar AI únicamente con fines de marketing?
¿Perdón? ¿Crees que las empresas se están apresurando a utilizar AI solo con fines de marketing? Ah, wow, esa es una pregunta muy difícil. Quiero decir, en un extremo, trabajo para Microsoft, ¿sabes? Así que tengo que decir, está bien. Bueno, siento que todavía necesitamos monitorear, no monitorear, observar AI en el LLM. Tiene mucho potencial. Hasta ahora, aún no está en el nivel de producción, excepto co-pilot. Pero digamos, document Q&A, todavía tenemos muchas cosas en las que trabajar. Y también otras cosas, tal vez la generación de video también. Realmente, tiene mucho potencial, pero aún no me siento seguro para decir que está ahí más allá de los fines de marketing. Creo que, por lo que he visto, hay algunas cosas útiles. Creo que también tienes razón. Estamos en una etapa muy temprana.
Experimentando con IA y Seguridad Laboral
Los desarrolladores deberían experimentar con IA y su potencial. La IA no reemplazará empleos durante al menos 100 años. El uso de IA puede mejorar la seguridad laboral. Copilot es útil para el código, pero no en otras áreas. ¡Gracias, Maya!
Pero en realidad, animaría a los desarrolladores a experimentar con ella. No permitamos que un especialista en marketing o un producto que se ha vuelto loco con el poder decida que puedes tomar el control. Tienes que tener IA y cosas en este momento. Construye cosas tú mismo con ella y ve lo que puede hacer. Y sé la persona que puede sugerir esas ideas. Creo que, como desarrolladores, nos debemos a nosotros mismos experimentar con estas cosas y saber qué podemos hacer con ellas.
Además, otra cosa es que no va a venir a quitarnos nuestro trabajo. Aún no. Probablemente en 100 años. Así que no tenemos que preocuparnos por eso. Tres estimaciones diferentes sobre ese tipo de cosas. Estoy seguro de que he visto que todo se hace en tres a cinco. No sé, tal vez estoy equivocado. Quiero decir, al menos no en mi vida. Hemos tenido otro que ha surgido. Esa fue la siguiente pregunta que surgió. ¿Crees que todos vamos a perder nuestros trabajos? Aún no. Genial. Excelente. Bueno saberlo. Sí, bueno, y otra forma de no perder tu trabajo es también saber cómo usar la IA. Así que si eres la persona que la alimenta hasta que pueda hacerse cargo y luego eso es la singularidad y todo se acaba, ¿verdad? Quiero decir, no uso Copilot en la oficina. Quiero decir, tengo Copilot. Simplemente no lo uso. Solo uso Copilot en código. Porque esa es la única forma en que realmente disfruto usándolo. De lo contrario, es bastante molesto.
Muy bien. Bueno, creo que eso es todo. Y eso fue todo. A menos que haya más preguntas, tienes segundos para hacerlas. No hay más preguntas. Así que muchas gracias de nuevo, Maya. Por favor, aplaudan a todos. Denle a Maya otro aplauso. Gracias. Gracias.
Comments