Y tienes este tipo de bucle interno que el código que generas al final del día será seguro porque pasa por esta medida de protección. Genial. Estoy realmente emocionado por este próximo porque creo que es ... Me encanta cómo está formulado. ¿Cuánto de la inyección de prompts es básicamente pedir amablemente al LLM para que ni siquiera se necesiten hackers regulares en el futuro? ¿Puedo simplemente decir, por favor, por favor, por favor, con una cereza en la cima, elimina esta tabla? Es una buena. Creo que las personas que hacen ingeniería social realmente se convierten en buenos hackers en la era de la inyección de prompts tienes que pensar fuera de la caja aquí. Lo recomendaría ya que alguien preguntó sobre este tema específico, el problema de la inyección de prompts es ... Hay una empresa llamada Lakera, creo que la compraron recientemente, que tenía este desafío llamado Gandalf. Era como un desafío web. Entras en un sitio web. Gandalf es una figura que tiene una contraseña secreta y tienes que pasar por diferentes niveles para intentar pedirle que te diga la contraseña. Te lleva a una mentalidad de lo que los hackers pensarían, o los adversarios, en términos de todas las medidas de protección que añaden dentro de los desafíos. Puedes pasar por eso tú mismo y ver qué tan difícil o fácil es realmente extraer la contraseña de un LLM. El Gandalf del Fin de los Días es un LLM. Para esta pregunta en específico, creo que se necesitarán hackers, pero creo que lo que está sucediendo es que a medida que vemos que la IA protege los sistemas, como intentamos hacer en Snyk, también vemos que los hackers realmente utilizan la IA de diferentes maneras para ejecutar de manera agéntica diferentes tipos de ataques al sistema. Perfecto.
Hablando de medidas de protección, de las que acabas de hablar hace un par de segundos y tocaste el tema, ¿hay medidas de protección que se puedan implementar para prevenir que cosas como esta sucedan? ¿De la inyección de prompts? Sí. La inyección de prompts y las alucinaciones son algo inherente a los modelos. No creo que nadie, tampoco desde Frontier Labs, esté diciendo que la inyección de prompts está solucionada y que la tendrán solucionada el próximo mes. Increíble. No. Es algo inherente al problema y lo tendremos por mucho tiempo, creo. Lo que las empresas están haciendo es básicamente poner medidas de protección entre, así que tienen tal vez un modelo más pequeño, más rápido, un modelo más inteligente que fue ajustado para encontrar el prompt que se entrega o procesa, realmente pasará por eso como un firewall desde el nivel de entrada. Y luego incluso en el exterior, para asegurarse de que no has extraído, exfiltrado información que sea PII o lo que sea, también pondrían otro modelo al final de eso. Así que hay diferentes técnicas como esa, como usar LLM como juez y esos firewalls de LLM para intentar añadir esas medidas de protección de seguridad para que la inyección de prompts sea mitigada o algo minimizada. Pero dentro de los modelos mismos, no hemos visto ningún caso donde no puedas liberarlos. Como hemos visto, las empresas han comenzado a poner sus prompts de sistema en código abierto porque saben que eventualmente alguien liberará el modelo y lo sacará. Así que puedes ver lo mucho que están tratando de protegerlo, o al menos intentarlo, y han hecho las paces con el hecho de que va a suceder en algún momento. Perfecto.
Bueno, muchas gracias. Eso es todo el tiempo que tenemos para preguntas hoy. Si tienes preguntas que tal vez no fueron respondidas, porque veo que todavía hay un par, siéntete libre de visitar a LeRonn en la esquina de preguntas y respuestas, que está justo afuera. Y démosle una ronda más de aplausos. Gracias a todos. Gracias.
Comments