Gracias. Hola Thomas, ¿cómo te va? Hola. Bien, bien. ¿Cómo te va a ti?
Sí, también es bastante agradable. Quiero decir, el sol ya está un poco fuera en Múnich, pero todavía hay muchas charlas emocionantes. Y comenzaste esta conferencia de manera muy buena porque creo que el procesamiento del lenguaje natural o el lenguaje en general es uno de esos indicadores de qué tan bien entendemos este aprendizaje automático. ¿Cómo te sientes? Sí, definitivamente. Creo que lo que hemos visto en NLP en este momento, supongo que en los últimos dos años, probablemente es que se ha convertido realmente en lo que esperábamos que fuera desde el principio, lo cual significa realmente la forma de procesar el conocimiento y la forma de investigar o lo que esperamos que sea como investigar. Y cuando hablamos de IA general, creo que ahora mucha gente piensa en GPT-3, que es un modelo de texto completo. Así que creo que esto es realmente algo impresionante sobre cómo NLP es ahora el campo más emocionante en la IA.
Sí, y es un poco gracioso porque casi estás prediciendo la primera pregunta, ¿verdad? Y la primera pregunta es en realidad sobre GPT-3 y la gente pregunta, hey, ya que eres un experto en NLP y tu empresa está impulsando buenos esfuerzos en este sentido, ¿qué crees que es el avance de GPT-3 en comparación con GPT-2?
Sí, es una buena pregunta. Creo que uno de los problemas de GPT-3 es que es bastante difícil acceder a él. Así que creo que no hemos evaluado realmente la capacidad de GPT-3. Como lo hemos hecho con otros modelos como BERT o GPT-2 simplemente porque muchos académicos no tenían acceso completo para investigar qué está sucediendo. ¿Qué puedes hacer con eso? Ser capaz de probarlo completamente en muchas tareas. Así que es un poco difícil darte realmente una respuesta, ¿verdad? Lo que creo es que GPT-3 se comporta de alguna manera como algo interesante, que es una recuperación, como una recuperación suave que abarca un conjunto de datos realmente grande. Entonces puedes hacer cosas como, es como tener un enorme buscador de Google, donde puedes buscar en cada página de Internet y ser capaz de interpolar suavemente entre todas estas páginas. Así que creo que esto es muy interesante y lo que vemos, que se pueden hacer algunas aplicaciones bastante geniales con eso, como generar suavemente código y generar una publicación de blog que se vea realista. Ahora, cuando hablamos de razonamiento real, significado y cosas así, no creo que haya realmente ningún avance profundo en la suite GPT, pero esa es mi opinión personal. Sí, no, es realmente bueno que al menos para mí resuene que separas el razonamiento de tener una gran base de datos. Porque a veces tenemos la sensación de que nuestra comunidad o partes de nuestra comunidad piensan que, hey, si la base de datos es más grande, puedes resolver todos los problemas. Y a veces no es realmente así, tener un modelo más grande no significa automáticamente que de repente tengas una IA general, y es bueno recordarlo básicamente. Sí. Entonces, otra pregunta sería, solo del público, hay tantos tamaños diferentes de modelos, incluso basados en transformadores, está GPT-3, están los transformadores, está Vertra, Roberta, todo tipo de cosas. También hay versiones más destiladas ¿verdad? Y cuando un ingeniero de aprendizaje automático comienza a trabajar en la tarea, ¿cuál es una buena regla general para tomar este proceso de decisión? Y obviamente no hay una respuesta clara, pero ¿tienes algún modelo mental o un marco, especialmente para principiantes, que pueden estar trabajando en una empresa que no tiene un gran grupo de aprendizaje automático, pero son la persona que realmente toma las decisiones, ¿cómo podemos ayudar y apoyar a esa persona?
Sí, esa es una buena pregunta. Creo que eso es definitivamente algo con lo que muchas personas se enfrentan. Quiero decir, lo práctico acerca de mí, acerca de nuestro equipo en SwiggyFace, creo que es que deberíamos ayudar a las personas a hacer eso, porque entiendo que estamos proporcionando muchos modelos, estamos proporcionando muchos puntos de control, pero es realmente difícil ver el que debes seleccionar, el que debes usar. Entonces, lo primero es que intentaremos construir algunas herramientas mejores para esto. Pero ahora, para una respuesta rápida, creo que es bueno mantener tu buen reflejo, tu buena rutina, es que debes comenzar con algo simple, como debes comenzar con un modelo más pequeño, como comenzar con una versión destilada de BERT, por ejemplo, en lugar de BERT, como comenzar con algo pequeño y ver hasta dónde puedes llegar con eso, con este modelo eficiente en cómputo, como un BERT destilado, un GPT-2 destilado, un Roberta destilado, probar un poco con ellos. Y si no es suficiente, entonces escalas, entonces comienzas a usar modelos más grandes y tratas de ver si necesitas, como, un T5 o algo así.
Comments