Hasta ahora hemos estado hablando solo de un modelo base que generará documentos base de Internet. Ahora veamos cómo obtenemos un asistente. Esto es algo con lo que probablemente estés más familiarizado.
Hasta ahora, solo hemos hablado de estos generadores de documentos de Internet, que son el resultado de la primera etapa de entrenamiento, que es lo que llamamos preentrenamiento. Y ahora nos estamos moviendo a la segunda etapa de entrenamiento, que es lo que llamamos ajuste fino.
Aquí es donde obtenemos lo que llamamos un modelo de asistente, porque en realidad no solo queremos generadores de documentos, ya que eso no es muy útil para muchas tareas. Queremos darle preguntas al modelo y queremos que genere respuestas basadas en las preguntas, realmente queremos un modelo de asistente.
La forma en que obtenemos estos modelos de asistente es fundamentalmente a través de un proceso siguiente. Mantenemos la optimización idéntica, por lo que el entrenamiento será el mismo. Es solo una tarea de predicción de la siguiente palabra, pero vamos a cambiar el conjunto de datos sobre cómo lo estamos entrenando. Solía ser que entrenábamos con una gran cantidad de documentos de Internet. Vamos a cambiar esto por un conjunto de entrenamiento que recopilamos manualmente utilizando a mucha gente.
Por lo general, una empresa contratará personas y les dará instrucciones de etiquetado, y todas estas personas crearán preguntas y luego escribirán respuestas a ellas. Aquí hay un ejemplo que podría incluirse en tu conjunto de entrenamiento. Hay un usuario y dice algo como, ¿puedes escribir una breve introducción sobre la relevancia de este término en economía, y así sucesivamente. Y luego el asistente, y nuevamente, la persona, completa cuál sería la respuesta ideal a esta pregunta. La respuesta ideal y cómo se especifica y cómo debería verse todo proviene del etiquetado de documentación. Las instrucciones de etiquetado básicamente son proporcionadas por los mantenedores del modelo, como empresas como OpenAI.
Ahora la etapa de preentrenamiento se trata de una gran cantidad de texto y potencialmente baja calidad porque proviene de Internet y hay decenas o cientos de terabytes de datos. Y todo es de muy alta calidad. No se puede garantizar eso. Sin embargo, en la segunda etapa, preferimos calidad sobre cantidad. Por lo tanto, podemos tener muchos menos documentos, por ejemplo, solo cien mil, pero todos estos documentos son ahora conversaciones y deben ser conversaciones de muy alta calidad. Fundamentalmente, las personas crean estas conversaciones basándose en instrucciones de etiquetado.
Cambiamos el conjunto de datos y ahora entrenamos con estos documentos de preguntas y respuestas, que es un proceso que llamamos ajuste fino del modelo. Una vez que ajustas fino el modelo, obtienes lo que llamamos un modelo de asistente. Este modelo de asistente ahora se ajusta al formato de sus nuevos documentos de entrenamiento. Por ejemplo, si le das una pregunta, ¿puedes ayudarme con este código? Parece que hay un error en imprimir hola mundo. Entonces, aunque esta pregunta no estaba en el conjunto de entrenamiento, el documento, el ajuste fino del conjunto de entrenamiento, el modelo comprende que debe responder esta pregunta de una manera útil. Y responderá muestreando palabra por palabra de izquierda a derecha, de arriba a abajo, todas las palabras que son en respuesta a esta consulta, es algo notable. Y también es algo empírico y no completamente entendido que estos modelos pueden cambiar su comportamiento, su formato para ahora ser asistentes útiles porque han visto tantos documentos durante la etapa de ajuste fino. Pero aún así pueden acceder al conocimiento de la etapa de preentrenamiento.
Hablando en términos generales, la etapa de preentrenamiento se trata de entrenar con una gran cantidad de intranet. Se trata de conocimiento y la etapa de ajuste fino, la etapa de ajuste fino se trata de lo que llamamos alineación. Se trata de cambiar el formato de generador de documentos de intranet a un modelo de asistente de documentos de preguntas y respuestas. Entonces, la pregunta aquí es, ¿el ajuste fino evita los sueños y las alucinaciones? La respuesta aquí es no. El ajuste fino dirige estos sueños hacia sueños de asistente útiles en lugar de sueños de documentos de Internet. Así que ten precaución, siempre debes tener cuidado con lo que los LLM te dicen y siempre verifica los resultados. Y si necesitas datos actualizados, probablemente proporciónalos como contexto relevante para el modelo.
Entonces, en realidad, hay un siguiente paso en el ajuste fino llamado comparaciones, etiquetas de comparación. La razón por la que podemos hacer esto es que, en muchos casos, es mucho más fácil comparar respuestas candidatas o respuestas del modelo que escribir la respuesta tú mismo si eres un etiquetador humano. Podemos pensar en este ejemplo, como con tareas creativas como correr IQ. Supongamos que la pregunta es escribir un IQ sobre Grafana o algo así. Desde la perspectiva de un etiquetador, si se me pide que escriba un IQ, eso es algo difícil tarea, al menos para mí. Puede que pueda escribir un IQ y sí, lleva mucho tiempo. Pero supongamos que le pedimos al modelo que genere algunas IQ candidatas a partir de la etapa dos del modelo. Bueno, entonces, como etiquetador humano, miro estas IQ y luego elijo una que sea la mejor. Y esto es mucho más fácil de hacer en comparación que generar desde cero.
Comments