Y aquí, a partir de los parámetros, vemos el número que usas, dónde quieres llamar, y descripción de las partes que acabamos de discutir. Para LLM seleccionamos el modelo, y especificamos el prompt, lo que debería hacer. Para texto a voz seleccionamos la voz, y uso un ID de voz específico de Cartesian. Y voz a texto, servicio DeepGram con modelo NOVA2. Y eso es todo. Quizás algunos parámetros más, pero tan simple como es. Podemos compararlo con Pipecat. Pipecat es una biblioteca de hazlo tú mismo, y normalmente tienes que configurar mucho más aquí. Pero vamos a ver el ejemplo.
Simplifiqué un poco el código, pero quería resaltar los conceptos principales aquí. Necesitas tu transporte, necesitas configurar tus modelos como voz a texto, texto a voz, y LLM con esos servicios. Tendrás que registrarte en esos servicios por separado, comparado con WAPI. Luego proporcionas tu contexto a LLM, y creas el pipeline de Pipecat. Pipecat trabaja con pipelines y tareas. Y en el pipeline establecemos, bien, esos serán los inputs, luego lo ponemos en voz a texto, luego proporcionamos toda la información del usuario, y lo combinamos en LLM. Luego tenemos una respuesta, la respuesta la convertimos de nuevo a voz, la enviamos de vuelta al transporte, y guardamos de nuevo en el Asistente lo que fue.
Donde creamos nuestro pipeline, basado en el pipeline podemos crear una tarea y ejecutar esta tarea. Eso es todo, de nuevo, lo que necesitas para tener una llamada en un vecino específico con tu agente de voz. Es bastante simple. Preparé para ti todo el repositorio con ejemplos donde puedes revisar el código de diferentes herramientas, diferentes modelos, y puedes jugar tú mismo. También se proporciona tu enlace. Una cosa más que quería compartir, algunos hallazgos cuando comenzamos a construir el Agente de Voz con la función de Producción de Unreal. En primer lugar, lo que ya mencioné, todo fue perfecto cuando comenzamos a probarlo con inglés. Pero nuestra audiencia es holandesa, personas holandesas, y aquí enfrentamos algunos desafíos. Y eso es algo que necesitas considerar. ¿Qué idiomas necesitas usar para tu sistema?
Y no pienses que si funciona para inglés, funcionará bien para todos los demás. Porque tendrás que ajustar tu voz a texto, tendrás que ajustar el texto a voz y a veces no tendrás ya optimizado para este idioma específico. Así que tal vez haya una idea de ir con un conjunto limitado, asegurarte de que tu idea funcione y luego extender esos idiomas, buscas modelos específicos para el idioma. También para infraestructura. Para infraestructura, bueno, lo primero que noté, incluso a pesar de que usamos el servicio WAPI, servicio listo, no tiene el concepto de entornos.
Comments