Búsqueda Semántica a través de la Wikipedia Completa con la API de GraphQL de Weaviate

Rate this content
Bookmark

Weaviate utiliza GraphQL para proporcionar una interacción de datos fácil de usar. Weaviate es un motor de búsqueda de vectores de código abierto, y todas las búsquedas (por ejemplo, semánticas, contextuales) se realizan a través de su API de GraphQL. Hemos pensado mucho en el diseño de la API de GraphQL, lo que resulta en una buena experiencia para el usuario y el desarrollador. En esta charla, te llevaré en el viaje de cómo se formó nuestra implementación de GraphQL según las necesidades de los usuarios y los requisitos de software, y mostraré una demostración del diseño actual de Weaviate. La demostración mostrará cómo el diseño de GraphQL de Weaviate permite la búsqueda semántica (vectorial) en combinación con la búsqueda escalar a través de datos no estructurados. Se utilizan modelos de aprendizaje automático en segundo plano, pero con el diseño actual de GraphQL, los usuarios sin conocimientos técnicos pueden consultar fácilmente la base de datos de vectores.


Weaviate tiene una arquitectura modular, por lo que los usuarios pueden conectar varios modelos de aprendizaje automático en la parte superior de la base de datos de vectores. Ejemplos son el módulo de Preguntas y Respuestas recién lanzado y el módulo de Reconocimiento de Entidades Nombradas. Los módulos pueden ampliar el esquema de GraphQL de forma dinámica, para consultar las nuevas características de manera intuitiva.

Esta presentación contiene una demostración donde consultaremos la Wikipedia completa, realizaremos consultas de búsqueda semántica y más. Todo a través de la API de GraphQL de Weaviate. No se requieren conocimientos previos.

This talk has been presented at GraphQL Galaxy 2021, check out the latest edition of this Tech Conference.

FAQ

Weaviate es un motor de búsqueda vectorial que utiliza una API de GraphQL para realizar consultas sobre datos no estructurados. Permite almacenar datos y buscar a través de representaciones vectoriales generadas por modelos de machine learning.

En Weaviate, cada objeto de datos que agregas se procesa mediante un modelo de machine learning que crea representaciones vectoriales. Estas representaciones permiten realizar búsquedas avanzadas en la base de datos, superando las limitaciones de los motores de búsqueda tradicionales que dependen exclusivamente de palabras clave.

La API de GraphQL en Weaviate es una interfaz que permite hacer consultas complejas y obtener datos de manera eficiente. Ofrece funciones como obtener, explorar y agregar datos, y permite realizar consultas basadas en texto y relaciones entre datos.

Sí, aunque la demostración se centró en texto, Weaviate también puede manejar otros tipos de datos como imágenes, videos y más, gracias a sus módulos de aprendizaje automático que pueden procesar y vectorizar distintos formatos de datos.

Puedes acceder a una demostración en vivo o ejecutar un conjunto de datos de Wikipedia disponible en GitHub. Además, Weaviate ofrece una consola accesible en línea para realizar consultas utilizando la API de GraphQL.

La documentación y soporte para Weaviate están disponibles en el sitio web de SAMI.Technology, donde puedes encontrar una guía de instalación, ejemplos de configuración y acceso a una comunidad activa en Slack. Además, Weaviate está disponible en GitHub.

Bob van Luijt
Bob van Luijt
17 min
10 Dec, 2021

Comments

Sign in or register to post your comment.
Video Summary and Transcription
Weaviate es una base de datos y motor de búsqueda que utiliza una API de GraphQL. Admite varios modelos de aprendizaje automático para la vectorización y búsqueda de datos. Las funciones principales de Weaviate son obtener, explorar y agregar, lo que permite a los usuarios consultar y buscar en el conjunto de datos. Weaviate proporciona resultados rápidos y precisos, lo que permite a los usuarios encontrar cualquier cosa en el conjunto de datos. La API de GraphQL en Weaviate se puede utilizar para consultar datos específicos y establecer relaciones de gráficos.

1. Introducción a Weaviate y Motores de Búsqueda Vectorial

Short description:

Hablaremos sobre nuestra base de datos, el motor de búsqueda Weaviate y su API de GraphQL. Utilizaremos un conjunto de datos de demostración, la Wikipedia completa, para mostrar cómo hacer consultas. Proporcionaremos contexto sobre los motores de búsqueda vectorial, discutiremos el diseño de la API de GraphQL y haremos una demostración de la API en el conjunto de datos. Por último, te mostraremos cómo iniciar Weaviate con su API de GraphQL.

Hola a todos. Gracias por tomarse el tiempo para escuchar esta charla. Vamos a hablar sobre algunas cosas. Primero que nada, vamos a hablar sobre nuestra database, nuestro motor de búsqueda Weaviate, y vamos a utilizar un conjunto de datos de demostración, que es la Wikipedia completa, para mostrar cómo puedes hacer consultas, y lo más importante, por supuesto, vamos a hablar sobre la API de GraphQL que tiene.

Weaviate es un motor de búsqueda vectorial o database, tiene una API de GraphQL, y vamos a utilizar para demostrarte el conjunto de datos de demostración de la Wikipedia completa. Primero daré un poco de contexto sobre qué es un motor de búsqueda vectorial, para que entiendas de qué estamos hablando, si es algo nuevo para ti. Luego veremos el design de la API de GraphQL. Después haremos una demostración de la API en el conjunto de datos. Y por último, te mostraré cómo puedes iniciarlo con Weaviate y su API de GraphQL tú mismo.

Nuevamente, gracias por escuchar. Primero que nada, ¿qué es Weaviate y qué es un motor de búsqueda vectorial? En el núcleo, estamos tratando con el problema de los datos no estructurados. Si alguna vez has utilizado una database o un motor de búsqueda, sabrás que los datos que estás almacenando, por ejemplo, si son texto, solo puedes encontrarlos si utilizas palabras clave. Por ejemplo, en un motor de búsqueda tradicional, si buscas este objeto de datos para vino, para mariscos, probablemente no lo encontrarás porque excepto por la clave aquí, no hay ninguna parte donde encuentres la palabra vino en los datos. La palabra para no está ahí tampoco y los mariscos tampoco están ahí. Pero utilizando un motor de búsqueda vectorial y buscando vino para mariscos, en realidad encontraría el objeto de datos. Y la razón por la que puede hacer eso es porque cada objeto de datos que agregas a el motor de búsqueda se pasa por un modelo de machine learning. El modelo de machine learning crea representaciones vectoriales y eso es lo que utilizas para buscar en la database.

Ahora, si esto es nuevo para ti, déjame darte un poco de contexto para que sepas qué está sucediendo. La mayoría de los modelos de machine learning generan vectores. Y la forma más fácil de pensar en los vectores son las coordenadas. Por ejemplo, nuestro primer modelo tenía 300 dimensiones y tenías todo tipo de palabras allí. Entonces, los bulbos aquí representan palabras como carne, pollo, pescado, etc. Lo que puedes hacer si agregas un nuevo objeto de datos, por ejemplo, el Chardonnay que es bueno con es que todas estas palabras individuales que ves aquí resaltadas en verde se encuentran en el espacio vectorial y se colocan en ese mismo espacio vectorial. Y lo que puedes hacer es darle una posición única de centroide a ese objeto de datos. Entonces, ahora puedes decir que en el espacio vectorial el objeto de datos, en este caso el Chardonnay, se encuentra exactamente aquí en el medio de donde se encuentran todas estas palabras. Ahora, si buscas vino relacionado con mariscos o cosas así, en realidad podrás encontrar ese objeto de datos. No es una coincidencia del 100%, pero es una aproximación de lo que estás buscando. Pero en un momento verás cuál es el valor real de esto. Como puedes ver aquí, tenemos la clase Vino con la propiedad Covey run 2005 Chardonnay. Puede estar relacionado con un beacon y puede tener ciertos pesos vectoriales.

2. Estructura del Objeto de Datos y Diseño de la API de GraphQL

Short description:

Discutiremos la estructura del objeto de datos en Weaviate y el papel de la base de datos en el almacenamiento de objetos para la búsqueda y filtrado vectorial. Weaviate admite varios modelos de aprendizaje automático para la vectorización y búsqueda de datos. La arquitectura incluye módulos como text-to-vec y Q&A, que se ejecutan en tu infraestructura. El núcleo de Weaviate contiene estos módulos, junto con una capa de persistencia para almacenar vectores y una API para la búsqueda de datos. Nos centraremos en la API de GraphQL y su diseño, que elegimos en lugar de otras opciones. El diseño involucra clases, propiedades y modelos de datos similares a un grafo con propiedades adicionales para la búsqueda.

Así es como se ve el objeto de datos cuando lo almacenas en una instancia de Weaviate. Para ayudarte a trabajar con esto, tenemos la base de datos que ves en el medio para almacenar tus objetos y realizar búsquedas y filtrado vectorial. Pero, por supuesto, hay muchos, muchos modelos de aprendizaje automático que puedes usar para vectorizar los datos o buscar a través de ellos.

La demostración que voy a hacer hoy se centra exclusivamente en texto. Sin embargo, también puedes hacer esto con imágenes, videos o cualquier otro tipo de datos. Si profundizas un poco más, verás cómo funciona desde un punto de vista arquitectónico. Por ejemplo, tenemos módulos de text-to-vec o módulos de Q&A. A menudo se ejecutan en una GPU. Todo esto se ejecuta en tu infraestructura.

Estos módulos se encuentran en el núcleo de Weaviate, luego hay una capa de persistencia que se encarga de almacenar los vectores, de poder buscar a través de ellos y de almacenar el objeto de datos. Pero lo más importante, hay una API encima de todo esto. Por supuesto, nos centraremos en la API de GraphQL y cómo puedes aprovecharla para buscar en tus datos.

Antes de hacer eso, quiero hablar un poco sobre el diseño de la API de GraphQL, porque cuando creamos la base de datos, aún no teníamos una interfaz. Tuvimos que elegir qué lenguaje usaríamos para consultar los datos. ¿Tendríamos una API puramente RESTful? ¿Adoptaríamos algún tipo de lenguaje de consulta? ¿Inventaríamos algo propio? Luego decidimos que lo mejor para nosotros era usar GraphQL. Esto es, en pocas palabras, nuestro diseño. En la parte superior, tienes una función principal dentro de UEFI 8. Lo veremos en un momento. Tienes una clase a la que puedes agregar y agregar tus datos. Una clase puede ser cualquier cosa. Cualquier dato que tengas, por ejemplo, si tienes documentos, puedes tener una clase documento. Si tienes productos, puedes tener una clase producto. Luego tienes las propiedades. Una propiedad también puede ser cualquier cosa. Por ejemplo, si nos quedamos con la clase producto, podrías tener la propiedad nombre o la propiedad precio. También puedes hacer una referencia cruzada. Por lo tanto, es un modelo de datos similar a un grafo. Luego tenemos estas propiedades adicionales con guión bajo. Esas son propiedades que obtienes como parte de la búsqueda de clases. Pero están integradas en los módulos o en Weave8 mismo.

Check out more articles and videos

We constantly think of articles and videos that might spark Git people interest / skill us up or help building a stellar career

De GraphQL Zero a GraphQL Hero con RedwoodJS
GraphQL Galaxy 2021GraphQL Galaxy 2021
32 min
De GraphQL Zero a GraphQL Hero con RedwoodJS
Top Content
Tom Pressenwurter introduces Redwood.js, a full stack app framework for building GraphQL APIs easily and maintainably. He demonstrates a Redwood.js application with a React-based front end and a Node.js API. Redwood.js offers a simplified folder structure and schema for organizing the application. It provides easy data manipulation and CRUD operations through GraphQL functions. Redwood.js allows for easy implementation of new queries and directives, including authentication and limiting access to data. It is a stable and production-ready framework that integrates well with other front-end technologies.
Estado Local y Caché del Servidor: Encontrando un Equilibrio
Vue.js London Live 2021Vue.js London Live 2021
24 min
Estado Local y Caché del Servidor: Encontrando un Equilibrio
Top Content
This Talk discusses handling local state in software development, particularly when dealing with asynchronous behavior and API requests. It explores the challenges of managing global state and the need for actions when handling server data. The Talk also highlights the issue of fetching data not in Vuex and the challenges of keeping data up-to-date in Vuex. It mentions alternative tools like Apollo Client and React Query for handling local state. The Talk concludes with a discussion on GitLab going public and the celebration that followed.
Un Marco para Gestionar la Deuda Técnica
TechLead Conference 2023TechLead Conference 2023
35 min
Un Marco para Gestionar la Deuda Técnica
Top Content
Today's Talk discusses the importance of managing technical debt through refactoring practices, prioritization, and planning. Successful refactoring requires establishing guidelines, maintaining an inventory, and implementing a process. Celebrating success and ensuring resilience are key to building a strong refactoring culture. Visibility, support, and transparent communication are crucial for addressing technical debt effectively. The team's responsibilities, operating style, and availability should be transparent to product managers.
Depuración de JS
React Summit 2023React Summit 2023
24 min
Depuración de JS
Top Content
Debugging JavaScript is a crucial skill that is often overlooked in the industry. It is important to understand the problem, reproduce the issue, and identify the root cause. Having a variety of debugging tools and techniques, such as console methods and graphical debuggers, is beneficial. Replay is a time-traveling debugger for JavaScript that allows users to record and inspect bugs. It works with Redux, plain React, and even minified code with the help of source maps.
Construyendo un Asistente AI Activado por Voz con Javascript
JSNation 2023JSNation 2023
21 min
Construyendo un Asistente AI Activado por Voz con Javascript
Top Content
This Talk discusses building a voice-activated AI assistant using web APIs and JavaScript. It covers using the Web Speech API for speech recognition and the speech synthesis API for text to speech. The speaker demonstrates how to communicate with the Open AI API and handle the response. The Talk also explores enabling speech recognition and addressing the user. The speaker concludes by mentioning the possibility of creating a product out of the project and using Tauri for native desktop-like experiences.
Una Guía Práctica para Migrar a Componentes de Servidor
React Advanced 2023React Advanced 2023
28 min
Una Guía Práctica para Migrar a Componentes de Servidor
Top Content
React query version five is live and we'll be discussing the migration process to server components using Next.js and React Query. The process involves planning, preparing, and setting up server components, migrating pages, adding layouts, and moving components to the server. We'll also explore the benefits of server components such as reducing JavaScript shipping, enabling powerful caching, and leveraging the features of the app router. Additionally, we'll cover topics like handling authentication, rendering in server components, and the impact on server load and costs.

Workshops on related topic

Construir con SvelteKit y GraphQL
GraphQL Galaxy 2021GraphQL Galaxy 2021
140 min
Construir con SvelteKit y GraphQL
Top Content
Featured WorkshopFree
Scott Spence
Scott Spence
¿Alguna vez has pensado en construir algo que no requiera mucho código de plantilla con un tamaño de paquete pequeño? En esta masterclass, Scott Spence irá desde el hola mundo hasta cubrir el enrutamiento y el uso de endpoints en SvelteKit. Configurarás una API de GraphQL en el backend y luego usarás consultas de GraphQL con SvelteKit para mostrar los datos de la API de GraphQL. Construirás un proyecto rápido y seguro que utiliza las características de SvelteKit, y luego lo desplegarás como un sitio completamente estático. Este curso es para los curiosos de Svelte que no han tenido una experiencia extensa con SvelteKit y quieren una comprensión más profunda de cómo usarlo en aplicaciones prácticas.

Tabla de contenidos:
- Inicio e introducción a Svelte
- Inicializar el proyecto frontend
- Recorrido por el proyecto esqueleto de SvelteKit
- Configurar el proyecto backend
- Consultar datos con GraphQL
- Recuperación de datos en el frontend con GraphQL
- Estilización
- Directivas de Svelte
- Enrutamiento en SvelteKit
- Endpoints en SvelteKit
- Despliegue en Netlify
- Navegación
- Mutaciones en GraphCMS
- Envío de mutaciones GraphQL a través de SvelteKit
- Preguntas y respuestas
Construye Aplicaciones Modernas Utilizando GraphQL y Javascript
Node Congress 2024Node Congress 2024
152 min
Construye Aplicaciones Modernas Utilizando GraphQL y Javascript
Featured Workshop
Emanuel Scirlet
Miguel Henriques
2 authors
Ven y aprende cómo puedes potenciar tus aplicaciones modernas y seguras utilizando GraphQL y Javascript. En este masterclass construiremos una API de GraphQL y demostraremos los beneficios del lenguaje de consulta para APIs y los casos de uso para los que es adecuado. Se requiere conocimiento básico de Javascript.
Seguridad de tipo de extremo a extremo con React, GraphQL y Prisma
React Advanced 2022React Advanced 2022
95 min
Seguridad de tipo de extremo a extremo con React, GraphQL y Prisma
Featured WorkshopFree
Sabin Adams
Sabin Adams
En este masterclass, obtendrás una visión de primera mano de lo que es la seguridad de tipo de extremo a extremo y por qué es importante. Para lograr esto, construirás una API de GraphQL utilizando herramientas modernas y relevantes que serán consumidas por un cliente de React.
Prerrequisitos: - Node.js instalado en tu máquina (12.2.X / 14.X)- Se recomienda (pero no es obligatorio) utilizar VS Code para las tareas prácticas- Un IDE instalado (se recomienda VSCode)- (Bueno tener) *Un conocimiento básico de Node.js, React y TypeScript
GraphQL para Desarrolladores de React
GraphQL Galaxy 2022GraphQL Galaxy 2022
112 min
GraphQL para Desarrolladores de React
Featured Workshop
Roy Derks
Roy Derks
Hay muchas ventajas en utilizar GraphQL como fuente de datos para el desarrollo frontend, en comparación con las API REST. Nosotros, los desarrolladores, por ejemplo, necesitamos escribir mucho código imperativo para recuperar datos y mostrarlos en nuestras aplicaciones y manejar el estado. Con GraphQL, no solo puedes reducir la cantidad de código necesario para la obtención de datos y la gestión del estado, sino que también obtendrás una mayor flexibilidad, mejor rendimiento y, sobre todo, una mejor experiencia de desarrollo. En este masterclass aprenderás cómo GraphQL puede mejorar tu trabajo como desarrollador frontend y cómo manejar GraphQL en tu aplicación frontend de React.
Construye una aplicación WordPress sin cabeza con Next.js y WPGraphQL
React Summit 2022React Summit 2022
173 min
Construye una aplicación WordPress sin cabeza con Next.js y WPGraphQL
Top Content
WorkshopFree
Kellen Mace
Kellen Mace
En esta masterclass, aprenderás cómo construir una aplicación Next.js que utiliza Apollo Client para obtener datos de un backend de WordPress sin cabeza y usarlo para renderizar las páginas de tu aplicación. Aprenderás cuándo debes considerar una arquitectura de WordPress sin cabeza, cómo convertir un backend de WordPress en un servidor GraphQL, cómo componer consultas usando el IDE GraphiQL, cómo colocar fragmentos GraphQL con tus componentes, y más.
Modelado de Bases de Datos Relacionales para GraphQL
GraphQL Galaxy 2020GraphQL Galaxy 2020
106 min
Modelado de Bases de Datos Relacionales para GraphQL
Top Content
WorkshopFree
Adron Hall
Adron Hall
En esta masterclass profundizaremos en el modelado de datos. Comenzaremos con una discusión sobre varios tipos de bases de datos y cómo se mapean a GraphQL. Una vez que se haya establecido esa base, el enfoque se desplazará a tipos específicos de bases de datos y cómo construir modelos de datos que funcionen mejor para GraphQL en varios escenarios.
Índice de contenidosParte 1 - Hora 1      a. Modelado de Datos de Bases de Datos Relacionales      b. Comparando Bases de Datos Relacionales y NoSQL      c. GraphQL con la Base de Datos en menteParte 2 - Hora 2      a. Diseño de Modelos de Datos Relacionales      b. Relación, Construcción de Tablas Multijoin      c. Complejidades de Consulta de Modelado de Datos Relacionales y GraphQL
Prerrequisitos      a. Herramienta de modelado de datos. El formador utilizará dbdiagram      b. Postgres, aunque no es necesario instalar esto localmente, ya que estaré utilizando una imagen de Dicker de Postgres, de Docker Hub para todos los ejemplos      c. Hasura