Edición Vector de MariaDB: diseñada para AI

Como arquitecto de soluciones con más de dos décadas de experiencia en sistemas de bases de datos relacionales, recientemente empecé a explorar la nueva Edición Vector de MariaDB para ver si podía abordar algunos de los desafíos de datos de IA que estamos enfrentando. Una rápida mirada pareció bastante convincente, especialmente con cómo podía traer la magia de IA directamente a un ajuste de base de datos regular. Sin embargo, quería probarlo con un caso de uso simple para ver cómo se desempeña en la práctica.

En este artículo, compartiré mi experiencia y observaciones prácticas sobre las capacidades vectoriales de MariaDB al ejecutar un caso de uso simple. Específicamente, cargaré reseñas de clientes de muestra en MariaDB y realizaré búsquedas de similitud rápidas para encontrar reseñas relacionadas.

Configuración del Entorno

Mi experimento comenzó configurando un contenedor de Docker usando la última versión (11.6) de MariaDB que incluye funcionalidades vectoriales.

Shell

 

Ahora, cree una tabla y carguela con reseñas de clientes de muestra que incluyen puntuaciones de sentimento y embedding para cada reseña. Para generar embeddings de texto, estoy usando SentenceTransformer, que le permite usar modelos preentrenados. específicamente, decidí usar un modelo llamado paraphrase-MiniLM-L6-v2 que toma nuestras reseñas de clientes y las mapea a un espacio de 384 dimensiones.

Python

 

Ahora, aprovecharemos las capacidades vectoriales de MariaDB para encontrar reseñas similares. Esto es más como preguntar “¿Qué otras reseñas de clientes dijeron similares a esta reseña?“. En el ejemplo de abajo, voy a encontrar las 2 reseñas más similares a una reseña de cliente que dice “¡Soy super satisfecho!“. Para hacer esto, estoy usando una de las funciones vectoriales (VEC_Distance_Euclidean) disponibles en la versión más reciente.

Python

 

Observaciones

  • Es fácil de configurar y podemos combinar tanto datos estructurados (como ID de producto y puntuaciones de sentimento) como datos no estructurados (texto de reseña) y sus representaciones vectoriales en una sola tabla.
  • Me gusta su capacidad para usar sintaxis SQL junto a operaciones vectoriales, lo que hace que sea fácil para equipos que ya están familiarizados con bases de datos relacionales. Aquí está la lista completa de funciones vectoriales supported in this release.
  • The HNSW index improved the performance of the similarity search query for larger datasets that I tried so far.

Conclusion

En general, me impresiona! La Edición Vector de MariaDB va a simplificar ciertas arquitecturas basadas en AI. bridges the gap entre el mundo de las bases de datos tradicionales y las demandas evolutivas de las herramientas de AI. En los próximos meses, espero ver cómo esta tecnología se madura y cómo la comunidad la adopta en aplicaciones del mundo real.

Source:
https://dzone.com/articles/mariadb-vector-edition-hands-on-review