MariaDB Vector Edition: Projetada para AI

Com mais de duas décadas de experiência em sistemas de bases de dados relacionais, recentemente comecei a explorar a nova Edição Vector do MariaDB para ver se poderia resolver alguns dos desafios de dados de AI que estamos enfrentando. Uma olhada rápida pareceu bastante convincente, especialmente com o quanto poderia trazer o milagre do AI diretamente em um ambiente de banco de dados padrão. No entanto, quis testá-lo com um caso de uso simples para verificar sua performance prática.

Neste artigo, compartilharia minha experiência e observações práticas sobre as capacidades vetoriais do MariaDB executando um simples caso de uso. Especificamente, vou carregar avaliações de clientes de exemplo no MariaDB e executar buscas de similaridade rápida para encontrar avaliações relacionadas.

Configuração do Ambiente

Meu experimento começou com a configuração de um container Docker usando a última versão (11.6) do MariaDB que inclui capacidades vetoriais.

Shell

 

Agora, crie uma tabela e preencha-a com avaliações de clientes de exemplo que incluem pontuações de sentimento e embeddings para cada avaliação. Para gerar embeddings de texto, estou usando SentenceTransformer, que permite que use modelos pré-treinados. especificamente, decidi usar um modelo chamado paraphrase-MiniLM-L6-v2 que leva as nossas avaliações de clientes e as mapeadas para um espaço de 384 dimensões.

Python

 

Agora, vamos aproveitar as capacidades vetoriais do MariaDB para encontrar avaliações semelhantes. Isto é mais como perguntar “O que outros clientes disseram semelhantes a esta avaliação?“. No exemplo abaixo, eu vou encontrar as duas avaliações semelhantes à de um cliente que diz “Estou super satisfeito!“. Para fazer isso, estou usando uma das funções vetoriais (VEC_Distance_Euclidean) disponíveis na versão mais recente.

Python

 

Observações

  • É fácil de configurar e podemos combinar ambos dados estruturados (como ID do produto e pontuações de sentimento), dados não estruturados (texto da avaliação) e suas representações vetoriais em uma única tabela.
  • Gosto de sua capacidade de usar sintaxe SQL juntamente com operações vetoriais, o que torna fácil para equipes que já estão familiarizadas com bases de dados relacionais. Aqui está a lista completa de funções vetoriais suportadas nesta versão.
  • O índice HNSW melhorou a performance da consulta de busca de similaridade para conjuntos de dados maiores que eu tentei até agora.

Conclusão

Geralmente, estou impressionado! A Edição Vector de MariaDB vai simplificar certas arquiteturas baseadas em AI. Ela atua como ponte entre o mundo tradicional das bases de dados e as demandas evolutivas de ferramentas de AI. Nas próximas meses, aguardo com interesse ver como essa tecnologia se desenvolve e como a comunidade a adota em aplicações do mundo real.

Source:
https://dzone.com/articles/mariadb-vector-edition-hands-on-review