MariaDB Vector Edition: ontworpen voor AI

Als een architect van oplossingen met meer dan twee decennia ervaring in relatieve database systemen, heb ik recentelijk begonnen met exploren van de nieuwe Vector Edition van MariaDB, om te zien of hij enkele van de AI-gerelateerde data uitdagingen die we aan het bezitten zijn, kan aanpakken. Een kijkje liet mij al vrij overtuigd achterblijven, vooral met hoe het de AI-magic rechtstreeks in een normale databaseinstelling kan brengen. Echter, ik wilde het testen met een eenvoudige use case om te zien hoe het in de praktijk presteert.

In dit artikel deel ik mijn hands-on ervaring en waarnemingen over de vectorcapaciteiten van MariaDB door middel van een eenvoudige use case uit te voeren. Specifiek zal ik voorbeeldfuncties voor klantrecensies in MariaDB laden en snelle gelijkaardigheidsschermen uitvoeren om gerelateerde recensies te vinden.

Omgeving Setup

Mijn experiment begon met het opzetten van een Docker container met behulp van MariaDB’s nieuwste uitgave (11.6), die vectorcapaciteiten bevat.

Shell

 

Nu maak ik een tabel aan en voeg ik er een aantal voorbeeldige klantrecensies aan toe met sentimentscores en embeddings voor elke recensie. Om tekstembeddings te genereren, gebruik ik SentenceTransformer, dat laat u gebruiken van voorgezet trainende modellen. Specifiek heb ik gekozen voor een model genaamd paraphrase-MiniLM-L6-v2 dat onze klantrecensies in een 384-dimensionele ruimte toewijst.

Python

 

Nu gaan we de vectorcapabilities van MariaDB gebruiken om gelijke recensies te vinden. Dit is misschien als vragen: “Wat hebben andere klanten gezegd die op ditzelfde moment gelijkaardig was?“. In het volgende voorbeeld zoek ik de twee beste recensies die op een klantrecensie lijken die zegt: “Ik ben super tevreden!“. Hiervoor gebruik ik een van de vectorfuncties (VEC_Distance_Euclidean) beschikbaar in de nieuwste uitgave.

Python

 

Observaties

  • Het is gemakkelijk in te stellen en we kunnen zowel gestructureerde data (zoals product-ID’s en sentimentscores), ongestructureerde data (recensie tekst) en hun vectorrepresentaties in één tabel combineren.
  • Ik vind het leuk dat we SQL-syntaxis kunnen gebruiken naast vectoroperaties, wat het gemakkelijker maakt voor teams die al bekend zijn met relatiedatabassen. Hier is de volledige lijst van vectorfuncties die in deze uitgave worden ondersteund.
  • De HNSW-index heeft de prestaties van de zoekquery voor gelijke recensies verbeterd voor grotere datasets die ik tot nu toe heb getest.

Conclusie

Over het algemeen ben ik onder de indruk! MariaDB Vector Edition zal bepaalde AI-gebaseerde architecturen vereenvoudigen. Het overbrugt de kloof tussen de traditionele databasewereld en de evoluerende eisen van AI-gereedschappen. In de komende maanden verwacht ik dat deze technologie meer volwassen wordt en hoe de gemeenschap hem in echte wereldtoepassingen opneemt.

Source:
https://dzone.com/articles/mariadb-vector-edition-hands-on-review