Векторное издание MariaDB: разработано для AI

Как специалист по решениям с опытом работы более двух десятилетий в системах реляционных баз данных, недавно я начал исследовать новую Векторную Ediţie MariaDB, чтобы увидеть, может ли она решить некоторые из проблем с данными, с которыми наблюдается AI. Быстрое ознакомление казалось довольно убедительным, особенно с точки зрения того, как она может принести магию AI прямо в обычную установку базы данных. However, я хотел протестировать ее с простым casem, чтобы увидеть, как она работает в практике.

В этой статье я поделюсь своим опытом и наблюдениями о векторных возможностях MariaDB, проведя простую use case. SPECIFICALLY, я загружу примеры отзывов клиентов в MariaDB и выполняю быстрые поиски сходства, чтобы найти связанные отзывы.

Установка среды

Мой опыт начался с установки контейнера Docker с использованием последнего выпуска MariaDB (11.6), включающего векторные возможности.

Shell

 

Теперь создадим таблицу и заполним ее примерными отзывами клиентов, включая оценки настроения и embeddings для каждого отзыва. Для генерации текстовых embeddings я использую SentenceTransformer, который позволяет использовать предобученные модели. SPECIFICALLY, I DECIDED TO USE A MODEL CALLED paraphrase-MiniLM-L6-v2, WHICH MAPS OUR CUSTOMER REVIEWS INTO A 384-DIMENSIONAL SPACE.

Python

 

Теперь воспользуемся vector capabilities MariaDB, чтобы найти схожие отзывы. Это скорее вопрос “Что другие клиенты говорили похоже на этот отзыв?“. В приведенном ниже примере я найду два топ-2 отзыва, схожих с отзывом клиента, где сказано “Я очень доволен!“. Для этого я использую одну из vector functions (VEC_Distance_Euclidean), доступных в последнем релизе.

Python

 

Отметки

  • Удобно настраивается, и мы можем объединить и структурированные данные (как продукт ID и оценки настроения), и неструктурированные данные (текст отзыва), и их vector представления в одной таблице.
  • Я нравится ее способность использовать SQL синтаксис вместе с vector операциями, что делает его простым для команд, уже знакомых с relational databases. Вот полный список vector functions поддерживаемых в этом релизе.
  • HNSW индекс улучшил производительность запроса поиска сходства для больших dataset, которые я протестировал до сих пор.

Заключение

В целом, я был впечатлен! Версия Vector Edition MariaDB упростят certain AI-driven архитектуры. Она может закрыть пробел между традиционным миром баз данных и развивающимися требованиями инструментов AI. В следующие месяцы я с нетерпением жду, как эта технология созреет и как сообщество примет ее в реальных приложениях.

Source:
https://dzone.com/articles/mariadb-vector-edition-hands-on-review