מריה די בי וקטור אדישן: מיועד ללמידת מכונה

כאדריכל פתרונות עם ניסיון של למעלה משני עשורים במערכות מסדי נתונים רלציוניות, לאחרונה התחלתי לחקור את מהדורת ה-Vector החדשה של MariaDB על מנת לראות האם היא יכולה לטפח פתרון לאתגרי נתוני AI שאנו עומדים בפניהם. מבט מהיר נראה די משכנע, במיוחד עם הדרך שבה היא יכולה להביא את קסם ה-AI ישירות להגדרת מסד נתונים רגילה. בכל זאת, רציתי לבחון אותה באמצעות מקרה שימוש פשוט כדי לראות איך היא מבצעת בפועל.

במאמר זה, אשתף את הנסיון והאפיונים שלי על יכולות ה-Vector של MariaDB על ידי הרצת מקרה שימוש פשוט. במיוחד, אני אעביר ביקורת לגבי עלויות השימוש ב-Vector של MariaDB על ידי טעינת ביקורות לקוחות דוגמאיות לתוך MariaDB וביצוע חיפושים מהירים לחיפוש ביקורות קשורות.

הגדרת הסביבה

הניסיון שלי התחיל עם הקמת תור מש למשתמש באמצעות מריהDB וגרסה האחרונה (11.6) שכוללת יכולות Vector.

Shell

 

כעת, צרו טבלה וטענו אותה בביקורות לקוחות דוגמתיות שכוללות ציוני רגש ושקיפות עבור כל ביקורת. על מנת ליצור שקיפוי טקסט, אני משתמש ב־SentenceTransformer, שמאפשר לך להשתמש במודלים שטחויים מראש. להיות ממוקד, החלטתי להשתמש במודל בשם paraphrase-MiniLM-L6-v2 שמטמיע את ביקורות הלקוחות שלנו וממפה אותם למרחב בגודל 384-ממדי.

Python

 

כעת, נשתמש ביכולות הוקטוריות של MariaDB כדי למצוא ביקורות דומות. זה דומה יותר לשאול "מה אחרים אמרו דומה לביקורת זו?". בדוגמה שלמטה, אני הולך למצוא את שתי הביקורות העליונות שדומות לביקורת לקוח שאומר "אני מרוצה מאוד!". כדי לעשות זאת, אני משתמש באחת מפונקציות הוקטור (VEC_Distance_Euclidean) הזמינות בגרסה האחרונה.

Python

 

מסקנות

  • זה קל להתקין וניתן לשלב כאן נתונים מובנים (כמו מזהי מוצרים וציוני רגש), נתונים לא מובנים (טקסט ביקורת) וייצוגים שלהם בטבלה אחת. 
  • אני אוהב את היכולת שלו להשתמש בתחביר SQL יחד עם פעולות וקטורים שמקלה על צוותים שכבר מכירים מסדי נתונים רלציוניים. הנה רשימה מלאה של פונקציות וקטור שתומכות בגרסה זו. 
  • אינדקס HNSW שיפר את ביצועי השאילתה לחיפוש דומיות עבור קבצי נתונים גדולים שניסיתי עד כה.

מסקנה

לרוב, אני מופץ! הגירסה הווקציבית של MariaDB תפשט את הגב של כמה הארכיטקטורות המונעות על-ידי המדע החי. היא מגיעה בשילוב עילוי בין עולם הבסיסי של הבניינים המקובלים והדרישות המתפתחות של הכלים המונעים על-ידי המדע החי. בחודשים הבאים, אני מקווה לראות איך הטכנולוגיה הזו מתבגרת ואיך הקהילה מאמצת אותה ביישומים של המציאות.

Source:
https://dzone.com/articles/mariadb-vector-edition-hands-on-review