Hadoop
-
העברת Hadoop לתוך הענן: כמות אחוזת אחסון כפולה ועלויות תיקון נמוכות יותר
ימיאן היא ספק נתונים ניתוח מובילה מבוססת AI שמתמקדת בנתוני מסחר דיגיטלי. אנו מציעים תובנות בזמן אמת על אסטרטגיה עסקית, פיתוח מוצר ופעילויות מסחר דיגיטלי. רבים מלקוחותינו הם מובילי התעשייה בתחומי הטיפוח האישי, האיפור, המזון והמשקה, המחמאים והרכב, כמו פרוקטר וגמבל, אונילוויר ומארס. הארכיטקטורה המקורית שלנו הייתה קבוצת ענף גדולה שנבנתה באמצעות CDH (Cloudera Distributed Hadoop) במרכז נתונים מקומי. ככל שהעסק שלנו גדל, גודל הנתונים גדל באופן משמעותי. כדי לטפל באתגרים כמו תקופות התרחבות ארוכות, משאבי חישוב ואחסון שאינם תואמים,…
-
כיצד להשתמש בשינוי נתוני כליאה עם אפטשי קפקא וסקילהDB
במעבדה מעשית זו מאוניברסיטת ScyllaDB, תלמדו להשתמש ב-מקור קישור ScyllaDB CDC כדי לדחוף אירועי שינויים ברמה של שורה בטבלאות של קלאסטר ScyllaDB לשרת Kafka. מה זה ScyllaDB CDC? לסיכום, תיעוד מגדיר שינויים (CDC) הוא תכונה המאפשרת לא רק לשאול את המצב הנוכחי של טבלת מסד הנתונים אלא גם לשאול את ההיסטוריה של כל השינויים שנעשו בטבלה. CDC מוגמר ומוכן לשימוש בפרודקציה (GA) מתוך ScyllaDB Enterprise 2021.1.1 ו-ScyllaDB Open Source 4.3. ב-ScyllaDB, CDC הוא אופציונלי ומופעל על פי טבלה. ההיסטוריה של…
-
מ-Hadoop לענן: למה וכיצד להפריד בין אחסון ומיחשוב ברשתות נתונים גדולות
הופעת מערכת הקבצים המרוחקת של אפטשי הדופן (HDFS) הפכה את האחסון, עיבוד וניתוח הנתונים למהפכה עבור תאגידים, מאיצה את צמיחת הנתונים הגדולים ומביאה לשינויים מהותיים בתעשייה. בתחילה, האדון שילב אחסון וחישוב, אך הופעת הענן המחשב גרמה להפרדה של רכיבים אלה. שמירת אובייקטים עמדה במקום כחלופה ל-HDFS אך היו לה מגבלות. כדי להשלים את המגבלות האלה, JuiceFS, מערכת קבצים מרוחקת בשירות עצמי, ביצע פתרונות יעילים מבחינת העלות לנושאים רבי נתונים כמו חישוב, ניתוח ואימון. ההחלטה לאמץ הפרדת שמירה-חישוב תלויה בגורמים כמו…
-
בניית מאגר מידע לתעשייה מסורתית
זהו חלק מההתפתחות הדיגיטלית של ענף הנדל"ן הגדול הזה. לשם סודיות, אני לא אחשוף כל מידע עסקי, אך תקבלו תצוגה מפורטת של מאגר הנתונים שלנו ושיטות האופטימיזציה שלנו. בואו נתחיל. ארכיטקטורה היררכית, ארכיטקטורת הנתונים שלנו נחלקת לארבעה חלקים. אינטגרציה נתונים: זה נתמך על ידי Flink CDC, DataX ואת תכונת Multi-Catalog של Apache Doris. ניהול נתונים: אנו משתמשים ב-Apache Dolphinscheduler לניהול מחזור חיים של תוכנית, זכותות בניהול רב-שותפים וניטור איכות נתונים. אזהרה: אנו משתמשים ב-Grafana, Prometheus ו-Loki לניטור משאבי הרכיבים והיומן.…
-
להתחיל עם Trino ו-Alluxio במשך חמש דקות
Trino הוא גרסה חופשית של מנוע חיפוש SQL מרובע המיועד לבדיקת קבצים גדולים של נתונים המפולגים על אחד או יותר מקורות נתונים שונים. Trino תוכנן לטפל באחסון נתונים, ETL, וניתוח אינטראקטיבי על ידי כמויות גדולות של נתונים וייצור דוחות. Alluxio היא פלטפורמת ארגון נתונים חופשית לניתוח בקנה מידה גדול ו AI. Alluxio יושב בין ממשקים חישוב כגון Trino ו- Apache Spark לבין מערכות אחסון כגון Amazon S3, Google Cloud Storage, HDFS, ו- MinIO. זהו מדריך לפרוסטורות Alluxio כשכבת מטמון עבור…
-
טיפול זביל בזרם עם ממפיס ואפפש ספארק
שירות האחסון הפשוט של אמזון (S3) הוא שירות של אחסון עצמים ברוב עידן, חסין ואבטחה שמציעה שירותי אמזון האינטרנט (AWS). S3 מאפשר לעסקים לאחסן ולהשיב כמות כזו של נתונים מכל מקום ברחבי הרשת על ידי שימוש בשירותים ברמת הארגון. S3 מיועד להיות משולב בצורה גבוהה ומשתלב באופן חלק עם שירותי אמטנגים אחרים וכלי וטכנולוגיות של זולת כדי לעבד נתונים שנשמרים באמזון S3. אחד מהם הוא שירות אמזון EMR (Elastic MapReduce) המאפשר לך לעבד כמויות גדולות של נתונים באמצעות כלים פתוחים…