About this course
Learn how to harness the power of Apache Spark and powerful clusters running on the Azure Databricks platform to run data analytics workloads in a data lakehouse.
Course Outline
Module 1: Explore Azure Databricks.
• Get started with Azure Databricks.
• Identify Azure Databricks workloads.
• Understand key concepts.
• Exercise – Explore Azure Databricks.
Module 2: Use Apache Spark in Azure Databricks.
• Get to know Spark.
• Create a Spark cluster.
• Use Spark in notebooks.
• Use Spark to work with data files.
• Visualize data.
• Exercise – Use Spark in Azure Databricks
Module 3: Use Delta Lake in Azure Databricks.
• Get Started with Delta Lake.
• Create Delta Lake tables.
• Create and query catalog tables.
• Use Delta Lake for streaming data.
• Exercise – Use Delta Lake in Azure Databricks.
Module 4: Use SQL Warehouses in Azure Databricks.
• Get started with SQL Warehouses.
• Create databases and tables.
• Create queries and dashboards.
• Exercise – Use a SQL Warehouse in Azure Databricks.
Module 5: Run Azure Databricks Notebooks with Azure Data Factory.
• Understand Azure Databricks notebooks and pipelines.
• Create a linked service for Azure Databricks.
• Use a Notebook activity in a pipeline.
• Use parameters in a notebook.
• Exercise – Run an Azure Databricks Notebook with Azure Data Factory
אנו חיים בעידן של מידע (DATA), ומי שיודע לאסוף את המידע ולנתח אותו יכול להפיק מכך ערך רב.
לכל חברה יש את הדאטה שלה, הנובע מתוך הפעילות שלה ו/או רלוונטי עבורה אך מגיע ממקורות חיצוניים. ולכן ישנו ביקוש רב לאנשי DATA היודעים לעבוד עם מערכות Data Platform.
היתרונות של Data Platform
ל-Data Platform יתרונות רבים הכוללים:
ניהול משופר של מידע – המערכת מאפשרת לנהל כמויות של מידע בצורה מרוכזת, ומעניקה שליטה על המידע, איכות ועקביות המאפשרים לארגון לעשות שימוש טוב יותר בנכסי המידע.
שיפור קבלת ההחלטות – שילוב הכלים האנליטיים והפקת דוחות מאפשר לארגון לקבל החלטות המבוססות על מידע. כך הארגון יכול להגיב מהר יותר לשינויים בשוק והצרכים של הלקוחות.
שיפור היעילות – ארגונים משקיעים משאבים רבים בהתמודדות עם המידע. Data Platform מאפשרת לייעל את התהליך ולהישען על אוטומציה. זה חוסך בזמן עבודה ואף מקטין טעויות.
מידע בזמן אמת – היכולת לעבד מידע ולנתח אותו בזמן אמת מעניקה לארגון יתרון עצום, ומאפשרת להגיב ולפעול לפני המתחרים.
גמישות – לכל ארגון צרכים אחרים ושונים. ואחד היתרונות של המערכת הוא הגמישות הגדולה. Data Platform מעניקה כלים רבים, היכולים להתאים למגוון של צרכים.
סוגי Data Platform
ניתן לסווג את פלטפורמות הדאטה לכמה סוגים :
מחסני נתונים (Data warehouses) – מערכות שעיקר יעודן הוא אחסון נתונים מובנים בפורמט מאורגן המאפשר שאילתות מהירות.
אגמי נתונים (Data lakes) – פלטפורמות המאפשרות לאחסן נתונים גולמיים, מובנים או לא מובנים. אלו מתאימים עבור למידת מכונה.
פלטפורמות ענן (Cloud-based data platforms) – פלטפורמות היושבות על ענן, וכך יכולות להעניק לארגון מדרגיות (scalability), גמישות, יעילות ועלות משתלמת. למשל שירותי Microsoft Azure הם דוגמה לפלטפורמת דאטה בענן.
מערכות היברידיות (Hybrid data platforms) – פלטפורמות דאטה המשלבות סביבה מקומית סביבת הענן. בדרך כלל מערכות שכאלו נדרשות כאשר ישנן דרישות רגולטוריות לגבי המידע.
מערכות בזמן אמת – מערכות המעבדות מידע בזמן אמת ומגיבות. למשל בנקים וחברות אשראי זקוקות למערכות שכאלו על מנת למנוע הונאות ולאפשר פעולות בנקאיות.
אחסון ועיבוד מידע ב-Data Platform
אחסון ועיבוד מידע הוא עולם ומלואו של כלים העונים על צרכים שונים של הארגון והם כוללים: שליטה וניהול המידע, איכות המידע, אבטחה ופרטיות, המחשה, שיתוף ואוטומציה.
למשל שליטה על מחזור החיים של המידע עד למחיקתו. כלים לזיהוי טעויות ואבטחת דיוק במידע, כלים המאפשרים להמחיש את התובנות של המידע ועוד.
שאלות על Data Platform
מה זה Data Platform?
Data Platform היא מערכת מאוחדת המאפשרת לטפל ולנתח בצורה יעילה כמויות נתונים גדולים. זוהי מערכת רב רכיבית המאפשרת לטיפל בנתונים מובנים ולא מובנים, ולהפוך את המידע לנגיש עבור אפליקציות שונות.
איך לבחור קורס Data Platform?
מומלץ לבחור קורס המותאם אישית לצרכים הארגונים, ומועבר על ידי מרצים בעלי ניסיון מעשי בתחום.