دوره آموزش پیشرفته کلان داده
مدرس : دکتر امین نظارات مشاهده روزمه |
طول دوره : 40 ساعت |
هزینه دوره اختصاصی : توافقی |
نوع برگزاری : کارگاهی |
ثبت نام از طریق شماره تماس : 03536232176 آدرس ایمیل : info@astek.ir |
اهداف دوره :
گسترش استفاده از فناوری اطلاعات در بخش های مختلف کسب و کار، باعث افزایش منبع ارزشمندی به نام داده شده است. هر چند در گذشته نیز سازمان ها این منبع را در اختیار داشتند، اما حجم ، تنوع و سرعت تولید این داده ها به مراتب کمتر بوده است. علم داده به عنوان علمی کاملا کاربردی می تواند پاسخی مناسب به این داده های عظیم تولید شده باشد. به منظور استفاده از این منابع ارزشمند وجود نیروی ماهر بسیار ضروری است. متاسفانه اکثر صاحبان صنایع در دنیا از کمبود نیروی ماهر در این حوزه شکایت دارند.
رئوس مطالبی که طی این دوره ارائه می شود به شرح زیر می باشد:
- معرفی Big Data و ویژگیهای آن
- نحوه ی ارزش آفرینی Big Data
- مثالهایی از کاربردهای موفق Big Data
- منابع تولید Big Data و ساختار دادههای تولید شده
- نگرانیها و چالشهای اصلی در مواجهه با Big Data
- معرفی مدلهای برنامهنویسی و پردازش توزیع شده
- آشنایی با اجزای تشکیل دهنده Hadoop شامل HDFS و MapReduce
- آشنایی با فرمت فایلهای Avro, Kudu و مقایسه کارایی آنها
- تعریف Cluster Sizing
- نیازسنجی در زمینه حجم داده و میزان درخواست های پردازشی و تحیلی
- آشنایی اجمالی با مفاهیم لینوکس
- نصب و راه اندازی کلاستر Hadoop
- نصب و راه اندازی کلاستر Spark
- آموزش کارکردن با فایل سیستم HDFS
- آموزش ایجاد کردن محیط لازم برای کار بر روی Spark
- آموزش اجرا و دنبال کردن Job های Spark
- آموزش بهینه سازی MapReduce
- آموزش کار با Hive
- آشنایی با Spark و آموزش کار با آن
- آشنایی با کتابخانه یادگیری ماشین در اسپارک شامل MLlib
- آموزش مصور سازی داده های خروجی گرفته شده از هادوپ
- بررسی مباحث پیش رفته در ایجاد و تعامل با RDD
- کار با Spark SQL
- اتصال اسپارک به دیتابیس های دیگر
- معرفی، ایجاد و کار با DataFrame
- معرفیMLlib جهت انجام فرایند های یادگیری ماشینی در اسپارک
- توسعه و اجرای روال های تحلیل آماری
- توسعه و اجرای الگوریتم های یادگیری ماشینی در اسپارک
- معرفیSpark Streaming
- توسعه و استفاده از اسپارک برای پردازش جریان داده ای
- مقایسه اسپارک و سایر سکوهای پردازش جریان داده ای
- آموزش نصب و راه اندازی کلاستر Kafka
- آموزش اتصال به Kafka از Spark و خواندن و نوشتن Streaming از آن
- نحوه ی استفاده از اسپارک و کامپوننت های آن در انجام سناریو های مختلف پالایش و تحلیل داده
- آشنایی و ساخت انباره داده در Spark Delta Lake
- آموزش نحوه توسعه RestAPI در محیط برنامه نویسی و با استفاده از Python
- آموزش توسعه کدهای ETL مبتنی بر GPU و تحت کتابخانه RAPIDS
- آشنایی با مفاهیم حاکمیت داده و مدیریت متا دیتاها
- آشنایی با مفاهیم Data Management Body of Knowledge (DMBOK)
- مروری بر نحوه مدیریت امنیت و حاکمیت داده به کمک ابزارهای Apache Atlas و Apache Ranger
مبانی یادگیری ماشینی
- مقدمهای بر یادگیری ماشینی
- یادگیری با نظارت، طبقهبندی با استفاده از الگوریتم KNN، روشهای مختلف محاسبه فاصله، درخت تصمیم، مسئله تقریب تابع
- یادگیری بینظارت، خوشهبندی با استفاده از K-Means، خوشهبندی سلسلهمراتبی
- کاهش ابعاد، آشنایی با PCA، آشنایی با SVD
- ماشین بردار پشتیبانی
- نحوه ارزیابی مدل، مفهوم بیشبرازش و زیربرازش
- معیارهای ارزیابی، دقت، یادآوری، صحت، ROC، ماتریس برخورد
کلیات و مفاهیم پایه در یادگیری ماشین
- تعاریف
- یادگیری تحت نظارت
- یادگیری بدون نظارت
- دسته بندی (Classification)
- خوشه بندی (Clustering)
- تکنیک های محاسبه فاصله بین انواع ویژگی ها
- روش خوشه بندی K-Means
- روش خوشه بندی K-Medoids
- روش های خوشه بندی سلسله مراتبی (Hierarchical)
- شاخص های ارزیابی فرآیند خوشه بندی
- یادگیری تقویتی Reinforcement Learning
- یادگیری عمیق Deep Learning
- نحوه کار کردن با کتابخانه های tensorFlow, Keras, ScikitLearn