دوره آموزش مقدماتی کلان داده
مدرس : دکتر امین نظارات مشاهده روزمه |
طول دوره : 40 ساعت |
هزینه دوره اختصاصی : توافقی |
نوع برگزاری : کارگاهی |
ثبت نام از طریق شماره تماس : 03536232176 آدرس ایمیل : info@astek.ir |
اهداف دوره :
گسترش استفاده از فناوری اطلاعات در بخش های مختلف کسب و کار، باعث افزایش منبع ارزشمندی به نام داده شده است. هر چند در گذشته نیز سازمان ها این منبع را در اختیار داشتند، اما حجم ، تنوع و سرعت تولید این داده ها به مراتب کمتر بوده است. علم داده به عنوان علمی کاملا کاربردی می تواند پاسخی مناسب به این داده های عظیم تولید شده باشد. به منظور استفاده از این منابع ارزشمند وجود نیروی ماهر بسیار ضروری است. متاسفانه اکثر صاحبان صنایع در دنیا از کمبود نیروی ماهر در این حوزه شکایت دارند.
رئوس مطالبی که طی این دوره ارائه می شود به شرح زیر می باشد:
- معرفی Big Data و ویژگیهای آن
- نحوه ی ارزش آفرینی Big Data
- مثالهایی از کاربردهای موفق Big Data
- منابع تولید Big Data و ساختار دادههای تولید شده
- نگرانیها و چالشهای اصلی در مواجهه با Big Data
- معرفی مدلهای برنامهنویسی و پردازش توزیع شده
- آشنایی با اجزای تشکیل دهنده Hadoop شامل HDFS و MapReduce
- آشنایی با فرمت فایلهای Avro, Kudu و Parquet و مقایسه کارایی آنها
- تعریف Cluster Sizing
- بررسی بهترین شیوه ها (Best Practice) در طرح ریزی ایجاد یک کلاستر هادوپ
- ملاحظات یک طرح ریزی مناسب
- نیازسنجی در زمینه حجم داده و میزان درخواست های پردازشی و تحیلی
- مثال و مشخصات Storage / HDD مورد نیاز برای نیازسنجی انجام شده و ملاحظات آن
- نحوه تخصیص منابع RAM و CPU مورد نیاز و ملاحظاتی که باید در نظر گرفت
- سایر منابع مورد نیاز و بهترین شیوه های تقسیم بندی منابع در ایجاد یک کلاستر
- انجام محاسبات و جزئیات کلاستربندی و مقدار دهی پارامترهای هر چارچوب در کلاستر هادوپ
- نصب و راه اندازی کلاستر Spark
- آموزش کارکردن با فایل سیستم HDFS
- آموزش ایجاد کردن محیط لازم برای کار بر روی Spark
- آموزش اجرا و دنبال کردن Job های Spark
- آشنایی با Spark و آموزش کار با آن
- آشنایی با کتابخانه یادگیری ماشین در اسپارک شامل MLlib
- بررسی مباحث پیش رفته در ایجاد و تعامل با RDD
- کار با Spark SQL
- اتصال اسپارک به دیتابیس های دیگر
- معرفی، ایجاد و کار با DataFrame
- معرفیMLlib جهت انجام فرایند های یادگیری ماشینی در اسپارک
- توسعه و اجرای الگوریتم های یادگیری ماشینی در اسپارک
- معرفیSpark Streaming
- توسعه و استفاده از اسپارک برای پردازش جریان داده ای
- آشنایی و ساخت انباره داده در Spark Delta Lake
- آموزش نحوه توسعه RestAPI در محیط برنامه نویسی و با استفاده از Python
- آموزش توسعه کدهای ETL مبتنی بر GPU و تحت کتابخانه RAPIDS