مراحل اجرای یک پروژه تحلیل داده
- Define Objectives and Goals
- Define Success Metrics
- Data Sources Identification & Dictionaries
- Feasibility Report
- Code Base Structure
- Data Quality Report
- Inconsistency Reporting
- Tracking Missing Data
- Models Exploration Report
- Refined Proposal
- Data Analysis
- Data Hypothesis
- Feature Selection Method
- Feature Construction Method
- Statistical Methods
- Modeling Requirements
- Performance Evaluation Report
- Model Report
- Production Readiness Report
- Exit Report and Handoff
- Delivery and Maintenance Plan
- Training and Monitoring Plan
- Ad Hoc Report
- Schedule Report
- API Report
- Testing Document
برای اجرای یک پروژه تحلیل داده تیم شرکت موارد زیر را در قالب یک چک لیست مورد توجه قرار داده و سعی می کند برای هر یک از آیتمها اقدامی انجام دهد که منجر به موفقیت بیشتر پروژه شود:
- نمای کلی، دامنه و ریشه پروژه تشریح شده است؟
- ارائه پیش زمینه کافی از مورد کاربرد انجام شده است؟
- بیان مسئله به وضوح انجام شده است؟
- توضیحات کافی و مبسوط از راه حل پیشنهادی ارائه شده است؟
- توضیح مناسبی از متریک ها و دلیل انتخاب هر یک ارائه شده است؟
- نحوه سنجش هر یک از متریک ها تشریح شده است؟
- ارتباط بین متریک های انتخاب شده و KPI تجاری تعیین شده است؟
- تشریح دقیق و کاملی از ویژگی های داده های وروردی مورد کاربرد ارائه شده است؟
- اطلاعات آماری از داده های ورودی تهیه و ارائه شده است(مانند Missing-Outlier-N
- تحلیلی از نتایج و اطلاعات آماری بدست آمده از هر یک از ویژگی ها ارائه شده است؟
- در خصوص داده های ناقصی که در نتیجه مدل اثرگذار است توضیحی داده شده است؟
- برای حل ناهنجاری ها و افزایش کیفیت داده ها چه اقداماتی به ازای هر ویژگی ها انجام شده است؟
- آیا برای درک بهتر نتیجه آنالیز داده های ورودی از مکانیزمهای بصری سازی استفاده شده است؟
- آیا پلات ها و نتیجه بصری سازی در گزارش تشریح شده اند؟
- آیا الگوریتم استفاده شده شامل متغیرها و پارامترهای پیش فرض به صورت کامل و همچنین در قالب سودوکد تشریح شده است؟
- نحوه انتخاب ویژگی های داده های ورودی توسط الگوریتم و تکنیک های مورد استفاده تشریح شده است؟
- کتابخانه ها و توابع محیطی استفاده شده تشریح شده است؟
- نیازمندی های سخت افزای و پردازشی حداقلی برای اجرای مدل ذکر شده است؟
- بنچمارک استفاده شده برای مقایسه تعیین شده است؟
- دلایلی انتخاب بنجمارک تشریح و تبیین شده است؟
- روشهای انتخاب ویژگی و پیش پردازش داده ها تشریح شده است؟
- روشهای تمیزسازی و پاک سازی داده ها تشریح شده اند؟
- در صورت عدم انجام پیش پردازش، آیا دلیل منطقی ذکر شده است؟
- روش پیاده سازی الکوریتم انتخاب شده و نوع ارتباط آن با داده های ورودی تشریح شده است؟
- آیا مستند سازی کافی درون کد و مستندات فنی کد نوشته به اندازه کافی است(تشریح توابع، استفاده از روشهای شی گرایی در توسعه کد)؟
- آیا کدها در ریپازیتوری شرکت درج و کامیت شده اند؟
- آیا ماژول تست واحد برای مدل یا اجزای آن نوشته شده است؟
- آیا ساختار استاندارد شرکت در توسعه و کدنویسی مدل (ترکیب فایل ها و کنارهم قرار گیری آنها) رعایت شده است؟
-
آیا روند بهبود به روشنی مستند شده است، مانند اینکه چه تکنیک هایی استفاده شده اند؟
- روشهای استفاده شده در بهبود پارامترها تشریح شده است؟
- آیا مدل با دادهای Unseen مورد محک قرار گرفته است؟
- آیا در مرحله تست مدل از داده های نویز تزریقی در داده های آموزش استفاده شده است؟
- آیا روشی برای تفسیر مدل طراحی شده پیاده سازی شده است؟
- آیا روال دریافت بازخورد از کاربران تشریح شده است؟
- آیا نتایج بدست آمده از نتایج بنچمارک ها قوی تر است؟
- آیا جنبه های دشوار و جالب پروژه تشریح شده است؟