چکیده :
کاوش داده ی بزرگ، اغلب نیازمند منابع محاسباتی فوق العاده می باشد. این امر به یک مانع در رابطه با استفاده وسیع از تجزیه و تحلیل داده های بزرگ تبدیل شده است. محاسبات ابری به محققانی که در زمینه های داده فعالیت می کنند، اجازه ی دسترسی به منابع محاسباتی ، براساس تقاضای ساخت راه حل های تحلیلی داده ای بزرگ در ابر را می دهد. هر چند هزینه پولی کاوش داده های بزرگ در ابر ، هنوز هم میتواند بر خلاف انتظارمان ، بالا باشد.
برای مثال ، اجرای مثالهای 100m4- xlarg Amazon EC2 به مدت یک ماه هزینه ای در حدود 17,495,00$ را به دنبال دارد. در این زمینه، مسئله ی حیاتی به منظور تجزیه و تحلیل هزینه ی بهره وری (هزینه ی مقرون به صرفه) داده کاوی بزرگ در ابر، چگونگی دستیابی به یک نتیجه ی رضایت بخش کافی با حداقل هزینه ی محاسباتی ممکن است. در سناریوهای داده کاوی بزرگ حقیقی، دقت 100% غیر ضروری است. در عوض ، اغلب، دستیابی به دقت کافی ، برای مثال 99%، با هزینه ی کمتر مانند 10% ، نسبت به هزینه ی دستیابی با دقت 100، ترجیح داده می شود.