همانطور که قبلاً نیز ذکر شده است، علاقهمندی به هادوپ، از نیاز به قابلیت مقیاسپذیری بالا (دادههایی در محدوده پتابایت) با هزینهکم و همچنین مدیریت ساده دادههای بیساختار و عظیمی مانند دادههای شبکههای اجتماعی، ایمیل، اسناد مختلف و همچنین دادههای با ساختار غیرثابت مانند جریان کلیکها، دادههای وبلاگها و حسگرها و همچنین ناکارآمدی پایگاههای داده سنتی رابطهای در مدیریت چنین دادههایی ناشی شده است. اما هادوپ چنان محصول شایستهای است که شرکتهایی نظیر اوراکل،EMC، آیبیام و حتی دل به فکر عرضه نسخهای اختصاصی از آن به مشتریان خود افتادهاند. در این میان اما مایکروسافت نیز قصد دارد تا به هادوپ روی آورد. پروژهای که استفاده از آن در محصولات مایکروسافت از دو جنبه بسیار اهمیت دارد: جنبه نخست، متقاعدشدن مایکروسافت به استفاده از یک پروژه اپنسورس و همچنین عرضه عمومی کدهای توسعه داده شده در این زمینه است که از یک دشمن دیرینه تفکر اپنسورس بسیار بعید و شگفتانگیز بهنظر میرسید. جنبه دوم اینکه تا سه سال پیش، مایکروسافت هادوپ را یک کار تحقیقاتی شیک اما نه چندان عملی میدانست. روزها گذشتهاند و همه چیز عوض شده است، پس چرا انتظار دارید که مایکروسافت عوض نشده باشد؟ یک ضربالمثل مبتنی بر GPL میگوید: «از محبت، خارها گل میشود!»
مایکروسافت به اپنسورس رو میآورد
سه سال گذشت تا مایکروسافت فهمید که باید به نگرانی درباره هادوپ پایان داده و آن را دوست بدارد. هادوپ، پروژه اپنسورسی که برای ذخیرهسازی و مدیریت حجم عظیمی از دادهها با استفاده از تعداد زیادی از سرورهای ارزان قیمت ساخته شده است، در حال تصاحب همهجا از جمله شبکههای اجتماعی، یاهو، ebay و غیره است و به واسطه حرکتهایی که آیبیام، EMC و اوراکل در پیش گرفتهاند به رده Enterprise یا سازمانی نیز راه خواهد یافت.
مایکروسافت بسیار پیشتر از اینها، یکی از شرکتهای پیشرو در زمینه هادوپ را در تابستان 2008 تصاحب کرده بود، اما رابطه خوبی با خود پلتفرم هادوپ نداشت و همچنان به مخالفت با اپنسورس اصرار میورزید. تا اینکه در اکتبر سال ۲۰۱۱ میلادی و در یک چرخش ناگهانی و بسیار تعجب برانگیز، مایکروسافت اعلام کرد که هادوپ (که در اصل برای کار روی لینوکس ساخته شده است) را با پایگاه دادهای معروف خود یعنی SQL Server و ویندوز اَژِر (Azure ) که پلتفرم مایکروسافت برای ارائه خدمات کلاود است، یکپارچه خواهد ساخت. این شگفتی زمانی تکمیل شد که دوگللند (Doug Leland)، رئیس گروه مدیریت محصول SQL Server اعلام کرد که شرکت متبوعش قصد دارد کارهای انجام شده در این زمینه را به جامعه اپنسورس عرضه کند. این حرکات نشان از آن دارد که مایکروسافت گرچه در گذشته هادوپ را مهم نمیدانست اما اکنون در رابطه با آن بسیار جدی است.
اپنسورس سرطان بود...
مایکروسافت در زمینه دشمنی و مقابله با جنبش اپنسورس، به خصوص در دهه ۱۹۹۰ و سالهای آغازین قرن جدید بسیار مشهور است. در سال 2001، استیو بالمر، لینوکس (بزرگترین و اصلیترین پروژه جنبش اپنسورس) را سرطان نامید و تا سالها بر این ادعا بهصورت عملی اصرار میورزید. اما پس از گذر زمان و رشد اپنسورس و لینوکس، مایکروسافت دریافت که با این رویه قادر به ادامه حیات خود در بلند مدت نیست. نتیجه این مشاهدات در کوتاه مدت نوعی شیزوفرنی اپنسورسی بود! برخی قسمتهای شرکت میتوانستند از خدمات جنبش اپنسورس استفاده کنند در حالی که بقیه قسمتها از انجام چنین کاری منع شده بودند. برخی محصولات مایکروسافت با کدهای اپنسورس به خوبی کار میکردند اما خود از کد اپنسورس بهره نمیبردند! این رفتار پیچیده و عجیب از طرف مایکروسافت با خرید یک شرکت فعال در زمینه جستوجوی معنایی که از نخستین علاقهمندان هادوپ بود، یعنی شرکت Powerset تکمیل شد و باعث نگرانی بسیاری از دوستداران اپنسورس شد. پروژه هادوپ که در آن زمان توسط یک برنامه نویس مستقل بهنام دوگ کاتینگ (Doug Cutting) ایجاد شده بود، نخستینبار توسط یاهو در بنیاد آپاچی مورد حمایت و پشتیبانی قرار گرفت. پس از آن، Powerset شرکتی بود که پایگاه داده NoSQL جدیدی با نام HBase تولید کرد که براساس هادوپ کار میکرد. به همین دلیل، موتور جستوجوی معنایی این شرکت نوپا که براساس زبان طبیعی کار میکرد نه کلمات کلیدی جدا از هم، به شدت با پلتفرم اپنسورس هادوپ یکپارچه شده بود. با گذشت سه ماه از تصاحب این شرکت، مایکروسافت به دو نفر از کدنویسان مشهور آن؛ مایکل استک (Michael Stack) و جیمکلرمن (Jim Kellerman) که در توسعه کد HBase فعالیت داشتند اجازه داد تا به کار خود، یعنی انتشار کدهای توسعه داده شده در داخل شرکت، ادامه دهند و Powerset که اکنون به درون بینگ منتقل شده بود، اجازه یافت تا همچنان روی هادوپ فعالیتهای خود را اجرا کند. همین حرکت باعث شد تا بینگ یکی از نخستین محصولات مایکروسافت باشد که از کد اپنسورس استفاده میکند و به مدد همین امر، نتایج جستوجوی مناسبی را نیز به نمایش بگذارد. با این حال، انتقال این موتور جستوجو به یک پلتفرم انحصاری باعث شد تا استک این شرکت را ترککرده و به کار روی HBase برای جستوجو در StumbleUpon بپردازد.
یکپارچه سازی هادوپ با SQL Server 2012، ویندوز سرور و اژر
با اینکه رئیس محصولات SQL Server در مایکروسافت از صحبت درباره گذشته مایکروسافت و هادوپ سرباز زده است، اما به روشنی تأکید کرده که تیمهای SQL Server و ویندوز اَژِر در بلند مدت نسبت به عرضه کد خود به جامعه اپنسورس اقدام خواهند کرد. وی در این زمینه گفته است: «پذیرش هادوپ و عرضه توزیعی در سطح Enterprise از این پلتفرم که با ویندوز سازگاری داشته و به سادگی قابل مدیریت باشد، به طور جدی از طرف مشتریان ما درخواست شده است. به همین دلیل، ما چنین تصمیمهایی گرفتهایم.»
"در اکتبر سال ۲۰۱۱ میلادی و در یک چرخش ناگهانی و بسیار تعجب برانگیز، مایکروسافت اعلام کرد که هادوپ را با پایگاه دادهای معروف خود یعنی SQL Server و ویندوز اَژِر (Azure ) که پلتفرم مایکروسافت برای ارائه خدمات کلاود است، یکپارچه خواهد ساخت." |
در این میان اما شرکتی با نام Horton works که بهتازگی توسط یاهو و با استفاده از مهندسان هادوپ خود یاهو تشکیل شده بود، مایکروسافت را در تطبیق هادوپ با ویندوز یاری خواهد کرد. براساس برنامهریزیهای انجام شده، قرار است در سال 2012 یک نسخه Technology Preview از هادوپ برای اژر آماده شده و چندی بعد نیز یک نمونه کاربردی ساده برای SQL Server عرضه شود. با توجه به اینکه پایگاه دادهای سنتی رابطهای مانند SQL Server دادهها را بهصورت جدول و در قالب سطر و ستون ذخیره میکند اما هادوپ یک پلتفرم برای ذخیرهسازی دادههای بی ساختار در حجمی بسیار عظیم است، به نظر میرسد در ظاهر ارتباطی بین این دو برای یکپارچهسازی وجود ندارد. به همین دلیل هدف مایکروسافت از گرایش به سمت هادوپ در اصل، اجرای آن در ویندوز سرور و در کنار SQL Server است تا با استفاده از یک سری Connector، دادهها را در میان این دو مبادله کند. در نوامبر سال 2011، مایکروسافت نسخه تقریباً نهایی (Release Candidate) پایگاه دادهای SQL Server 2012 را که گفته شده بود تلاشهایی برای یکپارچهسازی آن با هادوپ صورت گرفته است، عرضه کرد. این پایگاه داده از این آدرس قابل دانلود است:
http://www.microsoft.com/download/en/details.aspx?id=28145
همانطور که میدانید، نسخههای RC آخرین نسخه آزمایشی از هر محصول است که مایکروسافت اقدام به انتشار آن میکند و به گفته مایکروسافت، نسخه SQL Server 2012 RC با کیفیت محصول نهایی عرضه شده است. این پایگاه داده حاوی ابزارهای مهاجرتی خوبی نظیر Upgrade Advisor، Distributed Replay و SQL Server Migration Assistant خواهد بود و هدف اصلی از عرضه آن، هوشمندی تجاری و دسترسی بالا بوده است. بر اساس گفتههای دوگللند، بخشی از امور یکپارچهسازی هادوپ با محصولات مایکروسافت نوشتن درایور ODBC برای Hive ، موتور پرسوجوی هادوپ است که امکان اجرای Real-time و مستقیم پرسوجوها را از درون برنامههای هوشمندی تجاری ویندوزی فراهم میآورد.
پیشتر نیز مایکروسافت از ابزاری با نامHadoop-to-SQL Server Connector خبر داده بود که بر اساس Sqoop (سرنام SQL to Hadoop محصولی برای تبادل دادهها میان پلتفرم هادوپ و پایگاههای دادهای سنتی رابطهای) توسعه داده شده بود. این محصول هم اکنون بهصورت رسمی عرضه شده است و از پایگاه داده SQL Server 2008 نیز پشتیبانی میکند و امکان ورود دادههای متنی، فایلهای ترتیبی و همچنین جدولهای Hive به SQL Server را فراهم میسازد. این کانکتور همچنین امکان اجرای پرسوجوهای Map Reduce یا Hive را روی دادههای ذخیرهشده در HDFS هادوپ فراهمکرده و امکان تحویل نتایج بهصورت جدولهای SQL Server و ذخیره آنها برای تحلیل بیشتر را فراهم میسازد. مایکروسافت در حال آمادهسازی دو محصول جدید نیز در زمینه هوشمندی تجاری برای SQL Server 2012 است که یکی از آنها با نام Microsoft Data Explorer شناخته میشود. این محصول، مجموعهای از ابزارهایی است که برای کاربر امکان واکشی دادهها از صفحات گسترده، پایگاههای دادهای SQL، فایلهای مختلف و همچنین Windows Azure Marketplace را فراهم آورده و با تولید گزارشهای مناسب برای اشتراکگذاری در سطح سازمان، امکان ذخیره دوباره آنها را در Marketplace اژر فراهم خواهد کرد. این گزارشها امکان تبدیل به فرمتهای Excel یا Power Point را نیز خواهند داشت. ابزار مهم دیگر، محصولی با نام Power View است که قبلاً با عنوان رمز Project Crescent شناخته میشد و یک ابزار هوشمندی کسبوکار ad-hoc تحت وب است که در پایگاه داده SQL Server 2012 گنجانده شده و در Marketplace اژر هم عرضه خواهد شد. اما هدف مایکروسافت از یکپارچهسازی هادوپ در ویندوز اژر متفاوت با SQL Server بوده و در اصل فراهمسازی آن بهعنوان یک سرویس برای توسعهدهندگان این پلتفرم، بدون نیاز به نصب آن در مراکز دادهشان است. اما نکته منفی موجود در این زمینه این است که در پلتفرم توزیع یافتهای چون هادوپ، سربار سیستم عامل میتواند یکی از چالشهای اصلی باشد. در این شرایط، با توجه به اینکه ویندوز حجم بسیار زیادی سربار را به کار میبرد، یکی از بزرگترین چالشها را در مقابل لینوکس شاهد خواهد بود و باید دید که مایکروسافت چگونه با این مسئله کنار خواهد آمد!
رها کردن Dryad، رقیب ناکام هادوپ
دقیقاً یک ماه پس از اعلام تلاش برای یکپارچهسازی هادوپ با ویندوز اژر و SQL Server، این شرکت برنامههای خود در زمینه Dryad- پروژه استفاده از LINQ در ویندوز HPC یا High Performance Computing - را در قالب یک پست بلاگ خاتمه یافته اعلام کرد. مایکروسافت بیش از پنج سال است که روی Dryad کار میکند و این پروژه، قرار بود تا وظایف اجرای عملیات روی دادههای بزرگ را در محیط سرورهای کلاستری مایکروسافت یعنی Windows HPC عهدهدار باشد. پروژه Dryad، نمونه اختصاصی مایکروسافت برای پیاده سازی محصولی شبیه به هادوپ و رقیبی مبتنی بر فناوری Map/Reduce گوگل برای انجام امور ذخیرهسازی در پردازش ابری و دادههای عظیم بود.
این پروژه برای نخستینبار در سال 2006 بهعنوان یک پروژه تحقیقاتی مایکروسافت از طرف بیل گیتس رونمایی شد و در سالهای اخیر تلاشهای بسیاری برای تبدیل آن به یک راهکار عملی صورت گرفت. مایکروسافت ادعا میکرد که تلاش دارد تا ابزارهای برنامهنویسی پردازش موازی HPC و LINQ را ترکیب کرده و یک لایه واسط ایجاد کند تا کاربران از طریق آن بتوانند به منابع کامپیوتر (چه روی یک سیستم چند هستهای منفرد یا ابری از سرورها) دسترسی داشته باشند.
"هدف مایکروسافت از یکپارچهسازی هادوپ در ویندوزاژر متفاوت با SQL Server و در اصل فراهمسازی آن بهعنوان یک سرویس برای توسعهدهندگان این پلتفرم، بدون نیاز به نصب در مراکز دادهشان است." |
در برههای از زمان، مقامات رسمی مایکروسافت اظهار داشتند که LINQ در HPC کلید تبدیل یک ابر پردازشی به یک اَبَر رایانه است. با این اوصاف، انتظار میرفت تا LINQ to HPC در سرویس پک دوم مجموعه Microsoft HPC Pack 2008 R2 عرضه شود اما مایکروسافت آن را بهعنوان بخشی از سرویس پک 3 این مجموعه عرضه کرد که هم اکنون به صورت RC موجود است. با این حال، مایکروسافت از عدم اختصاص زمان و انرژی به این کار خبر داده است و قصد دارد تا از راه حل جایگزین اپنسورس، یعنی هادوپ استفاده کند. در حقیقت، تلاش برای توسعه این فناوری، حرکتی برای عرضه یک رقیب منبع بسته و انحصاری برای هادوپ بود که با مشاهده سرعت عملکرد و ارزش کاری هادوپ و همچنین اقبال هرچه بیشتر شرکتهای مختلف به آن، امکان رقابت از این محصول مایکروسافت بهطور عملی سلب شده است.
بسیاری، تمایل مایکروسافت به استفاده از هادوپ را پیروی از شرکتهایی مانند EMC و آیبیام میدانند که قصد دارند تا پایان سال 2012، توزیعهای جدیدی از هادوپ را برای مشتریان Enterprise عرضه کنند. در ضمن بیانیه اوراکل در رابطه با عرضه یک توزیع دیگر از هادوپ و پشتیبانی از آن درOracle Big Data Appliance نیز در این تصمیم مایکروسافت بیتأثیر نبوده است. در مقابل این پشتیبانی روزافزون، یک پلتفرم تنها و انحصاری مانند Dryad تقریباً شانسی برای ادامه حیات نخواهد داشت. این نکته را میتوان در گفتههای مدیر ارشد برنامهریزی در گروه HPC مایکروسافت نیز مشاهده کرد: «هادوپ شایستگی خود را بهعنوان یک پلتفرم مناسب برای تحلیل دادههای عظیم بیساختار با هزینه بسیار کم ثابتکرده است. همچنین، این پلتفرم، از جامعهای از کاربران و توسعهدهندگان بسیار پر جنب و جوش و ارزنده بهره میبرد که در زمینه توسعه کد و اعمال خلاقیت در هادوپ بسیار مشتاقانه فعالیت میکنند.» رئیس بخش مدیریت محصول در تیم SQL Server نیز گفته است: «ما هم اکنون تغییرات شگرفی را در چشم انداز دادهها شاهد هستیم و تجارتهایی با انواع بیشتری از دادهها، اَشکال بیشتر و حجمهای بیشتر، بیش از پیش در حال توسعه هستند. برای پاسخگویی به این تغییرات ما نیازمند یک پلتفرم جدید هستیم.»
هماکنون، جهتگیری مایکروسافت در زمینه دادههای عظیم روشن شده است، اما هنوز مشخص نیست که آیا این شرکت از سختافزارهای طرف سوم، همانند ابزارهایی که با نام SQL Server Parallel Data Warehouse یا PDW که توسط اچپی عرضه میشود نیز در این زمینه پشتیبانی خواهد کرد یا نه؟ به نظر میرسد که مایکروسافت در این زمینه برنامههایی داشته باشد، چرا که همکاری با اچپی برای رقابت با ابزار ماجولار محاسبات دادهای EMC که با نام Greenplum شناخته میشود و همچنین ابزار Big Data Appliance عرضه شده از طرف اوراکل، میتواند سود سرشار و شرایط مناسبی را برای مایکروسافت به ارمغان بیاورد. به طور حتم، گرایش به استفاده از هادوپ در پلتفرمهای مایکروسافت همچنان امری عجیب و انقلابی در رفتار مایکروسافت به شمار میآید و نتیجهای جز محصولات و خدماتی بهتر و رقابتی تر نیز در بر نخواهد داشت؛ البته اگر مایکروسافت به وعدههای خود در زمینه انجام امور بهصورت شفاف و عرضه کدها به جامعه اپنسورس پایبند باشد. همانطورکه تاکنون نیز مشخص شده، جامعه اپنسورس از این اقدام مایکروسافت استقبال کرده و شاید هادوپ، آشتیدهنده جنبش و تفکر اپنسورس با دشمن دیرینهاش باشد؛ یک همزیستی مسالمتآمیز که گذار به آن اجتناب ناپذیر بوده و در نهایت، به ارائه خدمات بهتر به کاربران منتهی شود.
"شاید هادوپ، آشتیدهنده جنبش و تفکر اپنسورس با دشمن دیرینهاش باشد؛ یک همزیستی مسالمتآمیز که گذار به آن اجتناب ناپذیر بوده و در نهایت، به ارائه خدمات بهتر به کاربران منتهی شود." |
با دیدن این اتفاق و خواندن خبر مربوط به چرخش رویکرد مایکروسافت در مقابل اپنسورس، میتوان دریافت که روشهای کسب و کار شرکتهای بزرگ در حال بهینهشدن بوده و پیشبینی روزهای خوب در دنیای پیشروی جنبش اپنسورس در آینده، آرام آرام در حال تحقق است. کسی چه میداند؟ شاید روزی مایکروسافت ویندوزی اپنسورس عرضه کرد و مناقشه لینوکس و ویندوز، از آن به بعد در رابطه با بهتر بودن کدهایشان ادامه پیدا کرد! هر چند این موضوع بعید است، اما محال نیست!
منبع : ماهنامه شبکه