ابزار GATK استاندارد صنعتی برای شناسایی SNPs و indels در داده های ژرمپلاسم DNA و RNAseq است.
پیش نیازها
برای پیروی از این دستورالعمل ها، شما نیاز به درک پایه ای از معنای کلمات زیر و عملیات خط فرمان دارید. اگر شما با هرکدام از موارد زیر آشنا نیستید، اگر یک مورد دارید، باید با یک همکار با تجربه یا مدیر سیستم خود مشورت کنید. همچنین بسیاری از آموزش های مفید آنلاین وجود دارد که می توانید از آن برای یادگیری مفاهیم لازم استفاده کنید.
· دستورات محیط پایه یونیکس
· دودویی / اجرایی
· کامپایل یک دودویی
· اضافه کردن یک فایل باینری به مسیر شما
· پوسته خط فرمان ، ترمینال یا کنسول
· کتابخانه نرم افزاری
شما همچنین باید به یک کامپایلرC ++ سازگار با ANSI و ابزار مورد نیاز برای کامپایل نرمال دسترسی داشته باشید:
make, shell, the standard library, tar, gunzip
این ابزارها معمولا بر روی لینوکس/یونیکس نصب می شوند. در MacOS X ممکن است لازم باشد ابزار MacOS Xcode را نصب کنید. به این آدرس برای اطلاعات مربوطه و دانلود نرم افزار مراجعه کنید. ابزار XCode رایگان است، اما ممکن است AppleID برای دانلود آنها مورد نیاز باشد.
این آموزش با 3.6 GATKاست که نیاز به نسخهJava Runtime Environment 1.8 (جاوا 8) دارد. نسخه های قبلی تا 2.6 به JRE 1.7 و نسخه های قبل از آن نیاز به ورژن 1.6 جاوا دارند. تمام سیستم های لینوکس/یونیکس و MacOS X باید JRE را از قبل نصب کرده باشند، اما نسخه ممکن است متفاوت باشد. برای آزمایش نسخه جاوا، دستور زیر را در shell اجرا کنید :
java -version
اجرای این دستور باید یک پیام حاوی نسخه جاوا مانند ”java version 1.8.0_25” و همچنین برخی از جزئیات مربوط به محیط اجرا (JRE) و ماشین مجازی (VM) را بازگرداند. اگر نسخه ای دارید که با الزاماتی که در بالا برای اجرای نسخه GATK بیان شد مطابقت ندارد، GATK ممکن است به درستی اجرا نشود. ساده ترین راه این است که یک JRE اضافی را نصب کرده و مشخص نمایید کدام را در خط فرمان استفاده می کنید.
پکیج های نرم افزاری
- BWA
- SAMtools
- Picard
- Genome Analysis Toolkit (GATK)
- IGV
- RStudio IDE and R libraries ggplot2 and gsalib
توجه داشته باشید که تعداد نسخه بسته های دانلود شده شما ممکن است متفاوت از دستورالعمل های زیر باشد. اگر چنین است، لطفا تعدادی را در دستورالعمل ها تطبیق دهید.
1. BWA
نرم افزار BWA را در صفحه اصلی پروژه BWA مرور کلی کرده و سپس آخرین نسخه بسته نرم افزاری را دانلود کنید.
- Installation
باز کردن بسته tar با استفاده از:
tar xvzf bwa-0.7.12.tar.bz2
با این کار یک پوشه با نام bwa-0.7.12 ایجاد می گردد که حاوی فایل های لازم برای کامپایل باینری BWA می باشد. به این دایرکتوری رفته و با استفاده از دستور زیر کامپایل کنید:
cd bwa-0.7.12
make
فایل باینری کامپایل شده bwa
نامیده می شود. شما باید آن را داخل همان پوشه (در این مثال bwa-0.7.12
) پیدا کنید. ممکن است دیگر باینری های کامپایل شده را نیز پیدا کنید؛ در زمان نوشتن، یک باینری دوم به نام bwamem-lite نیز موجود است. شما می توانید آن را نادیده بگیرید. در نهایت، فقط باینری BWA را به مسیر خود اضافه کنید تا در خط فرمان در دسترس باشد. با این عمل فرایند نصب تکمیل میگردد.
- Testing
یک shell باز و برنامه را اجرا کنید:
bwa
با این کار باید برخی طلاعات نویسنده و نسخه و همچنین یک لیست از دستورات را نمایش داده شود. برای استفاده از BWA همیشه خطوط دستور را مانند مثال زیر بسازید :
bwa <command> [options]
این به این معنی است که شما باینری (bwa) را صدا میزنید، سپس مشخص می کنید کدام دستور (method) را می خواهید استفاده کنید (مانند index
) و سپس هر گزینه (به عنوان مثال آرگومان هایی مانند فایل های ورودی یا پارامترها) استفاده شده به وسیله برنامه برای اجرای آن در خط فرمان را انتخاب کنید
2. SAMtools
خلاصه ای از نرم افزار SAMtools را در صفحه اصلی پروژه SAMtools بخوانید و سپس آخرین نسخه بسته نرم افزاری را دانلود نمایید.
- Installation
باز کردن بسته tar با استفاده از:
tar xvjf samtools-0.1.2.tar.bz2
با انجام این کار یک پوشه با نام samtools-0.1.2
تولید می شود که حاوی فایل های مورد نیاز برای کامپایل باینری SAMtools می باشد. به این دایرکتوری رفته و با استفاده از دستور زیر کامپایل کنید
cd samtools-0.1.2
make
باینری کامپایل شده است samtools نامیده می شود. شما باید آن را در همان پوشه (samtools-0.1.2 در این مثال) پیدا کنید. سرانجام، باینری SAMtools را به مسیر خود اضافه کنید تا آن را در خط فرمان در دسترس قرار دهید. با این فرآیند دستور نصب تکمیل می گردد.
- Testing
یک shell باز و برنامه را اجرا کنید:
samtools
با زدن این دستور باید برخی از اطلاعات نسخه و همچنین یک لیست از دستورات نمایش داده شود. برای استفاده از SAMtools همیشه خطوط دستور را مانند مثال زیر بسازید :
samtools <command> [options]
این به این معنی است که شما باینری (samtools
) را صدا میزنید، سپس مشخص می کنید کدام دستور (method) را می خواهید استفاده کنید (مانند index
) و سپس هر گزینه (به عنوان مثال آرگومان هایی مانند فایل های ورودی یا پارامترها) استفاده شده به وسیله برنامه برای اجرای آن در خط فرمان را انتخاب کنید. این یک قرارداد مشابه است که توسط BWA استفاده می شود.
3. Picard
خلاصه ای از نرم افزار Picard را در صفحه اصلی پروژه Picard مطالعه کنید، سپس آخرین نسخه (در حال حاضر 2.4.1) از بسته نرم افزاری حاوی فایل برنامه های از پیش کامپایل شده (فایل picard-tools-2.x.y.zip) را دانلود نمایید.
- Installation
فایل زیپ را با استفاده از دستور زیر از حالت فشرده سازی خارج نمایید:
tar xjf picard-tools-2.4.1.zip
این یک دایرکتوری به نام picard-tools-2.4.1
که حاوی فایل های jar مربوط به Picard است تولید خواهد کرد. ابزار Picard به عنوان یک فایل اجرایی جاوا از پیش کامپایل شده (فایل jar) توزیع شده است، بنابراین نیازی به کامپایل کردن آنها نیست.
توجه داشته باشید که امکان اضافه کردن فایل های jar به مسیر شما برای ساخت ابزارهای موجود در خط فرمان وجود ندارد. شما باید مسیر کامل فایل jar را در دستور جاوا خود مشخص کنید، بدین منظور کار زیر را انجام دهید:
java -jar ~/my_tools/jars/picard.jar <Toolname> [options]
با این حال، می توانید یک میانبر به نام یک متغیر محیطی درshell profile خود تنظیم کنید تا این کار راحت تر شود. ایده این است که شما یک متغیر ایجاد می کنید که به سیستم شما می گوید که کجا jar داده شده را پیدا کند، مانند زیر:
PICARD = "~/my_tools/jars/picard.jar"
بنابراین وقتی میخواهید یک ابزار Picard را اجرا کنید، باید فقط با استفاده از میانبر آن با jar را صدا بزنید:
java -jar $PICARD <Toolname> [options]
روش دقیق تنظیم این وابستگی ها به آنچه پوسته شما استفاده می کند و نحوه پیکربندی محیط شما بستگی دارد. در اینجا فرایند نصب تکمیل می گردد.
- Testing
یک shell باز و برنامه را اجرا کنید:
java -jar picard.jar -h
این دستور باید برخی اطلاعات نسخه و استفاده در مورد ابزارAddOrReplaceReadGroups.jar را چاپ کند.در این مرحله شما متوجه تفاوت مهم بین ابزار BWA وPicard می شوید.
java -jar picard.jar <ToolName> [options]
این به این معنی است که ابتدا برنامه جاوا خود را به عنوان برنامه اصلی صدا میزنید، سپس فایل picard.jar را مشخص کنید، سپس مشخص کنید کدام ابزار را میخواهید، و در نهایت هر آرگومان (فایل های ورودی، پارامترها و غیره) دیگری که برای تجزیه و تحلیل مورد نیازاست.
توجه داشته باشید که syntax خط فرمان ابزار Picard اخیرا از java -jar <ToolName>.jar به to java -jar picard.jar <ToolName> تغییر یافته است. ما از syntax جدید در این آموزش استفاده میکنیم.
4. Genome Analysis Toolkit (GATK)
آخرین نسخه بسته نرم افزاری GATKرا دانلود کنید.
توجه داشته باشید که اگر قصد استفاده از GATK را برای اهداف تجاری دارید، لازم است مجوز خریداری کنید. برای بررسی شرایط صدور مجوز تجاری، صفحه مجوز را مشاهده کنید.
- Installation
باز کردن بسته tar با استفاده از:
tar xjf GenomeAnalysisTK-3.3-0.tar.bz2
با اجرای این دستور یک دایرکتوری به نام GenomeAnalysisTK-3.3-0 تولید خواهد شد که حاوی فایل های jar مربوط بهGATK است که GenomeAnalysisTK.jar نام دارد و همچنین یک دایرکتوری از فایل های example به نام resources. ابزارهای GATK به عنوان یک فایل اجرایی جاوا از پیش کامپایل توزیع شده اند، بنابراین نیازی به کامپایل کردن آنها نیست. همانطور که در مورد picard بیان کردیم، امکان اضافه کردن GATK به مسیر شما وجود ندارد، اما می توانید یک میانبراز فایل jar را با استفاده از متغیرهای محیطی همانطور که در بالا توضیح داده شد تنظیم کنید. این عمل فرایند نصب را تکمیل می کند.
- Testing
یک shell باز و برنامه را اجرا کنید:
java -jar GenomeAnalysisTK.jar -h
با زدن این دستور باید برخی از اطلاعات نسخه، نحوه استفاده و همچنین یک لیست از ابزارهای موجود در GATK نمایش داده شود. برای استفاده از GATK همیشه خطوط دستور را مانند مثال زیر بسازید :
java -jar GenomeAnalysisTK.jar -T <ToolName> [arguments]
این به این معنی است که درست مانند Picard، ابتدا تماس خود را به برنامه جاوا خود را به عنوان برنامه اصلی انجام دهید، سپس فایل GenomeAnalysisTK.jar را مشخص کنید، سپس مشخص کنید کدام ابزار را می خواهید، و سرانجام هر آ رگومان دیگری (فایل های ورودی، پارامترها و غیره) را برای تجزیه و تحلیل مورد نیاز است منتقل می کنید.
5. IGV
Integrated Genomics Viewer یک مرورگر ژنوم است که به شما امکان می دهد اطلاعات BAM، VCF و دیگر اطلاعات ژنتیکی را در متن مشاهده کنید. این رابط کاربر گرافیکی است که استفاده از آن بسیار آسان است و می توانید آن را به صورت رایگان (هر چند ثبت نام مورد نیاز) از این وب سایت دانلود نمایید.
6. RStudio IDE and R libraries ggplot2 and gsalib
آخرین نسخه RSDudio IDE را دانلود کنید. صفحه وب باید به طور خودکار پلتفرمی را که در حال اجرا است شناسایی کرده و نسخه مناسب برای سیستم شما را توصیه نماید.
- Installation
دستورالعمل های نصب ارائه شده را دنبال کنید. باینری ها برای تمام سیستم عامل های اصلی ارائه شده است؛ معمولا آنها فقط باید در دایرکتوری برنامه ها (یا برنامه ها) شما قرار داده شوند. RStudio را باز کرده و دستور زیر را در پنجره کنسول تایپ کنید:
install.packages("ggplot2")
این دستور، کتابخانه ggplot2 و همچنین هر بسته کتابخانه ای دیگری را که ggplot2 برای عملیات به آنها نیاز دارد، دانلود و نصب می کند. توجه داشته باشید که برخی از کاربران باید دو بسته اضافی به نام reshape و gplots را نصب کنند، که شما می توانید اینکار را با استفاده از دستورات زیر انجام دهید:
install.packages("reshape")
install.packages("gplots")
در نهایت، همین کار را برای نصب کتابخانه gsalib انجام دهید:
install.packages("gsalib")
این کتابخانه gsalib را دانلود و نصب خواهد کرد.
-----------------------------------------------------------
منبع : سایت gatka