دوره جامع آنالیز دیتای NGS
با تمرکز بر whole exome sequencing
استاد دوره:
آرمیتا کاکاوند؛ دانشجوی دکتری ژنتیک پزشکی دانشگاه علوم پزشکی تهران
مدت زمان دوره: ۳۰ ساعت
شروع دوره: بهمن ۱۴۰۳
به همراه صدور گواهی مرکز رشد بیوتکنولوژی دانشگاه علوم پزشکی شیراز به زبان انگلیسی
با پیش ثبت نام رایگان در این دوره، میتوانید تا ۸۰ درصد تخفیف در هنگام ثبت نام نهاییتان بهره مند شوید. پس از انجام فرایند پیش ثبت نام، از طرف پشتیبانی بیولوژیسم با شما ارتباط برقرار خواهد شد و شرایط ثبت نام نهایی در دوره به اطلاعتان خواهد رسید.
این دوره جهت ارائه درک عمیق از آنالیز دیتای توالی یابی نسل جدید یا NGS و به طور ویژه با تمرکز بر دیتای توالی کل اگزوم (WES) طراحی شده است. NGS رشته ژنومیکس را متحول ساخته است به طوری که توالی یابی کم هزینه و سریع مقادیر وسیعی از اطلاعات ژنتیکی را امکان پذیر ساخته است. و WES نواحی اگزونیک ژنوم یعنی مکان هایی که بیشترین واریانت های مرتبط با بیماری ها یافت میشوند را مورد هدف قرار میدهد. این موضوع آن را به ابزار قدرتمندی برای تحقیقات و کاربردهای بالینی از جمله تشخیص بیماری های ژنتیکی، کنسر ژنومیکس، و پزشکی فرد محور مبدل ساخته است.
WES به طور وسیعی در رشت های مختلف کاربرد دارد از جمله:
1) تشخیص بیماری های ژنتیکی: شناسایی موتاسیون های مرتبط با صفات وراثتی
2) کنسر ژنومیکس: شناسایی موتاسیون های سوماتیک که منجر به تومورزایی میشوند که این امر به تصمیمات مربوط به درمان های هدفمند کمک میکند
3) فارماکوژنومیکس: درک اینکه چگونه واریانت های ژنتیکی بر پاسخ های فردی به داروها اثر میگذارند
4) ژنتیک جمعیت: بررسی تنوع ژنتیکی و ارتباطات تکاملی در بین جمعیت ها
سرفصل های دوره در یک نگاه
این دوره به چندین بخش تقسیم شده است که هر بخش بر مبنای بخس قبلی طراحی شده است. و سعی بر این دارد که از درک کامل مراحل آنالیز WES اطمینان حاصل گردد. این بخش ها شامل:
- NGS چیست: معرفی تکنولوژی NGS، مزایا و کاربرد های آن
- آشنایی با لینوکس: کدهای پایه ای در لینوکس و رابط خط–فرمان ضروری در بیوانفورماتیک
- نصب ماسین مجازی: نصب و راه اندازی یک محیط مجازی جهت نصب و اجرای ابزارهای ضروری
- کد های لینوکس که در این دوره به آن ها نیاز داریم: کدها یا دستورات ضروری لینوکس جهت دست ورزی دیتا ها و برنامه نویسی
- مراحل آنالیز دیتای WES: مروری بر مراحل کامل آنالیز از دیتای خام تا شناسایی واریانت ها
- بررسی کیفیت داده ها: روش هایی که جهت ارزیابی و اطمینان از کیفیت دیتای توالی یابی به کار می رود.
- مپینگ یا هم تراز کردن خوانش های توالی ها با زنوم رفرنس با استفاده از ابزارهای مپینگ مرسوم
- مرحله بعد از مپینگ: مرحله ضروری برای هم ترازی شامل حذف تکرار ها و کالیبراسیون مجدد
- فراخوانی واریانت ها: شناسایی واریانت های ژنتیکی با استفاده از ابزارهای فراخوانی واریانت ها
- حاشیه نویسی: اضافه کردن اطلاعات بیولوژیکی و کاربردهای عملکردی هر واریانت
- فیلتر کردن واریانت ها و الویت بندی آن ها: الویت بندی و فیلتر کردن واریانت ها بر اساس اهمیت بالینی آن ها
در انتهای این دوره آموزشی شرکت کنندگان دانش تئوری و مهارت های کاربردی مورد نیاز جهت آنالیز مستقل دیتای WES را کسب میکنند. آن ها کل مراحل از کنترل کیفیت تا الویت بندی واریانت ها را درک خواهند کرد و قاد رخواهند بود که این
مهارت ها را در موقعیت های بالینی و تحقیقاتی به کار گیرند. این دوره آموزشی این امکان را برای شرکت کنندگان فراهم میکند که به طور ویژه ای بتوانند در حیطه های ژنومیکیس فعالیت کنند و منجر به پیشرفت آن ها در حیطه بیوانفورماتیک میگردد.
سرفصل های دوره به صورت تفصیلی
این کورس آموزشی جهت آشنایی شما با آنالیز دیتای NGS یا توالی یابی نسل جدید و به طور ویژه دیتای توالی یابی کل اگزوم طراحی شده است. شرکت کنندگان دانش تئوری و مهارت های عملی ضروری در آنالیز دیتای توالی یابی کل اگزوم را به دست خواهند آورد. این دوره با مروری بر تکنولوژی NGS آغاز میشود و تا موضوعات پیشرفته مانند فیلتر کردن واریانت ها و اولویت بندی آن ها ادامه دارد. این دوره آموزشی اطلاعات اساسی مورد نیاز را در اختیار شرکت کنندگان قرار میدهد به طوری که کسانی که حتی با آشنایی کمی با بیوانفورماتیک دارند میتوانند ازین دوره استفاده کنند و این اطلاعات را در آنالیز های واقعی به کار ببرند.
این دوره آموزشی شامل چندین بخش متعدد است و طیف وسیعی از موضوعات از جمله مفاهیم پایه ای NGS، لینوکس، نصب ابزارهای ضروری، و مراحل آنالیز دیتا را پوشش میدهد. هر بخش شامل توضیحات کامل و انجام کلیه مراحل در محیط واقعی و بر روی دیتای واقعی توضیح داده شده را شامل می شود. در انتهای دوره شرکت کنندگان قاد رخواهند بود به طور کامل مستقل یک دیتای WES یا توالی یابی کل اگزوم را آنالیز کنند، نتایج را تفسیر کنند و یافته ها را به طور فعالانه و موثری در موقعیت های بالینی و تحقیقاتی به اشتراک بگذارند.
۱. NGS چیست؟
توالی یابی نسل جدید یا NGS نماینده یک توسعه انقلابی در ژنومیکس میباشد که امکان توالی یابی سریع DNA و RAN را فراهم میکند. برعکس توالی یابی سنگر سنتی، که یک قطعه DNA را در هر بار خوانش توالی یابی میکند، تکنولوژی NGS میتواند میلیون قطعه DNA را به طور همزمان توالی یابی کند بنابراین منجر به فراهم آمدن اطلاعات ژنومیک گسترده در یک زمان و با هزینه مشخصی میشود. این قدرت تحقیقات ژنومیک را متحول ساخت و منجر به امکان پذیر شدن طیف وسیعی از تحقیقات از بیولوژی پایه تا بررسی بیماری های پیچیده گشت.
در مورد WES، NGS به طور ویژه ای مفید است چراکه بر توالی یابی نواحی اگزونیک ژنوم، که شامل بیشترین واریانت های مرتبط با بیماری میباشد، تمرکز دارد. با هدف گیری و آنالیز این نواحی، WES یک روش به صرفه برای شناسایی موتاسیون های ژنتیکی مرتبط با شرایط مختلف میباشد که آن را به یک انتخاب محبوب در ستینگ های تحقیقاتی و بالینی میسازد.
۲. آشنایی با سیستم عامل لینوکس
لینوکس ابزار ضروری برای بیوانفورماتیک و آنالیز دیتای NGS میباشد. بسیاری از ابزارهای بیوانفورماتیک به گونه ای طراحی شده اند که بر سیستم عامل های لینوکس اجرا شوند، و این امر ضرورت این موضوع را برای شرکت کنندگان ایجاد میکند که با فراخوانی و استفاده از محیط لینوکس راحت باشند. این بخش از دوره فوق دستورات پایه ای لینوکس رابط خط–فرمان را به شرکت کنندگان معرفی میکند که معمولا اولین راه استفاده از ابزارهای بیوانفورماتیک است.
آشنایی با لینوکس برای شرکت کنندگان این مهارت را فراهم میکند که به طور موثری فایل ها را مدیریت کنند، دستورزی دیتا را انجام دهند و برنامه های ضروری آنالیز دیتای NGS را اجرا کنند. مهارت های کسب شده در این بخش به عنوان پایه فعالیت های تکنیکال بعدی در طول دوره عمل میکنند و این اطمینان را فراهم میکنند که دانش پذیران به طور موثری از ابزارها و نرم افزارهای مرتبط با آنالیز دیتای NGS استفاده کنند.
۳. نصب یک ماشین مجازی
برای تسهیل ایجاد یک محیط یادگیری با خروجی بالا، شرکت کنندگان نیاز خواهند داشت که یک ماشین مجازی را راه اندازی کنند که میزبان نرم افزارهای ضروری برای آنالیز دیتای NGS میباشد. این بخش از طریق پروسه انتخاب یک پلتفورم ماشین مجازی مانند VirtualBox یا VMware و نصب یک لینوکس سازگار هدایت میکند. استفاده از ماشین مجازی این امکان را برای شرکت کنندگان فراهم میکند که یک محیط جدا از سیستم عامل اصلی را بدون اینکه بر سیستم عامل اصلی آن ها به طور مثال ویندوز اثر بگذارد تجربه کنند.
وقتی ماشین مجازی نصب شد شرکت کنندگان چگونه آن را برای عملکرد بهینه تنظیم کنند برای مثال چه میزان از منابع و چه ستینگی از شبکه را در اختیار ماشین مجازی قرار دهند. این تجربه عملی تضمین میکند که دانش پذیران مصلح بشوند به طوری که بتوانند ابزارهای انالیز را اجرا کنند و دیتاست ها را به طور موثری مدیریت کنند، و آماده بشوند برای انالیزهای پیچیده تر که در ادامه دوره پیش رو خواهند داشت.
۴. کد های لینوکس که ما در این دوره به آن ها نیاز داریم
این بخش دستورات ضروری لینوکس و برنامه هایی که شرکت کنندگان به طور مداوم در طول دوره از ان ها استفاده میکنند را پوشش میدهد. دستورات دستورزی فایل ها، مدیریت پروسه ها، و به دست آوردن دیتا مورد تاکید قرار میگیرند. شرکت کنندگان مهارت فراخوانی فایل های سیستم، مدیریت دایرکتوری ها، و استفاده از دستوراتی همچون grep، awk، و sed که برای پردازش دیتای ژنومیک بسیار باارزشند.
بعلاوه، شرکت کنندگان راجع به برنامه نویسی در Bash که آن ها را قادر خواهد کرد فعالیت های تکراری را به طور اتوماتیک انجام دهند و گردش کار تجزیه و تحلیل آنها را ساده میکند. این دانش کاربردی، کارآمدی و اعتماد به نفس کار با دیتاست های بزرگ را که نیاز مرسوم آنالیز دیتای WES میباشد، را افزایش میدهد.
۶. مراحل آنالیز دیتای WES
آنالیز دیتای WES شامل مراحل ضروری متعددی است که از دیتای توالی یابی خام شروع میشود و تا شناسایی واریانت های مرتبط از نظر بالینی ادامه دارد. این بخش ریویو از این مراحل شامل پردازش دیتا، هم ترازی یا alignment، فراخوانی واریانت های یا variant calling، و حاشیه نویسی یا annotation فراهم می آورد. هر مرحله با جزئیات بررسی خواهند شد و بر اهمیت هر مرحله در کل مسیر گردش کار تاکید خواهد شد.
با فهم مراحل کامل آنالیز، شرکت کنندگان متوجه خواهند شد که چگونه هر جزء به نتایج نهایی کمک میکند. این ریویو کامل کمک خواهد کرد تا زیمنه کاری خود را به دست آورند و اهمیت کنترل کیفیت و دقت را در طول پروسه آنالیز درک کنند.
۷. کنترل کیفیت
کنترل کیفیت (quality control) مرحله ضروری آنالیز دیتای NGS میباشد که قابل اعتماد بودن نتایج را تضمین میکند. این بخش به معیارهای مختلف کنترل کیفیت و ابزارهای موجود برای ارزیابی کیفیت دیتای توالی یابی خام میپردازد. شرکت کنندگان شناسایی مشکلات مرسوم مانند خوانش های با کیفیت پایین، آلودگی آداپتورها، و بایاس هایی که ممکن است بر آنالیزهای پایین دست اثر بگذارند را فراخواهند گرفت.
با استفاده از ابزارهایی مثل FastQC و MultiQC، شرکت کنندگان تجربه عملی در ارزیابی کیفیت توالی یابی و گرفتن تصمیمات اگاهانه درباره فیلترکردن و پیش پردازش داده ها کسب میکنند. مهارت هایی که در این بخش کسب میشود تضمین میکند که دیتایی که برای انالیز به کار برده میشود از کیفیت بالایی برخوردار باشد، که نهایتا منجر به فراخوانی دقیق تر و قابل اعتمادتر واریانت ها میگردد.
۷. هم ردیف سازی، مپینگ یا alignment
هم ردیف سازی یا مپینگ پروسه تراز کردن خوانش های توالی یابی شده با یک ژنوم رفرنس میباشد. این بخش ابزارهای هم ریدف سازی محبوب مانند BWA و Bowtie2، را معرفی میکند، و الگوریتم ها و پارامترهایی که بر پروسه هم ردیف سازی اثر میگذارند را توضیح میدهد. شرکت کنندگان فرا میگیرند که چگونه دیتا را برای هم ردیف سازی آماده کنند، هم ردیف سازی را اجرا کنند و نتایج را ارزیابی کنند.
درک کیفیت همردیف سازی حیاتی است، چراکه خوانش هایی که به طور ضعیفی مپ شده اند منجر به فراخوانی غیردقیق واریانت ها میگردد. این بخش همچنین تکنیک هایی را برای مصورسازی نتایج هم ردیف سازی با استفاده از ابزار IGV (Integrative Genomics Viewer) پوشش خواهد داد که این امکان را برای شرکت کنندگان فراهم میکند که کیفیت هم ردیف سازی را بررسی کنند و تغییرات لازم قبل از ورود به مرحله فراخوانی واریانت ها را اعمال کنند.
۸. مرحله بعد از هم ردیف سازی یا مپینگ (post- alignment)
بعد از هم ردیف سازی، مراحل متعددی باید انجام شود تا دیتا برای فراخوانی واریانت ها آماده گردد. این بخش پروسه های اساسی مانند duplicate removal، base quality score recalibration ، و indel realignment را پوشش میدهد. شرکت کنندگان فراخواهند گرفت که چگونه ابزاری مانند Picard و GATK را جهت انجام موثر این مراحل به کار گیرند.
پروسه بعد از مپینگ یا هم ردیف سازی برای افزایش دقت شناسایی واریانت ها ضروری است، و درک این مراحل شرکت کنندگان را قادر خواهد ساخت تا دیتاست خود را بهینه کنند. این بخش همچنین بر اهمیت مستندسازی تغییرات دیتا به عنوان تقویت کننده شیوه های خوب در مدیدیت داده ها تاکید میکند.
۹. فراخوانی واریانت ها
فراخوانی واریانت ها پروسه شناسایی واریانت های ژنتیکی از دیتای توالی یابی شده مپ شده میباشد. این بخش بر ابزارهای مرسوم فراخوانی واریانت ها مانند GATK و FreeBayes تمرکز دارد، و به بحث در مورد الگوریت های آن ها و معیارهای شناسایی واریانت ها میپردازد. شرکت کنندگان فرا خواهند گرفت که چگونه این ابزارها را به کارگیرند و فایل های خروجی در طول پروسه فراخوانی واریانت ها را تفسیر کنند.
بر اهمیت درک انواع مختلف واریانت هاف مانند single nucleotide polymorphisms (SNPs) و insertions/deletions (indels) تاکید خواهد شد. شرکت کنندگان اهمیت فراخوانی واریانت ها برای کاربردهای بالین و تحقیقاتی را بررسی میکنند که ان ها را برای مراحل بعدی آنالیز اماده خواهد کرد.
۱۰. حاشیه نویسی
بعد از فراخوانی واریانت ها، حاشیه نویسی ان ها با استفاده از اطلاعات بیولوژیکی مرتبط برای تفسیر ضروری است. این بخش به شرکت کنندگان ابزارهای حاشیه نویسی مانند ANNOVAR و VEP (Variant Effect Predictor) را معرفی میکند. شرکت کنندگان فراخواهند گرفت که چگونه واریانت ها را با اطلاعاتی همچون عملکرد ژنی، ارتباطات بیماری زایی شناخته شده، و دیتای فراوانی اللی جمعیت ها غنی کنند.
درک ویزگی هر واریانت برای الویت بندی آن ها در ستینگ بالینی اهمیت فراوانی دارد. این بخش استراتژی هایی را برای تفسیر حاشیه نویسی و تصمیم گیری آگاهانه در مورد اینکه کدام واریانت نیازمند بررسی بیشتر و یا گزارش میباشد ارائه میکند.
۱۱. فیلترکردن واریانت ها و الویت بندی آن ها
بخش آخر بر فیلتر کردن و الویت بندی واریانت ها بر مبنای چندین معیار مانند شاخص های کیفیت، فرکانس اللی، و اثرات عملکردی قابل پیش بینی تمرکز دارد. شرکت کنندگان فراخواهند گرفت که چگونه فیلترها را به طور موثری اعمال کنند تا لیست واریانت ها به آن هایی که احتمالا به لحاظ بالینی مرتبط هستند محدود گردد.
این بخش همچنین استراتژی های ادغام چندین منبع داده، مانند دیتابیس های بالینی و مقالات را جهت حمایت از الویت بندی واریانت ها مورد بحث قرار خواهد داد. در انتهای این بخش شرکت کنندگان به ابزارها و دانش ضروری برای ارزیابی و گزارش واریانت ها به صورت معنادار مصلح خواهند شد که یک مهارت حیاتی برای هر کار بیوانفورماتیکی با دیتای WES میباشد.
در اینجا لیستی از نرم افزارهای توصیه شده برای هر بخش در آنالیز دیتای WES ارائه شده است:
1. بخش کنترل کیفیت
FastQC: مرور کاملی از کیفیت دیتای توالی یابی خام فراهم میکند
MultiQC: کلیه نتایج حاصل از چندین گزارش FastQC را با ادغام میکند و یک گزارش ارائه میدهد.
2. هم ردیف سازی یا مپینگ
BWA (Burrows-Wheeler Aligner): یک ابزار بسیار مورد استفاده جهت هم ردیف سازی خوانش ها با یک ژنوم رفرنس.
Bowtie2: یک نرم افزار مپینگ محبوب دیگر که به طور ویژه برای دیتاست های بزرگ مورد استفاده قرار میگیرد.
3. مرحله بعد از میپینگ یا هم ردیف سازی
Picard: یک مجموعه ابزاری برای دستورزی دیتای توالی یابی گسترده که برای حذف دوپلیکیت ها و سورت کردن از آن استفاده میشود.
GATK (Genome Analysis Toolkit): یک مجموعه ابزاری که امکان base quality score recalibration و indel realignment را فراهم میکند.
4. فراخوانی واریانت ها
GATK HaplotypeCaller: یک ابزار قدرتمند برای فراخوانی واریانت هاف به خصوص SNP ها و indelها
FreeBayes: یک ابزار جایگزین برای فراخوانی واریانت ها که بخش های پیچیده ژنومی را پوشش میدهد.
5. حاشیه نویسی
: یک ابزار همه کاره برای حاشیه نویسی واریانت هاANNOVAR
VEP (Variant Effect Predictor): یک ابزار از ensemble که واریانت ها را با اطلاعاتی درباره ژن ها و نتایج عملکردی آن ها حاشیه نویسی میکند.
6. فیلترکردن و الویت بندی
: امکان فیلتر کردن واریانت ها بر مینای معیار تعریف شده از طرف کاربر را فراهم میکند.GATK VariantFiltration
bcftools: مرود استفاده برای دستورزی و فیلترینگ فایل های VCF
7. مصورسازی
IGV (Integrative Genomics Viewer): یک نرم افزار بر مبنایdesktop برای مصورسازی تعاملی دیتای ژنومیک، شامل هم ردیف سازی و فراخوانی واریانت ها
UCSC Genome Browser: یک نرم افزار web-based برای مصورسازی دیتای ژنومیک در برابر ژنوم رفرنس
8. مدیریت گردش کار
: سیستم مدیریت گردش کار که امکان خودکارسازی و سازماندهی مراحل آنالیز را فراهم می آوردSnakemake
Nextflow: یک ابزار مدیریت گردش کار قدرتمند که میتواند انالیز را بر یک پلتفورم محاسباتی دیگر اجرا کند.
ابزارهای دیگر:
R and Bioconductor: برای انالیز آماری و مصورسازی دیتای ژنومیک
Python with Biopython: برای برنامه نویسی و دستورزی دیتا به صورت مورد نظر کاربر (سفارشی)
استفاده از ابزار درست بستگی به نیاز شما، ترجیحات گردش کار، و حجم آنالیز شما دارد. بیشتر این ابزارها open-source بوده و به طور وسیعی در این حوزه استفاده میشوند به طوری که حمایت و مستندسازی خوبی را فراهم میکنند.
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.