جلسه دفاع از پایاننامه: خانم زهرا مومنی، گروه مهندسی نرم افزار
خلاصه خبر: تخمین سن انسان براساس تحلیل دادههای ژنومی با استفاده از یک رویکرد تکاملی
چکیده: تمام بافتهای موجود در بدن با گذشت زمان پیر میشوند. پیری یک پروسه پیچیده است که تقریبا تمام گونههای جاندار را تحت تاثیر قرار میدهد و ناشی از تعامل چندگانه ژنتیک و عوامل محیطی است. با توجه به این پیچیدگی، پیری در سطوح مختلف انتزاع با استفاده از الگوریتمهای دادهکاوی، هم در تعریف انواع ویژگیهای پیشبینیکننده و هم در تعریف متغیر هدف، مورد مطالعه قرار گرفته است. درک فرآیند پیری یک مشکل پرچالش در زمینه زیستشناسی و بیوانفورماتیک است. امروزه با افزایش روزافزون دادههای بیولوژیکی که از طریق آزمایشهای مختلف حاصل میشود، مطالعه این دادهها با استفاده از روشهای یادگیری ماشین است که میتواند به طور بالقوه الگوهای و یا دانش جدیدی را در این دادهها پیدا کند و نتیجههای بیولوژیکی معنیدار را به دست آورد.
در مطالعات متعددی نشان داده شده که تغییرات متیلاسیون DNA رابطه خطی با سن ندارد و یکی از نشانگرهای زیستی پایدار در پیشبینی سن است که باعث شده در اکثر پژوهشها مورد استفاده قرار گیرد. ما نیز در این پایاننامه دو روش ارائه کردیم که بتواند به صورت کارا ویژگیهای مرتبط با سن را در دادهها پیدا کرده و به ازای دادههای مختلف نیاز به تنظیمات مجدد نداشته باشد. نقطه مشترک این دو روش استفاده از الگوریتم ژنتیک است. اما کاربرد الگوریتم ژنتیک در این دو روش متفاوت است. در روش پیشنهادی اول از الگوریتم ژنتیک برای جستجو در فضایی استفاده میکنیم که بتواند بهترین دنباله از روشهای انتخاب ویژگی تعریف شده را به همراه بهترین تعداد ویژگی انتخاب شده در هر مرحله پیدا کند. در روش پیشنهادی دوم از الگوریتم ژنتیک برای انتخاب ویژگی استفاده شده است اما نکته مهم در در این روش این است که بازههای سنی که تغییرات متیلاسیون DNA در آنها مشابه است را پیدا کرده و متناسب با هر بازه ویژگیهای مرتبط با سن را پیدا میکند. برای ارزیابی روش پیشنهادی اول خود از دو گروه مجموعه داده متیلاسیون DNA مربوط به بافت خون و بافتهای غیرخونی استفاده کردیم. مقدار MAD به دست آمده حاصل از ارزیابی متقابل مجموعه داده آموزش مربوط بافت خون برابر با 96/3 سال و مجموعه داده آموزش مربوط به بافت غیرخون برابر با 24/5 سال است. ارزیابی مدل با استفاده از مجموعه داده آزمون نیز نتایج مقایسهپذیری را نشان میدهد (مقدار MAD داده آزمون برای بافت خون برابر با 98/3 سال و برای بافت غیر خون برابر با 4/5 سال است). برای ارائه همین نتایج متناظر با روش پیشنهادی دوم، از مجموعه داده مربوط به بافت خون استفاده شده است که مقدار MAD حاصل از ارزیابی متقابل بر روی مجموعه داده آموزش برابر با 21/3 سال و MAD بر روی مجموعه داده آزمون برابر با 62/3 سال است. برای کاهش زمان محاسبات در روش پیشنهادی دوم، از الگوی نگاشت-کاهش جهت موازی سازی بخشهای محتلف الگوریتم استفاده کردیم که باعث شد زمان اجرا از صد ساعت به کمتر از یک ساعت کاهش پیدا کند.
22 شهریور 1399 / تعداد نمایش : 1095
|