لینک پرداخت و دانلود *پایین مطلب*
فرمت فایل:Word (قابل ویرایش و آماده پرینت)
تعداد صفحه: 20
فهرست و توضیحات:
استفاده از روشهای شبکه عصبی در
طبقهبندی پروتئینها
پروژه درس مباحث ویژه پایگاه دادهها
عناوین
چکیده
فهرست شکلها
شکل 1: یک شبکه پرسپترونی سه لایه
شکل 2: تاثیر ورودی از نرون i با وزن بر نرون j
شکل 3: نرخ طبقهبندی صحیح برای طبقه بندی کنندههای MLP
شکل 4: نرخ طبقهبندی صحیح برای طبقه بندی کنندههای RBF
چکیده
تشخیص فولد پروتئینها از جمله مسائل چالش برانگیزی است که در طی 35 سال گذشته محققان بسیاری در سراسر دنیا در این زمینه تحقیق کردهاند. امروزه به کارگیری علوم مهندسی برای حل مسائل حوزه علوم زیستی و پزشکی به سرعت و با موفقیت رو به افزایش است، بنابراین بسیاری از دانشمندان کامپیوتر به این سمت گرایش پیدا کردهاند تا بتوانند از روشهای مختلف یادگیری ماشین در پیاده سازی سیستمهای خودکار و هوشمند به منظور طبقهبندی پروتئینها کمک بگیرند. هدف نهایی در پیاده سازی این سیستمها نزدیک بودن هرچه بیشتر تصمیم اتخاذ شده توسط ماشین به تصمیم فرد خبره بیولوژیست میباشد.
با این وجود به خاطر پیچیدگی بسیار این مساله که ناشی از تعداد کلاسهای نسبتا زیاد پروتئینها و بزرگ بودن ابعاد ویژگی آنهاست، بدست آوردن جواب قابل قبول در طبقهبندی پروتئینها با استفاده از روشهای معمول یادگیری ماشین تقریبا امکان پذیر نمیباشد. در این پژوهش ما از یک مدل ترکیبی طبقهبندی با استفاده از شبکه های عصبی MLP، RBF و روش ترکیب طبقه بندی کنندههای بیزی برای تعیین فولد پروتئین ها استفاده کردهایم. نتایج بدست آمده نشان میدهد که شبکههای عصبی RBF دارای نرخ طبقه بندی صحیح بهتری نسبت به سایر روشها مانند MLP و ماشینهای بردار پشتیبان داشته است. این امر میتواند به علت فضای جستجوی بسیار بالا برای یافتن پارامترهای بهینه ماشینهای بردار پشتیبان و زمان نسبی زیاد یادگیری در این نوع طبقه بندی کنندهها باشد. همچنین نتایج بدست آمده نشان میدهد که نرخ طبقه بندی صحیح پروتئینها با استفاده از روش ترکیب بیزی به ٪59 افزایش یافته است. که البته در مقاله دیگری توانستهاند با استفاده از کلاسیفایر svm به 62.5٪ برسند. که نشان میدهد هنوز این پژوهش نیاز به بررسی بیشتر دارد.
1. مقدمهپروتئینها ماکرومولکولهای بیولوژیک بزرگی هستند که اجزاء اصلی ارگانیسمهای زنده را تشکیل میدهند و تمام اعمال حیاتی آنها را کنترل میکنند. عملکرد یک پروتئین مربوط به واکنشهای شیمیایی پروتئین با محیط اطراف و سایر پروتئینها میباشد. از طرف دیگر خود این امر وابسته به شکل و ساختار سه بعدی پروتئین و نحوه فولدینگ اجزاء آن میباشد. تعیین ساختار سهبعدی پروتئین به طور تجربی بسیار دشوار است و از آنجاییکه معمولا ترتیب زنجیرة هر پروتئین دانسته است، پژوهشگران میکوشند تا با استفاده از روشهای زیستفیزیکی گوناگون پدیده تاخوردگی پروتئینها را مدل کرده و به این ترتیب ساختار سهبعدی نهایی را از روی دنبالة اسیدهای آمینه پیشبینی کنند. بر اساس باور بسیاری از پژوهشگران پروتئینها برای عملکرد صحیح میبایست ساختار سهبعدی درست خود را بدانند. لذا اگر پروتئینی نتواند به ساختار درست خود تا شود، غیرفعال خواهد شد. دلیل برخی از بیماریها انباشتگی پروتئینهای بد تاخورده پنداشته میشود.
انبوه پروتئینهای تعیین توالی شده که در صف طویل تعیین خواص ساختاری و شناسایی عملکرد قرار گرفتهاند، نیاز به روشهای محاسباتی برای تعیین ساختار و توپولوژی پروتئینها را آشکار میسازد. این مساله به عنوان یکی از چالش های 35 سال اخیر دانشمندان بیولوژی توجه بسیاری از محققان علوم کامپیوتر را به خود جلب کرده است . با این وجود به دلیل طبیعت پیچیده ناشی از تعداد زیاد کلاسهای پروتئین و همچنین بالا بودن ابعاد فضای ویژگی، عموما روشهای معمول یادگیری ماشین به نتایج چندان رضایت بخشی نمیرسند . در چنین مسائل طبقهبندی فرض میشود که فولدهای ممکن محدود است و هر پروتئین به کلاس یکی از انواع محدود فولدها تعلق دارد. میتوان گفت شناسایی الگوی فولد یک پروتئین در سطحی عمیقتر از شناسایی کلاس ساختارهای نوع دوم پروتئین قرار میگیرد و به طبع دشوارتر و پیچیدهتر از آن است. دشواری این مساله از آنجا ناشی میشود که با توجه به ساختارهای نوع دوم تشکیل دهنده پروتئین تعداد زیادی توپولوژی شناخته شده میتوانند کاندید انتخاب به عنوان توپولوژی مناسب برای یک پروتئین با توپولوژی ناشناخته شوند.
روش استفاده شده در این تحقیق برای روبرو شدن با چنین مساله دشواری ترکیب تصمیمهایی است که هر یک با توجه به زاویه دیدی متفاوت به موضوع اتخاذ شدهاند. در این تحقیق کلاسیفایرهای مورد استفاده در مواردی چون شناسایی ساختار دوم، آبگریزی ، حجم واندروالس، قطبیت، و قابلیت قطبی شدن از روی مجموعه دادههای آموزش به خبرگی مورد نیاز رسیدهاند.
در این پژوهش ما از یک مدل ترکیبی طبقهبندی با استفاده از شبکههای عصبی MLP، RBF و روش ترکیب طبقه بندی کنندههای بیزی برای تعیین فولد پروتئینها استفاده کردهایم. در ادامه در بخش دوم این گزارش ابتدا مقدمهای مختصر درباره شبکههای عصبی مصنوعی آورده شده است. بخش سوم به شرح روش رای گیری اکثریت و همچنین روش بیز در ترکیب تصمیم طبقه بندی کنندههای مختلف میپردازد. در بخش چهارم به بیان مشخصات دادهها و همچنین عملیاتهای انجام شده به منظور آماده سازی دادههای مساله پرداختهایم. در بخشهای پنجم و ششم و هفتم نیز به ترتیب نتایج آزمایشات، مقایسه با کارهای انجام شده قبلی و کارهای آینده آورده شده است.
این فقط قسمتی از متن پروژه است . جهت دریافت کل متن پروژه ، لطفا آن را خریداری نمایید
دانلود پروژه استفاده از روشهای شبکه عصبی در طبقهبندی پروتئین ها