آرم توالی

از testwiki
پرش به ناوبری پرش به جستجو

در بیوانفورماتیک آرم توالی (به انگلیسی: Sequence Logo) یک روش برای تصویر کردن هم ترازی چندگانه (multiple alignment) ی توالی‌های آمینو اسید یا نوکلئیک اسید است. این روش برای نشان دادن هم ترازی توالی‌ها نخستین بار در سال ۱۹۹۰ توسط Tom Schneider و Mike Stephens معرفی شد.[۱]

یک نمونه آرم توالی که از هم‌ارزی پنج رشتهٔ TAAACGAT ,TAATGAAT ,TAATCAAT ,TACTCTTT و TCAAGAAA ایجاد شده.
یک نمونه نشانهٔ توالی که از هم‌ارزی پنج رشتهٔ TAAACGAT ,TAATGAAT ,TAATCAAT ,TACTCTTT و TCAAGAAA ایجاد شده.

به‌طور کلی آرم توالی به صورت نموداری است که محور افقی آن نشان دهندهٔ جایگاه‌ها بر روی توالی دی ان ای است و محور عمودی آن و اندازهٔ حروف در طی آن نشان دهندهٔ فرکانس تکرار هر حرف در جایگاه مورد نظر در بین توالی‌ها است.

ساختار

آرم توالی که از هم ترازی رشته‌هایی به طول n به‌وجود می‌آید، دارای n ستون است. هر ستون از یک یا چند حرف تشکیل شده که روی یکدیگر قرار گرفته‌اند و ارتفاع هر کدام نشان دهندهٔ میزان تکرار آن در جایگاه مربوط در بین تمام رشته‌های هم تراز شده می‌باشد. معمولاً جهت خوانش راحت تر، هر حرف را با رنگ مخصوصی نشان می‌دهند. مجموع ارتفاع حروف در هر جایگاه نشان دهندهٔ محتوای اطلاعاتی (information content) است که از هم‌ارزی توالی‌ها بدست می‌آید. به عبارتی ارتفاع هر ستون نشان دهندهٔ این است که در رابطه با محتوای موجود در یک جایگاه (اندیس) به‌خصوص تا چه اندازه اطمینان موجود است.

ساخت آرم توالی

جهت ایجاد یک آرم توالی ابتدا باید توالی‌های مورد نظر از جای مشخصی که نشان دهندهٔ مکان آغاز موتیف‌های مورد نظر است، هم تراز (aligne) شوند. همان‌طور که در بخش پیش اشاره شد، ارتفاع هر ستون نشان دهندهٔ محتوای اطلاعاتی است که با بیت سنجیده می‌شود.

برای اندازه‌گیری «محتوای اطلاعاتی» (که با Rنشان داده می‌شود) در جایگاه lام، با توجه به اینکه توالی مورد نظر از چه جنسی است، از روابط زیر استفاده می‌شود:[۱][۲]

R(l)=2(H(l)+e(n))برای نوکلئیک اسیدها (دی ان ای)

R(l)=log2(20)(H(l)+e(n))برای آمینو اسیدها (پروتئین)

که در آن e(n)یک فاکتور تصحیح است که در مواقعی که تعداد نمونه توالی‌ها (n) کم است لازم می‌شود و از طریق رابطهٔ زیر محاسبه می‌شود:

e(n)=1ln2×s12n

که در آن sبرای نوکلئیک اسیدها برابر ۴ و برای آمینو اسیدها برابر ۲۰ است.

همچنین در این روابط H(l)نشان دهندهٔ عدم اطمینان یا همان آنتروپی جایگاه lام است که از رابطهٔ زیر بدست می‌آید:[۳]

H(l)=b=ATf(b,l)log2f(b,l)

در این رابطه b نشان دهندهٔ مجموعه حروفی است که در توالی وجود دارند یعنی برای توالی دی ان ای مقادیر b برابر A, T، C و G می‌باشد و برای توالی پروتئین، مقادیر b همان آمینو اسیدهای مختلف می‌باشد. همچنین در این رابطه f(b,l)نشان دهندهٔ بسامد آماری حرف b در جایگاه lام است که به عبارتی همان تعداد دفعات مشاهدهٔ آن حرف در بین نمونه توالی هاست. ارتفاع هر حرف در جایگاه lام نیز از ضرب این بسامد آماری در محتوای اطلاعاتی آن جایگاه بدست می‌آید. به عبارتی اگر ارتفاع حرف b در جایگاه lام با h(b,i)نشان دهیم، داریم:

h(b,l)=f(b,l)×R(l)

در هر ستون حروف به صورت نزولی از بالا به پایین مرتب می‌شوند، به طوری که حرفی که بیشترین بسامد آماری را دارد در بالا، و حرفی که کمترین بسامد آماری را دارد در پایین قرار می‌گیرد.

ابزار ساخت

برای ساختن آرم توالی ابزارهای مختلفی طراحی و تولید شده‌است که به صورت رایگان و آنلاین در دسترس می‌باشد. دو نمونه از این ابزارها WebLogo و Seq2Logo هستند که در زیر به اختصار شرح داده شده‌اند.

یک نمونه آرم توالی آمینواسید که با استفاده از ابزار webLogo ساخته شده

و بلوگو (WebLogo) نرم‌افزاری برخط است که با هدف آسان کردن ایجاد آرم‌های توالی، توسط جمعی از محققین دانشگاه برکلی در سال ۲۰۰۴ توسعه یافته‌است.[۴] در حال حاضر نسخه ی سوم این نرم‌افزار قابل دسترسی است و کد منبع آن در گیت هاب (github) موجود است.[۵]

این ابزار نیز مانند ابزار پیشین، نرم‌افزاری برخط است که آرم توالی هم ترازی چندگانهٔ آمینواسیدها را به شکل‌ها و با روش‌های مختلف تولید می‌کند. این ابزار در سال ۲۰۱۲ توسط جمعی از پژوهشگران دانشگاه فنی دانمارک طراحی و ساخته شده‌است[۶] و هم‌اکنون نسخه ی دوم آن در دسترس است. این نرم‌افزار یک نسخهٔ قابل بارگیری نیز دارد که برای داده‌های خیلی بزرگ که پردازش آن‌ها به صورت برخط بیشتر از دو ساعت (که حداکثر محدودیت زمانی سرور است) طول می‌کشد، مناسب است.

جستارهای وابسته

منابع

الگو:پانویس