مسئله بزرگترین زیردنباله مشترک

از testwiki
پرش به ناوبری پرش به جستجو

الگو:اشتباه نشود بزرگترین زیردنباله مشترک الگو:انگلیسی، روشی است که برای پیدا کردن بزرگترین زیردنباله در مجموعه‌ای از دنباله‌ها (غالباً دو دنباله) به کار می‌رود و مسئله‌ای قدیمی در علم کامپیوتر است. تفاوت این مسئله با مسئله ی بزرگترین زیررشته ی مشترک در این است که برای یک زیردنباله از یک رشته، نیازی نیست که اعضای آن مجاور یک دیگر باشند و به‌طور متوالی آمده باشند. این مسئله اساس کار برنامه‌های مقایسه‌کننده فایل است که تفاوت دو فایل را نمایش می‌دهد. همین طور در بیوانفورماتیک برای مقایسه رشته‌های دی ان ای کاربرد دارد.

با مسئله بزرگترین زیررشته مشترک اشتباه نشود

در علوم کامپیوتر، مسئله بلندترین زیررشته مشترک برای یافتن بلندترین رشته(یا رشته‌هایی) که زیر رشته (یا زیررشته‌هایی)از دویاچندین رشته هستند،می‌باشد.این مسئله نباید با مسئله بلندترین زیردنباله مشترک اشتباه گرفته شود.(برای توضیحی در مورد تفاوت میان یک زیررشته و یک زیردنباله به زیررشته درمقابل زیردنباله رجوع کنید).

شرح مسئله

دو رشته زیر را در نظر بگیرید:

S1=ACCGGTCGAGTGCGCGGAGCCGGCCGAA

S2=GTCGTTCGGAATGCCGTTGCTCTGTAAA

هدف مقایسه این دو رشته و پیدا کردن شباهت بین آن‌ها است. بزرگترین زیردنباله مشترک این‌طور تعریف می‌شود که دنباله‌ای مانند S3 است به‌طوری‌که حروف موجود در S3 با حفظ ترتیب در S1 و S2 موجود باشد. اما مطلقاً لزومی ندارد که متوالی باشد. از طرفی S3 باید بزرگترین دنباله ممکن با خواص بالا باشد. به‌طور کلی اگر دو رشته X=x1,x2,...,xn و Y=y1,y2,...,yn را در نظر بگیریم، یک بلندترین زیر دنباله مشترک را می‌توان با استفاده از برنامه نویسی پویا پیدا کرد.

راه حل برای دو دنباله

مسئله LCS دارای خصوصیت زیر ساختار بهینه (Optimal Substructure) است:

مسئله LCS را می‌توان به زیر مسئله‌های کوچک تر تقسیم نمود.

که این زیر مسئله‌ها جفت دنباله‌های پیشوندی دو دنباله ورودی هستند. اگر داشته باشیم: X=x1,x2,...,xn٫ آن گاه Xi به این صورت تعریف می‌شود: Xi=x1,x2,...,xi

فرض کنید X=x1,x2,...,xm و Y=y1,y2,...,yn دو رشته باشند و Z=z1,z2,...,zk بلندترین زیردنباله مشترک یا LCS دو رشته Y و X باشند. پیاده‌سازی الگوریتم با استفاده از روش برنامه‌نویسی پویا به این صورت است:

۱)اگر Xm=Yn باشد٫ آن گاه Zk=Xm=Yn و Zk1 یک LCS برای Yk1 و Xk1 است.

۲)اگر XmYn باشد٫ آن گاه ZkXm نتیجه می‌دهد که Z یک LCS برای Y و Xm1 است.

۳)اگر XmYn باشد٫ آن گاه ZkYm نتیجه می‌دهد که Z یک LCS برای Yn1 و X است.

قضیه فوق نشان می‌دهد: LCS دو رشته٫ در داخل خودش٫ حاوی یک LCS برای پیشوندهای آن دو رشته نیز می‌باشد.

یک راه حل بازگشتی برای پیداکردن LCS

فرض کنید c[i,j] یک عنصر از آرایه C باشد که نشان دهنده طول LCS دو دنبالهXi و Yi است. بنابراین اگر i=0 یا j=0 باشد٫ یکی از دنباله‌ها دارای طول صفر است و در نتیجه LCS دو دنباله صفر خواهد شد. c[i,j]={0i=0 or j=0c[i1,j1]+1i,j>0 and Xi=Yjmax(c[i1,j],c[i,j1])i,j>0 and XiYj بنابراین وقتی که XiYj باشد٫ زیر مسئله ما پیدا کردن LCS برای Xi1 و Yi1 است. در غیر این صورت ما دو زیر مسئله داریم:

پیدا کردن LCS برای Yi و Xi1 و

پیدا کردن LCS برای Yi1 و Xi

پرونده:Lcs-Fig1.PNG
شکل ۱

االگوریتم را با استفاده از روش برنامه‌نویسی پویا پیاده‌سازی می‌کنیم. الگوریتم دو رشته X=x1,x2,...,xm و Y=y1,y2,...,yn را به عنوان ورودی دریافت می‌کند(شکل ۲). الگوریتم مقادیر c[i,j] که نشان دهدنده طول LCS است را داخل آرایه c[1..m,1..n] ذخیره می‌کند. عناصر آرایه به ترتیب row-major پر می‌شوند. یهنی ابتدا اولین سطر c به ترتیب از چپ به راست پر می‌شود، سپس سطر دوم و الی آخر. علاوه بر این الگوریتم آرایه دیگری به نام b[1..m,1..n] را نیز پر می‌کند. این آرایه جهت حرکت را ذخیره می‌کند.

پرونده:Lcs-Fig2.PNG
شکل ۲

مقدار b با علامت‌های جهت ,, پر می‌شود. همین طور مقدار c[i,j] به این بستگی دارد که آیا xi=yi باشد (خط ۹). جهت فلش‌ها طوری انتخاب می‌شود که همواره حرکت به سمت خانه‌ای با طول LCS بزرکتر را تضمین می‌کند. در نهایت برای پیدا کردن LCS از گوشه سمت راست و پایین آرایه b در جهت پیکان‌ها به سمت گوشه بالا و چپ آرایه حرکت می‌کنیم.

الگو:چپ‌چین

function print_LCS (b,X,i,j)
  if i=0 or j=0 then
     return
  if b[i,j] = '' then
     print_LCS(b,X,i-1,j-1)
     print xi
  else if b[i,j]= '' then
     print_LCS(b,X,i-1,j)
  else print_LCS(b,X,i,j-1)

الگو:پایان چپ‌چین

پیچیدگی زمانی

زمانی که تعداد دنباله‌های ورودی ثابت باشند٫ این مسئله توسط برنامه‌نویسی پویا در زمان چندجمله‌ای حل می‌شود. فرض کنید N دنباله ورودی به طول n1,n2,...,nN داشته باشیم. یک راه حل ابتدایی برای جستجوی LCS این است که هر یک از2n1 زیردنباله دنباله اولی را برررسی کنیم که آیا زیر دنباله برای دیگر دنباله‌های ورودی است یا خیر. هر زیر ددنباله در زمانی خطی متناسب با طول دنباله‌های باقی‌مانده بررسی می‌شود. بنابراین زمان الگوریتم برابر خواهد بود با:O(2n1i>1ni). برای حالت ورودی با دو دنباله با n و m عنصر٫ پیچیدگی زمانی الگوریتم برابر O(mn) خواهد بود. برای تعداد ورودی‌های دلخواه برنامه‌نویسی پویا راه حلی با این زمان ارائه می‌کند:O(Ni=1Nni).

توابعی با پیچیدگی کمتر موجود است،[۱]

پانویس‌ها

الگو:پانویس

منابع