خوشه‌بندی کامل پیوند

از testwiki
نسخهٔ تاریخ ۱۲ مارس ۲۰۲۳، ساعت ۰۷:۲۸ توسط imported>Dexbot (ربات: انتقال رده به درخواست AKhaleghizadeh از رده:فیلوژنتیک رایانشی به رده:تبارزایی رایانشی)
(تفاوت) → نسخهٔ قدیمی‌تر | نمایش نسخهٔ فعلی (تفاوت) | نسخهٔ جدیدتر ← (تفاوت)
پرش به ناوبری پرش به جستجو

خوشه بندی کامل پیوند یکی از روش‌های مختلف خوشه‌بندی‌سلسله‌مراتبی است. در ابتدای فرایند، هر عنصر در خوشه ای از خود قرار دارد. سپس خوشه‌ها به صورت گروهی به گروه‌های بزرگتر تقسیم می‌شوند تا زمانی که تمام عناصر در خوشه قرار گیرند. این روش همچنین به عنوان دورترین خوشه همسایه نیز شناخته می‌شود. نتیجه خوشه بندی را می‌توان به عنوان یک دندروگرام تجسم کرد، که نشان می‌دهد که توالی خوشه‌های همجوشی و فاصله ای که در هر همجوشی اتفاق می‌افتد.[۱][۲][۳]

روش خوشه بندی

در هر مرحله، دو خوشه ای که توسط کوتاه‌ترین فاصله جدا می‌شوند ترکیب می‌شوند. تعریف «کوتاهترین فاصله» چیزی است که بین روشهای مختلف خوشه بندی زنجیرهای متفاوت است. در خوشه بندی پیوندی کامل، پیوند میان دو خوشه شامل تمام جفت‌های عنصر است و فاصله بین خوشه‌ها برابر فاصله بین دو عنصر (یکی در هر خوشه) است که دورتر از یکدیگر هستند. کوتاهترین این پیوندها که در هر مرحله باقی می‌مانند، موجب همپوشانی دو خوشه می‌شود که عناصر آن درگیر هستند. از نظر ریاضی تابع پیوند کامل — فاصله (D(X,Y بین خوشه X و Y — توسط عبارت روبه‌رو شرح داده شده‌است: D(X,Y)=maxxX,yYd(x,y)

(d(x,y فاصله بین عناصر x عضو X و y عضو Y است.

X و Y دو مجموعه از عناصر (خوشه‌ها) هستند.

الگوریتم‌ها

طرح نایاب

الگوریتم زیر یک تابع agglomerative است که ردیف‌ها و ستون‌ها را در یک ماتریس مجاورت پاک می‌کند و به عنوان خوشه‌های قدیمی به صورت‌های جدید ادغام می‌شوند. D ماتریس نزدیکی N در N، شامل تمام فاصله‌های (d(i,j. خوشه‌ها به شماره متوالی ۱، ۲، …، n اختصاص داده می‌شوند و (L(k، سطح kام خوشه‌بندی هست. یک خوشه با شماره متوالی m مشخص شده‌است و نزدیکی بین خوشه‌های (r) و (s) با [(d[(r),(s مشخص می‌شود.

الگوریتم از مراحل زیر تشکیل شده‌است:

۱.شروع خوشه بندی با در نظر گرفتن سطح L (0) = ۰ و شماره‌های متوالی m = ۰.

۲.یافتن جفت خوشه ای مشابه در خوشه بندی فعلی، مانند جفت‌های (r) و (s) که طبق اینکه [(d[(r),(s برابر [(max d[(i),(j است در جایی که بیش از همه جفت خوشه در خوشه فعلی است.

۳.افزایش شماره متوالی: m = m + 1 و خوشه‌های (r) و (s) را به یک خوشه واحد برای تشکیل خوشه بندی بعدی m بپیوندانید. سطح این خوشه بندی را به [(L(m) = d[(r),(s تنظیم کنید.

۴.به روز رسانی ماتریس مجاورت D، با حذف سطر و ستون مربوط به خوشه (r) و (s) و با اضافه کردن یک سطر و ستون مربوط به خوشه تازه شکل گرفته انجام می‌شود. نزدیکی بین خوشه جدید، نشان داده شده با (r, s) و خوشه قدیمی با (k) به عنوان [( d[(k), (r,s )] = max d[(k),(r)], d[(k),(s است.

۵.اگر تمام اجسام در یک خوشه قرار داشته باشند، متوقف شوند و بعد به مرحله ۲ بروید.

طرح مطلوب کارآمد

الگوریتم توضیح داده شده در بالا آسان است اما پیچیدگی O(n3)را دارد.در ماه مه ۱۹۷۶، D. Defays یک الگوریتم بهینه کارآمد با پیچیدگی O(n3)پیشنهاد کرد که با عنوان شناخته شده به CLINK است (منتشر شده در سال 1977)[۴] و با الگوریتم SLINK الگوریتم مشابه برای خوشه‌بندی‌تک‌لینک است.

مثال عملی

مثال عملی بر اساس ماتریس فاصله ژنتیکی JC69 محاسبه شده از 5S ribosomal RNA که تراز توالی پنج باکتری است محاسبه شده‌است: (Bacillus subtilis (a و (Bacillus stearothermophilus (b و (Lactobacillus viridescens (c و (Acholeplasma modicum (d و (Micrococcus luteus (e.[۵][۶]

گام اول

  • خوشه اول

فرض کنیم که ما پنج عنصر (a,b,c,d,e) و ماتریس D1 فاصله جفتی بین آنها است:

e d c b a
۲۳ ۳۱ ۲۱ ۱۷ ۰ a
۲۱ ۳۴ ۳۰ ۰ ۱۷ b
۳۹ ۲۸ ۰ ۳۰ ۲۱ c
۴۳ ۰ ۲۸ ۳۴ ۳۱ d
۰ ۴۳ ۳۹ ۲۱ ۲۳ e

در این مثال، D1(a,b)=17 کوچکترین مقدار D1هست، بنابراین ما به عناصر a و b می‌پیوندیم.

  • ارزیابی طول شاخه اول

فرض کنید uنشان دهنده گره ای است که به آن a و b وصل شده‌است. δ(a,u)=δ(b,u)=D1(a,b)/2 تضمین می‌کند که عناصر a و b برابر u برابر است. این مربوط به انتظار از فرضیه ultrametricity است؛ بنابراین شاخه پیوستن aو b به u، δ(a,u)=δ(b,u)=17/2=8.5طول دارد.

  • اولین بروزرسانی ماتریس فاصله

سپس ماتریس D1 ماتریس مجاورت ماتریس اولیه را در یک ماتریس مجاور جدید D2(به پایین نگاه کنید) به روز رسانی می‌کنیم، به دلیل خوشه بندی a با b، اندازه یک سطر و یک ستون کاهش می‌یابد. مقادیر پررنگ در D2 با فاصله‌های جدید مطابقت دارند، که با حفظ حداکثر فاصله بین هر عنصر خوشه اول (a,b)و هر یک از عناصر باقی مانده محاسبه می‌شود:D2((a,b),c)=max(D1(a,c),D1(b,c))=max(21,30)=30

D2((a,b),d)=max(D1(a,d),D1(b,d))=max(31,34)=34

D2((a,b),e)=max(D1(a,e),D1(b,e))=max(23,21)=23

ارزش خمیده در D2 با به روز رسانی ماتریس تحت تأثیر قرار نمی‌گیرند زمانی که آنها را به فاصله بین عناصر در خوشه اول درگیر نیست مطابقت دارد.

گام دوم

  • خوشه دوم

اکنون ما سه مرحله قبلی را دوباره شروع می‌کنیم، از ماتریس فاصله جدید D2شروع می‌کنیم:

e d c (a,b)
۲۳ ۳۴ ۳۰ ۰ (a,b)
۳۹ ۲۸ ۰ ۳۰ c
۴۳ ۰ ۲۸ ۳۴ d
۰ ۴۳ ۳۹ ۲۳ e

اینجا، D2((a,b),e)=23پایین‌ترین مقدار D2را دارد، بنابراین به خوشه (a,b)با عنصر eمی‌پیوندیم.

  • ارزیابی طول شاخه دوم

فرض کنید uنشان دهنده گره ای است که به آن (a,b) و e وصل شده‌اند. به دلیل محدودیت ultraetricity، شاخه‌های پیوستن aیا bبه v و e به v، مساوی هستند و طول کل زیر را دارند:

δ(a,v)=δ(b,v)=δ(e,v)=23/2=11.5

ما طول شاخه گمشده را می‌بینیم: δ(u,v)=δ(e,v)δ(a,u)=δ(e,v)δ(b,u)=11.58.5=3

  • به روز رسانی دوم ماتریس فاصله

سپس در جهت به روز رسانی ماتریس D2ماتریس به یک ماتریس فاصله جدید D3 (پایین را ببینید) به روز رسانی می‌کنیم، در اندازه یک سطر و یک ستون به دلیل خوشه بندی (a,b)با e کاهش می‌یابد:

D3(((a,b),e),c)=max(D2((a,b),c),D2(e,c))=max(30,39)=39

D3(((a,b),e),d)=max(D2((a,b),d),D2(e,d))=max(34,43)=43

گام سوم

  • خوشه سوم

ما دوباره سه گام قبلی را، با شروع از ماتریس فاصله D3 به روز شده، تکرار می‌کنیم:

d c (a,b),e))
۴۳ ۳۹ ۰ (a,b),e))
۲۸ ۰ ۳۹ c
۰ ۲۸ ۴۳ d

اینجا،D3(c,d)=28کوچکترین مقدار ماتریس D3هست، بنابراین ما به عناصر c , d می‌پیوندیم.

  • ارزیابی طول شاخه سوم

فرض کنید wنشان دهنده گره ای است که به cو dوصل شده‌است؛ بنابراین شاخه‌های cو d به wطول می‌پیوندند: δ(c,w)=δ(d,w)=28/2=14

  • به روز رسانی سوم ماتریس فاصله

یک ورودی برای به روز رسانی وجود دارد: D4((c,d),((a,b),e))=(D3(c,((a,b),e)),D3(d,((a,b),e)))=(39,43)=43

گام نهایی

ماتریس نهایی D4برابر است با:

(c,d) (a,b),e))
۴۳ ۰ (a,b),e))
۰ ۴۳ (c,d)

بنابراین ما خوشه‌های ((a,b),e) و (c,d) پیوند می‌دهیم.

فرض کنید r(سر راس) نشان دهنده گره ای است که به ((a,b),e) و (c,d) وصل شده‌است.

شاخه‌های پیوستگی ((a,b),e) و (c,d)به rمی‌پیوندند که دارای طول عبارت پایین هستند:

δ(((a,b),e),r)=δ((c,d),r)=43/2=21.5

ما دو طول شاخه باقی مانده را می‌بینیم:

δ(v,r)=δ(((a,b),e),r)δ(e,v)=21.511.5=10

δ(w,r)=δ((c,d),r)δ(c,w)=21.514=7.5

نمودار پیوند کامل

الگو:Anchor

WPGMA Dendrogram 5S data
WPGMA Dendrogram 5S data

این نمودار که اکنون کامل شده‌است، یک ultrametric است. به دلیل تمام رنوک‌های (a,e)برابر با r است:

δ(a,r)=δ(b,r)=δ(e,r)=δ(c,r)=δ(d,r)=21.5

این نمودار توسط r ریشه شده‌است، این گره عمیق‌ترین گره نمودار است.

مقایسه با دیگر پیوندها

طرح‌های جایگزین پیوند شامل خوشه بندی تک اتصال و خوشه بندی پیوند متوسط است - پیاده‌سازی پیوندهای مختلف در الگوریتم ساده است، صرفاً استفاده از فرمول‌های مختلف برای محاسبه فاصله بین خوشه ای در محاسبه اولیه ماتریس مجاورت و در مرحله ۴ از بالا الگوریتم است. یک الگوریتم بهینه کارآمد است با این حال برای ارتباط خودسرانه در دسترس نیست. فرمول که باید تنظیم شود با استفاده از متن جسور برجسته شده‌است.

خوشه بندی کامل پیوند، از روش پیوند تک جایگزین اجتناب می‌کند - پدیده به اصطلاح زنجیره ای، جایی که خوشه‌ها از طریق خوشه بندی پیوندی یکپارچه تشکیل داده‌اند، به دلیل اینکه عناصر مجاور نزدیک به یکدیگر هستند، حتی اگر بسیاری از عناصر در هر خوشه ممکن است بسیار دور از هم باشد. پیوند کامل برای یافتن خوشه‌های فشرده تقریباً یکسان است.[۷]

مقایسه دندروگرامهای به دست آمده تحت روش‌های خوشه بندی متفاوت از ماتریس فاصله یکسان
خوشه بندی تک لینک خوشه بندی پیوند کامل خوشه بندی میانگین اتصال: WPGMA خوشه بندی میانگین اتصال: UPGMA

جستارهای وابسته

منابع

الگو:پانویس

برای مطالعهٔ بیشتر