میدان‌های تصادفی شرطی کاملا متصل در ناحیه‌بندی تصاویر

از testwiki
نسخهٔ تاریخ ۷ سپتامبر ۲۰۲۰، ساعت ۲۲:۲۴ توسط imported>Luckie Luke (+ رده:مدل‌های گرافیکی (هات‌کت))
(تفاوت) → نسخهٔ قدیمی‌تر | نمایش نسخهٔ فعلی (تفاوت) | نسخهٔ جدیدتر ← (تفاوت)
پرش به ناوبری پرش به جستجو

الگو:عنوان مقاله الگو:بهبود منبع یکی از چالش برانگیزترین مسائل در زمینه بینایی کامپیوتر، بخش‌بندی و طبقه‌بندی تصاویر چند طبقه است. هدف این است که هر پیکسل تصویر را با یکی از چند طبقه هدف برچسب گذاری کنیم، در نتیجه به صورت همزمان شناسایی و بخش‌بندی کلاس‌ها را انجام می‌دهیم. یک روش معمول این است که این مشکل را به عنوان حداکثر یک احتمال پسین (به انگلیسی: maximum a posterior) استنتاج کنیم که در یک میدان تصادفی شرطی (به انگلیسی: Conditional Random Field) بر روی پیکسل یا لکه‌های تصویری تعریف می‌شود.

پتانسیل‌های CRF، شرایط هموارسازی را ایجاد می‌کند که توافقنامه برچسب را بین پیکسل‌های مشابه به حداکثر می‌رساند، و می‌تواند شرایط پیچیده‌تری را که روابط زمینه‌ای بین کلاس‌ها را مدل می‌کنند، ادغام کند.

مدل‌های CRF پایه از پتانسیل‌های تکی (به انگلیسی: unary) بر روی پیکسل‌های تصویر و پتانسیل دوگانه در مورد پیکسل‌های مجاور تصویر تشکیل شده‌اند.

توانایی ساختار CRF برای مدل‌سازی ارتباطات دوربرد در درون تصویر محدود است و به‌طور کلی موجب هموارسازی بیش از حد مرز اشیا می‌شود. به منظور بهبود دقت تقسیم‌بندی و برچسب زدن، محققان چارچوب بنیادی CRF پایه را برای ترکیب اتصال سلسله مراتبی و پتانسیل‌های مرتبه بالاتر در تمامی تصویر گسترش داده‌اند.

مدل میدان‌های تصادفی شرطی کاملاً متصل[۱]

یک میدان تصادفی X را در نظر بگیرید که بر روی مجموعه‌ای از متغیرها {X0,X1,...,XN} تعریف می‌شود. دامنه هر متغیر مجموعه‌ای از برچسب‌های {L0,L1,...Lk} = L است. یک میدان تصادفی I را نیز در نظر بگیرید که در آن متغیرهای {I0,I1,...,IN} تعریف شده‌اند. در تنظیمات ما، I تصاویر ورودی است و X برچسب‌های مختلفی است که می‌توان به تصویر نسبت داد . Ijبردار رنگ تصویر jام را مشخص می‌کند وXjبرچسبی که به پیکسل‌های آن اختصاص داده می‌شود را مشخص می‌کند.

میدان‌های تصادفی شرطی کاملاً متصل (I,X) با استفاده از توزیع گییبز به صورت زیر نشان داده می‌شود:

P(X|I)=1Z(I)exp(cς𝒈Φc(Xc|I))

که در آن 𝒈=(υ,ε)یک گراف روی X است و هر کلیک 𝒄درون مجموعهٔ ς𝒈نشان‌دهندهٔ Φ𝒄است.

انرژی گییبز برچسب XLNبرابر E(x|I)=𝒄ς𝒈Φc(xc|I)است.

برچسب گذاری ای که دارای بیشترین احتمال وقوع است برابر است با: x*=argmaxxLNP(xc|I)

ما در ادامه به جای Φc(xc|I)از Ψc(xc)استفاده می‌کنیم.

در مدل پیوند جفتی کاملاً متصل، 𝒈 یک گراف کامل روی X و 𝒄𝒈 مجموعه تمام ویژگی‌های تکی و جفتی آن است. انرژی گیبس مربوطه به صورت زیر است:

E(X)=iΨu(xi)+i<jΨp(xi,xj)

که در آن i و j از ۱ تا N متغیر هستند. پتانسیل تکی،Ψu(xi) به صورت مستقل برای هر پیکسل توسط یک طبقه‌بندی کننده که توزیع روی برچسب xiاست محاسبه می‌شود. این پتانسیل‌ها برای بیان رابطه بین شکل، بافت، مکان، و رنگ استفاده می‌شوند.

از آنجایی که خروجی طبقه‌بندی کننده تکی برای هر پیکسل به‌طور مستقل از خروجی‌های طبقه‌بندی کننده‌ها برای پیکسل‌های دیگر تولید می‌شود، خروجی برچسب خورده به شدت نویزی است. از این رو ما رابطه پتانسیل بین پیکسل‌ها را به صورت زیر تعریف می‌کنیم:

ΨP(xi,xj)=μ(xi,xj)m=1kw(m)k(m)(fi,fj)الگو:سخکه در آن هر k(m)یک کرنل گوسی برای رابطه k(m)(fi,fj)است و رابطهٔ (fi,fj)نشان‌دهندهٔ بردار ویژگی‌های دودویی است که ما برای آن تعریف کرده‌ایم؛ که این بردار ویژگی می‌تواند اختلاف رنگ دو پیکسل یا اختلاف مکانی آن دو باشد.

k(fi,fj)=w(1)exp(|pipj|22θα2|IiIj|22θβ2)+w(2)exp(|pipj|22θγ2) تابع سازگاری با برچسب ساده μ توسط مدل Potts معرفی می‌شودو یک پنالتی را برای پیکسل‌های مرتبط با هم به برچسب‌های مختلف در نظر می‌گیرد.

روش استدلال بهینه درمیدان‌های تصادفی شرطی کاملاً متصل

الگوریتم ما براساس یک تقریب میدان میانگین از توزیع crf عمل می‌کند. این بخش یک الگوریتم انتقال پیام تکراری را برای استنباط تقریبی ارایه می‌دهد. مشاهده کلیدی ما این است که انتقال پیام در مدل ارائه‌شده می‌تواند با استفاده از فیلترینگ گاوسی در فضای ویژگی انجام شود. این امر ما را قادر می‌سازد که از تقریب‌های بسیار مؤثر برای فیلترینگ با ابعاد بالا استفاده کنیم، که پیچیدگی ارسال پیام را از درجه دو به خطی کاهش می‌دهد، که در نتیجه یک الگوریتم استنباطی تقریبی به دست می‌آید که خطی و با درجه تعداد متغیر N است.

روش میدان میانگین

به جای محاسبه توزیع دقیق (x)P, تقریب میدان میانگین یک توزیع Q(x) را محاسبه می‌کند که رابطه کولبک-لیبلر را به حداقل می‌رساند. این رابطه به صورت زیر تعریف می‌شود:

KL(q||p)=zq(z)log(q(z)/p(z|x))dz=E[log(q(z)/p(z|x))]

از آنجایی که تمام توابع توزیع Q می‌تواند به صورت یک محصول حاشیه مستقل بیان شود داریم : Q(X)=iQi(Xi)

حداقل‌سازی رابطه بالا با فرض موجود بودن Qi(Xi) و Q(X)معادله هنگام‌سازی تکراری زیر را به ما می‌دهد:

Qi(xi=1)=1z(i)exp(Ψu(xi)lLμ(l,l)m=1kw(m)jik(m)(fi,fj)Qj(l))که این الگوریتم به صورت جزئی در هر مرحله به صورت زیر عمل می‌کند:

هر بار تکرار الگوریتم بالا یک مرحله انتقال پیام، یک تبدیل سازگاری و یک به روزرسانی محلی را انجام می‌دهد. هم تغییر سازگاری و هم به روز رسانی محلی در زمان خطی انجام می‌شوند و بسیار کارآمد هستند. ستون فقرات محاسبات قسمت انتقال پیام است. برای هر متغیر این مرحله مستلزم ارزیابی مجموع تمام متغیرهای دیگر است. در نتیجه یک پیاده‌سازی ساده، پیچیدگی درجه‌دوم از تعداد متغیر N دارد. سپس، نشان می‌دهیم که چگونه فیلتر کردن ابعادی بالا می‌تواند برای کاهش هزینه محاسباتی ارسال پیام مورد استفاده قرار گیرد.

روش ارسال پیغام بهینه با استفاده از فیلترهای ابعاد بالا

از دیدگاه پردازش سیگنال، مرحله عبور پیام می‌تواند با کانولوشن با یک هسته گاوسی G(m) در فضای ویژگی بیان شود و رابطه آن به صورت زیر است:

Q~im(l)=jυk(m)(fi,fj)Qj(l)Qi(l)=[G(m)Q(l)](fi)Qi(l)

دلیل اینکه Qiرا از حاصل کم می‌کنیم به دلیل این است که کانولوشن روی همهٔ متغیر هاانجام می‌شود اما ما حاصل جمع را روی همهٔ عوامل غیر از خود iمی‌خواهیم. این کانولوشن یک فیلتر پایین گذر که اساساً باند محدود کننده است پیاده‌سازی می‌کند.

با استفاده از قضیه نمونه‌برداری این تابع را می‌توان از مجموعه‌ای از نمونه‌هایی که فاصله‌گذاری آن متناسب با انحراف استاندارد فیلتر است، بازسازی نمود.

منابع

الگو:پانویس