یادگیری تک شات
یادگیری تک شات الگو:انگلیسی، یک مسئله طبقه بندی اشیا، بیشتر در مسائل بینایی ماشین، میباشد. در حالی که اکثر الگوریتمهای دستهبندی اشیاء مبتنی بر یادگیری ماشین، برای آموزش صدها یا هزاران مثال نیاز دارند، هدف یادگیری One-Shot یا تکشات، طبقهبندی اشیا از یک یا تنها چند مثال است. اصطلاح یادگیری چند شات (Few-shot learning) نیز برای این مسائل استفاده می شود، به خصوص زمانی که به بیش از یک مثال نیاز باشد.
انگیزه
توانایی یادگیری دسته بندی اشیاء از چند نمونه و با سرعت سریع در انسان اثبات شده است.[۱][۲] تخمین زده می شود که یک کودک تقریباً تمام 10 تا 30 هزار دسته شی در جهان را در سن شش سالگی یاد می گیرد.[۳] این نه تنها به دلیل قدرت محاسباتی ذهن انسان است، بلکه به دلیل توانایی آن در ترکیب و یادگیری دستههای اشیاء جدید از اطلاعات موجود در مورد دستههای مختلف و قبلاً آموخته شده است. دو مثال از دو دسته شیء ارائه شده است: یک، یک شی ناشناخته که از اشکال آشنا تشکیل شده است، دوم، یک شکل ناشناخته و بی شکل. تشخیص دسته اولی برای انسان بسیار آسان تر از دومی است، که نشان می دهد انسان ها هنگام یادگیری دسته بندی های جدید از مقوله هایی که قبلا آموخته اند استفاده کنند. انگیزه اصلی برای حل یادگیری تک شات این است که سیستمها، مانند انسانها، میتوانند از دانش در مورد دستهبندی اشیا برای طبقهبندی اشیاء جدید استفاده کنند.
پیشینه
مانند بسیاری از روشهای طبقهبندی، یادگیری تکشات شامل سه چالش اصلی است:
- نمایش: اشیاء و دسته بندی ها چگونه باید توصیف شوند؟
- یادگیری: چگونه می توان چنین توصیفاتی ایجاد کرد؟
- تشخیص: چگونه می توان یک شی شناخته شده را بدون در نظر گرفتن نقطه دید و نور و کلاتر فیلتر کرد؟
یادگیری تک شات با تاکید بر انتقال دانش، که از مقولههای قبلاً آموخته شده استفاده میکند، با الگوریتمهای تشخیص تک شی و تشخیص دسته استاندارد متفاوت است.
- پارامترهای مدل: از پارامترهای مدل بر اساس شباهت بین دسته های قدیمی و جدید استفاده مجدد می شود. دستهها ابتدا بر روی مثالهای آموزشی متعددی آموخته میشوند، سپس دستههای جدید با استفاده از تبدیل پارامترهای مدل از آن دستههای اولیه یا انتخاب پارامترهای مرتبط برای یک طبقهبندیکننده، یاد گرقته میشوند.
- شتراکگذاری ویژگی: بخشها یا ویژگیهای اشیاء را در دستهها به اشتراک میگذارد. یک الگوریتم با به حداکثر رساندن اطلاعات متقابل وصلهها، «اطلاعات تشخیصی» را در وصلهها از دستههای قبلاً آموختهشده استخراج میکند، و سپس این ویژگیها را برای یادگیری یک دسته جدید اعمال میکند. به عنوان مثال، یک دسته ی سگ ممکن است در یک عکس از دانش قبلی در مورد دستههای اسب و گاو آموخته شود، زیرا اشیاء سگ ممکن است دارای تکههای متمایز مشابهی باشند.
- اطلاعات متنی: به دانش کلی از صحنه ای که شی در آن ظاهر می شود متوسل می شود. چنین اطلاعات کلی را می توان به عنوان توزیع فرکانس در یک چارچوب میدانی تصادفی شرطی برای شناسایی اشیا استفاده کرد. همچنین می توان ارتفاع دوربین و هندسه صحنه را در نظر گرفت. الگوریتم های این نوع دو مزیت دارند. اول، آنها دسته بندی اشیا را یاد می گیرند که نسبتاً متفاوت هستند. و دوم، آنها در موقعیتهای موقتی که تصویری با دست برش و تراز نشده است، عملکرد خوبی دارند.
تئوری
الگوریتم یادگیری تک شات بیزین پیش زمینه و پسزمینه تصاویر را که توسط ترکیبی از مدلهای صورت فلکی پارامتر شده است، نشان میدهد. در طول مرحله یادگیری، پارامترهای این مدلها با استفاده از پارامتر توزیع مزدوج پیشین و انتظار-بیشینهسازی متغیر بیزی (VBEM) آموخته میشوند. در این مرحله، دستههای اشیایی که قبلاً آموختهاند، انتخاب پارامترهای مدل را از طریق انتقال توسط اطلاعات متنی اطلاع میدهند. برای تشخیص شی در تصاویر جدید، احتمال پسین به دست آمده در طول مرحله یادگیری، در چارچوب تصمیم بیزی برای تخمین نسبت p(object | test, train) به p(background clutter | test, train) استفاده میشود که در آن p احتمال نتیجه است.
چارچوب بیزین
با توجه به وظیفه یافتن یک شی خاص در یک تصویر، هدف کلی الگوریتم یادگیری تک شات بیزی، مقایسه احتمال وجود شی در مقابل احتمال وجود فقط درهم ریختگی پسزمینه است. گر احتمال اولی بیشتر باشد، الگوریتم وجود شی را گزارش می کند، در غیر این صورت الگوریتم عدم وجود آن را گزارش می کند. برای محاسبه این احتمالات، کلاس شی باید از مجموعه ای از (1 تا 5) تصاویر آموزشی حاوی مثال ها مدل شود. برای رسمیسازی این ایدهها، اجازه دهید I تصویر درخواستی باشد، که شامل نمونهای از دسته پیشزمینه یا ا فقط درهم ریختگی پسزمینه یک دسته پسزمینه عمومی است .