پیش‌نویس:الکس نت

از testwiki
پرش به ناوبری پرش به جستجو

"این مقاله در حال ترجمه از ویکی انگلیسی است. لطفا حذف نشود."

AlexNet نام یک معماری شبکه عصبی کانولوشن (CNN) است که توسط Alex Krizhevsky با همکاری Ilya Sutskever و Geoffrey Hinton طراحی شد. جفری هینتون مشاور دکترای الکس کریژفسکی در دانشگاه تورنت بوده است. [۱]

AlexNet در چالش تشخیص تصویری در مقیاس بزرگ ImageNet در 30 سپتامبر 2012 رقابت کرد [۲] این شبکه به خطای 15.3 درصدی در top-5 error دست یافت که بیش از 10.8 درصد کمتر از رتبه دوم بود. top-5 error نشان دهنده درصد تعداد دفعاتی است که گروه یا دسته صحیح عکس حتی در بین ۵ پیشبینی برتر مدل مدل وجود ندارد. نتیجه اولیه مقاله اصلی این بود که عمق مدل برای عملکرد بالای آن ضروری بود، که از نظر محاسباتی گران بود، اما به دلیل استفاده از واحدهای پردازش گرافیکی (GPU) در طول آموزش، امکان پذیر شد.

پیشینه تاریخی

AlexNet اولین شبکه عصبی کانولوشنی پیاده‌سازی شده سریع با GPU نبود که در مسابقه تشخیص تصویر برنده شد. CNN در GPU توسط K. Chellapilla و همکاران (نوشته شده در ۲۰۰۶) ۴ برابر سریعتر از یک پیاده سازی معادل روی CPU بود. [۳] یک CNN عمیق از Dan Cireșan و همکاران. (2011) در IDSIA در حال حاضر ۶۰ برابر سریعتر بود [۴] و در آگوست ۲۰۱۱ از پیشینیان عملکرد بهتری داشت [۵] بین ۱۵ می ۲۰۱۱ و ۱۰ سپتامبر ۲۰۱۲، CNN آنها در حدودا چهار مسابقه تصویر برنده شد. [۶] آنها همچنین به طور قابل توجهی بهترین عملکرد در ادبیات را برای پایگاه داده های تصویری متعدد بهبود دادند. [۷]

با توجه به مقاله AlexNet، شبکه قبلی Cireșan تا حدودی مشابه AlexNet است. در اصل هر دو با CUDA نوشته شده بودند تا با پشتیبانی از GPU اجرا شوند. در واقع، هر دو در واقع انواعی از طرح‌های CNN هستند که توسط Yann LeCun و همکاران در سال ۱۹۸۹ معرفی شده‌اند [۸] [۹] که الگوریتم انتشار به سمت عقب را به گونه‌ای از معماری اصلی CNN معرفی شده توسط کونیهیکو فوکوشیما به نام " نئوگنیترون " اعمال کرد. [۱۰] [۱۱] معماری بعدها با روش J. Weng به نام max-pooling اصلاح شد. [۱۲] [۱۳] مکس پولینگ یک تکنیک در CNN می‌باشد که وظیفه downsampling را دارد. به کاهش ابعاد داده (مثلا عکس) با خلاصه کردن اطلاعات موجود در آن downsampling گفته می‌شود.

طراحی شبکه

الکس نت شامل هشت لایه است: پنج لایه اول لایه های کانولوشن هستند، بعد برخی از لایه‌های آنها max-pooling می‌آید و سه لایه آخر لایه های fully connected (کاملاً متصل) هستند. شبکه، به جز آخرین لایه، به دو نسخه تقسیم می شود که هر کدام روی یک GPU اجرا می شوند.

شبکه‌های کاملاً متصل شبکه‌های هستند که در آنها تمامی نورون‌های موجود در یک لایه به تمامی نورون‌های موجود در لایه بعد خود متصل است و به این گونه وظیفه تعیین دسته را در شبکه CNN به عهده خواهند داشت.

کل ساختار را می توان به صورت زیر نوشت: (CNNRNMP)2(CNN3MP)(FCDO)2Linearsoftmax

  • CNN = لایه کانولوشنی (با تابع فعال سازی ReLU)
  • RN = نرمال سازی پاسخ محلی
  • MP = مکس پولینگ
  • FC = لایه کاملا متصل (با تابع فعال سازی ReLU)
  • خطی = لایه کاملا متصل (بدون تابع فعال سازی)
  • DO = بیرون ریختن برخی از نرون ها

این ساختار از تابع فعال‌سازی غیراشباع ReLU استفاده کرد که عملکرد تمرینی بهتری را نسبت به توابع فعال سازی tanh و sigmoid نشان داد.

نفوذ

بی شک AlexNet یکی از تأثیرگذارترین مقالات منتشر شده در زمینه بینایی کامپیوتر است، که باعث شد مقالات متعددی با استفاده از CNN و با به کارگیری GPU برای تسریع یادگیری عمیق منتشر شوند. [۱۴]

بینایی کامپیوتر هوشی مصنوعی است که رایانه‌ها را قادر می‌سازد تا دنیای بصری را از طریق تجزیه و تحلیل تصویر و ویدیو «دیدن» و درک کنند.

طبق گفته سایت Google Scholar تا اوایل سال 2023، مقاله AlexNet بیش از 120000 بار مورد استناد قرار گرفته است. [۱۵]

منابع