پیشنویس:الکس نت
"این مقاله در حال ترجمه از ویکی انگلیسی است. لطفا حذف نشود."
AlexNet نام یک معماری شبکه عصبی کانولوشن (CNN) است که توسط Alex Krizhevsky با همکاری Ilya Sutskever و Geoffrey Hinton طراحی شد. جفری هینتون مشاور دکترای الکس کریژفسکی در دانشگاه تورنت بوده است. [۱]
AlexNet در چالش تشخیص تصویری در مقیاس بزرگ ImageNet در 30 سپتامبر 2012 رقابت کرد [۲] این شبکه به خطای 15.3 درصدی در top-5 error دست یافت که بیش از 10.8 درصد کمتر از رتبه دوم بود. top-5 error نشان دهنده درصد تعداد دفعاتی است که گروه یا دسته صحیح عکس حتی در بین ۵ پیشبینی برتر مدل مدل وجود ندارد. نتیجه اولیه مقاله اصلی این بود که عمق مدل برای عملکرد بالای آن ضروری بود، که از نظر محاسباتی گران بود، اما به دلیل استفاده از واحدهای پردازش گرافیکی (GPU) در طول آموزش، امکان پذیر شد.
پیشینه تاریخی
AlexNet اولین شبکه عصبی کانولوشنی پیادهسازی شده سریع با GPU نبود که در مسابقه تشخیص تصویر برنده شد. CNN در GPU توسط K. Chellapilla و همکاران (نوشته شده در ۲۰۰۶) ۴ برابر سریعتر از یک پیاده سازی معادل روی CPU بود. [۳] یک CNN عمیق از Dan Cireșan و همکاران. (2011) در IDSIA در حال حاضر ۶۰ برابر سریعتر بود [۴] و در آگوست ۲۰۱۱ از پیشینیان عملکرد بهتری داشت [۵] بین ۱۵ می ۲۰۱۱ و ۱۰ سپتامبر ۲۰۱۲، CNN آنها در حدودا چهار مسابقه تصویر برنده شد. [۶] آنها همچنین به طور قابل توجهی بهترین عملکرد در ادبیات را برای پایگاه داده های تصویری متعدد بهبود دادند. [۷]
با توجه به مقاله AlexNet، شبکه قبلی Cireșan تا حدودی مشابه AlexNet است. در اصل هر دو با CUDA نوشته شده بودند تا با پشتیبانی از GPU اجرا شوند. در واقع، هر دو در واقع انواعی از طرحهای CNN هستند که توسط Yann LeCun و همکاران در سال ۱۹۸۹ معرفی شدهاند [۸] [۹] که الگوریتم انتشار به سمت عقب را به گونهای از معماری اصلی CNN معرفی شده توسط کونیهیکو فوکوشیما به نام " نئوگنیترون " اعمال کرد. [۱۰] [۱۱] معماری بعدها با روش J. Weng به نام max-pooling اصلاح شد. [۱۲] [۱۳] مکس پولینگ یک تکنیک در CNN میباشد که وظیفه downsampling را دارد. به کاهش ابعاد داده (مثلا عکس) با خلاصه کردن اطلاعات موجود در آن downsampling گفته میشود.
طراحی شبکه
الکس نت شامل هشت لایه است: پنج لایه اول لایه های کانولوشن هستند، بعد برخی از لایههای آنها max-pooling میآید و سه لایه آخر لایه های fully connected (کاملاً متصل) هستند. شبکه، به جز آخرین لایه، به دو نسخه تقسیم می شود که هر کدام روی یک GPU اجرا می شوند.
شبکههای کاملاً متصل شبکههای هستند که در آنها تمامی نورونهای موجود در یک لایه به تمامی نورونهای موجود در لایه بعد خود متصل است و به این گونه وظیفه تعیین دسته را در شبکه CNN به عهده خواهند داشت.
کل ساختار را می توان به صورت زیر نوشت:
- CNN = لایه کانولوشنی (با تابع فعال سازی ReLU)
- RN = نرمال سازی پاسخ محلی
- MP = مکس پولینگ
- FC = لایه کاملا متصل (با تابع فعال سازی ReLU)
- خطی = لایه کاملا متصل (بدون تابع فعال سازی)
- DO = بیرون ریختن برخی از نرون ها
این ساختار از تابع فعالسازی غیراشباع ReLU استفاده کرد که عملکرد تمرینی بهتری را نسبت به توابع فعال سازی tanh و sigmoid نشان داد.
نفوذ
بی شک AlexNet یکی از تأثیرگذارترین مقالات منتشر شده در زمینه بینایی کامپیوتر است، که باعث شد مقالات متعددی با استفاده از CNN و با به کارگیری GPU برای تسریع یادگیری عمیق منتشر شوند. [۱۴]
بینایی کامپیوتر هوشی مصنوعی است که رایانهها را قادر میسازد تا دنیای بصری را از طریق تجزیه و تحلیل تصویر و ویدیو «دیدن» و درک کنند.
طبق گفته سایت Google Scholar تا اوایل سال 2023، مقاله AlexNet بیش از 120000 بار مورد استناد قرار گرفته است. [۱۵]