دقت و بازیابی

دقت و بازیابی (الگو:Lang-en) یا دقت و بازیافت در بازشناخت الگو، بازیابی اطلاعات و طبقهبندی آماری کاربرد دارند. در حوزه یادگیری ماشینی، Precision به معنای درصدی از پیشبینیهای مدل که مرتبط هستند ولی recall اشاره به درصدی از کل پیشبینیهایی که توسط مدل درست دستهبندیشدهاند. به بیان سادهتر، «دقت» به این سؤال پاسخ میدهد که «چه مقدار از مواردی که شناسایی کردیم، درست بودند؟» و «بازیابی» به این سؤال پاسخ میدهد که «چه مقدار از مواردی که باید شناسایی میکردیم را شناسایی کردیم؟»[۱].
Recall برابر است با تقسیم تعداد مواردی که توسط مدل درست تشخیص دادهاند شده بر تعداد کل مواردی که توسط مدل ایجاد شدهاند و Precision برابر است با تقسیم تعداد مواردی که توسط مدل درست تشخیص داده شدهاست بر تعداد مواردی که واقعاً درست هستند، درست تشخیص داده شدهاند.
به عنوان مثال یک الگوریتم یادگیری ماشینی از میان ۱۲ تصویر سگ و گربه ۸ مورد سگ را تشخیص میدهد. از ۸ سگ ۵ مورد واقعاً سگ هستند (مثبت درست یا true positives) و ۳ مورد دیگر گربه هستند؛ که مثبت نادرست یا false positives هستند. مقدار precision برابر با ۵/۸ است و مقدار recall برابر با ۵/۱۲ هست.
وقتی موتور جستجو ۳۰ صفحه را بازمیگرداند و فقط ۲۰ موردش مرتبط هستند و به اشتباهاً ۴۰ مورد دیگر که مرتبط بودند را بازنمیگرداند. مقدار precision برابر با ۲۰/۳۰ = ۲/۳ و مقدار recall برابر با ۲۰/۶۰ = ۱/۳ است.
در نتیجه در این مورد precision نشان میدهد که چقدر موتور جستجو به درد بخور است و recall نشان میدهد که چه مقدار پاسخش کامل و جامع هست.
فرمول
تفاوت Accuracy, Precision, Recall و Specificity
به عنوان مثال قصد داریم طی یک روند یادگیری نظارتشده مدلی برای پیشبینی بیماری سرطان ایجاد کنیم. برای آموزش مدل یک جامعه آماری تهیه میکنیم که تعدادی بیمار واقعاً سرطان درند و تعدادی هم ندارند و مدل را به کمک بخش آموزش، ایجاد میکنیم و بر روی بخش آزمون یا شاهد آن را اجرا میکنیم تا میزان خطا یا دقت مدل را بررسی کنیم.
- specificity عبارت است از کسری از جوابهای منفی که به درستی تشخیص داده شدهاست مثلاً درصد افرادی که طبق پیشبینی مدل سرطان ندارند و در دنیای واقعی هم سرطان ندارند.
- recall یا sensitivity یا بازیابی عبارتست از کسری از جوابهای مثبت که درست تشخیص داده شدهاند مثلاً درصد افرادی که طبق پیشبینی مدل سرطان دارند و در دنیای واقعی هم سرطان دارند.
- accuracy یا صحت یعنی مقدار اندازهگیری شده چقدر به مقدار واقعی نزدیک است برای accuracy باید precision بالا باشد ولی برعکسش لزوماً برقرار نیست. بالا بودن بایاس و واریانس به معنای accuracy کم است.
- precision یا دقت برای اندازهگیریهای متوالی از یک مقدار میزان نزدیک بودن مقدارهای اندازهگیری را نشان میدهد. مثلاً اگر یک ساعت هر روز فقط ۲ ساعت جلو رود مقدار accuracy یا صحتش پایین است ولی مقدار precision آن بالاست.
الگو:نمودار آزمون و تشخیص الگو:واژگان ماتریس درهمریختگی الگو:پاککن