با استفاده از ROC برای تعیین نقطه برش

ساخت وبلاگ

تفسیر منحنی های ROC لجستیک

منحنی های ROC در رگرسیون لجستیک برای تعیین بهترین مقدار برش برای پیش بینی اینکه آیا یک مشاهده جدید "شکست" (0) یا "موفقیت" است (1) استفاده می شود. اگر با منحنی های ROC آشنا نیستید ، می توانند برای درک آن تلاش کنند. نمونه ای از منحنی ROC از رگرسیون لجستیک در زیر نشان داده شده است.

اول ، بیایید آنچه را که یک برش طبقه بندی در واقع انجام می دهد ، پوشش دهیم. هنگامی که یک برش طبقه بندی را انتخاب می کنید (بیایید بگوییم 0. 5 را انتخاب می کنید) ، می گویید که می خواهید هر مشاهده را با یک احتمال پیش بینی شده از مدل برابر یا بیشتر از 0. 5 به عنوان "موفقیت" طبقه بندی کنید. توجه داشته باشید که شما مشاهدات را با این معیارها به عنوان یک موفقیت طبقه بندی خواهید کرد ، بدون در نظر گرفتن این نتیجه که در واقع نتیجه موفقیت آمیز بوده است. سردرگم؟نگران نباشید ، کمتر از آنچه به نظر می رسد پیچیده است. نتیجه مشاهده شده شما در رگرسیون لجستیک فقط می تواند 0 یا 1 باشد. احتمالات پیش بینی شده از مدل می تواند تمام مقادیر ممکن را بین 0 تا 1 به خود اختصاص دهد. بنابراین ، برای یک مشاهده معین ، احتمال پیش بینی شده از مدل ممکن است 0. 51 باشد (51 ٪احتمال موفقیت) ، اما مشاهدات شما در واقع 0 بود (موفقیت آمیز نیست). ما در مورد اهمیت طبقه بندی صحیح یا نادرست طبقه بندی مشاهدات شما در یک دقیقه بحث خواهیم کرد. در حال حاضر ، بیایید دوباره روی منحنی ROC تمرکز کنیم.

هر نقطه روی منحنی یک مقدار برش احتمالی متفاوت برای طبقه بندی مقادیر پیش بینی شده را نشان می دهد. شما می توانید هر مقدار بین 0 تا 1 را به عنوان برش انتخاب کنید ، اما انجام این کار به صورت دستی برای هر مقدار قطع معنی دار ممکن است خسته کننده باشد. بنابراین آنچه که یک منحنی ROC انجام می دهد ، به هر مقدار برش احتمالی می پردازد که منجر به تغییر طبقه بندی هرگونه مشاهده در مجموعه داده های شما می شود (در صورت پله برش طبقه بندی از 0. 5 به 0. 6 منجر به تغییر در نحوه مشاهدات نمی شودطبقه بندی شده ، خوب ، این یک قدم جالب برای در نظر گرفتن نیست). برای هر برش طبقه بندی که منجر به تغییر طبقه بندی می شود ، یک نقطه در طرح قرار می گیرد. اما آن نقطه به کجا می رود؟برای پاسخ به این امر ، بیایید به نتیجه طبقه بندی ها برگردیم تا کمی بیشتر در مورد طبقه بندی و جدول طبقه بندی درک کنیم.

هرچه را انتخاب کنید ، تعداد مشخصی از ردیف داده ها به درستی طبقه بندی می شود (مقدار صحیحی را برای آن ردیف پیش بینی کرده اید) و تعداد مشخصی طبقه بندی می شود. حساسیت و ویژگی دو معیار برای ارزیابی نسبت مثبت واقعی و منفی های واقعی است. به عبارت دیگر ، حساسیت نسبت 1s است که شما با استفاده از آن مقدار برش خاص یا نرخ مثبت واقعی ، به درستی به عنوان 1s شناخته شده اید. برعکس ، ویژگی نسبت 0 است که شما به درستی به عنوان 0 یا نرخ منفی واقعی مشخص کرده اید.

از نظر ریاضی اینها به صورت زیر نشان داده شده است:

• حساسیت = (تعداد به درستی مشخص شده 1S)/(تعداد کل مشاهده شده 1s)

• ویژگی = (تعداد به درستی مشخص شده 0s)/(تعداد کل مشاهده شده 0s)

با توجه به این اطلاعات ، ما می توانیم همه چیز را در کنار هم قرار دهیم تا منحنی های ROC را درک کنیم. اول ، ما محورهای یک منحنی ROC را شناسایی می کنیم: محور Y فقط حساسیت (یا سرعت مثبت واقعی) است ، در حالی که محور X دارای ویژگی 1 است. اگرچه برای اثبات کمی ریاضی (و قدرت مغزی) طول می کشد ، اما می توان نشان داد که 1 ویژگی معادل نرخ مثبت کاذب است.

برای هر نقطه روی منحنی ROC (نشان دهنده یک مقدار برش متفاوت) ، محل آن نقطه به عنوان حساسیت در آن مقدار برش در محور Y ترسیم می شود ، و ویژگی 1 در آن مقدار برش در محور x است. به این ترتیب ، منحنی ROC به صورت گرافیکی مبادله ای را نشان می دهد که بین تلاش برای به حداکثر رساندن نرخ مثبت واقعی در مقابل تلاش برای به حداقل رساندن نرخ مثبت کاذب رخ می دهد. در یک وضعیت ایده آل ، شما در تمام برش ها حساسیت و ویژگی نزدیک به 100 ٪ خواهید داشت ، به این معنی که در همه موارد کاملاً پیش بینی می کنید. اگر آن را دارید ، به آمار احتیاج ندارید ، زیرا "موفقیت" و "شکست" شما بسیار آسان است. در حقیقت ، با رگرسیون لجستیک ، حتی نمی توان این مدل را متناسب کرد.

بهترین منحنی ROC

ROC بهترین حالت مانند زاویه 90 درجه به نظر می رسد. اگر این منحنی را دارید ، احتمالاً نیازی به آمار ندارید ، زیرا تبعیض بین 0 و 1 بی اهمیت است. توجه داشته باشید که در هر نقطه ، حساسیت یا ویژگی 100 ٪ است (به معنای 1 ویژگی در 0 ٪ است). در حقیقت ، این منحنی نشان می دهد که یک برش وجود دارد که هم حساسیت و هم ویژگی آن 100 ٪ است. راه دیگر برای بیان این مسئله این است که هیچ مثبت کاذب و منفی کاذب وجود ندارد.auC این منحنی ROC 1 است.

منحنی ROC بدون قدرت پیش بینی کننده:

از طرف دیگر ، بدترین منحنی ROC ممکن (در منشور) بهتر از شانس پیش بینی نمی کند ، که در یک منحنی ROC به عنوان یک خط مستقیم در 45 درجه ظاهر می شود. مدل FIT نتیجه را بهتر از چرخش یک سکه پیش بینی می کند. راه دیگر برای فکر کردن در مورد این موضوع این است که تنها راه افزایش نرخ مثبت واقعی (حساسیت) افزایش نرخ مثبت کاذب (1 - ویژگی) با همان مقدار است: اصلاً یک روش عالی نیست.auC این منحنی ROC 0. 5 است.

منحنی ROC بدترین حالت:

توجه داشته باشید که یک وضعیت اضافی وجود دارد که در آن یک مدل (در تئوری) بدتر از شانس تصادفی عمل می کند. به یاد بیاورید که منحنی ROC حساسیت و ویژگی یک مدل را ترسیم می کند و هر دو این مقادیر مبتنی بر طبقه بندی افراد است. شما احتمالاً می توانید مدلی را تصور کنید که در آن "موفقیت ها" (یا 1s) بیشتر از آنچه پیش بینی می شد "شکست" (یا 0) باشد از آنچه انتظار می رود با شانس تصادفی باشد. در این حالت ، این مدل هنوز هم می تواند گروه های مختلفی از نتایج را شناسایی کند ، اما آنها را نادرست طبقه بندی می کند (1s به عنوان 0 و برعکس طبقه بندی می شود). در شدیدترین حالت ، یک مدل می تواند تمام 1s مشاهده شده شما را به طور کامل پیش بینی کند ، و تمام 0s مشاهده شده شما 1s است. برخلاف "منحنی بهترین حالت ROC" ، نمودار زیر نشان می دهد که برای هر مقدار قطع ، حساسیت یا ویژگی (یا هر دو) در 0 ٪ است.auC این منحنی ROC 0 است!

منطقه زیر منحنی ROC

منطقه تحت منحنی ROC (AUC) یک متریک جمع شده است که ارزیابی می کند که چگونه یک مدل رگرسیون لجستیک نتایج مثبت و منفی را در تمام برش های احتمالی طبقه بندی می کند. این می تواند از 0. 5 تا 1 باشد و هرچه بزرگتر باشد بهتر است. افراد گاهی اوقات از AUC به عنوان ابزاری برای ارزیابی عملکرد پیش بینی کننده یک مدل استفاده می کنند ، اگرچه به این دلیل که تمام مقادیر برش ممکن را نشان می دهد ، که در عمل امکان پذیر نیست ، تفسیر دشوار است. توصیه می کنیم منحنی ROC را مستقیماً به عنوان راهی برای انتخاب مقدار برش تفسیر کنید.

انتخاب مقدار برش

در واقعیت ، شما فقط می توانید یک مقدار برش را برای مدل خود انتخاب کنید. چگونه می توان از کدام برش استفاده کرد؟این به سناریوی خاص شما بستگی دارد. اگر منفی های دروغین از مثبت کاذب بدتر هستند ، یک برش با حساسیت بالا (مقداری بالاتر در محور Y نمودار ROC) انتخاب کنید. از طرف دیگر ، اگر مثبت کاذب بدتر است ، سپس برش را با ویژگی بالا انتخاب کنید (مقادیر سمت چپ در نمودار ROC).

مقالات آموزش فارکس...
ما را در سایت مقالات آموزش فارکس دنبال می کنید

برچسب : نویسنده : بهزاد فراهانی بازدید : 56 تاريخ : شنبه 12 فروردين 1402 ساعت: 19:41