درس 2: خلاصه داده ها

ساخت وبلاگ

بخش 8: انتخاب اندازه گیری مناسب مکان مرکزی و گسترش

اقدامات محل مرکزی و گسترش برای خلاصه توزیع داده ها مفید است. آنها همچنین مقایسه دو یا چند مجموعه داده را تسهیل می کنند. با این حال ، هر اندازه گیری از مکان مرکزی و گسترش به خوبی برای هر مجموعه داده مناسب نیست. به عنوان مثال ، زیرا توزیع عادی (یا منحنی زنگ شکل) کاملاً متقارن است ، میانگین ، میانه و حالت همه دارای یک مقدار یکسان هستند (همانطور که در شکل 2. 10 نشان داده شده است). در عمل ، با این حال ، داده های مشاهده شده به ندرت به این شکل ایده آل نزدیک می شوند. در نتیجه ، میانگین ، متوسط و حالت معمولاً متفاوت است.

شکل 2. 10 تأثیر پوستی بر میانگین ، متوسط و حالت

In a skewed distribution, the mean, median, and mode are in different locations on the x-axis.

بنابراین ، چگونه مناسب ترین اقدامات را انتخاب می کنید؟یک پاسخ جزئی به این سؤال ، انتخاب اندازه گیری مکان مرکزی بر اساس نحوه توزیع داده ها است و سپس از اندازه گیری مربوطه استفاده می کند. جدول 2. 11 اقدامات توصیه شده را خلاصه می کند.

جدول 2. 11 اقدامات توصیه شده از محل مرکزی و گسترش بر اساس نوع داده ها

 

نوع توزیعاندازه گیری محل مرکزیاندازه گیری
طبیعیمیانگین حسابیانحراف معیار
نامتقارن یا کمرنگمیانهدامنه یا دامنه بین قشر
نمایی یا لگاریتمیمیانگین هندسیمعیار هندسی

در آمار ، میانگین حسابی رایج ترین اندازه گیری محل مرکزی است و اندازه گیری است که بر اساس آن اکثر تست های آماری و تکنیک های تحلیلی بر اساس آن انجام می شود. انحراف استاندارد اندازه گیری گسترش بیشتر با میانگین است. اما همانطور که قبلاً اشاره شد ، یک ضرر میانگین این است که تحت تأثیر حضور یک یا چند مشاهدات با مقادیر بسیار بالا یا پایین قرار دارد. میانگین در جهت مقادیر شدید "کشیده شده" است. شما می توانید با مقایسه مقادیر میانگین و میانگین ، مسیری را که در آن داده ها کمرنگ می شوند ، بگویید. میانگین در جهت مقادیر شدید از میانه دور می شود. اگر میانگین بالاتر از مدیان باشد ، توزیع داده ها به سمت راست می شود. اگر میانگین پایین تر از میانه باشد ، مانند سمت راست شکل 2. 10 ، توزیع به سمت چپ چیدمان می شود.

مزیت مدیان این است که تحت تأثیر چند مشاهدات بسیار زیاد یا پایین قرار نمی گیرد. بنابراین ، هنگامی که مجموعه ای از داده ها به هم ریخته می شوند ، میانه نماینده داده ها بیشتر از میانگین است. برای اهداف توصیفی ، و برای جلوگیری از هرگونه فرض اینکه داده ها به طور معمول توزیع می شوند ، بسیاری از اپیدمیولوژیست ها به طور معمول میانه را برای دوره های جوجه کشی ، مدت زمان بیماری و سن افراد مورد مطالعه ارائه می دهند.

دو اقدامات گسترش را می توان در رابطه با میانه استفاده کرد: دامنه و دامنه بین قشر. اگرچه بسیاری از کتابهای آمار دامنه interquartile را به عنوان اندازه گیری ارجح گسترش توصیه می کنند ، اما بیشتر اپیدمیولوژیست های عملی به جای آن از محدوده ساده تر استفاده می کنند.

حالت کمترین اندازه گیری مکان مرکزی است. برخی از مجموعه داده ها هیچ حالت ندارند. دیگران بیش از یک دارند. متداول ترین مقدار ممکن است در جایی در نزدیکی مرکز توزیع نباشد. به طور کلی از حالت ها در محاسبات آماری دقیق تر استفاده نمی شود. با این وجود ، حتی وقتی فرد علاقه مند به رایج ترین یا محبوب ترین انتخاب باشد ، می تواند مفید باشد.

میانگین هندسی برای داده های نمایی یا لگاریتمی مانند تیترهای آزمایشگاهی و برای داده های نمونه برداری از محیط زیست استفاده می شود که مقادیر آنها می تواند چندین مرتبه از بزرگی داشته باشد. اندازه گیری گسترش استفاده شده با میانگین هندسی انحراف استاندارد هندسی است. مشابه با میانگین هندسی ، ضد انحراف استاندارد از ورود مقادیر است.

انحراف استاندارد هندسی هنگام ترکیب لگاریتم های اعداد ، برای انحراف استاندارد جایگزین می شود. مثالها شامل توصیف اندازه ذرات محیطی بر اساس جرم یا تغییرپذیری غلظت سرب خون است. 1

بعضی اوقات ، ترکیبی از این اقدامات برای توصیف مناسب مجموعه ای از داده ها مورد نیاز است.

مثال: خلاصه داده ها

تاریخچه سیگار کشیدن 200 نفر (جدول 2. 12) را در نظر بگیرید و داده ها را خلاصه کنید.

جدول 2. 12 میانگین گزارش خود گزارش شده روزانه سیگار در روز ، بررسی دانشجویان (200 نفر)

تعداد سیگار در روز دودی

تجزیه و تحلیل همه 200 مشاهده نتایج زیر را به دست می آورد:

میانگین = 5. 4 میانه = 0 حالت = 0 حداقل مقدار = 0 حداکثر مقدار = 40 دامنه = 0-40 دامنه interquartile = 8. 8 (0. 0-8. 8) انحراف استاندارد = 9. 5

این نتایج صحیح است ، اما آنها داده ها را به خوبی خلاصه نمی کنند. تقریباً سه چهارم دانش آموزان ، که نماینده حالت هستند ، به هیچ وجه سیگار نمی کشند. جدا کردن 58 سیگاری از 142 سیگاری ، خلاصه ای آموزنده تر از داده ها را ارائه می دهد. در میان 58 (29 ٪) که سیگار می کشند:

میانگین = 18. 5 متوسط = 19. 5 حالت = 20 حداقل مقدار = 2 حداکثر مقدار = 40 محدوده = 2-40 دامنه بین المللی = 8. 5 (13. 7-2222) انحراف استاندارد = 8. 0

بنابراین ، یک خلاصه آموزنده تر از داده ها ممکن است "142 (71 ٪) از دانش آموزان به هیچ وجه سیگار نکشند. از 58 دانش آموز (29 ٪) که سیگار می کشند ، میانگین مصرف فقط زیر یک بسته * در روز است (میانگین = 18. 5 ، متوسط = 19. 5). این دامنه از 2 تا 40 سیگار در روز است که تقریباً نیمی از افراد سیگاری از 14 تا 22 سیگار در روز سیگار می کشند. "

Exercise

تمرین 2. 11

داده های موجود در جدول 2. 13 (در زیر) از بررسی شیوع درد شدید شکم ، استفراغ مداوم و ضعف عمومی در بین ساکنان یک روستای روستایی است. علت شیوع این بیماری سرانجام به عنوان آرد ناخواسته آلوده به گرد و غبار سرب مشخص شد.

  1. داده های سطح خون را با توزیع فرکانس خلاصه کنید.
  2. میانگین حسابی را محاسبه کنید.[اشاره: مجموع مقادیر شناخته شده = 2،363]
  3. دامنه میانه و interquartile را مشخص کنید.
  4. انحراف استاندارد را محاسبه کنید.[اشاره: جمع مربع = 157،743]
  5. میانگین هندسی را با استفاده از سطح سرب ورود به سیستم محاسبه کنید.[اشاره: جمع سطح سرب ورود به سیستم = 68. 45]

جدول 2. 13 سطح سن و سرب خون (BLL) روستاییان بیمار و اعضای خانواده - کشور X ، 1996

IDسن (سالها)BLLورود به سیستم10جنجال
13691. 84
24451. 66
36491. 69
47841. 92
59481. 68
610581. 77
711171. 23
812761. 88
913611. 79
1014781. 89
1115481. 68
1215571. 76
1316681. 83
1416??
1517261. 42
1619781. 89
1719561. 75
1820541. 73
1922731. 86
2026741. 87
2127631. 80
IDسن (سالها)BLLورود به سیستم10جنجال
22331032. 01
2333461. 66
2435781. 89
2535501. 70
2636641. 81
2736671. 83
2838791. 90
2940581. 76
3045861. 93
3147761. 88
3249581. 76
3356??
3460261. 41
35651042. 02
3665391. 59
3765351. 54
3870721. 86
3970571. 76
4076381. 58
4178441. 64

منبع داده: Nasser A ، Hatch D ، Pertowski C ، Yoon S. بررسی شیوع یک بیماری ناشناخته در یک روستای روستایی ، مصر (مطالعه موردی). قاهره: برنامه آموزش اپیدمیولوژی میدانی ، 1999.

مقالات آموزش فارکس...
ما را در سایت مقالات آموزش فارکس دنبال می کنید

برچسب : نویسنده : بهزاد فراهانی بازدید : 51 تاريخ : شنبه 12 فروردين 1402 ساعت: 20:47