داده های پرت
تاریخ : 2015/01/12 نویسنده : h.gh دیدگاه : 1

اغلب دانشجویان و محققین رشته آمار و سایر رشته ها وقتی در مواجهه با تحقیقاتی که جنبه کاربردی دارند و به نوعی برای بررسی اهداف آن ها نیاز به تجزیه و تحلیل اطلاعات و داده ها مبتنی بر روش های آمار توصیفی یا استنباطی می باشد، قرار می گیرند، به خصوص در مباحث مرتبط با رگرسیون یا طرح آزمایش ها، با مفهومی روبرو می شوند که به آن داده دور افتاده یا پرت (Outlier) می گویند. با توجه به دیدگاه محقق، اغلب تعاریف متفاوتی از آن مطرح و تصمیم های مختلفی برای این گونه مشاهدات در نظر گرفته می شود. لذا در این پژوهش، سعی شده است تا نکاتی را در ارتباط با موضوع داده های پرت و کاربرد آن و همچنین چگونگی مواجهه با آن در مسائل مختلف، بیان گردد. قبل از این که به تعریف و مفهوم داده های پرت بپردازیم، با چند مثال که در درک مفهوم داده های پرت به ما کمک می کند، آشنا می شویم.

در یک کلاس درس، ممکن است چند دانشجو (عده ای کم در مقایسه با عمده دانشجویان) در هنگام تدریس استاد، با یک دیگر صحبت نمایند و باعث اختلال در کلاس درس شوند. در نظر بگیرید یک فروشنده برنج، برای سود بیش تر می خواهد مقدار کمی از برنج های با کیفیت پایین اش را با مقدار زیادی از برنج های با کیفیت، مخلوط نماید و سپس آن ها را با قیمت برنج های با کیفیت بفروشد. وقتی در خیابان های شهر در حال تردد هستید عمده ماشین هایی که می بینید، مانند هم دیگر و با قیمت تقریبا یکسانی هستند. اما تعدادی خودروی گران قیمت نیز مشاهده می کنید که قیمت آن ها به مراتب بیش تر از بقیه می باشد. وقتی استاد درس در پایان ترم می خواهد از دانشجویان ارزیابی به عمل آورد، پس از تصحیح اوراق امتحانی ممکن است تعداد کمی از دانشجویان نمرات خیلی کم و تعدادی نیز نمرات بالا داشته باشند.

در همه مثال های فوق، داده هایی غیر عادی در بین مشاهدات، وجود دارد. بعضی از این مشاهدات ممکن است جزء داده های دور افتاده محسوب شوند.

اغلب اوقات وقتی محققین با این گونه مشاهدات مواجه شوند، یا به ماهیت آن داده ها توجهی ننموده و همان روش های آماری ای را در پیش می گیرند که برای داده هایی که شامل مشاهده پرت نیست، انجام می دهند و یا گاهی اوقات بدون در نظر گرفتن عواقب کار، داده هایی که فکر می کنند، داده دور افتاده هستند، را حذف نموده و سپس داده ها را تجزیه و تحلیل می کنند.

در بعضی مسایل داده هایی را داریم که تقریبا همگن و یک دست بوده و همانند داده های بدون مشاهده دور افتاده هستند. بنابراین فکر می کنیم که داده ها دارای مشاهدات پرت نیست. اما وقتی به ماهیت اصلی موضوع تحقیق، مراجعه می کنیم، مشاهده می شود که ممکن است تعدادی داده پرت در بین داده ها وجود داشته باشند، ولی بدون داشتن اطلاعاتی در مورد موضوع تحقیق، صرفا با مشاهده داده ها نمی توان، مشاهدات دور افتاده را تشخیص داد. برای روشن شدن موضوع، فرض کنید در یک کلاس درس که برای دانشجویان دوره کارشناسی آمار، ارائه شده است، چند دانشجوی دوره کارشناسی ارشد نیز به دلیل انتخاب درس بعنوان درس پیش نیاز، ثبت نام کرده باشند. در پایان ترم پس از امتحان درس مربوطه، تعدادی عدد در فاصله صفر تا بیست را خواهیم داشت که در واقع نمرات دانشجویان می باشد. ممکن است نمرات اخذ شده توسط این تعداد دانشجوی دوره کارشناسی ارشد، تفاوت چندانی با بقیه نمرات دانشجویان نداشته باشد، لذا نمی توان با فقط داشتن نمرات، تشخیص داد که کدام نمرات مربوط به این چند دانشجوی خاص است. اما در واقع می توان نمره این چند دانشجو را جزء داده های پرت در نظر گرفت.

 

10

تعریف: یک داده پرت، مشاهده ای است که به طور غیرعادی یا اتفاقی از وضعیت عمومی داده های تحت آزمایش و نسبت به قاعده ای که براساس آن آنالیز می شود، انحراف داشته باشد.

تشخیص داده های پرت:

در بسیاری از داده ها، می توان مشاهده نمود که تعدادی از آن ها پراکندگی زیادتری نسبت به بقیه دارند، به طوری که نشان دهنده منابع غیر طبیعی خطا بوده و این خطاها در بحث های نظری، در نظر گرفته نشده اند. برای اطلاعات بیش تر به بارنت و لویس (۱۹۹۴) مراجعه کنید.

اگر توسط روش های آزمون فرضیه بتوانیم تشخیص دهیم که تعدادی از مشاهدات، داده پرت هستند، آنگاه هر چند ممکن است که مطمئن نباشیم که این روش تشخیص کاملا درست است، اما می تواند به ما در تجزیه و تحلیل داده ها کمک فراوانی کند. بنابراین در مسأله مواجهه با داده های پرت یکی از مشکلات، روش تشخیص آن ها می باشد. البته با توجه به تعریف جامع داده های پرت، عملا تشخیص آن ها با روش های آزمون فرضیه امکان پذیر نمی باشد. زیرا که داده های پرت ممکن است از توزیعی همانند توزیع بقیه مشاهدات ولی با یک یا چند پارامتر متفاوت، آمده باشند، یا این که از توزیع متفاوتی پیروی کنند. لذا، در صورتی که بدانیم یا بپذیریم داده ها هم توزیع می باشند، می توان با استفاده از تکنیک های مختلفی، داده های پرت را تشخیص داد. محققین فراوانی تاکنون در مورد روش های تشخیص داده های پرت در توزیع های مختلف نرمال، نمایی، گاما، پارتو، وایبل و غیره مقالاتی را نوشته اند.

قسمتی از مقاله دکتر مهدی جباری

  1. سلام لطفا این مقاله را در اختیار من قرار بدهید به شدت نیاز دارم . مطالب کاملا جامع است .ممنون

پاسخ دادن به بهناز لغو پاسخ

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *