تحلیل خوشه ای
تاریخ : 2014/09/27 نویسنده : h.gh دیدگاه : 0

index2

در این تحلیل تلاش می شود تا مشاهدات به k خوشه مختلف گروه بندی شوند، به طوری که مشاهداتی که در یک خوشه قرار می گیرند به یکدیگر شبیه باشند و مشاهدات خوشه های مختلف با یک دیگر بیشترین تفاوت را داشته باشند. می توان گفت در تحلیل خوشه ای سه موضوع مورد توجه است. اولین موضوع تعداد خوشه ها است، چه تعداد خوشه ها می تواند دانش نهفته در داده ها را کشف کند. دومین نکته آن چیزی است که با نام شباهت (Similarity) و یا فاصله (Distance) از آن یاد می شود. این که چه هنگام دو مشاهده به یک دیگر شبیه هستند و چه هنگام با یک دیگر تفاوت دارند. و در نهایت پس از آن که تعداد خوشه ها و معیار شباهت داده ها مشخص شود باید با استفاده از روش های مختلف، که با نام روش های خوشه بندی (Clustering) از آن ها یاد می شود، مشاهدات را در خوشه های معین قرار داد.

کیفیت در خوشه بندی با این معیار تعریف می شود که مشاهدات هر خوشه بیش ترین شباهت را به یک دیگر داشته و از کمترین شباهت با خوشه های دیگر برخوردار باشد. به طور کلی روش های خوشه بندی به دو دسته کلی قطعی (Crisp or hard) و فازی (Fuzzy) تقسیم بندی می شوند. روش های قطعی نیز به دو نوع افرازی (Partitional) و سلسله مراتبی (Hierarchical) تقسیم می شوند. روش های سلسله مراتبی نیز به دو نوع تجزیه ای و ادغامی تقسیم می شوند.

در خوشه بندی قطعی هر مشاهده تنها در یک خوشه می تواند قرار بگیرد ولی در خوشه بندی فازی هر مشاهده با یک درجه عضویتی، بین صفر و یک برای هر خوشه، می تواند در چندین خوشه واقع شود. در روش های خوشه بندی افرازی تعداد خوشه ها از قبل مشخص است. هدف مشخص کردن این است که هر مشاهده در کدام خوشه جای می گیرد. این روش ها برای مسائلی که تعداد متغیرها و یا تعداد مشاهدات و یا هر دو زیاد باشند، مناسب می باشند. در این روش ها به دنبال تعریف تابع خطا و حداقل کردن آن هستیم. در روش های ادغامی نخست هر مشاهده به صورت یک خوشه مستقل در نظر گرفته می شود، سپس در فرآیند خوشه بندی خوشه ها با هم ادغام می شوند تا به خوشه یکتایی برسیم. در روش های تجزیه ای کار برعکس است، ابتدا تمامی مشاهدات یک خوشه در نظر گرفته می شود و در فرآیند خوشه بندی، خوشه ها را به چند خوشه تجزیه می کنیم.

یکی از معروف ترین و پر کاربرد ترین روش های افرازی روش k-میانگین (k-means) است. این روش اولین بار توسط مک کوئین (۱۹۶۷) ارائه شد. این روش برای خوشه بندی داده هایی طراحی شده است که به صورت کمی باشند. خوشه دارای مرکزی به نام میانگین است. در ابتدا داده ها به صورت تصادفی به k خوشه تقسیم می شوند. در مرحله بعد فاصله هر یک از داده ها از مرکز خوشه خود، که همان میانگین مشاهدات هر خوشه است، محاسبه می شود. در صورتی که فاصله هر مشاهده مورد نظر از میانگین خوشه خود زیاد و به خوشه دیگری نزدیک تر باشد، این مشاهده به خوشه ای که نزدیک تر است اختصاص می یابد. این کار تا حداقل شدن تابع خطا، که معمولا مجموع فواصل مشاهدات از مرکز خوشه خودش است، و یا تغییر نیافتن اعضای خوشه ها ادامه می یابد.

روش دیگر، روش k-مدوید (k-medoids) است. در این روش به جای استفاده از میانگین خوشه، می توان از مدوید (مشاهده ای که در مرکزی ترین مکان خوشه قرار دارد) خوشه استفاده کرد. تفاوت میانگین با مدوید در این است که میانگین داده ها ممکن است وجود خارجی نداشته باشد، در صورتی که مدوید وجود خارجی دارد یعنی یکی از مشاهدات مجموعه داده ها است.

درختی که خوشه بندی سلسله مراتبی را نشان می دهد، دندروگرام (Dendrogram) نامیده می شود که از رده بندی جانداران گرفته شده است. برای خوشه بندی سلسله مراتبی از بسته amap و دستور hcluster می توان استفاده نمود.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *