تحلیل اکتشافی داده ها

نوشته شده توسط مشاور آماری . منتشر شده در SPSS

امتیاز کاربران

ستاره فعالستاره فعالستاره فعالستاره فعالستاره فعال
 

اكتشاف داده‌ها براي بررسي مناسب بودن يا نبودن تكنيك‌هاي آماري كه براي تحليل داده‌ها در نظر گرفته مي‌شوند مورد استفاده قرار مي‌گيرند. اين دستورالعمل خلاصه‌‌اي تصويري و عددي از داده‌ها، يا براي همة موارد يا به طور جداگانه براي گروه‌هاي موارد، فراهم مي‌آورد. دلایل مختلفی برای استفاده از رویکرد Explore نرم افزار SPSS از جمله: غربالگری دادهها(data screening)، شناسایی داده های بالقوه پرت(outlier identification)، توصیف، کنترل فرضیه و مشخصه سازی تفاوتهای بین زیر جامعه ها (گروههایی از آزمودنیها) وجود دارد. غربالگری داده ها ممکن است مقادیرغیر عادی، مقادیر کرانگین، شکاف بین داده ها و ویژگی های غیر عادی دیگر را نشان دهد. همچنین اکتشاف ممکن است نشان دهد که چنانچه توزیع نرمال شرط ادامه تحلیل باشد، محقق لازم دارد تبدیلی روی داده های خود انجام دهد و یا حتی محقق تصمیم بگیرید که از تحلیل ناپارامتری استفاده کند. متغير وابسته بايد يك متغير Scale (كمي) باشد، در حاليكه متغيرهاي گروه‌بندي ممكن است ordinal يا nominal باشند. با دستورالعمل Explore موارد زير را مي‌توان انجام داد:

 ـ غربالگری(بررسی) داده‌ها

ـ شناسايي مقادير پرت (Outliers) [يك مقدار Outlier مقداري است كه نسبت به اكثر مقادير متفاوت است].

ـ بررسي فرضيات

ـ توصيف گروه‌هاي موارد مختلف

 این رویکرد نمودارها و شاخصهای آماری گوناگونی را در خروجی خود در بر می گیرد که عبارتند از : میانگین، میانه، میانگین پیراسته 5 درصد، خطای استاندارد، واریانس، انحراف معیار، مینیمم، ماکسیمم، دامنه تغییرات، دامنه میان چارکی، کشیدگی، چولگی و خطاهای استاندارد متناظر، بازه های اطمینان برای میانگین ها ( و سطح اطمینان مورد دلخواه)، صدکها، برآوردگر M هوبر، برآورگر موجی آندرو، برآوردگر M باز نزولی هامپل، برآوردگر دو-وزنی توکی، بزرگترین و کوچکترین 5 مقدار، آماره ها ی اسمیرنوف-کلموگروف با سطح اطمینان لی لیفورس برای آزمون نرمال بودن و آماره شاپیرو-ویلکس. همچنین نمودارهای: جعبه ای، شاخه و برگ، بافت نگار(هیستوگرام)، نمودار نرمال، نمودار پراکندگی-سطح، با آزمون های اهرمی و تبدیلات.

 

آمار توصيفي در طول گروه‌ها(Descriptive Statistics across Groups)

محصولات غله بايد آزمايش شوند كه افلاتوكسين (سم محصولات كشاورزي) نداشته باشند. هر دانه گندم، 8 دانه گندم بازده دارد ولي توزيع افلاتوكسين در هر يك بيليون (PPB) بايد قبل از اينكه اين بازده پذيرفته شود محاسبه گردد.

اين مثال از فايل aflatoxin.sav استفاده مي‌كند. داده‌ها شامل 16 نمونه از هر 8 محصول دانه هستند(برای دانلود فایل  با فرمت SAV کلیک کنید). 

 

اجرای تحلیل( Running the Analysis) 

1ـ براي آغاز تحليل، مسير زير را از نوار منو برگزينيد(مطابق تصویر).

Analyze > Descriptive Statistics >  Explore

 

 

2ـ‌ گزينة Alfatoxin PPB را به عنوان متغير وابسته انتخاب نماييد.

3ـ‌ گزينة Corn yield را به عنوان متغير عامل (Factor) انتخاب نماييد.

 

4ـ روي Ok كليك كنيد. با این اقدام تمامی پذیره های پیش فرض را در خروجی نرم افزار SPSSخواهیم داشت.

بخشی از جدول Descriptives را تصویر زیر مشاهده می فرمایید:

 

محوردار كردن جدول توصيفي(Pivoting the Descriptives Table)

براي تعيين چگونگي تغيير ميانگين Alfatoxin PPB با Corn yield، مي‌توانيد با محوردار كردن جدول Descriptives براي نمايش آماره‌هاي مورد نظر استفاده نماييد.

1ـ در پنجرة خروجي، روي جدول Descriptives دوبار كليك كنيد تا فعال شود(در تصویر قبلی این اقدام انجام شده است!!!).

2ـ مسير Pivot > Pivoting Trays را از نوار منو برگزينيد.

 

3ـ آيكن Statistics را در جعبه محاورة Pivoting Trays1 در قسمت Row كليك كنيد. (در تصویرزیر نشان داده شده است).

 

4ـ آيكن Statistics را به قسمت Layer بكشيد.

 

5ـ جعبه محاوره(Pivoting Tray) را ببنديد.

 

6ـ با كليك كردن در خارج از محدوده جدول، آن را از حالت فعال خارج كنيد.

طبق قوانين ايالات متحده، در صورتي كه آفلاتوكسين از 20PPB تجاوز نمايد آن محصول براي مصرف انسان نامناسب است. همانطور كه در جدول (تصویر فوق) پيداست، فقط محصولات 4، 7 و 8 در زير 20PPB قرار دارند.

استفاده از نمودارهاي جعبه ای براي مقايسة‌ گروه‌ها(Using Boxplots to Compare Groups)

 

توزيع اكتشافي

يك شركت سازنده از نيتريد نقره براي ساخت ياتاقان‌هاي سراميكي استفاده مي‌كند كه بايد تا دماي 1500 درجه سانتي‌گراد را مقاومت كنند. مقاومت حرارتي يك آلياژ استاندارد به صورت نرمال توزيع شده است. اگر چه، آلياژ جديد تحت آزمون قرار دارد،‌و توزيع آن ناشناخته است.

توجه :اين مثال از فايل Ceramics.sav استفاده مي‌نمايد(برای دانلود فایل  با فرمت SAV کلیک کنید). .

اجراي تحليل

1ـ مسير Analyze > Descriptive Statistics > Explore را از نوار منو برگزينيد.

2ـ گزينة Degrees Centigrade را به عنوان متغير وابسته انتخاب نماييد.

3ـ گزينة Alloy را به عنوان متغير عامل (Factor) انتخاب كنيد.

4ـ گزينة Labrunid را براي عنوان موارد در كادر Label Cases by انتخاب نماييد.

 

5ـ دكمة Statistics را كليك كنيد.

6ـ در جعبه محاورة Explore: Statistics گزينة M – estimators و Outliers را فعال كنيد.

 

7ـ دكمه Continue را كليك كنيد.

8ـ دكمه Plots را در جعبه محاورة Explore كليك كنيد.

شما بايد آزمون‌هاي نرمال بودن اين داده را نيز انجام دهيد. اين آزمون‌ها براي هر آلياژ به صورت انفرادي محاسبه خواهند شد.

9ـ گزينه Normality Plots With tests را فعال نماييد.

 

10ـ دكمه Continue را كليك كنيد.

11ـ Ok را در جعبه محاوره Explore كليك كنيد.

توصيف عددي شكل(Numerical Descriptions of Shape)

توصيف عددي شكل

جدول توصيفات طوري محوربندي شده است كه Alloy در لايه‌هاي جدول به همراه ياتاقان‌هاي استاندارد نمايش داده شده‌اند. ميانگين، ميانگين اصلاح شده (Trimmed) و ميانه تقريباً يكسان هستند، و چولگي (Skewness) و كشيدگي (Kurtosis) نزديك به 0 مي‌باشند (منظور از ميانگين اصلاح شده يا Trimmed ميانگين حسابي است كه با حذف n% بزرگترين و n% كوچكترين موارد بدست مي‌آيد. حذف موارد مرزي از محاسبه ميانگين منجر به تخمين بهتر گرايش به مركز مي‌شود بخصوص وقتي داده‌ها غيرنرمال هستند). اين دليل محكمي است مبني بر اينكه مقاومت حرارتي در ياتاقان‌هاي استاندارد به طور نرمال توزيع شده‌اند (توزيع نرمال با موقعيت آن (ميانگين) و پارامترهاي كمي (انحراف معيار) شناخته مي‌شوند. تابع چگالي آن اطراف ميانگين متقارن مي‌باشد). 

 

ياتاقان‌هاي Premium داراي مشخصات متفاوتي هستند. ميانه آن بزرگتر از ميانگين اصلاح شده يا ميانه است؛ مقادير پرت (Outliers) و مقادير مرزي آن را به سمت بالا مي‌كشند. آمارة Skewness و Kurtosis نيز نشانة مقادير بيش از حد را در دنبالة بالايي توزيع فراهم مي‌آورد.

 

مقادير استوار و با نفوذ(Robustness and Influential Values)

در اين مورد، استحكام ياتاقان‌هاي Premium نزديك به ميانه (1539.72) برآورد مي‌شود. چون هيچ يك از اين اندازه‌ها نزديك ميانگين نيست، ممكن است نشانة آن باشد كه توزيع نسبتاً نرمال نيست.

 

جدول مقادير مرزي(غایی-کرانگین)، پنج تا از بزرگترين و كوچكترين مقادير هر آلياژ را فهرست مي‌كند. ياتاقانهاي Premium از پنج انحراف معيار بالا تا يك انحراف معيار پايين ميانگين در نوسان است. بعضي وقت‌ها، اين‌ها مي‌توانند حرارت خيلي زيادتر از ياتاقان‌هاي استاندارد را تحمل كنند. جهت شناسایی مقادیر در پنجره داده SPSS راهکار مناسبی را در اختیار قرار میدهد. به عنوان مثال بزرگترین عدد یاتاقان های  Premium  برابر مقدار 1591.04 می باشد. همان طور که در جدول و در ستون Case Number مشخص شده است؛ در پنجره داده های کنونی می توانیم بزرگترین یاتاقان Premium  را در ردیف 211 بیابیم. به همین منوال برای بقیه مقادیر مورد نظر، نشانی داده قید شده است.

 

آيا توزيع‌ها نرمال هستند؟(?Are the Distributions Normal)

آزمون‌هاي نرماليتي يك منحني نرمال را روي مقادير واقعي مي‌كشد تا مناسب بودن آن تعيين شود. اگر آزمون معني‌دار شد يعني توزيع داده‌ها نرمال نيست ولي اگر آزمون معني‌دار نشد يعني سطح معني‌داري بيشتر از 0.05 بود توزيع داده‌ها نرمال است. در رویکرد Explore آزمون های کلموگروف-اسمیرنوف و شاپیرو-ویلکس مورد توجه می باسند. همچنین جهت آزمون کلموگروف-اسمیرنوف تصحیح لی لیفورس انجام می پذیرد. برای هر یک از این آزمون ها در ستون Sig مقدار احتمال آورده شده است. همان طور که مشاهده می گردد جهت یاتاقان های استاندارد سطح معنی داری هر دو آزمون مقادیر بزرگ می باشد؛ بنابراین فرضیه نرمال بودن در مورد این یاتاقان ها را نمی توان رد نمود. اما در خصوص یاتاقان های Premium ، در هر دو آزمون مقدار احتمال کمتر از 0.001 می باشد؛ لذا فرضیه صفر نرمال بودن داده ها را رد می کنیم و می پذیریم که داده ها نرمال نمی باشند. 

 

 نمودارهاي ساقه و برگ از مقادير داده‌هاي اصلي براي نمايش شكل توزيع استفاده مي‌كند. نمودار ياتاقان‌هاي Premium  آماره چولگي مثبت را در جدول توصيفي نشان مي‌دهد؛ خوشه مقادير به صورت يكنواخت در يك دامنه 1530 تا 1543 درجه قرار مي‌گيرد، سپس تدريجاً در دماهاي بزرگ‌تر پراكنده مي‌شود و این مصداقی از چولگی به راست(مثبت) را در خصوص این داده ها و عدم نرمال بودن را نشان می دهد. لازم به توضیح است که نمودار مربوط به یاتاقان ها ی استاندارد بدلیل نرمال بودن در این بخش ارائه نشده است.

 

سرانجام، نمودار Q-Q ظاهر مي‌شود. خط مستقيم در نمودار موقعي كه داده‌ها بصورت نرمال توزيع شده‌اند مقادير مورد انتظار را نشان مي‌دهد. مقادير ياتاقان Premium  مشاهده شده به طور چشمگيري از خط منحرف مي‌شود، به خصوص وقتي دما افزايش مي‌يابد. از این رو دم سمت راست منحنی کشیده تر از توزیع نرمال و دم سمت چپ کوتاه تر و با احتمال بالاتر می باشد.

 

خلاصه

با دستورالعمل Explore، يافتيد كه آلياژ پرميوم توزيع متفاوتي نسبت به آلياژ استاندارد دارد. بعنوان يك نكتة مثبت، مقاومت حرارتي ميانگين آلياژ جديد به طور قابل ملاحظه‌اي بيشتر از آلياژ استاندارد است. متأسفانه، علائمي وجود دارد كه ميانگين ممكن است يك سنجش مناسب از گرايش به مركز آلياژ پرميوم نباشد. اگر چه، استحكام تخميني گرايش به مركز، ارجحيت آلياژ پرميوم را مجدداً تأييد مي‌نمايد.

 

 

جهت درخواست آموزش نرم افزار SPSS و یا انجام پروژه های آماری از یکی از روش های زیر می توانید با تیم آی آر آمار در ارتباط باشید. لازم به توضیح می باشید فرآیند مشاوره و همچنین پاسخگویی به سوالات کوتاه به صورت کاملا رایگان ارائه می گردد.

 

شماره تماس:   09300023999

رایانامه:  این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

 

 

Tags: نرم افزارهای آماری پروژه های آماری

نوشتن دیدگاه


تصویر امنیتی
تصویر امنیتی جدید

دفاتر ما

تماس با ما آمادگی داریم تا با شبکه ای از همکاران و مشاوران در هر یک از شهرهای بزرگ در کنار شما باشیم

با ما در تماس باشید

آمار سایت