Statistikada, kənar və ya "kənar" bir nümunə və ya məlumat toplusu içərisində hər hansı digər məlumatdan çox uzaqlaşan bir məlumatdır (məlumat toplusu məlumat adlanır). Əksər hallarda, bir məlumat toplusundakı bir fərqləndirici, statistikaya alınan ölçülərdə bir anormallıq və ya eksperimental bir səhv barədə xəbərdarlıq edə bilər ki, bu da statistikaya məlumat nöqtəsindən kənarlığı çıxarmağa səbəb ola bilər. Statist, məlumat nöqtəsindən kənarları çıxarsa, araşdırmadan çıxarılan nəticələr çox fərqli ola bilər. Buna görə statistik məlumat toplusunun düzgün anlaşılmasını təmin etmək üçün kənarları necə hesablamaq və təhlil etmək çox vacibdir.
Addım
Addım 1. Potensial olaraq kənarda olan datumları necə təyin edəcəyinizi öyrənin
Məlumat nöqtəsindən kənar məlumatların silinəcəyinə qərar verməzdən əvvəl, əlbəttə ki, hansı datumların kənarda qalma potensialına malik olduğunu müəyyən etməliyik. Ümumiyyətlə, bir kənar məlumat, bir məlumat toplusundakı digər məlumatlardan çox uzaqlaşan bir məlumat nöqtəsidir, başqa sözlə desək, digər məlumatların xaricindədir. Məlumat cədvəlində və ya (xüsusən də) bir qrafikdə kənarları aşkar etmək adətən asandır. Bir məlumat dəsti vizual olaraq bir qrafiklə təsvir edilərsə, kənar datum digər datumlardan "çox uzaq" görünür. Məsələn, bir məlumat toplusundakı datumların çoxu düz bir xətt meydana gətirərsə, xaricdəki datum ağlabatan olaraq bu xəttin meydana gəlməsi kimi şərh edilməyəcəkdir.
Bir otaqdakı 12 fərqli obyektin istiliyini əks etdirən bir sıra məlumat nöqtələrinə baxaq. 11 obyektin temperaturu təxminən 70 Fahrenheit (21 dərəcə Selsi), ancaq 12. obyekt olan bir sobanın temperaturu 300 Fahrenheit (150 dərəcə Selsi) olarsa, dərhal sobanın istiliyinin çox ehtimal edildiyini görmək olar. kənar
Addım 2. Məlumat nöqtələrini ən aşağıdan ən yuxarıya doğru bir sıra yığın
Bir məlumat toplusunda kənarları hesablamağın ilk addımı, o datum dəstinin medianını (orta dəyərini) tapmaqdır. Məlumat toplusundakı məlumatlar kiçikdən böyüyə qədər təşkil edilərsə bu vəzifə çox sadə olur. Beləliklə, davam etməzdən əvvəl, belə bir məlumat toplusunda datumları təşkil edin.
Yuxarıdakı nümunəyə davam edək. Bu, bir otaqdakı bir neçə obyektin istiliyini əks etdirən məlumat toplusumuzdur: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Verilənləri ən aşağıdan yuxarıya doğru sıralasaq, məlumatların sırası belə olur: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}
Addım 3. Məlumat toplusunun medianını hesablayın
Veri toplusunun medianı, datumun digər yarısının həmin nöqtənin üstündə, qalan yarısının isə altında olduğu bir nöqtədir - əsasən, bu datum datum setinin "ortasında" olan datumdur. Bir məlumat toplusundakı datumların sayı təkdirsə, tapmaq çox asandır - median yuxarıda və aşağıda eyni saya malik olan datumdur. Lakin, datumlar toplusundakı datumların sayı bərabərdirsə, ortada heç bir datum uyğun olmadığı üçün ortada olan 2 datumun ortasını tapmaq üçün ortalaması alınır. Qeyd etmək lazımdır ki, kənarlaşmalar hesablanarkən mediana adətən Q2-ni dəyişən təyin olunur, çünki Q2 Q1 və Q3 arasında, daha sonra müzakirə edəcəyimiz aşağı və yuxarı dördlük arasında.
- Datum sayının bərabər olduğu bir datum dəsti ilə qarışdırılmamalıdır-2 orta məlumatın ortalaması, çox vaxt datum setində olmayan bir rəqəmi qaytaracaq-bu yaxşıdır. Bununla birlikdə, 2 orta məlumat eyni sayda olarsa, əlbəttə ki, ortalamanın eyni sayı olacaq və bu da yaxşıdır.
- Yuxarıdakı nümunədə 12 datumumuz var. 2 orta datum sırasıyla 6-cı və 7-ci datum-70 və 71-dir. Beləliklə, məlumat toplusumuzun medianı bu 2 ədədin ortalamasıdır: ((70 + 71) / 2), = 70.5.
Addım 4. Aşağı dördlüyü hesablayın
Q1 dəyişəninə verdiyimiz bu dəyər, datumların 25 faizini (və ya dörddə birini) təmsil edən məlumat nöqtəsidir. Başqa sözlə, medianın altındakı datumları ikiyə bölən datumdur. Medianın altındakı datumların sayı bərabərdirsə, medianın özünü tapacağınız kimi Q1 -i tapmaq üçün yenidən ortadakı 2 datumu ortalamalısınız.
Misalımızda, medianın üstündə olan 6, ortada isə 6 datum var. Bu o deməkdir ki, alt dördlüyü tapmaq üçün medianın altındakı 6 datumun ortasındakı 2 datumu ortalamalı olacağıq. Medianın altındakı 6 datumun 3 -cü və 4 -cü datumları hər ikisi 70 -dir. Deməli, ortalamadır ((70 + 70) / 2), = 70. 70 bizim Q1 -ə çevrilir.
Addım 5. Üst dördlüyü hesablayın
Q3 dəyişəninə verdiyimiz bu dəyər, datum dəstindəki datumların yüzdə 25 -inin olduğu nöqtədir. Q3 tapmaq, Q1 tapmaqla demək olar ki, eynidir, ancaq bu vəziyyətdə, medianın altındakı deyil, medianın üstündəki məlumatlara baxırıq.
Yuxarıdakı nümunəmizi davam etdirərək, medianın üstündəki 6 datumun ortasındakı 2 datum 71 və 72 -dir. Bu 2 datumun ortalaması ((71 + 72)/2), = 71, 5. 71, 5 bizim 3 -cü rübümüzdür.
Addım 6. Qütbələrarası məsafəni tapın
Q1 və Q3 tapdığımız üçün bu iki dəyişən arasındakı məsafəni hesablamalıyıq. Q1 -dən Q3 -ə qədər olan məsafə, Q3 -dən Q1 çıxmaqla tapılır. Qruplararası məsafələr üçün əldə etdiyiniz dəyərlər, məlumat dəstinizdəki xaric olmayan datumların sərhədlərini təyin etmək üçün çox vacibdir.
- Misalımızda, Q1 və Q3 dəyərlərimiz 70 və 71, 5 -dir. Qruplar arası məsafəni tapmaq üçün Q3 - Q1 = 71.5 - 70 = çıxırıq. 1, 5.
- Qeyd etmək lazımdır ki, Q1, Q3 və ya hər ikisi mənfi ədədlər olsa belə bu da doğrudur. Məsələn, 1 -ci Q1 dəyərimiz -70 olsaydı, doğru çeyreklerarası məsafəmiz 71.5 -(-70) = 141, 5 olardı.
Addım 7. Məlumat toplusunda "daxili çit" tapın
Məlumatın "daxili çit" və "xarici çit" adlanan say sərhədləri daxilində olub -olmadığını yoxlamaqla kənara çıxanlar tapılır. Datum dəstinin daxili çitinin xaricinə düşən bir nöqtəyə "kiçik kənar", xarici çitin xaricinə düşən bir nöqtəyə "əsas kənar" deyilir. Veri toplusunuzda daxili hasarı tapmaq üçün əvvəlcə aralararası məsafəni 1, 5 -ə vurun. Sonra nəticəni Q3 -ə əlavə edin və Q1 -dən çıxın. Aldığınız iki dəyər, məlumat dəstinizin daxili çit sərhədləridir.
-
Misalımızda, kvartalararası məsafə (71.5 - 70) və ya 1.5 -dir. 1.5 -in 1.5 -ə vurulması nəticəsində 2.25 alınır. Bu rəqəmi Q3 -ə əlavə edirik və daxili hasarın sərhədlərini tapmaq üçün Q1 -i bu rəqəmdən çıxardıq:
- 71, 5 + 2, 25 = 73, 75
- 70 - 2, 25 = 67, 75
- Beləliklə, daxili çitimizin sərhədləri belədir 67, 75 və 73, 75.
-
Veri toplama sistemimizdə, yalnız 300 Fahrenheit olan sobanın temperaturu bu məhdudiyyətlərin xaricindədir və buna görə də bu məlumat kiçik bir fərqdir. Bununla birlikdə, bu temperaturun əsas bir fərq olduğunu hələ hesablamadıq, buna görə hesablamalarımızı etməyincə nəticəyə tələsməyin.
Addım 8. Məlumat dəstində "xarici çit" i tapın
Bu, daxili çitin tapılması ilə eyni şəkildə edilir, ancaq aralarındakı məsafə 1,5 əvəzinə 3 ilə vurulur, sonra nəticə Q3 -ə əlavə olunur və xarici hasarın yuxarı və aşağı sərhədlərini tapmaq üçün Q1 -dən çıxılır.
-
Misalımızda, dördlü məsafəni 3 ilə vurmaq (1, 5 x 3) və ya 4, 5 verir. Xarici çitin sərhədlərini əvvəlki kimi tapırıq:
- 71, 5 + 4, 5 = 76
- 70 - 4, 5 = 65, 5
- Xarici çitin sərhədləri belədir 65.5 və 76.
-
Xarici çitin hüdudlarından kənarda yerləşən datumlara əsas kənarlaşmalar deyilir. Bu nümunədə, sobanın temperaturu, 300 Fahrenheit, açıq şəkildə xarici çitin xaricindədir, buna görə də bu məlumat "qətiliklə" əsas bir fərqlidir.
Addım 9. Xarici məlumatı "atmaq" və ya etməmək üçün keyfiyyət mühakiməsindən istifadə edin
Yuxarıda təsvir edilən metoddan istifadə edərək, bir datumun kiçik bir məlumat nöqtəsi, böyük bir məlumat nöqtəsi və ya heç də kənarda olmadığı müəyyən edilə bilər. Ancaq səhv etməyin - bir məlumatı kənarda tapmaq yalnız "atılmalı" bir məlumat nöqtəsi olaraq deyil, məlumat dəstindən çıxarılacaq "namizəd" olaraq işarələyir. Məlumat toplusundakı digər məlumatlardan kənarlaşan bir nöqtənin kənarlaşmasına səbəb olan "səbəb", onu atıb -atmamaq məsələsində çox vacibdir. Ümumiyyətlə, məsələn, ölçmə, qeyd və ya eksperimental planlaşdırmada bir səhvdən qaynaqlanan bir kənar atıla bilər. Digər tərəfdən, səhvdən qaynaqlanmayan və əvvəlcədən proqnozlaşdırılmamış yeni məlumatları və ya meylləri göstərən kənar göstəricilər ümumiyyətlə “atılmır”.
- Diqqət yetirilməli olan başqa bir meyar, xaricinin məlumat nöqtəsi ortalamasına böyük təsir göstərib -göstərməməsi, yəni kənarın onu qarışdırması və ya səhv göründüyüdür. Məlumat toplusunuzun ortalamasından nəticə çıxarmaq niyyətindəsinizsə bunu nəzərə almaq çox vacibdir.
-
Nümunəmizi öyrənək. Bu nümunədə, sobanın gözlənilməz təbii qüvvələr sayəsində 300 Fahrenheit -ə çatması "olduqca" qeyri -mümkün göründüyündən, demək olar ki, əminliklə deyə bilərik ki, sobanın təsadüfən açıldığı və nəticədə yüksək temperatur anormallığı ilə nəticələnə bilər. Ayrıca, kənarları çıxarmasaq, datum set ortalamamız (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89.67 Fahrenheit (32 dərəcə Selsi)), kənarları çıxarsaq ortalama (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70.55 Fahrenheit (21 dərəcə Selsi).
Bu kənarlaşmalar insan səhvlərindən qaynaqlandığından və otaqdakı orta temperaturun təxminən 90 Fahrenheit (32 dərəcə Selsi) səviyyəsinə çatdığını söyləmək düzgün olmayacağından, kənarlarımızı "atmağı" seçmək daha yaxşıdır
Addım 10. Çöküntüləri saxlamağın əhəmiyyətini (bəzən) bilin
Səhvlərə səbəb olduqları və/və ya nəticələri qeyri -dəqiq və ya səhv etdikləri üçün bəzi kənar göstəricilər məlumat nöqtəsindən silinməli olsa da, bəzi kənar göstəricilər saxlanılmalıdır. Məsələn, bir kənar şəxs təbii olaraq əldə edilmiş kimi görünürsə (yəni səhvin nəticəsi deyil) və/və ya araşdırılan fenomenə yeni bir baxış təmin edərsə, kənar məlumat nöqtəsindən silinməməlidir. Elmi araşdırma, adətən, kənarlaşmalara gəldikdə çox həssas bir vəziyyətdir - kənarları səhv silmək yeni bir tendensiya və ya kəşfə işarə edən məlumatların atılması anlamına gələ bilər.