ST3: Verilənlərin formalaşdırılması - INNAB

ST3: Verilənlərin formalaşdırılması

Böyük həcmli verilənlər bazası üzərində operativ şəkildə işləyərək nəticə əldə etmək istəyiriksə, bu mərhələləri izləməliyik:

  1. Müəyyənləşdirmək – ilk olaraq təhlil üçün lazım olan dəyişənlar müəyyən edilməlidir.
  2. Toplamaq – təhlil üçün lazım olan verilənlər uyğun bazalardan toplanmalıdır.
  3. Cədvəl və qrafiklərin hazırlanması – bu pillədə toplanmış verilənlərin daha asan təhlil edilməsi üçün cədvəllər və qrafiklər hazırlanır.
  4. Təhlil etmək – hazırlanmış cədvəllər və qrafiklərdən istifadə edərək nəticə əldə edilir.

İngiliscədə bu DCOVA kimi tanınır (Define, Collect, Organize, Visualize, and Analyze).

  1. Verilənlərin toplanması.

Verilənlər iki mənbəədən toplanılır: əsas mənbəə, ikinci dərəcəli mənbəə

Əsas mənbəə: verilənləri yığan şəxs bu verilənləri ilk dəfə istifadə edən şəxsdir. Yəni, təhlilçi lazım olan verilənləri müxtəlif anket sorğuları əsasında, təcrübəsinə dayanaraq və ya müşahidə nəticəsində əldə edir.

İkinci dərəcəli mənbəə: təhlilçi, təhlilində istifadə etdiyi verilənləri toplayan şəxslə eyni insan deyildir. Yəni, burada təhlilçi başqa insanlar tərəfindən toplanmış hazır verilənlər bazasından istifadə edir. Misal: jurnal və ya internetdə dərc olunmuş məlumatlar

  1. Cədvəl və qrafiklərin hazırlanması

Cədvəllər: Bu mərhələdə keyfiyyət və kəmiyyət üzrə dəyişənlər üçün müxtəlif formalarda cədvəllər hazırlanır. Gəlin bunlara daha ətraflı baxaq.

1

Sadə Forma: bu formada kateqoriyalar arasındakı fərqi görə bilmək üçün, hər bir kateqoriyanın qarşısında tezlik, mebleğ ve ya faiz göstərilir. Deyəcəyimiz misalda bunu daha aydın görə bilərik. 1000 nəfər Bank müştərisi arasında kredit ödənişlərini hansı vasitə ilə həyata keçiridikləri barədə sorğu keçirilmişdir. Sorğunun nəticələrini aydın şəkildə görə bilmək üçün aşağıdakı sadə forma tərtib edilmişdir.

2

Çarpaz Forma: bu formada iki və daha artıq dəyişən üzrə kateqoriyalar arasındakı fərqi görə bilərik. Bunu daha rahat başa düşmək üçün gəlin misal üzərindən baxaq. Təsadüfi seçmə nəticəsində 400 faktura (invoice) seçilmişdir. Bu fakturalar üç kateqoriya (kiçik, orta və böyük məbləğli) üzrə qruplaşdırılmışdır. Hər bir kateqoriyaya daxil olan fakturaların neçəsinin səhv, nəcəsinin isə düz olduğu müəyyənləşdirilmişdir. Qeyd edilənləri aydın şəkildə görə bilmək üçün çarpaz forma tərtib edilmişdir.

3

4

Sıralama: bu tip cədvəl formasını hazırladığımız zaman, verilənlər kiçikdən böyüyə doğru sıralanır. Bu metod bizə əldə edəcəyimiz nəticələrə mənfi təsir edəcək lazımsız verilənləri (outliers) müəyyən etməyimizə kömək edir.

5

Tezlik üzrə qruplaşdırma: burada verilənlər üzrə intervalların sayı və genişliyi müəyyənləşdirilməlidir. İntervalların hüdudlarının üst-üstə düşməməsinə diqqət yetirmək lazımdır. İntervalların sayı verilənlərin həcmindən asılıdır. Ümumi olaraq, intervalların sayı ən azı 5 olur, lakin, heç vaxt 15 intervaldan çox say verilmir.

İntervalın genişliyi (maksimum verilən – minimum verilən) / intervalın sayı düstürü ilə tapılır.

Misal: boya istehsal edən şirkət təsadüfi seçmə üsulu ilə 20 qış günü seçmisdir və hər günün maksimum temperaturunu qeyd etmişdir.  24, 35, 17, 21, 24, 37, 26, 46, 58, 30, 32, 13, 12, 38, 41, 43, 44, 27, 53, 27

  • İlk olaraq verilənlər artan sıra ilə sıralanmalıdır: 12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58
  • Verilənlər arası maksimum məsafə tapılmalıdır: 58 – 12 = 46
  • İntervalın sayı müəyyən edilir: 5 (adətən 5 və 15 arası olur)
  • İntervalın genişliyi hesablanır: 10 (46/5 yuvarlaqlaşdırılır)
  • Hər intervalın hüdudları müəyyənləşdirilir:

– İnterval 1: 10 – 20 arası

– İnterval 2: 20 – 30 arası

– İnterval 3: 30 – 40 arası

– İnterval 4: 40 – 50 arası

– İnterval 5: 50 – 60 arası

  • Hər intervalın orta nöqtəsi tapılır: 15, 25, 35, 45, 55
  • Hər intervala düşən verilənlərin sayı tapılır

6

7

Qrafiklər: Keyfiyyət və kəmiyyət üzrə dəyişənlər üçün müxtəlif formalarda qrafiklər hazırlanır. Gəlin bu qrafiklərlə daha yaxından tanış olaq.

8

Gəlin sadə forma üzrə verdiyimiz misal (1000 nəfər Bank müştərisi arasında kredit ödənişlərini hansı vasitə ilə həyata keçiridikləri barədə keçirilmiş anket sorğunun nəticələri) üzərindən Bar, Pareto və Dairəvi qrafiklər quraq.

9

Çarpaz forma üzrə verdiyimiz misal (təsadüfi seçmə nəticəsində 400 faktura (invoice) seçilmişdir. Bu fakturalar üç kateqoriya (kiçik, orta və böyük məbləğli) üzrə qruplaşdırılmışdır. Hər bir kateqoriyaya daxil olan fakturaların neçəsinin səhv, nəcəsinin isə düz olduğu müəyyənləşdirilmişdir) üzərindən Çoxsaylı Bar qrafiki quraq.

10

Ən çox səhv orta məbləğli fakturalarda olmuşdur (61.54%).

11

Budaq və yarpaq: verilənlərin harada konsentrasiya olduğunu aydın şəkildə görmək olar. Onluqlar budaqda, təkliklər isə yarpaqda qeyd edilir. Nəticədə, hər onluğa düşən təklik həcmini və bununla da hansı onluğun daha böyük olduğunu görmək olur. Sıralamada veridiyimiz misalı (tələbələrin yaşı misalı) bu metodla göstərək.

12

Histoqram: tezlik üzrə qrupların şaquli barlar ilə göstərilməsi histoqramdır. Histoqramda barlar arasında məsafə qoyulmur. İntervalların hüdudları (və ya intervalın orta qiyməti) üfüqi, tezlik isə şaquli oxda göstərilir. Barların hündürlüyü tezliyin həcmini ifadə edir. Daha əvvəl qeyd etdiyimiz misal (hər günün maksimum temperaturu) üzrə histoqram quraq.

13

Poliqon: intervalın orta nöqtəsi ilə o intervala daxil olan tezliyi birləşdirən nöqtələrdən ibarət trenddir. Buna əvvəlki misal üzərindən baxaq.

14

Kumulyativ Trend: bir növ poliqona bənzəyir, fərqi ondan ibarətdir ki, tezlikdə hər zaman kumulyativ rəqəm olur (özündən əvvəlki intervallara daxil olan tezlikləri cəmləyir) və üfüqi oxda intervalın kiçik hüdudu qeyd edilir. Kumulyativ trend intervalın kiçik hüdudu ilə bu hüduddan aşağıda qalan bütün tezliklərin cəmini birləşdirən nöqtələr çoxluğudur. Yuxarıdakı misala baxaq.

15

Skatter qrafik: kəmiyyət üzrə iki dəyişəndə baş verən dəyişiklikləri bir yerdə izləmək üçün istifadə edilən ən optimal qrafik növüdür. Misal üzərindən bunu daha aydın analayacaqsınız.

16

17

Bir cavab yazın

Sizin e-poçt ünvanınız dərc edilməyəcəkdir. Gərəkli sahələr * ilə işarələnmişdir