Analisis Data Deskriptif

ANALISIS DATA DESKRIPTIF
Karena buku teks ini berkonsentrasi pada metode penelitian pendidikan, pembahasan analisis
statistik berikut tidaklah lengkap. Hanya beberapa konsep yang paling sederhana dan mendasar yang
disajikan. Siswa yang pengalaman matematikanya mencakup aljabar sekolah menengah seharusnya dapat
memahami logika dan proses komputasi yang terlibat dan harus dapat mengikuti contoh tanpa kesulitan.
Tujuan diskusi ini adalah tiga hal:

1. membantu siswa, sebagai konsumen, mengembangkan pemahaman tentang terminologi statistik dan
konsep yang diperlukan untuk membaca dengan memahami beberapa literatur profesional dalam
penelitian pendidikan.
2. membantu siswa mengembangkan cukup kompetensi dan pengetahuan untuk melanjutkan penelitian
menggunakan jenis analisis sederhana.
3. mempersiapkan siswa untuk pekerjaan yang lebih maju dalam statistik.
Penekanannya adalah pada pemahaman intuitif dan aplikasi praktis daripada pada derivasi dari
rumus matematika. Mereka yang mengharapkan dan membutuhkan pengembangan kompetensi nyata
dalam penelitian pendidikan harus mengambil beberapa langkah berikut:
1. Ambil satu atau lebih kursus dalam statistik perilaku dan desain eksperimental.
2. Pelajari lebih banyak buku khusus tentang statistik, terutama yang berhubungan dengan inferensi
statistik (misalnya, Glass & Hopkins, 1996; Hays, 1981; Heiman, 1996;Kerlinger, 1986; Kirk, 1995;
Siegel, 1956; Shavelson, 1996; Winer, 1971).
3. Baca studi penelitian di jurnal profesional secara ekstensif dan kritis.
4. Ikuti studi penelitian yang melibatkan beberapa penggunaan prosedur statistik secara serius
Apa Itu statistik?

Statistik adalah kumpulan teknik matematika atau proses untuk mengumpulkan, mengatur,
menganalisis, dan menafsirkan data numerik. Karena sebagian besar hasil penelitian merupakan data
kuantitatif, statistik adalah alat dasar pengukuran, evaluasi, dan penelitian.
Kata statistik terkadang digunakan untuk menggambarkan data numerik yang dikumpulkan. Data
statistik menggambarkan perilaku kelompok atau karakteristik kelompok yang disarikan dari sejumlah
pengamatan individu yang dikombinasikan untuk membuat kemungkinan generalisasi.
Semua orang terbiasa dengan ungkapan seperti "pendapatan keluarga rata-rata”, "pekerja khusus kerah
putih," atau "kota perwakilan". Ini adalah konsep statistik dan, sebagai karakteristik kelompok, dapat
dinyatakan dalam pengukuran usia, ukuran, atau ciri-ciri lainnya yang bisa digambarkan secara kuantitatif.
Ketika seseorang mengatakan "Rata-rata anak laki-laki kelas lima adalah 10 tahun," seseorang
menggeneralisasi semua siswa laki-laki di kelas lima, bukan anak laki-laki tertentu. Dengan demikian,
pengukuran statistik adalah sebuah gambaran umum yang dapat digunakan sebagai pengganti
pengukuran yang banyak dilakukan orang-orang.
Peneliti yang menggunakan statistik memperhatikan lebih dari sekedar manipulasi dari data. Metode
statistik menyajikan tujuan deskripsi yang mendasar dan analisis, dan aplikasi yang tepat meliputi jawaban
atas pertanyaan-pertanyaan berikut:
1. Fakta apa yang perlu dikumpulkan untuk memberikan informasi yang perlu untuk menjawab
pertanyaan atau untuk menguji hipotesis?
2. Bagaimana data ini dipilih, dikumpulkan, diatur, dan dianalisis?
3. Asumsi apa yang mendasari metodologi statistik untuk digunakan?
4. Kesimpulan apa yang dapat ditarik secara sah dari analisis data?
Penelitian terdiri dari pengamatan sistematis dan deskripsi dari karakteristik atau sifat benda atau peristiwa
untuk menemukan hubungan antar variabel. Tujuan utamanya adalah untuk mengembangkan generalisasi
yang mungkin terjadi digunakan untuk menjelaskan fenomena dan memprediksi kejadian di masa depan.
Untuk melakukan penelitian, kita harus menetapkan prinsip agar pengamatan dan deskripsi bersifat umum
dan dimengerti maksudnya Pengukuran merupakan proses deskripsi yang paling tepat dan diterima luas,
menetapkan nilai kuantitatif pada benda-benda dan kejadian-kejadian.
Data Parametrik dan Nonparametrik

Dalam penerapan perawatan statistik, dua jenis data dikenali:
1. Data parametrik. Data jenis ini adalah data yang diukur, dan statistik parametrik
Tes mengasumsikan bahwa data biasanya, atau hampir normal, didistribusikan. Parametrik
Tes diaplikasikan pada data interval dan rasio.
2. Data nonparametrik. Data jenis ini dihitung (nominal) atau diberi peringkat
(urut). Tes nonparametrik, kadang dikenal sebagai tes bebas distribusi, lakukan
tidak bergantung pada asumsi yang lebih ketat dari populasi terdistribusi normal.
Tabel 10.1 menyajikan ringkasan grafis dari tingkat deskripsi kuantitatif

dan jenis analisis statistik yang sesuai untuk setiap tingkat. Konsep ini
akan dikembangkan kemudian dalam diskusi.
Namun, kita harus sadar bahwa banyak statistik parametrik (uji t,
analisis varians, dan r Pearson pada khususnya) masih tepat meski kapan
asumsi normalitas dilanggar. Ketahanan ini telah ditunjukkan
untuk uji t, analisis varians, dan, pada tingkat yang lebih rendah, analisis kovariansi oleh
sejumlah peneliti termasuk Glass, Peckham, dan Sanders (1972), Lunney
(1970), dan Mandeville (1972). Jadi, dengan data ordinal dan bahkan dengan dikotomis
data (dua pilihan seperti pass-fail), prosedur statistik ini, yaitu
dirancang untuk digunakan dengan data interval dan rasio, mungkin tepat dan berguna. Pearson
r, yang juga bisa digunakan dengan jenis data apapun, akan dibahas nanti dalam hal ini
bab.
Analisis Deskriptif dan Inferensial
Sampai sekarang kita belum membahas batasan analisis statistiknya
generalisasi Dua jenis aplikasi statistik relevan:
Analisis Deskriptif
Analisis statistik deskriptif membatasi generalisasi ke kelompok tertentu
individu diamati Tidak ada kesimpulan yang diperluas melampaui kelompok ini, dan kesamaan Analisis
Data manapun dengan orang-orang di luar kelompok tidak dapat diasumsikan. Data menggambarkan satu
kelompok dan kelompok itu saja. Banyak tindakan penelitian sederhana melibatkan analisis deskriptif
dan memberikan informasi berharga tentang sifat kelompok tertentu
individu. Studi penilaian (lihat Bab 5) juga sering hanya mengandalkan atau berat
pada statistik deskriptif
Analisis inferensial
Analisis statistik inferensial selalu melibatkan proses pengambilan sampel dan
Pemilihan kelompok kecil diasumsikan terkait dengan populasi dari mana kelompok tersebut
ditarik. Kelompok kecil dikenal sebagai sampel, dan kelompok besar adalah populasi.
Menggambarkan kesimpulan tentang populasi berdasarkan pengamatan terhaap sampel
adalah tujuan analisis inferensial.
Statistik adalah ukuran berdasarkan pengamatan karakteristik sampel.
Statistik yang dihitung dari sampel dapat digunakan untuk memperkirakan parameter
nilai yang sesuai pada populasi dari mana sampel dipilih. Statistik
biasanya diwakili oleh huruf alfabet Romawi kita seperti X, 5, dan r.
Parameter, di sisi lain, biasanya diwakili oleh huruf-huruf alfabet Yunani
seperti f.l, (J, atau hlm.
Sebelum asumsi apapun dapat dibuat, penting bagi individu yang dipilih
dipilih sedemikian rupa sehingga kelompok kecil, atau sampel, mendekati yang lebih besar
kelompok, atau populasi. Dalam margin of error, yang selalu hadir, dan oleh
penggunaan teknik statistik yang tepat, pendekatan ini dapat diasumsikan,
memungkinkan perkiraan karakteristik populasi dengan analisis
karakteristik sampel.
Perlu ditekankan bahwa bila data berasal dari kelompok tanpa
Prosedur sampling yang cermat, peneliti harus hati-hati menyatakan temuan itu
hanya berlaku untuk kelompok yang diamati dan mungkin tidak berlaku untuk atau menggambarkan
individu lain
atau kelompok. Teori statistik sampling bersifat kompleks dan melibatkan
estimasi kesalahan pengukuran yang disimpulkan, kesalahan yang melekat dalam memperkirakan
hubungan antara sampel acak dan populasi dari populasi itu
ditarik. Analisis data inferensial disajikan pada Bab 11.
Organisasi Data
Daftar nilai tes di buku kelas guru memberi contoh tidak terorganisir
data. Karena metode daftar yang biasa adalah abjad, nilainya sulit
untuk menafsirkan tanpa jenis organisasi lainnya.
Alberts, James 60
Brown, John 78
Davis, Mary 90
Smith, Helen 70
Williams, Paul 88
Array atau Set Pesanan

Mengatur skor yang sama dalam urutan menurun besarnya menghasilkan apa adanya
dikenal sebagai array terurut.
90
88
78
70
60
Array yang dipesan memberikan pengaturan yang lebih nyaman. Nilai Tertinggi
(90), skor terendah (60), dan skor tengah (78) mudah dikenali. Dengan demikian,
kisaran (perbedaan antara skor tertinggi dan terendah, ditambah satu) dapat dengan mudah
ditentukan.
Ilustrasi pada Tabel 10.2 adalah kumpulan data dari 37 nilai siswa pada aljabar
tes dalam bentuk array terurut.
Distribusi data kelompok
Data seringkali lebih jelas disajikan saat skor dikelompokkan dan kolom frekuensi
sudah termasuk Data dapat disajikan dalam tabel frekuensi (lihat Tabel 10.3) dengan perbedaan
interval kelas, tergantung pada jumlah dan kisaran skor.
Interval skor dengan jumlah ganjil unit mungkin lebih disukai karena
Titik tengah adalah bilangan bulat dan bukan pecahan. Karena semua nilai diasumsikan
jatuh pada titik tengah interval (untuk tujuan menghitung mean),
Perhitungannya kurang rumit:
Bahkan interval empat: 8 9 10 11 (titik tengah 9,5)
Odd interval lima: 8 9 10 11 12 (titik tengah 10)
Tidak ada aturan yang secara kaku menentukan interval skor yang tepat, dan interval
dari 10 yang sering digunakan
Beberapa jenis dasar dari ukuran statistik sesuai dalam menggambarkan dan menganalisis
data dengan cara yang berarti:
Ukuran tendensi sentral atau rata-rata
Berarti
Median
Mode
Tindakan penyebaran atau dispersi
Jarak
Perbedaan
Standar deviasi
Ukuran posisi relatif
Skor standar
Persentase peringkat
Persentase skor
Ukuran hubungan
Koefisien korelasi
Ukuran Kecenderungan Tengah
Nonstatistik menggunakan rata-rata untuk menggambarkan karakteristik kelompok secara umum
cara. Iklim suatu daerah sering dicatat oleh suhu rata-rata atau jumlah rata-rata
curah hujan Kami dapat mendeskripsikan siswa berdasarkan rata-rata kelas atau usia rata-rata.
Status sosial ekonomi kelompok ditunjukkan oleh pendapatan rata-rata, dan tingkat pengembalian
portofolio investasi dapat dinilai dari segi pendapatan rata-rata. Tapi untuk
ahli statistik istilah rata-rata tidak memuaskan, karena ada sejumlah jenis rata-rata,
hanya satu yang mungkin sesuai untuk digunakan dalam menggambarkan karakteristik yang
diberikan
dari sebuah kelompok Dari sekian banyak rataan yang bisa digunakan, tiga diantaranya telah dipilih
Paling berguna dalam riset pendidikan: mean, median, dan mode.
Mean (X)
Rata-rata distribusi umumnya dipahami sebagai rata-rata aritmatika. Itu
Rata-rata nilai rata-rata kelas, yang akrab bagi siswa, adalah nilai rata-rata. Hal ini dihitung oleh
membagi jumlah semua nilai dengan jumlah skor. Dalam bentuk formula
Maksudnya mungkin yang paling berguna untuk semua ukuran statistik, untuk, sebagai tambahan
Dengan informasi yang diberikannya, itu adalah basis dari mana banyak lainnya
ukuran penting dihitung.
Lampiran B berisi kumpulan data dari populasi 100 anak (satu set in
Microsoft Excel dan satu dalam format SPSS). Data untuk setiap anak mencakup sebuah ID
nomor, metode pengajaran membaca yang diterima, jenis kelamin, kategori
pendidikan khusus di mana anak telah diklasifikasikan (LD = belajar
cacat; BD = perilaku tidak teratur; MR = keterbelakangan mental ringan), dan keduanya
skor pra dan posttest. Pembaca mungkin ingin secara acak memilih sampel 25
anak-anak (atau 15 anak jika direkomendasikan oleh profesor) dari lampiran untuk
gunakan dalam berbagai perhitungan sepanjang bab ini. Sekarang hitung meannya
untuk sampel dari 25 IQ anak-anak ini. Rata-rata populasi yang diberikan dalam lampiran
adalah 86.12. Bagaimana mean sampel dibandingkan dengan mean populasi?
Median (Md)
Median adalah titik (tidak harus skor) dalam array, di atas dan di bawah mana
setengah dari skor jatuh. Ini adalah ukuran posisi daripada besaran dan
sering ditemukan dengan inspeksi dan bukan dengan perhitungan. Bila ada
Jumlah ganjil skor untied, median adalah skor tengah, seperti pada contoh
di bawah:
7
6 3 scores above
5
4-median
3
2 3 scores below
1
Bila ada sejumlah nilai yang tidak terikat, median adalah titik tengahnya
antara dua nilai tengah, seperti pada contoh di bawah ini:
6
5 3 scores above
4
- median = 3.50
3
2 3 scores below
1
Jika data termasuk skor terikat pada titik median, interpolasi diikat
skor itu perlu Setiap bilangan bulat akan mewakili interval dari separuh jalan
itu dan skor lebih rendah berikutnya ke setengah jalan antara itu dan skor yang lebih tinggi berikutnya. Kapan
Hubungan terjadi pada titik tengah dari serangkaian nilai, interval ini dibagi ke dalam
jumlah skor terikat dan titik tengah atau median ditemukan. Pertimbangkan himpunan
skor pada Gambar 10.1.
Karena ada empat nilai yang diikat (75), interval dari 74,5 menjadi 75,5 terbagi
menjadi empat bagian yang sama. Masing-masing nilai tersebut kemudian dianggap menempati 0,25 dari
interval, dan median dihitung.
Salah satu tujuan mean dan median adalah untuk mewakili nilai "khas";
Sebagian besar waktu cukup memuaskan untuk menggunakan mean untuk tujuan ini. Namun, kapan
distribusi skor sedemikian rupa sehingga sebagian besar skor berada di satu ujung dan relatif sedikit
Di sisi lain (dikenal sebagai distribusi miring), median lebih disukai karena
Hal ini tidak dipengaruhi oleh nilai ekstrim di kedua ujung distribusi. Berikut ini
Contoh median identik. Namun, rata-rata Grup A adalah 4, dan rata-rata Grup B adalah 10. Mean dan median keduanya mewakili
Grup A, namun median lebih baik mewakili nilai "khas" dari Grup B.
Dengan demikian, dalam distribusi data miring median adalah ukuran yang lebih realistis
kecenderungan sentral daripada mean.
Di sebuah sekolah kecil dengan lima anggota fakultas, gaji itu mungkin
Gaji rata-rata kelompok diwakili dengan penekanan yang berbeda dengan
gaji rata-rata ($ 21.400) daripada gaji rata-rata ($ 24.000), yang secara substansiallebih tinggi dari empat dari lima anggota
fakultas. Jadi, kita lihat lagi itu
median kurang sensitif daripada mean terhadap nilai ekstrim di kedua ujung a
distribusi.
Menggunakan 25 anak yang sama yang dipilih dari Appendix Bto menghitung rata-rata, sekarang
hitung mediannya Bagaimana membandingkan keduanya? Mana yang lebih berguna? Itu
median untuk populasi 100 anak adalah 89,0 (5 skor 89 jatuh di bawah titik tengah
dan 5 di atasnya). Bagaimana perbandingan sampel median?
Mode (Mo)
6
5
4]
4 ] Mode
3
2
1
Modusnya adalah skor yang paling sering terjadi dalam sebuah distribusi. Terletak di
dengan inspeksi bukan dengan perhitungan. Dalam mengelompokkan data distribusi mode
diasumsikan sebagai midscore interval di mana frekuensi terbesar
terjadi
Misalnya, jika usia magang anak kelas lima adalah 10 tahun, maka hal itu akan terjadi
Ada anak kelas lima yang berusia lebih tua dari tahun-tahun lainnya. Atau salesman pria
mungkin bisa memverifikasi fakta bahwa ada lebih banyak penjualan dengan ukuran 40 setelan daripada yang lainnya
ukuran; Akibatnya, sejumlah besar ukuran 40 jas dipesan dan ditebar, ukurannya
40 menjadi mode
Dalam beberapa distribusi mungkin ada lebih dari satu mode. Distribusi dua mode
disebut sebagai bimodal, lebih dari dua, multimodal. Jika jumlah auto
Kecelakaan di jalanan kota ditabulasikan berjam-jam terjadinya, kemungkinan besar
bahwa dua periode modal akan menjadi jelas - antara 7 A.M. dan 8 A.M. dan
antara 5 P.M. dan 6 P.M., jam ketika lalu lintas ke dan dari toko dan kantor berada
Terberat dan saat pengemudi tergesa-gesa. Dalam distribusi normal
Data ada satu mode, dan jatuh di titik tengah, sama seperti rata-rata dan median
melakukan. Dalam beberapa distribusi yang tidak biasa, bagaimanapun, mode mungkin jatuh pada beberapa lainnya
titik. Bila mode atau mode mengungkapkan perilaku tidak biasa seperti itu, mereka tidak melayani
sebagai ukuran kecenderungan sentral, namun mengungkapkan informasi bermanfaat tentang
sifat distribusi.
Dengan menggunakan kumpulan data pada Lampiran B, modus kategori kecacatan bisa
ditentukan. Karena 50 dari 100 anak memiliki ketidakmampuan belajar (28 memiliki
gangguan perilaku dan 22 memiliki keterbelakangan mental) sebagai klasifikasi mereka, ini
mode. Sekarang menggunakan data dari 25 anak yang dipilih untuk mean dan
Perhitungan median di atas, tentukan cara sampel kategori kecacatan.
Sekarang tentukan mode untuk IQ sampel. Modus untuk populasi
adalah 89. Bagaimana cara perbandingan sampel?
Ukuran Spread atau Dispersi
Ukuran tendensi sentral menggambarkan lokasi sepanjang skala terurut. Ada
karakteristik distribusi data yang meminta tambahan jenis analisis statistik.
Skor pada Tabel 10.4 dibuat oleh sekelompok siswa dengan dua perbedaan
tes, satu di baca dan satu di aritmatika.
Mean dan median identik untuk kedua tes. Jelas bahwa rata-rata
Jangan sepenuhnya menggambarkan perbedaan prestasi antara nilai siswa
pada dua tes tersebut. Untuk membedakan kinerjanya, perlu menggunakan ukuran
skor penyebaran atau dispersi. Nilai tes aritmatika homogen, dengan sedikit
perbedaan antara nilai yang berdekatan Skor tes baca jelas heterogen,
dengan penampilan mulai dari yang superior sampai yang sangat miskin.
Jangkauan
Rentang, ukuran dispersi yang paling sederhana, adalah perbedaan antara yang tertinggi
dan skor terendah. Untuk membaca skor kisarannya adalah 40 (95 - 55). Untuk aritmatika
Skor kisarannya adalah 8 (79-73).
Penyimpangan dari Mean (x)
Skor yang dinyatakan sebagai jarak dari mean disebut skor deviasi. Rumusnya
Adalah
x= (X- X)
Jika skor turun di atas rata-rata, skor deviasi positif (+); jika jatuh
Di bawah rata-rata, nilai deviasi negatif (-).
Dengan menggunakan contoh yang sama, bandingkan dua set skor:
Menarik untuk dicatat bahwa jumlah penyimpangan skor dari mean

sama dengan nol
Sebenarnya, kita bisa memberi definisi alternatif tentang mean: Mean adalah itu
nilai dalam distribusi di mana jumlah skor penyimpangan sama dengan nol.
Varians (al)
saya
Jumlah penyimpangan kuadrat dari mean, dibagi dengan N, dikenal sebagai
esearc 1
NaVigalor.cll> m varians. Kami mencatat bahwa jumlah deviasi dari mean sama dengan nol
Varians (~ x = 0). Dari sudut pandang matematis, tidak mungkin menemukan mean
nilai untuk menggambarkan penyimpangan ini (kecuali jika tanda-tandanya diabaikan). Squaring masing-masing
Skor deviasi menghasilkan skor positif. Skor kemudian bisa dijumlahkan, dibagi
oleh N, dan rata-rata penyimpangan kuadrat dihitung. Rumus variannya adalah
Dengan demikian, varians adalah nilai yang menggambarkan bagaimana semua skor dalam suatu distribusi
tersebar atau menyebar tentang mean. Nilai ini sangat berguna dalam menggambarkan
karakteristik distribusi dan akan dipekerjakan dalam jumlah yang sangat
tes statistik penting Namun, karena semua penyimpangan dari yang jahat
telah kuadrat untuk menemukan variansnya, terlalu besar untuk mewakili penyebarannya
skor.
Deviasi Standar (0 ')
Deviasi standar, akar kuadrat varians, paling sering digunakan sebagai
ukuran atau dispersi. Formu1a untuk Standar deviasi populasi adalah
Dalam contoh berikut, dengan menggunakan nilai bacaan dari Table IDA, variansnya
dan standar deviasi dihitung.
Seperti dapat dilihat dengan jelas, varians 166,67 tidak dapat mewakili, untuk sebagian besar tujuan,
sebaran skor dengan total hanya 41, tapi standar deviasi
dari 12.91 masuk akal.
Meski pendekatan penyimpangan (hanya digunakan pada perhitungan sebelumnya)
contoh yang jelas tentang arti varians dan standar deviasi, sebenarnya
Praktekkan metode penyimpangan bisa jadi canggung untuk digunakan dalam menghitung varians
atau standar deviasi untuk sejumlah besar skor. Metode yang kurang rumit,
yang menghasilkan jawaban yang sama, menggunakan nilai mentah dan bukan penyimpangan
skor. Nilai angka cenderung besar, namun penggunaan kalkulator memudahkan
perhitungannya
Deviasi Standar untuk Sampel (S)
Perbedaan dan standar deviasi untuk populasi baru saja dijelaskan.
Karena sebagian besar waktu peneliti menggunakan sampel yang dipilih dari populasi, itu
diperlukan untuk mengenalkan formula untuk varians SZ dan standar deviasi
(5) sampel. Formula sampel hanya sedikit berbeda dari formula populasi.
Seperti akan terlihat, bukannya membagi dengan N dalam rumus penyimpangan dan dengan N2
Dalam formula skor baku, rumus sampel dibagi masing-masing n - 1 dan n (n - 1).
Hal ini dilakukan untuk mengoreksi probabilitas bahwa semakin kecil sampel semakin sedikit
Kemungkinan besar skor ekstrem akan disertakan. Jadi rumus untuk (saya, jika digunakan dengan
sampel, akan meremehkan standar deviasi penduduk karena a
Sampel yang dipilih secara acak mungkin tidak memasukkan skor paling ekstrem itu
Ada dalam populasi hanya karena hanya ada sedikit dari mereka. Membagi dengan n - 1
atau n (n - 1) memperbaiki bias ini, lebih atau kurang tergantung pada ukuran sampel.
Hal ini membuat standar deviasi sampel lebih representatif dari populasi.
Dalam contoh kecil, katakan n = 5, koreksi agak besar, bagi dengan 4
bukan 5-pengurangan 20% di denominator. Dalam sampel besar, katakanlah n = 100,
Koreksi tidak signifikan, membagi dengan 99 bukan 100-pengurangan 1% masuk
penyebutnya Sekali lagi, perbedaan dalam koreksi persen ini adalah karena fakta
Semakin kecil sampel, kemungkinan besar skor ekstrim akan terwakili.
Kita harus mencatat bahwa formula ini untuk standar deviasi sampel
sebenarnya statistik inferensial dan biasanya ada di bab berikutnya. Namun,
karena ini adalah rumus yang digunakan untuk menggambarkan sampel dan karena sampel adalah apa yang biasanya harus
menghitung deviasi standar, kami yakin ini
adalah tempat yang lebih baik untuk mereka.
Dua rumus untuk standar deviasi sampel dengan deviasi dan
Metode perhitungan nilai rata - rata adalah masing – masing
Tidak diragukan lagi pembaca bisa melihat bahwa satu-satunya perubahan ada di dalam denominator. Demikian,
jika kita mengganti n (n - 1) untuk N2 dan menghitung 52 dan 5 dengan menggunakan data dari halaman 364,
kita akan menemukan yang berikut ini:
Hasil ini cukup berubah dari (i = 166,67 (perubahan +20,83) dan
(J = 12,91 (perubahan 0,78). Perbedaan yang relatif besar ini dari populasi
Rumus ke rumus sampel adalah karena ukuran sampel kecil (n = 9), yang mana
membuat koreksi yang relatif besar diperlukan. Koreksi untuk menghitung
Perbedaan dan standar deviasi penting karena, kecuali jika kehilangan gelar
kebebasan (dibahas di Bab 11) dipertimbangkan, varians sampel yang dihitung
atau standar deviasi cenderung meremehkan varians atau standar populasi
deviasi. Hal ini berlaku karena rata - rata penyimpangan kuadrat dari
Rata-rata distribusi apa pun adalah nilai sekecil mungkin dan mungkin juga demikian
lebih kecil dari mean deviasi kuadrat dari titik lain dalam distribusi.
Karena mean sampel tidak mungkin identik dengan populasi
mean (karena kesalahan sampling), penggunaan N - 1 (jumlah derajat
kebebasan) dan bukan N dalam denominator cenderung mengoreksi hal yang meremehkan ini
dari varians populasi atau standar deviasi.
Kekuatan prediksi atau keakuratan nilai yang disimpulkan meningkat seiring dengan
Jumlah pengamatan independen (ukuran sampel) meningkat. Karena sampelnya besar
Bisa jadi bias, ukuran sampel bukan satu-satunya faktor penentu yang penting, tapi kalau bias
Sampel dipilih secara acak dari populasi, sampel besar akan disediakan
basis yang lebih akurat daripada sampel yang lebih kecil untuk menyimpulkan nilai populasi.
Deviasi standar untuk IQ populasi pada Apendiks Bis 11,55, dengan menggunakan
rumus untuk populasi (akan menjadi 11,61 jika rumus sampel digunakan). Itu
pembaca harus menghitung standar deviasi (menggunakan rumus untuk sampel) untuk
contoh. Bagaimana perbandingannya dengan standar deviasi populasi ini?
Standar deviasi adalah alat yang sangat berguna untuk membandingkan karakteristik
yang mungkin sangat berbeda atau dapat dinyatakan dalam satuan pengukuran yang berbeda.
Diskusi berikut menunjukkan bahwa ketika normalitas distribusi dapat terjadi
diasumsikan itu adalah mungkin untuk membandingkan apel pepatah dan jeruk. Standar
Penyimpangan tidak bergantung pada besarnya mean dan memberikan kesamaan
unit pengukuran Untuk menggunakan contoh yang agak tidak masuk akal, bayangkan seorang pria yang
tinggi adalah satu standar deviasi di bawah rata-rata dan yang beratnya satu standar
penyimpangan diatas mean. Karena kita asumsikan ada hubungan yang normal
antara tinggi dan berat (atau kedua karakteristik tersebut terdistribusi normal),
sebuah gambar muncul dari individu yang pendek dan kelebihan berat badan. Tingginya, dinyatakan dalam inci,
berada di 16% terendah dari populasi, dan beratnya, dinyatakan dalam pound, berada di dalam
tertinggi 16% .Dalam bab ini hanya standar deviasi suatu populasi yang dibahas.
Namun sebelum menggunakan standar deviasi untuk menggambarkan status atau posisi dalam suatu kelompok
dibahas, distribusi normal perlu diperiksa.

Distribusi normal
Analisis matematis paling awal dari teori probabilitas tanggal ke 18
abad. Abraham DeMoivre, seorang matematikawan Prancis, menemukan bahwa matematika
Hubungan tersebut menjelaskan probabilitas yang terkait dengan berbagai permainan
kesempatan. Ia mengembangkan persamaan dan pola grafis yang menggambarkannya. Selama
abad ke-19 seorang astronom Prancis, LaPlace, dan seorang matematikawan Jerman,
Gauss, secara independen sampai pada prinsip yang sama dan menerapkannya secara lebih luas
ke bidang pengukuran dalam ilmu fisika. Dari aplikasi terbatas
yang dibuat oleh para ahli matematika dan astronom awal ini, teori probabilitas,
atau kurva distribusi kesalahan, telah diterapkan pada data yang dikumpulkan di daerah tersebut
biologi, psikologi, sosiologi, dan ilmu lainnya. Teori ini menggambarkan
fluktuasi kesalahan pengamatan dan pengukuran kebetulan. Hal ini perlu dilakukan
memahami teori probabilitas dan sifat kurva distribusi normal
untuk memahami banyak konsep statistik penting, terutama di daerah tersebut
skor standar, teori sampling, dan statistik inferensial.
Kita harus ingat bahwa "distribusi normal sebenarnya tidak ada.
Ini bukan fakta alam. Sebaliknya, ini adalah model matematis - sebuah idealisasi - itu
dapat digunakan untuk mewakili data yang dikumpulkan dalam penelitian perilaku "(Shavelson, 1996,
hal. 120). Hukum probabilitas dan kurva normal yang menggambarkannya didasarkan pada
hukum kebetulan atau kemungkinan kejadian tertentu. Bila ada tubuh
Pengamatan sesuai dengan bentuk matematis ini, dapat diwakili oleh bellshaped
kurva dengan karakteristik yang pasti (Gambar 10.2).
1. Kurva simetris sekitar sumbu vertikal-50% dari skor di atas
rata-rata dan 50% di bawah rata-rata.
2. Mean, median, dan mode distribusi memiliki nilai yang sama.
3. Istilah berkelompok di sekitar pusat-sebagian besar skor mendekati rata-rata, rata-rata,
dan mode dengan skor lebih sedikit karena skornya lebih jauh dari pusat.
4. Kurva tidak memiliki batas di kedua arah, karena kurva tidak pernah menyentuh
garis dasar, tidak peduli seberapa jauh jaraknya. Kurva adalah kurva probabilitas,
bukan dari kepastian.
5. Salah satu cara untuk memikirkan kurva normal (atau lekukan tidak normal yang dijelaskan
tidak lama lagi) adalah melihatnya "sebagai figur geometrik padat yang terdiri dari semua subjek dan
nilai mereka yang berbeda "(Heiman, 1996, hal 53). Artinya, kurva itu merapikan,
versi melengkung dari grafik batang yang mewakili setiap kemungkinan skor dan jumlahnya
dari orang yang mendapat skor itu
Periset sering menganggap satu standar deviasi dari mean menjadi khusus
titik penting pada kurva normal. Ini untuk kedua praktis dan a
alasan matematis Alasan praktisnya adalah bahwa ini menghasilkan sekitar 68%
(sedikit lebih dari dua pertiga) populasi jatuh di antara satu standar deviasi
di atas dan satu standar deviasi di bawah rata-rata. Mungkin yang lebih penting,
Inilah titik di mana kurva berubah dari bentuk cembung ke bawah ke arah
bentuk cembung ke atas. Jadi, matematis, ini adalah titik di mana arah
dari perubahan kurva Seperti akan dibahas nanti, ± 1.96 standar deviasi
Dari rata-rata akan menghasilkan 95% populasi. Ini adalah titik kritis lainnya
Pada kurva, yang sering dibulatkan menjadi 2 standar deviasi dari mean.
Operasi kebetulan terjadi dalam melempar koin atau dadu. Hal ini diyakini bahwa
Banyak karakteristik manusia yang merespons pengaruh kebetulan. Misalnya, jika pasti
batas usia, ras, dan gender tetap konstan, ukuran seperti tinggi badan,
Berat badan, kecerdasan, dan umur panjang akan mendekati pola distribusi normal.
Namun distribusi normal tidak muncul dalam data berdasarkan pengamatan
sampel Hanya saja tidak cukup pengamatan. Distribusi normal didasarkan
pada jumlah tak terhingga pengamatan di luar kemampuan pengamat; demikian,
Biasanya ada beberapa simpangan yang diamati dari pola simetris. Tapi untuk tujuan
Dari analisis statistik, diasumsikan bahwa banyak karakteristik sesuai
Bentuk matematis ini dalam batas-batas tertentu, memberikan referensi yang mudah.
Konsep kecerdasan terukur didasarkan pada asumsi kecerdasan
biasanya didistribusikan ke seluruh segmen populasi yang terbatas. Pengujian
Begitu dibangun (distandarisasi) sehingga nilai biasanya terdistribusi dalam jumlah besar
kelompok yang digunakan untuk penentuan norma atau standar. Perusahaan asuransi
menentukan tingkat premi mereka dengan penerapan kurva probabilitas.
probabilitas kelangsungan hidup seorang pria dari usia 45 sampai 46 tahun. Mereka tidak bermaksud memprediksi
kelangsungan hidup individu tertentu, tapi dari kelompok besar mereka bisa memprediksi
tingkat kematian semua risiko tertanggung.
Luas total di bawah kurva normal dapat dianggap mendekati 100%
kemungkinan. Diinterpretasikan dalam hal standar deviasi, area antara mean
dan berbagai standar deviasi dari mean di bawah kurva menunjukkan ini
persentase hubungan (lihat Gambar 10.3).
Perhatikan konformasi grafis dari karakteristik kurva normal:
1. Ini simetris-persentase frekuensi sama untuk interval yang sama
di bawah atau di atas rata-rata.
2. Istilah atau skor "cluster" atau "kerumunan di sekitar rata-rata" -catat bagaimana persentase
dalam standar deviasi tertentu paling besar di sekitar mean dan penurunan
sebagai satu bergerak menjauh dari mean.
X sampai ± 1.00z
± 1.00 sampai ± 2.00z
± 2.00 sampai ± 3.00z
34,13%
13,59%
2,15%
3. Kurva paling tinggi pada mean-mean, median, dan mode memiliki persamaan
nilai.
4. Kurva tidak memiliki batas - sebagian kecil dari 1% ruang berada di luar
dari ± 3,00 standar deviasi dari mean.
Kurva normal adalah kurva yang juga menggambarkan probabilitas. Misalnya, jika
tinggi biasanya didistribusikan untuk segmen populasi tertentu, kemungkinannya
3; 613 bahwa seseorang yang dipilih secara acak akan berada di antara mean dan satu standar
penyimpangan di atas rata-rata tinggi, dan 3; 613 bahwa orang yang dipilih akan berada di antara keduanya
mean dan satu standar deviasi di bawah rata-rata tinggi-atau 6 ~ 6 ~ 6 yang
orang terpilih akan berada dalam satu standar deviasi (di atas atau di bawah) mean di
tinggi. Interpretasi lain adalah bahwa 68,26% dari segmen populasi ini akan menjadi
antara rata-rata dan satu standar deviasi di atas atau di bawah rata-rata tinggi badan.
Contohnya bisa membantu pembaca memahami konsep ini. IQ (kecerdasan
quotient) diasumsikan terdistribusi normal. Skala Intelijen Wechsler
untuk Anak-Revisi (WISC-R) memiliki rata-rata 100 dan standar deviasi 15.
Dengan demikian, skor IQ WISC-R yang merupakan salah satu standar deviasi diatas mean adalah 115, dan
Skor 85 adalah satu standar deviasi di bawah rata-rata. Dari informasi ini itu
diketahui bahwa sekitar 68% populasi harus memiliki nilai WISC-R
antara 85 dan 115.
Untuk tujuan praktis kurva biasanya diperluas sampai ± 3 standar deviasi

dari mean (± 3z). Sebagian besar kejadian atau kejadian (atau probabilitas) akan turun antara
batas ini Probabilitasnya adalah 9 ;: 04 bahwa batas-batas ini memperhitungkan pengamatan atau prediksi
kejadian. Pernyataan ini tidak menunjukkan bahwa kejadian atau tindakan bisa dilakukan
Tidak jatuh lebih dari tiga standar deviasi dari mean tapi kemungkinan itu
akan terlalu kecil untuk dipertimbangkan saat membuat prediksi atau perkiraan berdasarkan
kemungkinan. Ahli statistik menangani probabilitas, bukan kepastian, dan selalu ada
tingkat reservasi dalam membuat prediksi apapun. Ahli statistik menangani probabilitasnya
yang menutupi kejadian normal, bukan kejadian yang berada di luar
rentang pengalaman normal.
Distribusi tidak normal
Seperti disebutkan sebelumnya dalam pembahasan data parametrik dan nonparametrik dan
kegunaan relatif rata-rata dan median, tidak semua distribusi, khususnya
dari data sampel, identik dengan atau bahkan mendekati kurva normal. Ada dua lainnya
Jenis distribusi yang bisa terjadi: condong dan bimodal. Dalam distribusi miring
Sebagian besar skor berada di dekat ujung yang tinggi atau rendah dengan jumlah yang relatif sedikit
skor di ujung lain Distribusi dianggap miring ke arah
ekor (skor paling sedikit). Pada Gambar 10.4, distribusi A miring secara positif, dan distribusi
B miring negatif. Distribusi yang miring dapat disebabkan oleh angka
Faktor, termasuk tes yang terlalu mudah atau keras atau contoh atipikal (sangat terang
atau kecerdasan yang sangat rendah).
Distribusi Bimodal memiliki dua mode (lihat distribusi C pada Gambar 10.4)
daripada mode tunggal distribusi normal atau miring. Hal ini sering diakibatkan oleh a
sampel yang terdiri dari orang-orang dari dua populasi. Misalnya, ketinggian
Orang dewasa Amerika akan dibagi secara bimodal, betina berkerumun di sekitar a
mode sekitar 5 kaki 4 inci dan jantan sekitar mode sekitar 5 kaki 10 inci.
Menafsirkan Distribusi Probabilitas Normal
Bila skor biasanya atau mendekati normal, tabel probabilitas normal
berguna. Nilai yang disajikan dalam tabel probabilitas normal pada Lampiran B kritis karena mereka menyediakan data untuk
distribusi normal yang bisa ditafsirkan
dengan cara berikut:
1. Persentase total ruang termasuk antara mean dan standar yang diberikan
deviasi (z) jarak dari mean
2. Persentase kasus, atau angka saat N diketahui, yang jatuh di antaranya
mean dan standar deviasi tertentu (z) jarak dari mean

3. Probabilitas suatu peristiwa akan terjadi antara mean dan standar yang diberikan
deviasi (z) jarak dari mean
Gambar 10.5 menunjukkan bagaimana area di bawah kurva normal dapat dibagi. Di
distribusi normal karakteristik berikut ini berlaku:
1. Ruang yang termasuk antara mean dan + 1.00z adalah 0,3413 dari total area
di bawah kurva.
2. Persentase kasus yang jatuh antara mean dan + 1.00z adalah .3413.
3. Probabilitas kejadian yang terjadi (observasi) antara mean dan
+ 1.00z adalah .3413.
4. Distribusi dibagi menjadi dua bagian yang sama, satu setengah di atas rata-rata dan
setengah lainnya di bawah rata-rata.
5. Karena satu setengah dari kurva di atas rata-rata dan, 3513 dari total luasnya
antara mean dan + 1.00z, area kurva yang berada di atas + 1.00z adalah .1587.
Karena kurva probabilitas normal simetris, bentuknya kanan
Sisi (diatas rata-rata) identik dengan bentuk sisi kiri (di bawah rata-rata).
Karena nilai untuk setiap sisi kurva adalah identik, hanya satu set nilai
disajikan dalam tabel probabilitas, dinyatakan seperseratus sigma (standar
penyimpangan) unit.
Tabel probabilitas normal pada Lampiran C memberikan proporsi
kurva yang ada antara mean dan nilai sigma (z) tertentu. Sisa dari itu
setengah dari kurva berada di luar nilai sigma.
Aplikasi Praktis dari Kurva Normal
Di bidang penelitian pendidikan kurva normal memiliki sejumlah praktis
aplikasi:
1. Untuk menghitung nilai persentil skor dalam distribusi normal.
2. Menormalkan distribusi frekuensi, sebuah proses penting dalam standarisasi
tes psikologis atau inventaris.
3. Menguji signifikansi tindakan yang diamati dalam eksperimen, yang berkaitan dengannya
kemungkinan fluktuasi atau kesalahan yang melekat dalam proses pengambilan sampel dan generalisasi
tentang populasi dari mana sampel diambil.
Ukuran Posisi Relatif: Skor Standar
Skor standar memberikan metode untuk mengekspresikan skor dalam distribusi di
jaraknya dari rata-rata unit deviasi standar. Utilitas ini

Konversi nilai baku menjadi nilai standar akan menjadi jelas karena masing-masing tipe
diperkenalkan dan diilustrasikan. Tiga jenis nilai standar dipertimbangkan.
1. Skor Z (Sigma)
2. Skor T (T)
3. Skor dewan perguruan tinggi (Zcb)
Ingat bahwa distribusi diasumsikan normal bila menggunakan tipe apapun
dari skor standar
Skor Z (Sigma)
Dalam menggambarkan skor dalam distribusi, penyimpangannya dari mean-express in
unit penyimpangan standar - lebih bermakna daripada skor itseIf. Unit
Pengukuran adalah standar deviasi.
Skor mentah 76 pada Contoh A dapat dinyatakan sebagai skor Z -1,50, yang menunjukkan
bahwa 76 adalah 1.5 standar deviasi di bawah mean. Skor 67 di Contoh
B dapat dinyatakan sebagai skor sigma +1.00, menunjukkan bahwa 67 adalah satu standar
penyimpangan diatas mean.
Dalam membandingkan atau merata skor pada distribusi di mana titik total mungkin berbeda,
peneliti menggunakan skor mentah dapat membuat kesan palsu sebagai dasar
perbandingan. Skor Z memungkinkan perbandingan skor dan skor yang realistis
memberikan dasar untuk bobot skor yang sama. Pada skala sigma rata - rata
distribusi apapun dikonversi menjadi nol, dan standar deviasi sama dengan 1.
Misalnya, seorang guru ingin menentukan rata-rata tertimbang rata-rata siswa
(mean) prestasi pada tes aljabar dan tes bahasa Inggris.
Jelas bahwa rata-rata dari dua nilai tes mentah tidak akan memberikan valid
Ringkasan kinerja siswa, karena rata-rata akan tertimbang sangat banyak
mendukung nilai tes bahasa Inggris. Konversi setiap nilai tes menjadi
Skor sigma membuat mereka terbobot rata dan sebanding, untuk kedua nilai tes
telah diekspresikan dalam skala dengan rata-rata nol dan standar deviasi satu.
Atas dasar bobot yang sama, kinerja siswa cukup konsisten:
1,40 standar deviasi di bawah mean dalam standar aljabar dan 1,30
penyimpangan di bawah rata-rata dalam bahasa Inggris.
Karena tabel probabilitas normal menggambarkan persentase daerah yang berbohong
antara unit deviasi rata-rata dan berturut-turut di bawah kurva normal (lihat
Lampiran C), penggunaan skor sigma memiliki banyak aplikasi berguna lainnya untuk hipotesis
pengujian, penentuan peringkat persentil, dan penilaian probabilitas.
Pembaca mungkin ingin memilih satu skor dari sampel 25 anak yang dipilih
sebelumnya dan hitung skor z untuk orang tersebut dalam kaitannya dengan sampel. Populasi
berarti (86.12) dan standar deviasi (11,55) dalam formula tersebut dapat terjadi
digunakan untuk menghitung z untuk anak yang sama. Bagaimana membandingkan kedua z skor ini?
Skor T (T)
T = 50 + 10 (X - X) atau 50 + 10z
Sebuah
Meski skor z paling sering digunakan, terkadang kikuk untuk dimiliki
negatif atau skor dengan desimal. Oleh karena itu, versi lain dari skor standar,
skor T, telah dirancang untuk menghindari kebingungan karena z negatif
skor (di bawah mean) dan juga untuk menghilangkan nilai desimal.
Mengalikan skor z dengan 10 dan menambahkan 50 hasil dalam skala keseluruhan positif
nilai angka Dengan menggunakan skor di contoh sebelumnya, T = 50 + 10z:
Aljabar T = 50 + 10 (-1.40) = 50 + (-14) = 36
Bahasa Inggris T = 50 + 10 (-1.30) = 50 + (-13) = 37
Skor T selalu dibulatkan ke bilangan bulat terdekat. Nilai z + 1,27
akan dikonversi menjadi skor T 63.
T = 50 + 10 (+1.27) = 50 + (+12.70) = 62.70 = 63
Mengkonversi skor z yang baru dihitung untuk orang yang dipilih dari sampel
menjadi nilai T.
Skor Dewan Perguruan Tinggi (Zcb)
Dewan Pemeriksaan Masuk Perguruan Tinggi dan beberapa agen pengujian lainnya menggunakan
konversi lain yang memberikan ukuran yang lebih tepat dengan cara menyebarkannya
skala (Gambar 10.6).
Zcb = 500 + 100 (X - X) = 500 + 100z
(J
Rata-rata skala ini adalah 500.
Standar deviasi adalah 100.
Rentangnya adalah 200-800.
Stanines
Angka stanin adalah skor standar yang membagi kurva normal menjadi sembilan bagian
istilah stanine dari sta standar dan sembilan. Peringkat ke-2 sampai ke 8 masing-masing
sama dengan satu unit standar deviasi standar. Dengan demikian, stanine 5 meliputi pusat
kurva dan pergi seperempat (0,25) standar deviasi di atas dan di bawah
berarti. Stanine 6 pergi dari atas stanine 5 sampai 0,75 standar deviasi di atas
mean, sedangkan stanine 4 masuk dari dasar stanine 5 sampai 0,75 standar
penyimpangan di bawah rata-rata dan sebagainya. Stanine 1 mencakup semua nilai di bawah angka stanine
2, dan stanine 9 mencakup semua nilai di atas angka 3. Gambar 10.6 menunjukkan
distribusi stanine dan membandingkannya dengan nilai standar lainnya.
Persentase peringkat
Meski peringkat persentil biasanya tidak dianggap sebagai nilai standar, hal itu penting
untuk diskusi ini Hal ini sering berguna untuk menggambarkan skor dalam kaitannya dengan nilai lainnya;
Peringkat persentil adalah titik dalam distribusi di bawah mana persentase yang diberikan
skor jatuh Jika peringkat persentil ke-80 adalah skor 65,80% dari skor di bawahnya
65. median adalah peringkat persentil ke-50, untuk 50% dari skor jatuh di bawahnya.
Bila N kecil, definisi membutuhkan penyempurnaan tambahan. Benar-benar
Yang akurat, peringkat persentil adalah skor dalam distribusi di bawah mana yang diberikan
persentase nilai jatuh, ditambah satu setengah persentase ruang yang ditempati
skor yang diberikan.
Skor
50
47
43
39
30
Pada pemeriksaan terlihat bahwa 43 adalah median, atau menempati persentil ke-50
pangkat. Lima puluh persen nilai harus jatuh di bawahnya, tapi sebenarnya hanya dua dari lima nilai di bawah 43. Itu
menunjukkan 43 memiliki peringkat persentas 40.
Tapi dengan menambahkan frase "ditambah satu setengah persentase ruang yang ditempati oleh
skor, "perhitungannya didamaikan:
40% skor di bawah 43; setiap skor menempati 20% dari total ruang
40% + 10% = 50 (peringkat persentil sejati)
Bila N besar, kualifikasi ini tidak penting karena peringkat persentil
dibulatkan ke bilangan bulat terdekat, mulai dari peringkat persentil tertinggi
99 sampai yang terendah dari nol.
Sekolah menengah sering menilai lulusan senior mereka dalam hal peringkat di kelas.
Karena sekolah sangat bervariasi, perguruan tinggi menemukan peringkat nilai terbatas ini
kecuali jika diubah menjadi beberapa dasar umum untuk perbandingan. Persentil
peringkat memberikan dasar ini dengan mengubah peringkat kelas menjadi peringkat persentil.
. (IOORK - 50)
Persentase peringkat = 100 - N
dimana RK = peringkat dari atas.
Jones menempati urutan 27 di kelasnya yang terdiri dari 139 siswa. Dua puluh enam siswa berpangkat
di atasnya, di bawahnya. Peringkat persentilnya adalah
100 - (2700 - 50) = 100 - 19 = 81
139
Dalam rumus ini, 50 dikurangkan dari 100RK untuk memperhitungkan separuh ruang yang ditempati
dengan skor individu. Berapakah peringkat persentil dari orang yang Anda pilih
untuk menghitung nilai z dan T?
Ukuran Hubungan
Korelasi
Korelasi adalah hubungan antara dua atau lebih variabel berpasangan atau dua atau lebih kumpulan data. Tingkat hubungan IS
diukur dan diwakili oleh
koefisien tersebut dapat diidentifikasi dengan huruf r,
huruf Yunani rho (p), atau simbol lainnya, tergantung pada distribusi data dan
cara koefisiennya dihitung.
Siswa yang memiliki kecerdasan tinggi cenderung mendapat nilai tinggi
tes matematika, sedangkan mereka dengan IQ rendah cenderung untuk skor rendah. Saat tipe ini
Dari hubungan yang didapat, faktor kecerdasan dan skor yang diukur pada matematika
Tes dikatakan berkorelasi positif.
Terkadang variabel berkorelasi negatif bila jumlahnya banyak
variabel dikaitkan dengan jumlah kecil yang lain. Sebagai satu meningkat, yang lain
cenderung menurun.
Bila hubungan antara dua set variabel adalah hubungan kebetulan murni,
kita mengatakan bahwa tidak ada korelasi
Pasangan variabel ini biasanya berkorelasi positif: Seperti yang meningkat,
lainnya cenderung meningkat.
1. Intelijen
2. Produktivitas per hektar
3. Tinggi badan
4. Penghasilan keluarga
Prestasi akademis
Nilai lahan pertanian
Ukuran sepatu
Nilai rumah keluarga
Variabel ini biasanya berkorelasi negatif: Seperti yang meningkat, yang lain
cenderung menurun.
1. Prestasi akademis
2. Produksi total com
3. Waktu yang dihabiskan dalam latihan
4. Usia sebuah mobil
Jam per minggu menonton TV
Harga per gantang
Jumlah kesalahan pengetikan
Trade-in value
Ada ciri-ciri lain yang mungkin tidak memiliki korelasi.
1. Berat badan
2. Ukuran sepatu
Intelijen
Gaji bulanan
Tingkat korelasi linier dapat diwakili secara kuantitatif dengan koefisien
korelasi. Korelasi positif yang sempurna adalah 1,00. Korelasi sempurna yang sempurna
adalah -1.00. Kurang lengkap hubungan adalah nol (0). Jarang sekali, jika pernah
Koefisien korelasi yang sempurna dari +1.00 atau -1.00 terjadi, terutama di
Mengaitkan sifat manusia. Meski beberapa hubungan cenderung tampil cukup konsisten,
Ada variasi atau pengecualian yang mengurangi koefisien yang diukur dari
baik -1.00 atau +1.00 menuju nol.
Definisi korelasi positif yang sempurna menentukan bahwa untuk setiap unit meningkat
Dalam satu variabel terjadi peningkatan satuan proporsional di sisi lain. Negatif yang sempurna
Korelasi menentukan bahwa untuk setiap unit kenaikan dalam satu variabel ada yang proporsional
penurunan unit di sisi lainnya. Bahwa tidak ada pengecualian yang menjelaskan mengapa
koefisien korelasi +1.00 atau -1.00 tidak ditemukan dalam hubungan manusia
sifat. Tanda koefisien menunjukkan arah hubungan, dan
nilai numerik kekuatannya.
Scattergram dan Linear Regression Line

Bila hubungan antara dua variabel diplot secara grafis, dipasangkan variabel
nilai diplot satu sama lain pada X dan Yaxis.
Garis yang ditarik melalui, atau dekat, titik koordinat dikenal sebagai "garis
yang paling sesuai, "atau garis regresi. Pada baris ini jumlah penyimpangan dari semua
titik koordinat memiliki nilai sekecil mungkin. Sebagai pendekatan koefisien
nol (0), titik koordinat turun lebih jauh dari garis regresi (lihat Gambar 10.7
untuk contoh scattergrams korelasi yang berbeda).
Bila koefisien korelasinya adalah +1.00 atau -1.00, semua koordinatnya
Poin jatuh pada garis regresi, menunjukkan bahwa, ketika r = +1.00, untuk setiap
kenaikan X ada peningkatan proporsional Y; dan bila r = -1.00, untuk
setiap kenaikan X ada penurunan proporsional Y. Tidak ada individu
pengecualian. Jika kita tahu skor seseorang dengan satu ukuran, kita bisa menentukannya atau tidak
Skor pastinya pada ukuran lainnya.
Kemiringan garis regresi, atau garis yang paling sesuai, tidak ditentukan oleh tebakan
atau estimasi tapi dengan proses geometris yang akan dijelaskan nanti.
Sebenarnya ada dua garis regresi. Bila r = +1.00 atau -1.00, garisnya adalah
Ditumpangkan dan muncul sebagai satu baris. Karena r mendekati nol, garis-garisnya terpisah
lebih lanjut.
Hanya satu dari garis regresi yang dijelaskan dalam diskusi ini, Y0 X (atau
Yfrom X) baris. Hal ini digunakan untuk memprediksi nilai Yvalues yang diketahui dari nilai X yang diketahui. Itu
Nilai X dikenal sebagai variabel prediktor, dan Yivalues, variabel prediktor.
Garis regresi lainnya (tidak dijelaskan di sini) akan digunakan untuk pra ict X
dari Y.
Merencanakan Lereng Jalur Regresi
Kemiringan garis regresi (Y dari X) adalah representasi geometris f
koefisien korelasi dan dinyatakan sebagai rasio besarnya ise (jika
r adalah +) untuk lari, atau sebagai rasio kejatuhan (jika r - - untuk lari, dinyatakan dalam unit penyimpangan standar. Hubungan
geometris antara kedua kaki segitiga siku-siku
menentukan kemiringan sisi miring, atau garis regresi.
Misalnya, jika r = +.60, untuk setiap unit sigma meningkat (run) di X, ada a.60
Peningkatan unit sigma (kenaikan) di Y.
Jika r = - .60, untuk setiap unit sigma meningkat (run) di X, ada unit a.60 sigma
penurunan (jatuh) di Y.
Karena semua garis regresi melewati titik potong rata-rata X dan
Maksud garis Y, hanya satu titik lain yang diperlukan untuk menentukan kemiringan. Oleh
mengukur satu standar deviasi dari distribusi X pada sumbu X dan 0,60
Penyimpangan standar distribusi Y pada sumbu Y, titik kedua ditetapkan
(Gambar 10.8 dan 10.9).
Garis regresi (r) melibatkan satu fitur canggung: semua nilai harus
dinyatakan dalam nilai sigma (z) atau unit standar deviasi. Ini akan lebih praktis
untuk menggunakan skor aktual untuk menentukan kemiringan garis regresi. Ini bisa
dilakukan dengan mengubah ke kemiringan yang dikenal sebagai b. Kemiringan garis regresi b Y pada
X ditentukan oleh rumus
contoh, jika r = +.60
dan ay = 6
ax = 5
b = +.60 ~ = 3; 0 = +.72
Jadi r dari +.60 menjadi b = +.72. Sekarang rasio yang dijalankan memiliki nilai e dan yang lain
menunjukkan garis kemiringan yang berbeda (Gambar 10.10).
Koefisien korelasi yang paling sering digunakan dan paling tepat diketahui adalah koefisien Product-Moment Pearson (r).
Koefisien ini bisa dihitung dengan mengubah skor baku menjadi nilai sigma dan menemukan nilai rata-rata nilai mereka produk
silang
Jika sebagian besar nilai negatif X dikaitkan dengan nilai z negatif Y,
dan nilai positif X dengan nilai positif Y, koefisien korelasinya akan
menjadi positif. Jika sebagian besar nilai berpasangan adalah tanda yang berlawanan, koefisiennya akan
menjadi negatif
hubungan sejenis (+) (+ ) = + tinggi pada X, tinggi pada Y
( - )( - ) = + rendah pada X, rendah pada Y
hubungan beda jenis (+)( -) = - tinggi pada X, rendah pada Y
(- )( +) = - rendah pada X, tinggi pada Y
Metode nilai z tidak sering digunakan dalam perhitungan aktual karena inv lves
konversi masing-masing skor menjadi nilai sigma. Dua metode lain, sebuah penyimpangan
metode dan metode skor mentah, lebih mudah, lebih sering digunakan, dan ield
hasil yang sama
Metode penyimpangan menggunakan rumus berikut dan membutuhkan setti
dari sebuah tabel dengan tujuh kolom.
Menggunakan data dari Tabel 10.4, dengan nilai bacaan menjadi variabel X dan
Nilai aritmatika menjadi Yvariable, peneliti menghitung r seperti ini:
Metode skor mentah membutuhkan penggunaan lima kolom, seperti yang digambarkan di bawah ini bernyanyi
data yang sama
Sekarang ambil 25 anak yang dipilih tadi dan hitung korelasi IQ
dengan skor pretest Korelasi IQ dengan skor pretest untuk seluruh populasi
dari 100 anak adalah +552.Bagaimana korelasi sampel berhubungan dengan korelasi
untuk populasi? Sekarang hitung korelasi pretest dan
skor posttest Korelasi untuk populasi 100 anak di antaranya
skor pretest dan nilai posttest mereka adalah +834. Bagaimana korelasi sampelnya?
berhubungan dengan korelasi untuk populasi?
Korelasi Rank Order (p)
Bentuk tertentu dari korelasi product moment Pearson yang bisa digunakan
Korelasi dengan data ordinal dikenal sebagai koefisien korelasi rankear Spearman. Simbol p (rho) digunakan untuk mewakili
koefisien korelasi ini. Pasangan var ables
dinyatakan sebagai nilai ordinal (peringkat) daripada sebagai interval atau nilai rasio. Itu
koreksi cocok untuk demonstrasi grafis yang menarik.
Dalam contoh berikut, peringkat siswa tertinggi di peringkat IQ di
matematika, dan yang terendah dalam IQ, terendah dalam matematika.
Dalam contoh berikut, siswa berprestasi paling tinggi dalam waktu yang dihabiskan dalam latihan
peringkat terendah dalam jumlah kesalahan.
Dalam contoh berikut, mungkin hanya ada sedikit hubungan murni
(karena kesalahan sampling) antara tinggi dan kecerdasan.
Untuk menghitung koefisien korelasi urutan Spearman, hal ini agak sederhana
formula yang digunakan:
-1 6r.ri
p - - N(N2 -1)
dimana D = perbedaan antara pasangan berpasangan
r. ri = jumlah perbedaan kuadrat antara barisan
N = jumlah pasangan berpasangan
Jika data yang sebelumnya digunakan dikonversi ke peringkat dan dihitung Spearman's
p, akan terlihat seperti ini:
Seperti yang baru saja ditunjukkan, p Spearman dan r Pearson menghasilkan hal yang sama
hasil. Hal ini terjadi bila tidak ada ikatan. Bila ada dasi, hasilnya tidak akan
menjadi identik, namun bedanya tidak signifikan.

Koefisien korelasi order rank Spearman dengan cepat dan cepat
mudah. Ini adalah metode yang dapat diterima jika data hanya tersedia dalam bentuk ordinal. Guru
Dapat ditemukan metode penghitungan ini berguna saat melakukan penelitian menggunakan a
kelas tunggal siswa sebagai mata pelajaran.
Koefisien Korelasi Phi (tfJ)
Data dianggap dikotomis bila hanya ada dua pilihan untuk penilaian
variabel (misalnya, lulus gagal atau laki-laki). Dalam kasus ini skor masing-masing orang biasanya
akan diwakili oleh 0 atau 1, meskipun kadang-kadang 1 dan 2 digunakan sebagai gantinya
Korelasi product moment moment Pearson, ketika kedua variabel tersebut dikotomis,
dikenal sebagai koefisien phi (1fJ). Rumus untuk IfJ lebih sederhana daripada untuk Pears n's r
tapi algebraically identik. Karena jarang ada dua varia dari dikotomis
Kepentingan dimana peneliti ingin mengetahui hubungan, formul akan
tidak disajikan disini Penyebutan singkat tentang IfJ ini membuat pembaca awar.
Mereka yang menginginkan lebih banyak detail harus mengacu pada salah satu dari sekian banyak teks statistik yang dapat dibuat
(misalnya, Heiman, 1996; Glass & Hopkins, 1996)
dikotomisInterpretasi Koefisien Korelasi
Dua keadaan bisa menyebabkan korelasi yang lebih tinggi atau lebih rendah dari biasanya. Pertama,
satu orang atau sedikit orang memiliki sepasang nilai yang berbeda
sisa nilai sampel, rmay yang dihasilkan bisa sangat tinggi atau rendah. en
Hal ini terjadi, peneliti perlu memutuskan apakah akan menghapus indivi ual ini
sepasang nilai (dikenal sebagai outlier) dari data yang dianalisis. Kedua, ketika semua lainnya
Hal yang sama, semakin homogen sekelompok nilai, semakin rendah orrelasinya
akan. Artinya, semakin kecil rentang skor, semakin kecil r w 11 menjadi.
Periset perlu mempertimbangkan potensi masalah ini saat memilih sampel itu
mungkin sangat homogen Namun, jika peneliti mengetahui standar deviasi
dari kelompok heterogen dari mana grou homogen itu
dipilih, Glass dan Hopkins (1996) dan yang lainnya menggambarkan formula yang sesuai untuknya
rentang terbatas dan memberikan korelasi untuk gro bagian heterogen.
Ada beberapa cara untuk menafsirkan koefisien korelasi atau penyesuaian korelasi
koefisien, tergantung pada tujuan peneliti dan ances sirkit
yang dapat mempengaruhi besarnya korelasi. Salah satu metode yang sering terjadi! disajikan
adalah dengan menggunakan kriteria kasar untuk mengevaluasi besarnya korelasi:
Koefisien (r)
.00 sampai .20
.20 sampai .40
.40 sampai .60
.60 sampai .80
0,80 sampai 1,00
Hubungan
Tidak bisa diabaikan
Rendah
Moderat
Besar
Tinggi sampai yang sangat tinggi
Pendekatan interpretatif lainnya adalah uji signifikansi statistik dari korelasi th,
berdasarkan konsep sampling error dan uji signifikansi des runcing
di Bab II.
Masih ada cara lain untuk menafsirkan koefisien korelasi dalam hal var ance.
Perbedaan ukuran yang ingin kita prediksi bisa dibagi menjadi pa t itu
dijelaskan oleh, atau karena, variabel prediktor dan bagian yang dijelaskan d oleh
Faktor lain (umumnya tidak diketahui) termasuk kesalahan sampling. Kami menemukan persentase ini
Dari penjelasan varians dengan menghitung r2
, dikenal sebagai koefisien determinasi.
Persentase varians yang tidak dijelaskan oleh variabel prediktor adalah 1 r2
Contohnya bisa membantu pembaca memahami konsep penting ini. Dalam menggabungkan
Studi menggunakan IQ untuk memprediksi prestasi akademik secara umum, Walberg (1984)
menemukan keseluruhan korelasi antara variabel-variabel ini .71.Kita bisa menggunakan korelasi ini
untuk menemukan r 2 = .50. Ini berarti 50 persen varians dalam akademik
Prestasi (seberapa baik atau kurang siswa yang berbeda) dapat diprediksi dari variansnya
dari IQ Ini juga berarti bahwa 50 persen varians prestasi akademik
Karena faktor selain IQ, seperti motivasi, lingkungan rumah, sekolah
hadir, dan uji kesalahan Walberg juga menemukan bahwa korelasi IQ dengan sains
Prestasi adalah .48. Ini berarti hanya 23 persen (r 2
) varians dalam sains
Prestasi tersebut dapat diprediksi oleh IQ dan bahwa 77 persennya adalah karena faktor lainnya, beberapa
diketahui dan beberapa tidak diketahui Akhirnya, korelasi nilai IQ dan posttest
dilaporkan sebelumnya untuk 100 anak dalam data kami yang tercantum dalam Lampiran B adalah +638 dan
antara pra- dan posttests +.894. Jadi, 41% (.6382) varians di posttest
skor diprediksi oleh IQ sedangkan 80% (0,8942) diprediksi dengan skor pretest.
Ada teknik tambahan, beberapa terlalu maju untuk teks pendahuluan ini,
yang memungkinkan peneliti untuk menggunakan lebih dari satu variabel. Mungkin saja, misalnya, untuk
gunakan kombinasi IQ, skor pretest, dan tindakan lain seperti motivasi
dan skala sosioekonomi untuk memprediksi prestasi akademik (nilai posttest). Ini
Beberapa korelasi akan meningkatkan korelasi, yang akan meningkat
Persentase varians prestasi akademik yang dijelaskan oleh faktor yang diketahui.
Pada bab selanjutnya kita menunjukkan bagaimana regresi berganda dapat menghasilkan banyak
korelasi.
Outlier
Outliers adalah sejumlah individu yang sepertinya tidak cocok dengan sampel lainnya karena sifatnya yang ekstrem. Besarnya
kemungkinan korelasi mungkin
Outlier sangat terpengaruh oleh satu atau lebih pencilan. Plot plot, atau diagram, umumnya
digunakan untuk mengidentifikasi outlier. Gambar 10.11 menunjukkan dua scatter plot yang menunjukkan
outlier Pada plot scatter atas korelasi 0.52 diturunkan secara dramatis oleh
memiliki satu individu yang nilainya berbeda dari yang lain
mencicipi. Tanpa nilai individu ini, sisa delapan set hasil skor
dalam korelasi positif sempurna sebesar 1,0. Di plot paling bawah, justru sebaliknya
ditunjukkan. Tanpa outlier tunggal, tidak ada korelasi (r = 0,0) karena semua
dari individu memiliki skor yang sama pada salah satu variabel. Namun, oleh
termasuk outlier, korelasinya menjadi 0.666. Dengan demikian, interpretasi korelasi
Itu termasuk outlier yang sulit. Masalah serupa bisa ditemukan saat menghitung
berarti (median dapat diganti) atau standar deviasi.
Masalahnya adalah apakah membuang outlier atau menyimpannya. Untung atau
Sayangnya, tidak ada jawaban yang sederhana. Penyidik harus memutuskan setiap situasi
atas kelebihannya sendiri. Apakah outlier menambahkan informasi atau membingungkannya? Itu mungkin
mungkin untuk memutuskan apa yang harus dilakukan dengan outlier dengan mewawancarai individu. Untuk
Misalnya, jika individu sakit pada hari pengukuran, itu mungkin terjadi
sebuah indikasi untuk membuangnya Di sisi lain, informasi bisa didapat
memimpin Anda untuk memutuskan untuk menjaga skor. Dalam kedua kasus tersebut, laporan penelitian harus dilakukan
Katakan apa yang Anda tahu tentang outlier dan apa yang telah Anda lakukan, jika ada, dengan mereka. Hitung statistik baik
dengan dan tanpa outlier sehingga pembaca bisa melihat
efek dari outlier dan memutuskan untuk diri mereka sendiri.
Salah tafsir terhadap Koefisien Korelasi
Beberapa kesalahan dan keterbatasan harus dipertimbangkan dalam menafsirkan gagasan saya
dari koefisien korelasi. Koefisien tidak menyiratkan penyebab dan akibat
hubungan antar variabel Korelasi positif yang tinggi telah terobati
antara jumlah sarang bangau dan jumlah kelahiran manusia di Eropa barat laut dan antara jumlah pentahbisan para menteri di New
Koloni Inggris dan konsumsi galon rum. Korelasi tinggi ini
Jelas tidak menyiratkan kausalitas. Seiring bertambahnya populasi, baik dan buruk
Hal-hal cenderung meningkat dalam frekuensi.
Demikian pula, korelasi nol (atau bahkan negatif) tidak berarti itu
tidak ada penyebabnya adalah mungkin Glass and Hopkins (1996) menunjukkan, "Beberapa penelitian dengan
mahasiswa tidak menemukan korelasi antara jam belajar untuk ujian
dan uji kinerja .... [Hal ini mungkin disebabkan oleh fakta bahwa] beberapa siswa cerdas
belajar sedikit dan tetap meraih nilai rata-rata, sedangkan beberapa dari mereka kurang berbakat
Teman sekelas rajin belajar tapi tetap meraih performa rata-rata. Sebuah dikendalikan
Studi eksperimental hampir pasti menunjukkan beberapa hubungan kausal "(hal 139)
Penggunaan koefisien korelasi yang penting dan garis regresi Y pada X adalah
untuk prediksi nilai Y yang tidak diketahui dari nilai X yang diketahui. Karena itu adalah sebuah metode
untuk memperkirakan kinerja masa depan individu berdasarkan kinerja terdahulu dari samp1e, prediksi adalah aplikasi analisis
korelasi yang inferensial. Memiliki
telah disertakan dalam bab ini untuk menggambarkan salah satu aplikasi yang paling berguna
korelasi
Mari kita berasumsi bahwa petugas penerimaan perguruan tinggi ingin memprediksi kemungkinannya
prestasi akademik siswa yang dianggap masuk atau untuk beasiswa
hibah Mereka telah membangun sekumpulan data berdasarkan catatan masa lalu yang substansial
jumlah mahasiswi yang diakui selama periode beberapa tahun. Mereka punya
menghitung koefisien korelasi antara rata-rata tingkat sekolah menengah mereka
dan siswa kelas satu mereka rata-rata. Mereka sekarang bisa membangun sebuah
garis regresi dan memprediksi masa depan perguruan tinggi IPK untuk calon calon
siswa, berdasarkan IPK SMA-nya.
Mari kita asumsikan bahwa petugas penerimaan menemukan koefisien korelasi
menjadi + .52. Kemiringan garis bisa digunakan untuk menentukan nilai Y untuk apapun
Nilai X Proses ini akan cukup merepotkan, bagaimanapun, untuk semua nilai-point
rata-rata harus dimasukkan sebagai nilai sigma (z).

Prosedur yang lebih praktis adalah menyusun garis regresi dengan a
kemiringan b sehingga setiap titik rata-rata perguruan tinggi (Y) dapat diprediksi secara langsung
dari nilai rata-rata kelas SMA manapun. Garis regresi b dan grafik yang dibuat dengan hati-hati akan memberikan metode uick
untuk prediksi.
Berat Beta. Sebagai contoh

Analisis Data Deskriptif

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Analisis Data Deskriptif

Enviado por

Direitos autorais:

Formatos disponíveis

ANALISIS DATA DESKRIPTIF

Tujuan diskusi ini adalah tiga hal:

Apa Itu statistik?

Data Parametrik dan Nonparametrik

Tabel 10.1 menyajikan ringkasan grafis dari tingkat deskripsi kuantitatif

Array atau Set Pesanan

skor pada Gambar 10.1.

interval, dan median dihitung.

kecenderungan sentral daripada mean.

Gaji rata-rata kelompok diwakili dengan penekanan yang berbeda dengan

dan 5 di atasnya). Bagaimana perbandingan sampel median?

diasumsikan sebagai midscore interval di mana frekuensi terbesar

Kecelakaan di jalanan kota ditabulasikan berjam-jam terjadinya, kemungkinan besar

Terberat dan saat pengemudi tergesa-gesa. Dalam distribusi normal

sebagai ukuran kecenderungan sentral, namun mengungkapkan informasi bermanfaat tentang

Perhitungan median di atas, tentukan cara sampel kategori kecacatan.

Sekarang tentukan mode untuk IQ sampel. Modus untuk populasi

adalah 89. Bagaimana cara perbandingan sampel?

Ukuran Spread atau Dispersi

Ukuran tendensi sentral menggambarkan lokasi sepanjang skala terurut. Ada

karakteristik distribusi data yang meminta tambahan jenis analisis statistik.

tes, satu di baca dan satu di aritmatika.

Jangan sepenuhnya menggambarkan perbedaan prestasi antara nilai siswa

Skor kisarannya adalah 8 (79-73).

Penyimpangan dari Mean (x)

Di bawah rata-rata, nilai deviasi negatif (-).

Dengan menggunakan contoh yang sama, bandingkan dua set skor:

Menarik untuk dicatat bahwa jumlah penyimpangan skor dari mean

Jumlah penyimpangan kuadrat dari mean, dibagi dengan N, dikenal sebagai

oleh N, dan rata-rata penyimpangan kuadrat dihitung. Rumus variannya adalah

karakteristik distribusi dan akan dipekerjakan dalam jumlah yang sangat

Deviasi Standar (0 ')

Deviasi standar, akar kuadrat varians, paling sering digunakan sebagai

ukuran atau dispersi. Formu1a untuk Standar deviasi populasi adalah

dan standar deviasi dihitung.

sebaran skor dengan total hanya 41, tapi standar deviasi

dari 12.91 masuk akal.

Meski pendekatan penyimpangan (hanya digunakan pada perhitungan sebelumnya)

skor. Nilai angka cenderung besar, namun penggunaan kalkulator memudahkan

Perbedaan dan standar deviasi untuk populasi baru saja dijelaskan.

diperlukan untuk mengenalkan formula untuk varians SZ dan standar deviasi

sampel, akan meremehkan standar deviasi penduduk karena a

Dalam contoh kecil, katakan n = 5, koreksi agak besar, bagi dengan 4

bukan 5-pengurangan 20% di denominator. Dalam sampel besar, katakanlah n = 100,

Koreksi tidak signifikan, membagi dengan 99 bukan 100-pengurangan 1% masuk

Semakin kecil sampel, kemungkinan besar skor ekstrim akan terwakili.

sebenarnya statistik inferensial dan biasanya ada di bab berikutnya. Namun,

adalah tempat yang lebih baik untuk mereka.

Dua rumus untuk standar deviasi sampel dengan deviasi dan

Metode perhitungan nilai rata - rata adalah masing – masing

kita akan menemukan yang berikut ini:

Hasil ini cukup berubah dari (i = 166,67 (perubahan +20,83) dan

membuat koreksi yang relatif besar diperlukan. Koreksi untuk menghitung

atau standar deviasi cenderung meremehkan varians atau standar populasi

Karena mean sampel tidak mungkin identik dengan populasi

mean (karena kesalahan sampling), penggunaan N - 1 (jumlah derajat

dari varians populasi atau standar deviasi.

Jumlah pengamatan independen (ukuran sampel) meningkat. Karena sampelnya besar

contoh. Bagaimana perbandingannya dengan standar deviasi populasi ini?

Diskusi berikut menunjukkan bahwa ketika normalitas distribusi dapat terjadi

Penyimpangan tidak bergantung pada besarnya mean dan memberikan kesamaan

dibahas, distribusi normal perlu diperiksa.

Analisis matematis paling awal dari teori probabilitas tanggal ke 18

abad. Abraham DeMoivre, seorang matematikawan Prancis, menemukan bahwa matematika