Você está na página 1de 29

ANALISIS DATA DESKRIPTIF

Karena buku teks ini berkonsentrasi pada metode penelitian pendidikan, pembahasan analisis
statistik berikut tidaklah lengkap. Hanya beberapa konsep yang paling sederhana dan mendasar yang
disajikan. Siswa yang pengalaman matematikanya mencakup aljabar sekolah menengah seharusnya dapat
memahami logika dan proses komputasi yang terlibat dan harus dapat mengikuti contoh tanpa kesulitan.

Tujuan diskusi ini adalah tiga hal:


1. membantu siswa, sebagai konsumen, mengembangkan pemahaman tentang terminologi statistik dan
konsep yang diperlukan untuk membaca dengan memahami beberapa literatur profesional dalam
penelitian pendidikan.
2. membantu siswa mengembangkan cukup kompetensi dan pengetahuan untuk melanjutkan penelitian
menggunakan jenis analisis sederhana.
3. mempersiapkan siswa untuk pekerjaan yang lebih maju dalam statistik.

Penekanannya adalah pada pemahaman intuitif dan aplikasi praktis daripada pada derivasi dari
rumus matematika. Mereka yang mengharapkan dan membutuhkan pengembangan kompetensi nyata
dalam penelitian pendidikan harus mengambil beberapa langkah berikut:
1. Ambil satu atau lebih kursus dalam statistik perilaku dan desain eksperimental.
2. Pelajari lebih banyak buku khusus tentang statistik, terutama yang berhubungan dengan inferensi
statistik (misalnya, Glass & Hopkins, 1996; Hays, 1981; Heiman, 1996;Kerlinger, 1986; Kirk, 1995;
Siegel, 1956; Shavelson, 1996; Winer, 1971).
3. Baca studi penelitian di jurnal profesional secara ekstensif dan kritis.
4. Ikuti studi penelitian yang melibatkan beberapa penggunaan prosedur statistik secara serius

Apa Itu statistik?


Statistik adalah kumpulan teknik matematika atau proses untuk mengumpulkan, mengatur,
menganalisis, dan menafsirkan data numerik. Karena sebagian besar hasil penelitian merupakan data
kuantitatif, statistik adalah alat dasar pengukuran, evaluasi, dan penelitian.
Kata statistik terkadang digunakan untuk menggambarkan data numerik yang dikumpulkan. Data
statistik menggambarkan perilaku kelompok atau karakteristik kelompok yang disarikan dari sejumlah
pengamatan individu yang dikombinasikan untuk membuat kemungkinan generalisasi.
Semua orang terbiasa dengan ungkapan seperti "pendapatan keluarga rata-rata”, "pekerja khusus kerah
putih," atau "kota perwakilan". Ini adalah konsep statistik dan, sebagai karakteristik kelompok, dapat
dinyatakan dalam pengukuran usia, ukuran, atau ciri-ciri lainnya yang bisa digambarkan secara kuantitatif.
Ketika seseorang mengatakan "Rata-rata anak laki-laki kelas lima adalah 10 tahun," seseorang
menggeneralisasi semua siswa laki-laki di kelas lima, bukan anak laki-laki tertentu. Dengan demikian,
pengukuran statistik adalah sebuah gambaran umum yang dapat digunakan sebagai pengganti
pengukuran yang banyak dilakukan orang-orang.
Peneliti yang menggunakan statistik memperhatikan lebih dari sekedar manipulasi dari data. Metode
statistik menyajikan tujuan deskripsi yang mendasar dan analisis, dan aplikasi yang tepat meliputi jawaban
atas pertanyaan-pertanyaan berikut:
1. Fakta apa yang perlu dikumpulkan untuk memberikan informasi yang perlu untuk menjawab
pertanyaan atau untuk menguji hipotesis?
2. Bagaimana data ini dipilih, dikumpulkan, diatur, dan dianalisis?
3. Asumsi apa yang mendasari metodologi statistik untuk digunakan?
4. Kesimpulan apa yang dapat ditarik secara sah dari analisis data?

Penelitian terdiri dari pengamatan sistematis dan deskripsi dari karakteristik atau sifat benda atau peristiwa
untuk menemukan hubungan antar variabel. Tujuan utamanya adalah untuk mengembangkan generalisasi
yang mungkin terjadi digunakan untuk menjelaskan fenomena dan memprediksi kejadian di masa depan.
Untuk melakukan penelitian, kita harus menetapkan prinsip agar pengamatan dan deskripsi bersifat umum
dan dimengerti maksudnya Pengukuran merupakan proses deskripsi yang paling tepat dan diterima luas,
menetapkan nilai kuantitatif pada benda-benda dan kejadian-kejadian.

Data Parametrik dan Nonparametrik


Dalam penerapan perawatan statistik, dua jenis data dikenali:
1. Data parametrik. Data jenis ini adalah data yang diukur, dan statistik parametrik
Tes mengasumsikan bahwa data biasanya, atau hampir normal, didistribusikan. Parametrik
Tes diaplikasikan pada data interval dan rasio.
2. Data nonparametrik. Data jenis ini dihitung (nominal) atau diberi peringkat
(urut). Tes nonparametrik, kadang dikenal sebagai tes bebas distribusi, lakukan
tidak bergantung pada asumsi yang lebih ketat dari populasi terdistribusi normal.

Tabel 10.1 menyajikan ringkasan grafis dari tingkat deskripsi kuantitatif


dan jenis analisis statistik yang sesuai untuk setiap tingkat. Konsep ini
akan dikembangkan kemudian dalam diskusi.
Namun, kita harus sadar bahwa banyak statistik parametrik (uji t,
analisis varians, dan r Pearson pada khususnya) masih tepat meski kapan
asumsi normalitas dilanggar. Ketahanan ini telah ditunjukkan
untuk uji t, analisis varians, dan, pada tingkat yang lebih rendah, analisis kovariansi oleh
sejumlah peneliti termasuk Glass, Peckham, dan Sanders (1972), Lunney
(1970), dan Mandeville (1972). Jadi, dengan data ordinal dan bahkan dengan dikotomis
data (dua pilihan seperti pass-fail), prosedur statistik ini, yaitu
dirancang untuk digunakan dengan data interval dan rasio, mungkin tepat dan berguna. Pearson
r, yang juga bisa digunakan dengan jenis data apapun, akan dibahas nanti dalam hal ini
bab.
Analisis Deskriptif dan Inferensial
Sampai sekarang kita belum membahas batasan analisis statistiknya
generalisasi Dua jenis aplikasi statistik relevan:

Analisis Deskriptif
Analisis statistik deskriptif membatasi generalisasi ke kelompok tertentu
individu diamati Tidak ada kesimpulan yang diperluas melampaui kelompok ini, dan kesamaan Analisis
Data manapun dengan orang-orang di luar kelompok tidak dapat diasumsikan. Data menggambarkan satu
kelompok dan kelompok itu saja. Banyak tindakan penelitian sederhana melibatkan analisis deskriptif
dan memberikan informasi berharga tentang sifat kelompok tertentu
individu. Studi penilaian (lihat Bab 5) juga sering hanya mengandalkan atau berat
pada statistik deskriptif

Analisis inferensial
Analisis statistik inferensial selalu melibatkan proses pengambilan sampel dan
Pemilihan kelompok kecil diasumsikan terkait dengan populasi dari mana kelompok tersebut
ditarik. Kelompok kecil dikenal sebagai sampel, dan kelompok besar adalah populasi.
Menggambarkan kesimpulan tentang populasi berdasarkan pengamatan terhaap sampel
adalah tujuan analisis inferensial.
Statistik adalah ukuran berdasarkan pengamatan karakteristik sampel.
Statistik yang dihitung dari sampel dapat digunakan untuk memperkirakan parameter
nilai yang sesuai pada populasi dari mana sampel dipilih. Statistik
biasanya diwakili oleh huruf alfabet Romawi kita seperti X, 5, dan r.
Parameter, di sisi lain, biasanya diwakili oleh huruf-huruf alfabet Yunani
seperti f.l, (J, atau hlm.
Sebelum asumsi apapun dapat dibuat, penting bagi individu yang dipilih
dipilih sedemikian rupa sehingga kelompok kecil, atau sampel, mendekati yang lebih besar
kelompok, atau populasi. Dalam margin of error, yang selalu hadir, dan oleh
penggunaan teknik statistik yang tepat, pendekatan ini dapat diasumsikan,
memungkinkan perkiraan karakteristik populasi dengan analisis
karakteristik sampel.
Perlu ditekankan bahwa bila data berasal dari kelompok tanpa
Prosedur sampling yang cermat, peneliti harus hati-hati menyatakan temuan itu
hanya berlaku untuk kelompok yang diamati dan mungkin tidak berlaku untuk atau menggambarkan
individu lain
atau kelompok. Teori statistik sampling bersifat kompleks dan melibatkan
estimasi kesalahan pengukuran yang disimpulkan, kesalahan yang melekat dalam memperkirakan
hubungan antara sampel acak dan populasi dari populasi itu
ditarik. Analisis data inferensial disajikan pada Bab 11.
Organisasi Data
Daftar nilai tes di buku kelas guru memberi contoh tidak terorganisir
data. Karena metode daftar yang biasa adalah abjad, nilainya sulit
untuk menafsirkan tanpa jenis organisasi lainnya.

Alberts, James 60
Brown, John 78
Davis, Mary 90
Smith, Helen 70
Williams, Paul 88

Array atau Set Pesanan


Mengatur skor yang sama dalam urutan menurun besarnya menghasilkan apa adanya
dikenal sebagai array terurut.
90
88
78
70
60
Array yang dipesan memberikan pengaturan yang lebih nyaman. Nilai Tertinggi
(90), skor terendah (60), dan skor tengah (78) mudah dikenali. Dengan demikian,
kisaran (perbedaan antara skor tertinggi dan terendah, ditambah satu) dapat dengan mudah
ditentukan.
Ilustrasi pada Tabel 10.2 adalah kumpulan data dari 37 nilai siswa pada aljabar
tes dalam bentuk array terurut.
Distribusi data kelompok
Data seringkali lebih jelas disajikan saat skor dikelompokkan dan kolom frekuensi
sudah termasuk Data dapat disajikan dalam tabel frekuensi (lihat Tabel 10.3) dengan perbedaan
interval kelas, tergantung pada jumlah dan kisaran skor.
Interval skor dengan jumlah ganjil unit mungkin lebih disukai karena
Titik tengah adalah bilangan bulat dan bukan pecahan. Karena semua nilai diasumsikan
jatuh pada titik tengah interval (untuk tujuan menghitung mean),
Perhitungannya kurang rumit:
Bahkan interval empat: 8 9 10 11 (titik tengah 9,5)
Odd interval lima: 8 9 10 11 12 (titik tengah 10)
Tidak ada aturan yang secara kaku menentukan interval skor yang tepat, dan interval
dari 10 yang sering digunakan

Beberapa jenis dasar dari ukuran statistik sesuai dalam menggambarkan dan menganalisis
data dengan cara yang berarti:
Ukuran tendensi sentral atau rata-rata
Berarti
Median
Mode
Tindakan penyebaran atau dispersi
Jarak
Perbedaan
Standar deviasi
Ukuran posisi relatif
Skor standar
Persentase peringkat
Persentase skor
Ukuran hubungan
Koefisien korelasi
Ukuran Kecenderungan Tengah
Nonstatistik menggunakan rata-rata untuk menggambarkan karakteristik kelompok secara umum
cara. Iklim suatu daerah sering dicatat oleh suhu rata-rata atau jumlah rata-rata
curah hujan Kami dapat mendeskripsikan siswa berdasarkan rata-rata kelas atau usia rata-rata.
Status sosial ekonomi kelompok ditunjukkan oleh pendapatan rata-rata, dan tingkat pengembalian
portofolio investasi dapat dinilai dari segi pendapatan rata-rata. Tapi untuk
ahli statistik istilah rata-rata tidak memuaskan, karena ada sejumlah jenis rata-rata,
hanya satu yang mungkin sesuai untuk digunakan dalam menggambarkan karakteristik yang
diberikan
dari sebuah kelompok Dari sekian banyak rataan yang bisa digunakan, tiga diantaranya telah dipilih
Paling berguna dalam riset pendidikan: mean, median, dan mode.
Mean (X)
Rata-rata distribusi umumnya dipahami sebagai rata-rata aritmatika. Itu
Rata-rata nilai rata-rata kelas, yang akrab bagi siswa, adalah nilai rata-rata. Hal ini dihitung oleh
membagi jumlah semua nilai dengan jumlah skor. Dalam bentuk formula
Maksudnya mungkin yang paling berguna untuk semua ukuran statistik, untuk, sebagai tambahan
Dengan informasi yang diberikannya, itu adalah basis dari mana banyak lainnya
ukuran penting dihitung.
Lampiran B berisi kumpulan data dari populasi 100 anak (satu set in
Microsoft Excel dan satu dalam format SPSS). Data untuk setiap anak mencakup sebuah ID
nomor, metode pengajaran membaca yang diterima, jenis kelamin, kategori
pendidikan khusus di mana anak telah diklasifikasikan (LD = belajar
cacat; BD = perilaku tidak teratur; MR = keterbelakangan mental ringan), dan keduanya
skor pra dan posttest. Pembaca mungkin ingin secara acak memilih sampel 25
anak-anak (atau 15 anak jika direkomendasikan oleh profesor) dari lampiran untuk
gunakan dalam berbagai perhitungan sepanjang bab ini. Sekarang hitung meannya
untuk sampel dari 25 IQ anak-anak ini. Rata-rata populasi yang diberikan dalam lampiran
adalah 86.12. Bagaimana mean sampel dibandingkan dengan mean populasi?
Median (Md)
Median adalah titik (tidak harus skor) dalam array, di atas dan di bawah mana
setengah dari skor jatuh. Ini adalah ukuran posisi daripada besaran dan
sering ditemukan dengan inspeksi dan bukan dengan perhitungan. Bila ada
Jumlah ganjil skor untied, median adalah skor tengah, seperti pada contoh
di bawah:
7
6 3 scores above
5
4-median
3
2 3 scores below
1
Bila ada sejumlah nilai yang tidak terikat, median adalah titik tengahnya
antara dua nilai tengah, seperti pada contoh di bawah ini:
6
5 3 scores above
4
- median = 3.50
3
2 3 scores below
1

Jika data termasuk skor terikat pada titik median, interpolasi diikat

skor itu perlu Setiap bilangan bulat akan mewakili interval dari separuh jalan

itu dan skor lebih rendah berikutnya ke setengah jalan antara itu dan skor yang lebih tinggi berikutnya. Kapan

Hubungan terjadi pada titik tengah dari serangkaian nilai, interval ini dibagi ke dalam

jumlah skor terikat dan titik tengah atau median ditemukan. Pertimbangkan himpunan

skor pada Gambar 10.1.

Karena ada empat nilai yang diikat (75), interval dari 74,5 menjadi 75,5 terbagi

menjadi empat bagian yang sama. Masing-masing nilai tersebut kemudian dianggap menempati 0,25 dari

interval, dan median dihitung.

Salah satu tujuan mean dan median adalah untuk mewakili nilai "khas";

Sebagian besar waktu cukup memuaskan untuk menggunakan mean untuk tujuan ini. Namun, kapan

distribusi skor sedemikian rupa sehingga sebagian besar skor berada di satu ujung dan relatif sedikit

Di sisi lain (dikenal sebagai distribusi miring), median lebih disukai karena

Hal ini tidak dipengaruhi oleh nilai ekstrim di kedua ujung distribusi. Berikut ini

Contoh median identik. Namun, rata-rata Grup A adalah 4, dan rata-rata Grup B adalah 10. Mean dan median keduanya mewakili

Grup A, namun median lebih baik mewakili nilai "khas" dari Grup B.
Dengan demikian, dalam distribusi data miring median adalah ukuran yang lebih realistis

kecenderungan sentral daripada mean.

Di sebuah sekolah kecil dengan lima anggota fakultas, gaji itu mungkin

Gaji rata-rata kelompok diwakili dengan penekanan yang berbeda dengan

gaji rata-rata ($ 21.400) daripada gaji rata-rata ($ 24.000), yang secara substansiallebih tinggi dari empat dari lima anggota
fakultas. Jadi, kita lihat lagi itu

median kurang sensitif daripada mean terhadap nilai ekstrim di kedua ujung a

distribusi.

Menggunakan 25 anak yang sama yang dipilih dari Appendix Bto menghitung rata-rata, sekarang

hitung mediannya Bagaimana membandingkan keduanya? Mana yang lebih berguna? Itu

median untuk populasi 100 anak adalah 89,0 (5 skor 89 jatuh di bawah titik tengah

dan 5 di atasnya). Bagaimana perbandingan sampel median?

Mode (Mo)
6
5
4]
4 ] Mode
3
2
1

Modusnya adalah skor yang paling sering terjadi dalam sebuah distribusi. Terletak di

dengan inspeksi bukan dengan perhitungan. Dalam mengelompokkan data distribusi mode

diasumsikan sebagai midscore interval di mana frekuensi terbesar

terjadi

Misalnya, jika usia magang anak kelas lima adalah 10 tahun, maka hal itu akan terjadi

Ada anak kelas lima yang berusia lebih tua dari tahun-tahun lainnya. Atau salesman pria

mungkin bisa memverifikasi fakta bahwa ada lebih banyak penjualan dengan ukuran 40 setelan daripada yang lainnya

ukuran; Akibatnya, sejumlah besar ukuran 40 jas dipesan dan ditebar, ukurannya

40 menjadi mode

Dalam beberapa distribusi mungkin ada lebih dari satu mode. Distribusi dua mode

disebut sebagai bimodal, lebih dari dua, multimodal. Jika jumlah auto

Kecelakaan di jalanan kota ditabulasikan berjam-jam terjadinya, kemungkinan besar

bahwa dua periode modal akan menjadi jelas - antara 7 A.M. dan 8 A.M. dan

antara 5 P.M. dan 6 P.M., jam ketika lalu lintas ke dan dari toko dan kantor berada

Terberat dan saat pengemudi tergesa-gesa. Dalam distribusi normal

Data ada satu mode, dan jatuh di titik tengah, sama seperti rata-rata dan median

melakukan. Dalam beberapa distribusi yang tidak biasa, bagaimanapun, mode mungkin jatuh pada beberapa lainnya
titik. Bila mode atau mode mengungkapkan perilaku tidak biasa seperti itu, mereka tidak melayani

sebagai ukuran kecenderungan sentral, namun mengungkapkan informasi bermanfaat tentang

sifat distribusi.

Dengan menggunakan kumpulan data pada Lampiran B, modus kategori kecacatan bisa

ditentukan. Karena 50 dari 100 anak memiliki ketidakmampuan belajar (28 memiliki

gangguan perilaku dan 22 memiliki keterbelakangan mental) sebagai klasifikasi mereka, ini

mode. Sekarang menggunakan data dari 25 anak yang dipilih untuk mean dan

Perhitungan median di atas, tentukan cara sampel kategori kecacatan.

Sekarang tentukan mode untuk IQ sampel. Modus untuk populasi

adalah 89. Bagaimana cara perbandingan sampel?

Ukuran Spread atau Dispersi

Ukuran tendensi sentral menggambarkan lokasi sepanjang skala terurut. Ada

karakteristik distribusi data yang meminta tambahan jenis analisis statistik.

Skor pada Tabel 10.4 dibuat oleh sekelompok siswa dengan dua perbedaan

tes, satu di baca dan satu di aritmatika.

Mean dan median identik untuk kedua tes. Jelas bahwa rata-rata

Jangan sepenuhnya menggambarkan perbedaan prestasi antara nilai siswa

pada dua tes tersebut. Untuk membedakan kinerjanya, perlu menggunakan ukuran

skor penyebaran atau dispersi. Nilai tes aritmatika homogen, dengan sedikit

perbedaan antara nilai yang berdekatan Skor tes baca jelas heterogen,

dengan penampilan mulai dari yang superior sampai yang sangat miskin.

Jangkauan

Rentang, ukuran dispersi yang paling sederhana, adalah perbedaan antara yang tertinggi

dan skor terendah. Untuk membaca skor kisarannya adalah 40 (95 - 55). Untuk aritmatika

Skor kisarannya adalah 8 (79-73).

Penyimpangan dari Mean (x)

Skor yang dinyatakan sebagai jarak dari mean disebut skor deviasi. Rumusnya

Adalah

x= (X- X)

Jika skor turun di atas rata-rata, skor deviasi positif (+); jika jatuh

Di bawah rata-rata, nilai deviasi negatif (-).

Dengan menggunakan contoh yang sama, bandingkan dua set skor:

Menarik untuk dicatat bahwa jumlah penyimpangan skor dari mean


sama dengan nol

Sebenarnya, kita bisa memberi definisi alternatif tentang mean: Mean adalah itu

nilai dalam distribusi di mana jumlah skor penyimpangan sama dengan nol.

Varians (al)

saya

Jumlah penyimpangan kuadrat dari mean, dibagi dengan N, dikenal sebagai

esearc 1

NaVigalor.cll> m varians. Kami mencatat bahwa jumlah deviasi dari mean sama dengan nol

Varians (~ x = 0). Dari sudut pandang matematis, tidak mungkin menemukan mean

nilai untuk menggambarkan penyimpangan ini (kecuali jika tanda-tandanya diabaikan). Squaring masing-masing

Skor deviasi menghasilkan skor positif. Skor kemudian bisa dijumlahkan, dibagi

oleh N, dan rata-rata penyimpangan kuadrat dihitung. Rumus variannya adalah

Dengan demikian, varians adalah nilai yang menggambarkan bagaimana semua skor dalam suatu distribusi

tersebar atau menyebar tentang mean. Nilai ini sangat berguna dalam menggambarkan

karakteristik distribusi dan akan dipekerjakan dalam jumlah yang sangat

tes statistik penting Namun, karena semua penyimpangan dari yang jahat

telah kuadrat untuk menemukan variansnya, terlalu besar untuk mewakili penyebarannya

skor.

Deviasi Standar (0 ')

Deviasi standar, akar kuadrat varians, paling sering digunakan sebagai

ukuran atau dispersi. Formu1a untuk Standar deviasi populasi adalah

Dalam contoh berikut, dengan menggunakan nilai bacaan dari Table IDA, variansnya

dan standar deviasi dihitung.

Seperti dapat dilihat dengan jelas, varians 166,67 tidak dapat mewakili, untuk sebagian besar tujuan,

sebaran skor dengan total hanya 41, tapi standar deviasi

dari 12.91 masuk akal.

Meski pendekatan penyimpangan (hanya digunakan pada perhitungan sebelumnya)

contoh yang jelas tentang arti varians dan standar deviasi, sebenarnya

Praktekkan metode penyimpangan bisa jadi canggung untuk digunakan dalam menghitung varians

atau standar deviasi untuk sejumlah besar skor. Metode yang kurang rumit,

yang menghasilkan jawaban yang sama, menggunakan nilai mentah dan bukan penyimpangan

skor. Nilai angka cenderung besar, namun penggunaan kalkulator memudahkan

perhitungannya
Deviasi Standar untuk Sampel (S)

Perbedaan dan standar deviasi untuk populasi baru saja dijelaskan.

Karena sebagian besar waktu peneliti menggunakan sampel yang dipilih dari populasi, itu

diperlukan untuk mengenalkan formula untuk varians SZ dan standar deviasi

(5) sampel. Formula sampel hanya sedikit berbeda dari formula populasi.

Seperti akan terlihat, bukannya membagi dengan N dalam rumus penyimpangan dan dengan N2

Dalam formula skor baku, rumus sampel dibagi masing-masing n - 1 dan n (n - 1).

Hal ini dilakukan untuk mengoreksi probabilitas bahwa semakin kecil sampel semakin sedikit

Kemungkinan besar skor ekstrem akan disertakan. Jadi rumus untuk (saya, jika digunakan dengan

sampel, akan meremehkan standar deviasi penduduk karena a

Sampel yang dipilih secara acak mungkin tidak memasukkan skor paling ekstrem itu

Ada dalam populasi hanya karena hanya ada sedikit dari mereka. Membagi dengan n - 1

atau n (n - 1) memperbaiki bias ini, lebih atau kurang tergantung pada ukuran sampel.

Hal ini membuat standar deviasi sampel lebih representatif dari populasi.

Dalam contoh kecil, katakan n = 5, koreksi agak besar, bagi dengan 4

bukan 5-pengurangan 20% di denominator. Dalam sampel besar, katakanlah n = 100,

Koreksi tidak signifikan, membagi dengan 99 bukan 100-pengurangan 1% masuk

penyebutnya Sekali lagi, perbedaan dalam koreksi persen ini adalah karena fakta

Semakin kecil sampel, kemungkinan besar skor ekstrim akan terwakili.

Kita harus mencatat bahwa formula ini untuk standar deviasi sampel

sebenarnya statistik inferensial dan biasanya ada di bab berikutnya. Namun,

karena ini adalah rumus yang digunakan untuk menggambarkan sampel dan karena sampel adalah apa yang biasanya harus
menghitung deviasi standar, kami yakin ini

adalah tempat yang lebih baik untuk mereka.

Dua rumus untuk standar deviasi sampel dengan deviasi dan

Metode perhitungan nilai rata - rata adalah masing – masing

Tidak diragukan lagi pembaca bisa melihat bahwa satu-satunya perubahan ada di dalam denominator. Demikian,

jika kita mengganti n (n - 1) untuk N2 dan menghitung 52 dan 5 dengan menggunakan data dari halaman 364,

kita akan menemukan yang berikut ini:

Hasil ini cukup berubah dari (i = 166,67 (perubahan +20,83) dan

(J = 12,91 (perubahan 0,78). Perbedaan yang relatif besar ini dari populasi

Rumus ke rumus sampel adalah karena ukuran sampel kecil (n = 9), yang mana

membuat koreksi yang relatif besar diperlukan. Koreksi untuk menghitung

Perbedaan dan standar deviasi penting karena, kecuali jika kehilangan gelar
kebebasan (dibahas di Bab 11) dipertimbangkan, varians sampel yang dihitung

atau standar deviasi cenderung meremehkan varians atau standar populasi

deviasi. Hal ini berlaku karena rata - rata penyimpangan kuadrat dari

Rata-rata distribusi apa pun adalah nilai sekecil mungkin dan mungkin juga demikian

lebih kecil dari mean deviasi kuadrat dari titik lain dalam distribusi.

Karena mean sampel tidak mungkin identik dengan populasi

mean (karena kesalahan sampling), penggunaan N - 1 (jumlah derajat

kebebasan) dan bukan N dalam denominator cenderung mengoreksi hal yang meremehkan ini

dari varians populasi atau standar deviasi.

Kekuatan prediksi atau keakuratan nilai yang disimpulkan meningkat seiring dengan

Jumlah pengamatan independen (ukuran sampel) meningkat. Karena sampelnya besar

Bisa jadi bias, ukuran sampel bukan satu-satunya faktor penentu yang penting, tapi kalau bias

Sampel dipilih secara acak dari populasi, sampel besar akan disediakan

basis yang lebih akurat daripada sampel yang lebih kecil untuk menyimpulkan nilai populasi.

Deviasi standar untuk IQ populasi pada Apendiks Bis 11,55, dengan menggunakan

rumus untuk populasi (akan menjadi 11,61 jika rumus sampel digunakan). Itu

pembaca harus menghitung standar deviasi (menggunakan rumus untuk sampel) untuk

contoh. Bagaimana perbandingannya dengan standar deviasi populasi ini?

Standar deviasi adalah alat yang sangat berguna untuk membandingkan karakteristik

yang mungkin sangat berbeda atau dapat dinyatakan dalam satuan pengukuran yang berbeda.

Diskusi berikut menunjukkan bahwa ketika normalitas distribusi dapat terjadi

diasumsikan itu adalah mungkin untuk membandingkan apel pepatah dan jeruk. Standar

Penyimpangan tidak bergantung pada besarnya mean dan memberikan kesamaan

unit pengukuran Untuk menggunakan contoh yang agak tidak masuk akal, bayangkan seorang pria yang

tinggi adalah satu standar deviasi di bawah rata-rata dan yang beratnya satu standar

penyimpangan diatas mean. Karena kita asumsikan ada hubungan yang normal

antara tinggi dan berat (atau kedua karakteristik tersebut terdistribusi normal),

sebuah gambar muncul dari individu yang pendek dan kelebihan berat badan. Tingginya, dinyatakan dalam inci,

berada di 16% terendah dari populasi, dan beratnya, dinyatakan dalam pound, berada di dalam

tertinggi 16% .Dalam bab ini hanya standar deviasi suatu populasi yang dibahas.

Namun sebelum menggunakan standar deviasi untuk menggambarkan status atau posisi dalam suatu kelompok

dibahas, distribusi normal perlu diperiksa.


Distribusi normal

Analisis matematis paling awal dari teori probabilitas tanggal ke 18

abad. Abraham DeMoivre, seorang matematikawan Prancis, menemukan bahwa matematika

Hubungan tersebut menjelaskan probabilitas yang terkait dengan berbagai permainan

kesempatan. Ia mengembangkan persamaan dan pola grafis yang menggambarkannya. Selama

abad ke-19 seorang astronom Prancis, LaPlace, dan seorang matematikawan Jerman,

Gauss, secara independen sampai pada prinsip yang sama dan menerapkannya secara lebih luas

ke bidang pengukuran dalam ilmu fisika. Dari aplikasi terbatas

yang dibuat oleh para ahli matematika dan astronom awal ini, teori probabilitas,

atau kurva distribusi kesalahan, telah diterapkan pada data yang dikumpulkan di daerah tersebut

biologi, psikologi, sosiologi, dan ilmu lainnya. Teori ini menggambarkan

fluktuasi kesalahan pengamatan dan pengukuran kebetulan. Hal ini perlu dilakukan

memahami teori probabilitas dan sifat kurva distribusi normal

untuk memahami banyak konsep statistik penting, terutama di daerah tersebut

skor standar, teori sampling, dan statistik inferensial.

Kita harus ingat bahwa "distribusi normal sebenarnya tidak ada.

Ini bukan fakta alam. Sebaliknya, ini adalah model matematis - sebuah idealisasi - itu

dapat digunakan untuk mewakili data yang dikumpulkan dalam penelitian perilaku "(Shavelson, 1996,

hal. 120). Hukum probabilitas dan kurva normal yang menggambarkannya didasarkan pada

hukum kebetulan atau kemungkinan kejadian tertentu. Bila ada tubuh

Pengamatan sesuai dengan bentuk matematis ini, dapat diwakili oleh bellshaped

kurva dengan karakteristik yang pasti (Gambar 10.2).

1. Kurva simetris sekitar sumbu vertikal-50% dari skor di atas

rata-rata dan 50% di bawah rata-rata.

2. Mean, median, dan mode distribusi memiliki nilai yang sama.

3. Istilah berkelompok di sekitar pusat-sebagian besar skor mendekati rata-rata, rata-rata,

dan mode dengan skor lebih sedikit karena skornya lebih jauh dari pusat.

4. Kurva tidak memiliki batas di kedua arah, karena kurva tidak pernah menyentuh

garis dasar, tidak peduli seberapa jauh jaraknya. Kurva adalah kurva probabilitas,

bukan dari kepastian.

5. Salah satu cara untuk memikirkan kurva normal (atau lekukan tidak normal yang dijelaskan

tidak lama lagi) adalah melihatnya "sebagai figur geometrik padat yang terdiri dari semua subjek dan

nilai mereka yang berbeda "(Heiman, 1996, hal 53). Artinya, kurva itu merapikan,
versi melengkung dari grafik batang yang mewakili setiap kemungkinan skor dan jumlahnya

dari orang yang mendapat skor itu

Periset sering menganggap satu standar deviasi dari mean menjadi khusus

titik penting pada kurva normal. Ini untuk kedua praktis dan a

alasan matematis Alasan praktisnya adalah bahwa ini menghasilkan sekitar 68%

(sedikit lebih dari dua pertiga) populasi jatuh di antara satu standar deviasi

di atas dan satu standar deviasi di bawah rata-rata. Mungkin yang lebih penting,

Inilah titik di mana kurva berubah dari bentuk cembung ke bawah ke arah

bentuk cembung ke atas. Jadi, matematis, ini adalah titik di mana arah

dari perubahan kurva Seperti akan dibahas nanti, ± 1.96 standar deviasi

Dari rata-rata akan menghasilkan 95% populasi. Ini adalah titik kritis lainnya

Pada kurva, yang sering dibulatkan menjadi 2 standar deviasi dari mean.

Operasi kebetulan terjadi dalam melempar koin atau dadu. Hal ini diyakini bahwa

Banyak karakteristik manusia yang merespons pengaruh kebetulan. Misalnya, jika pasti

batas usia, ras, dan gender tetap konstan, ukuran seperti tinggi badan,

Berat badan, kecerdasan, dan umur panjang akan mendekati pola distribusi normal.

Namun distribusi normal tidak muncul dalam data berdasarkan pengamatan

sampel Hanya saja tidak cukup pengamatan. Distribusi normal didasarkan

pada jumlah tak terhingga pengamatan di luar kemampuan pengamat; demikian,

Biasanya ada beberapa simpangan yang diamati dari pola simetris. Tapi untuk tujuan

Dari analisis statistik, diasumsikan bahwa banyak karakteristik sesuai

Bentuk matematis ini dalam batas-batas tertentu, memberikan referensi yang mudah.

Konsep kecerdasan terukur didasarkan pada asumsi kecerdasan

biasanya didistribusikan ke seluruh segmen populasi yang terbatas. Pengujian

Begitu dibangun (distandarisasi) sehingga nilai biasanya terdistribusi dalam jumlah besar

kelompok yang digunakan untuk penentuan norma atau standar. Perusahaan asuransi

menentukan tingkat premi mereka dengan penerapan kurva probabilitas.

probabilitas kelangsungan hidup seorang pria dari usia 45 sampai 46 tahun. Mereka tidak bermaksud memprediksi

kelangsungan hidup individu tertentu, tapi dari kelompok besar mereka bisa memprediksi

tingkat kematian semua risiko tertanggung.

Luas total di bawah kurva normal dapat dianggap mendekati 100%

kemungkinan. Diinterpretasikan dalam hal standar deviasi, area antara mean

dan berbagai standar deviasi dari mean di bawah kurva menunjukkan ini
persentase hubungan (lihat Gambar 10.3).

Perhatikan konformasi grafis dari karakteristik kurva normal:

1. Ini simetris-persentase frekuensi sama untuk interval yang sama

di bawah atau di atas rata-rata.

2. Istilah atau skor "cluster" atau "kerumunan di sekitar rata-rata" -catat bagaimana persentase

dalam standar deviasi tertentu paling besar di sekitar mean dan penurunan

sebagai satu bergerak menjauh dari mean.

X sampai ± 1.00z

± 1.00 sampai ± 2.00z

± 2.00 sampai ± 3.00z

34,13%

13,59%

2,15%

3. Kurva paling tinggi pada mean-mean, median, dan mode memiliki persamaan

nilai.

4. Kurva tidak memiliki batas - sebagian kecil dari 1% ruang berada di luar

dari ± 3,00 standar deviasi dari mean.

Kurva normal adalah kurva yang juga menggambarkan probabilitas. Misalnya, jika

tinggi biasanya didistribusikan untuk segmen populasi tertentu, kemungkinannya

3; 613 bahwa seseorang yang dipilih secara acak akan berada di antara mean dan satu standar

penyimpangan di atas rata-rata tinggi, dan 3; 613 bahwa orang yang dipilih akan berada di antara keduanya

mean dan satu standar deviasi di bawah rata-rata tinggi-atau 6 ~ 6 ~ 6 yang

orang terpilih akan berada dalam satu standar deviasi (di atas atau di bawah) mean di

tinggi. Interpretasi lain adalah bahwa 68,26% dari segmen populasi ini akan menjadi

antara rata-rata dan satu standar deviasi di atas atau di bawah rata-rata tinggi badan.

Contohnya bisa membantu pembaca memahami konsep ini. IQ (kecerdasan

quotient) diasumsikan terdistribusi normal. Skala Intelijen Wechsler

untuk Anak-Revisi (WISC-R) memiliki rata-rata 100 dan standar deviasi 15.

Dengan demikian, skor IQ WISC-R yang merupakan salah satu standar deviasi diatas mean adalah 115, dan

Skor 85 adalah satu standar deviasi di bawah rata-rata. Dari informasi ini itu

diketahui bahwa sekitar 68% populasi harus memiliki nilai WISC-R

antara 85 dan 115.

Untuk tujuan praktis kurva biasanya diperluas sampai ± 3 standar deviasi


dari mean (± 3z). Sebagian besar kejadian atau kejadian (atau probabilitas) akan turun antara

batas ini Probabilitasnya adalah 9 ;: 04 bahwa batas-batas ini memperhitungkan pengamatan atau prediksi

kejadian. Pernyataan ini tidak menunjukkan bahwa kejadian atau tindakan bisa dilakukan

Tidak jatuh lebih dari tiga standar deviasi dari mean tapi kemungkinan itu

akan terlalu kecil untuk dipertimbangkan saat membuat prediksi atau perkiraan berdasarkan

kemungkinan. Ahli statistik menangani probabilitas, bukan kepastian, dan selalu ada

tingkat reservasi dalam membuat prediksi apapun. Ahli statistik menangani probabilitasnya

yang menutupi kejadian normal, bukan kejadian yang berada di luar

rentang pengalaman normal.

Distribusi tidak normal

Seperti disebutkan sebelumnya dalam pembahasan data parametrik dan nonparametrik dan

kegunaan relatif rata-rata dan median, tidak semua distribusi, khususnya

dari data sampel, identik dengan atau bahkan mendekati kurva normal. Ada dua lainnya

Jenis distribusi yang bisa terjadi: condong dan bimodal. Dalam distribusi miring

Sebagian besar skor berada di dekat ujung yang tinggi atau rendah dengan jumlah yang relatif sedikit

skor di ujung lain Distribusi dianggap miring ke arah

ekor (skor paling sedikit). Pada Gambar 10.4, distribusi A miring secara positif, dan distribusi

B miring negatif. Distribusi yang miring dapat disebabkan oleh angka

Faktor, termasuk tes yang terlalu mudah atau keras atau contoh atipikal (sangat terang

atau kecerdasan yang sangat rendah).

Distribusi Bimodal memiliki dua mode (lihat distribusi C pada Gambar 10.4)

daripada mode tunggal distribusi normal atau miring. Hal ini sering diakibatkan oleh a

sampel yang terdiri dari orang-orang dari dua populasi. Misalnya, ketinggian

Orang dewasa Amerika akan dibagi secara bimodal, betina berkerumun di sekitar a

mode sekitar 5 kaki 4 inci dan jantan sekitar mode sekitar 5 kaki 10 inci.

Menafsirkan Distribusi Probabilitas Normal

Bila skor biasanya atau mendekati normal, tabel probabilitas normal

berguna. Nilai yang disajikan dalam tabel probabilitas normal pada Lampiran B kritis karena mereka menyediakan data untuk
distribusi normal yang bisa ditafsirkan

dengan cara berikut:

1. Persentase total ruang termasuk antara mean dan standar yang diberikan

deviasi (z) jarak dari mean

2. Persentase kasus, atau angka saat N diketahui, yang jatuh di antaranya

mean dan standar deviasi tertentu (z) jarak dari mean


3. Probabilitas suatu peristiwa akan terjadi antara mean dan standar yang diberikan

deviasi (z) jarak dari mean

Gambar 10.5 menunjukkan bagaimana area di bawah kurva normal dapat dibagi. Di

distribusi normal karakteristik berikut ini berlaku:

1. Ruang yang termasuk antara mean dan + 1.00z adalah 0,3413 dari total area

di bawah kurva.

2. Persentase kasus yang jatuh antara mean dan + 1.00z adalah .3413.

3. Probabilitas kejadian yang terjadi (observasi) antara mean dan

+ 1.00z adalah .3413.

4. Distribusi dibagi menjadi dua bagian yang sama, satu setengah di atas rata-rata dan

setengah lainnya di bawah rata-rata.

5. Karena satu setengah dari kurva di atas rata-rata dan, 3513 dari total luasnya

antara mean dan + 1.00z, area kurva yang berada di atas + 1.00z adalah .1587.

Karena kurva probabilitas normal simetris, bentuknya kanan

Sisi (diatas rata-rata) identik dengan bentuk sisi kiri (di bawah rata-rata).

Karena nilai untuk setiap sisi kurva adalah identik, hanya satu set nilai

disajikan dalam tabel probabilitas, dinyatakan seperseratus sigma (standar

penyimpangan) unit.

Tabel probabilitas normal pada Lampiran C memberikan proporsi

kurva yang ada antara mean dan nilai sigma (z) tertentu. Sisa dari itu

setengah dari kurva berada di luar nilai sigma.

Aplikasi Praktis dari Kurva Normal

Di bidang penelitian pendidikan kurva normal memiliki sejumlah praktis

aplikasi:

1. Untuk menghitung nilai persentil skor dalam distribusi normal.

2. Menormalkan distribusi frekuensi, sebuah proses penting dalam standarisasi

tes psikologis atau inventaris.

3. Menguji signifikansi tindakan yang diamati dalam eksperimen, yang berkaitan dengannya

kemungkinan fluktuasi atau kesalahan yang melekat dalam proses pengambilan sampel dan generalisasi

tentang populasi dari mana sampel diambil.

Ukuran Posisi Relatif: Skor Standar

Skor standar memberikan metode untuk mengekspresikan skor dalam distribusi di

jaraknya dari rata-rata unit deviasi standar. Utilitas ini


Konversi nilai baku menjadi nilai standar akan menjadi jelas karena masing-masing tipe

diperkenalkan dan diilustrasikan. Tiga jenis nilai standar dipertimbangkan.

1. Skor Z (Sigma)

2. Skor T (T)

3. Skor dewan perguruan tinggi (Zcb)

Ingat bahwa distribusi diasumsikan normal bila menggunakan tipe apapun

dari skor standar

Skor Z (Sigma)

Dalam menggambarkan skor dalam distribusi, penyimpangannya dari mean-express in

unit penyimpangan standar - lebih bermakna daripada skor itseIf. Unit

Pengukuran adalah standar deviasi.

Skor mentah 76 pada Contoh A dapat dinyatakan sebagai skor Z -1,50, yang menunjukkan

bahwa 76 adalah 1.5 standar deviasi di bawah mean. Skor 67 di Contoh

B dapat dinyatakan sebagai skor sigma +1.00, menunjukkan bahwa 67 adalah satu standar

penyimpangan diatas mean.

Dalam membandingkan atau merata skor pada distribusi di mana titik total mungkin berbeda,

peneliti menggunakan skor mentah dapat membuat kesan palsu sebagai dasar

perbandingan. Skor Z memungkinkan perbandingan skor dan skor yang realistis

memberikan dasar untuk bobot skor yang sama. Pada skala sigma rata - rata

distribusi apapun dikonversi menjadi nol, dan standar deviasi sama dengan 1.

Misalnya, seorang guru ingin menentukan rata-rata tertimbang rata-rata siswa

(mean) prestasi pada tes aljabar dan tes bahasa Inggris.

Jelas bahwa rata-rata dari dua nilai tes mentah tidak akan memberikan valid

Ringkasan kinerja siswa, karena rata-rata akan tertimbang sangat banyak

mendukung nilai tes bahasa Inggris. Konversi setiap nilai tes menjadi

Skor sigma membuat mereka terbobot rata dan sebanding, untuk kedua nilai tes

telah diekspresikan dalam skala dengan rata-rata nol dan standar deviasi satu.

Atas dasar bobot yang sama, kinerja siswa cukup konsisten:

1,40 standar deviasi di bawah mean dalam standar aljabar dan 1,30

penyimpangan di bawah rata-rata dalam bahasa Inggris.

Karena tabel probabilitas normal menggambarkan persentase daerah yang berbohong

antara unit deviasi rata-rata dan berturut-turut di bawah kurva normal (lihat

Lampiran C), penggunaan skor sigma memiliki banyak aplikasi berguna lainnya untuk hipotesis
pengujian, penentuan peringkat persentil, dan penilaian probabilitas.

Pembaca mungkin ingin memilih satu skor dari sampel 25 anak yang dipilih

sebelumnya dan hitung skor z untuk orang tersebut dalam kaitannya dengan sampel. Populasi

berarti (86.12) dan standar deviasi (11,55) dalam formula tersebut dapat terjadi

digunakan untuk menghitung z untuk anak yang sama. Bagaimana membandingkan kedua z skor ini?

Skor T (T)

T = 50 + 10 (X - X) atau 50 + 10z

Sebuah

Meski skor z paling sering digunakan, terkadang kikuk untuk dimiliki

negatif atau skor dengan desimal. Oleh karena itu, versi lain dari skor standar,

skor T, telah dirancang untuk menghindari kebingungan karena z negatif

skor (di bawah mean) dan juga untuk menghilangkan nilai desimal.

Mengalikan skor z dengan 10 dan menambahkan 50 hasil dalam skala keseluruhan positif

nilai angka Dengan menggunakan skor di contoh sebelumnya, T = 50 + 10z:

Aljabar T = 50 + 10 (-1.40) = 50 + (-14) = 36

Bahasa Inggris T = 50 + 10 (-1.30) = 50 + (-13) = 37

Skor T selalu dibulatkan ke bilangan bulat terdekat. Nilai z + 1,27

akan dikonversi menjadi skor T 63.

T = 50 + 10 (+1.27) = 50 + (+12.70) = 62.70 = 63

Mengkonversi skor z yang baru dihitung untuk orang yang dipilih dari sampel

menjadi nilai T.

Skor Dewan Perguruan Tinggi (Zcb)

Dewan Pemeriksaan Masuk Perguruan Tinggi dan beberapa agen pengujian lainnya menggunakan

konversi lain yang memberikan ukuran yang lebih tepat dengan cara menyebarkannya

skala (Gambar 10.6).

Zcb = 500 + 100 (X - X) = 500 + 100z

(J

Rata-rata skala ini adalah 500.

Standar deviasi adalah 100.

Rentangnya adalah 200-800.

Stanines

Angka stanin adalah skor standar yang membagi kurva normal menjadi sembilan bagian

istilah stanine dari sta standar dan sembilan. Peringkat ke-2 sampai ke 8 masing-masing
sama dengan satu unit standar deviasi standar. Dengan demikian, stanine 5 meliputi pusat

kurva dan pergi seperempat (0,25) standar deviasi di atas dan di bawah

berarti. Stanine 6 pergi dari atas stanine 5 sampai 0,75 standar deviasi di atas

mean, sedangkan stanine 4 masuk dari dasar stanine 5 sampai 0,75 standar

penyimpangan di bawah rata-rata dan sebagainya. Stanine 1 mencakup semua nilai di bawah angka stanine

2, dan stanine 9 mencakup semua nilai di atas angka 3. Gambar 10.6 menunjukkan

distribusi stanine dan membandingkannya dengan nilai standar lainnya.

Persentase peringkat

Meski peringkat persentil biasanya tidak dianggap sebagai nilai standar, hal itu penting

untuk diskusi ini Hal ini sering berguna untuk menggambarkan skor dalam kaitannya dengan nilai lainnya;

Peringkat persentil adalah titik dalam distribusi di bawah mana persentase yang diberikan

skor jatuh Jika peringkat persentil ke-80 adalah skor 65,80% dari skor di bawahnya

65. median adalah peringkat persentil ke-50, untuk 50% dari skor jatuh di bawahnya.

Bila N kecil, definisi membutuhkan penyempurnaan tambahan. Benar-benar

Yang akurat, peringkat persentil adalah skor dalam distribusi di bawah mana yang diberikan

persentase nilai jatuh, ditambah satu setengah persentase ruang yang ditempati

skor yang diberikan.

Skor
50
47
43
39
30

Pada pemeriksaan terlihat bahwa 43 adalah median, atau menempati persentil ke-50

pangkat. Lima puluh persen nilai harus jatuh di bawahnya, tapi sebenarnya hanya dua dari lima nilai di bawah 43. Itu
menunjukkan 43 memiliki peringkat persentas 40.

Tapi dengan menambahkan frase "ditambah satu setengah persentase ruang yang ditempati oleh

skor, "perhitungannya didamaikan:

40% skor di bawah 43; setiap skor menempati 20% dari total ruang

40% + 10% = 50 (peringkat persentil sejati)

Bila N besar, kualifikasi ini tidak penting karena peringkat persentil

dibulatkan ke bilangan bulat terdekat, mulai dari peringkat persentil tertinggi

99 sampai yang terendah dari nol.

Sekolah menengah sering menilai lulusan senior mereka dalam hal peringkat di kelas.

Karena sekolah sangat bervariasi, perguruan tinggi menemukan peringkat nilai terbatas ini

kecuali jika diubah menjadi beberapa dasar umum untuk perbandingan. Persentil
peringkat memberikan dasar ini dengan mengubah peringkat kelas menjadi peringkat persentil.

. (IOORK - 50)

Persentase peringkat = 100 - N

dimana RK = peringkat dari atas.

Jones menempati urutan 27 di kelasnya yang terdiri dari 139 siswa. Dua puluh enam siswa berpangkat

di atasnya, di bawahnya. Peringkat persentilnya adalah

100 - (2700 - 50) = 100 - 19 = 81

139

Dalam rumus ini, 50 dikurangkan dari 100RK untuk memperhitungkan separuh ruang yang ditempati

dengan skor individu. Berapakah peringkat persentil dari orang yang Anda pilih

untuk menghitung nilai z dan T?

Ukuran Hubungan

Korelasi

Korelasi adalah hubungan antara dua atau lebih variabel berpasangan atau dua atau lebih kumpulan data. Tingkat hubungan IS
diukur dan diwakili oleh

koefisien tersebut dapat diidentifikasi dengan huruf r,

huruf Yunani rho (p), atau simbol lainnya, tergantung pada distribusi data dan

cara koefisiennya dihitung.

Siswa yang memiliki kecerdasan tinggi cenderung mendapat nilai tinggi

tes matematika, sedangkan mereka dengan IQ rendah cenderung untuk skor rendah. Saat tipe ini

Dari hubungan yang didapat, faktor kecerdasan dan skor yang diukur pada matematika

Tes dikatakan berkorelasi positif.

Terkadang variabel berkorelasi negatif bila jumlahnya banyak

variabel dikaitkan dengan jumlah kecil yang lain. Sebagai satu meningkat, yang lain

cenderung menurun.

Bila hubungan antara dua set variabel adalah hubungan kebetulan murni,

kita mengatakan bahwa tidak ada korelasi

Pasangan variabel ini biasanya berkorelasi positif: Seperti yang meningkat,

lainnya cenderung meningkat.

1. Intelijen

2. Produktivitas per hektar

3. Tinggi badan

4. Penghasilan keluarga

Prestasi akademis
Nilai lahan pertanian

Ukuran sepatu

Nilai rumah keluarga

Variabel ini biasanya berkorelasi negatif: Seperti yang meningkat, yang lain

cenderung menurun.

1. Prestasi akademis

2. Produksi total com

3. Waktu yang dihabiskan dalam latihan

4. Usia sebuah mobil

Jam per minggu menonton TV

Harga per gantang

Jumlah kesalahan pengetikan

Trade-in value

Ada ciri-ciri lain yang mungkin tidak memiliki korelasi.

1. Berat badan

2. Ukuran sepatu

Intelijen

Gaji bulanan

Tingkat korelasi linier dapat diwakili secara kuantitatif dengan koefisien

korelasi. Korelasi positif yang sempurna adalah 1,00. Korelasi sempurna yang sempurna

adalah -1.00. Kurang lengkap hubungan adalah nol (0). Jarang sekali, jika pernah

Koefisien korelasi yang sempurna dari +1.00 atau -1.00 terjadi, terutama di

Mengaitkan sifat manusia. Meski beberapa hubungan cenderung tampil cukup konsisten,

Ada variasi atau pengecualian yang mengurangi koefisien yang diukur dari

baik -1.00 atau +1.00 menuju nol.

Definisi korelasi positif yang sempurna menentukan bahwa untuk setiap unit meningkat

Dalam satu variabel terjadi peningkatan satuan proporsional di sisi lain. Negatif yang sempurna

Korelasi menentukan bahwa untuk setiap unit kenaikan dalam satu variabel ada yang proporsional

penurunan unit di sisi lainnya. Bahwa tidak ada pengecualian yang menjelaskan mengapa

koefisien korelasi +1.00 atau -1.00 tidak ditemukan dalam hubungan manusia

sifat. Tanda koefisien menunjukkan arah hubungan, dan

nilai numerik kekuatannya.

Scattergram dan Linear Regression Line


Bila hubungan antara dua variabel diplot secara grafis, dipasangkan variabel

nilai diplot satu sama lain pada X dan Yaxis.

Garis yang ditarik melalui, atau dekat, titik koordinat dikenal sebagai "garis

yang paling sesuai, "atau garis regresi. Pada baris ini jumlah penyimpangan dari semua

titik koordinat memiliki nilai sekecil mungkin. Sebagai pendekatan koefisien

nol (0), titik koordinat turun lebih jauh dari garis regresi (lihat Gambar 10.7

untuk contoh scattergrams korelasi yang berbeda).

Bila koefisien korelasinya adalah +1.00 atau -1.00, semua koordinatnya

Poin jatuh pada garis regresi, menunjukkan bahwa, ketika r = +1.00, untuk setiap

kenaikan X ada peningkatan proporsional Y; dan bila r = -1.00, untuk

setiap kenaikan X ada penurunan proporsional Y. Tidak ada individu

pengecualian. Jika kita tahu skor seseorang dengan satu ukuran, kita bisa menentukannya atau tidak

Skor pastinya pada ukuran lainnya.

Kemiringan garis regresi, atau garis yang paling sesuai, tidak ditentukan oleh tebakan

atau estimasi tapi dengan proses geometris yang akan dijelaskan nanti.

Sebenarnya ada dua garis regresi. Bila r = +1.00 atau -1.00, garisnya adalah

Ditumpangkan dan muncul sebagai satu baris. Karena r mendekati nol, garis-garisnya terpisah

lebih lanjut.

Hanya satu dari garis regresi yang dijelaskan dalam diskusi ini, Y0 X (atau

Yfrom X) baris. Hal ini digunakan untuk memprediksi nilai Yvalues yang diketahui dari nilai X yang diketahui. Itu

Nilai X dikenal sebagai variabel prediktor, dan Yivalues, variabel prediktor.

Garis regresi lainnya (tidak dijelaskan di sini) akan digunakan untuk pra ict X

dari Y.

Merencanakan Lereng Jalur Regresi

Kemiringan garis regresi (Y dari X) adalah representasi geometris f

koefisien korelasi dan dinyatakan sebagai rasio besarnya ise (jika

r adalah +) untuk lari, atau sebagai rasio kejatuhan (jika r - - untuk lari, dinyatakan dalam unit penyimpangan standar. Hubungan
geometris antara kedua kaki segitiga siku-siku

menentukan kemiringan sisi miring, atau garis regresi.

Misalnya, jika r = +.60, untuk setiap unit sigma meningkat (run) di X, ada a.60

Peningkatan unit sigma (kenaikan) di Y.

Jika r = - .60, untuk setiap unit sigma meningkat (run) di X, ada unit a.60 sigma

penurunan (jatuh) di Y.
Karena semua garis regresi melewati titik potong rata-rata X dan

Maksud garis Y, hanya satu titik lain yang diperlukan untuk menentukan kemiringan. Oleh

mengukur satu standar deviasi dari distribusi X pada sumbu X dan 0,60

Penyimpangan standar distribusi Y pada sumbu Y, titik kedua ditetapkan

(Gambar 10.8 dan 10.9).

Garis regresi (r) melibatkan satu fitur canggung: semua nilai harus

dinyatakan dalam nilai sigma (z) atau unit standar deviasi. Ini akan lebih praktis

untuk menggunakan skor aktual untuk menentukan kemiringan garis regresi. Ini bisa

dilakukan dengan mengubah ke kemiringan yang dikenal sebagai b. Kemiringan garis regresi b Y pada

X ditentukan oleh rumus

contoh, jika r = +.60

dan ay = 6

ax = 5

b = +.60 ~ = 3; 0 = +.72

Jadi r dari +.60 menjadi b = +.72. Sekarang rasio yang dijalankan memiliki nilai e dan yang lain

menunjukkan garis kemiringan yang berbeda (Gambar 10.10).

Koefisien korelasi yang paling sering digunakan dan paling tepat diketahui adalah koefisien Product-Moment Pearson (r).
Koefisien ini bisa dihitung dengan mengubah skor baku menjadi nilai sigma dan menemukan nilai rata-rata nilai mereka produk
silang

Jika sebagian besar nilai negatif X dikaitkan dengan nilai z negatif Y,

dan nilai positif X dengan nilai positif Y, koefisien korelasinya akan

menjadi positif. Jika sebagian besar nilai berpasangan adalah tanda yang berlawanan, koefisiennya akan

menjadi negatif

hubungan sejenis (+) (+ ) = + tinggi pada X, tinggi pada Y

( - )( - ) = + rendah pada X, rendah pada Y

hubungan beda jenis (+)( -) = - tinggi pada X, rendah pada Y

(- )( +) = - rendah pada X, tinggi pada Y

Metode nilai z tidak sering digunakan dalam perhitungan aktual karena inv lves

konversi masing-masing skor menjadi nilai sigma. Dua metode lain, sebuah penyimpangan

metode dan metode skor mentah, lebih mudah, lebih sering digunakan, dan ield

hasil yang sama

Metode penyimpangan menggunakan rumus berikut dan membutuhkan setti

dari sebuah tabel dengan tujuh kolom.

Menggunakan data dari Tabel 10.4, dengan nilai bacaan menjadi variabel X dan
Nilai aritmatika menjadi Yvariable, peneliti menghitung r seperti ini:

Metode skor mentah membutuhkan penggunaan lima kolom, seperti yang digambarkan di bawah ini bernyanyi

data yang sama

Sekarang ambil 25 anak yang dipilih tadi dan hitung korelasi IQ

dengan skor pretest Korelasi IQ dengan skor pretest untuk seluruh populasi

dari 100 anak adalah +552.Bagaimana korelasi sampel berhubungan dengan korelasi

untuk populasi? Sekarang hitung korelasi pretest dan

skor posttest Korelasi untuk populasi 100 anak di antaranya

skor pretest dan nilai posttest mereka adalah +834. Bagaimana korelasi sampelnya?

berhubungan dengan korelasi untuk populasi?

Korelasi Rank Order (p)

Bentuk tertentu dari korelasi product moment Pearson yang bisa digunakan

Korelasi dengan data ordinal dikenal sebagai koefisien korelasi rankear Spearman. Simbol p (rho) digunakan untuk mewakili
koefisien korelasi ini. Pasangan var ables

dinyatakan sebagai nilai ordinal (peringkat) daripada sebagai interval atau nilai rasio. Itu

koreksi cocok untuk demonstrasi grafis yang menarik.

Dalam contoh berikut, peringkat siswa tertinggi di peringkat IQ di

matematika, dan yang terendah dalam IQ, terendah dalam matematika.

Dalam contoh berikut, siswa berprestasi paling tinggi dalam waktu yang dihabiskan dalam latihan

peringkat terendah dalam jumlah kesalahan.

Dalam contoh berikut, mungkin hanya ada sedikit hubungan murni

(karena kesalahan sampling) antara tinggi dan kecerdasan.

Untuk menghitung koefisien korelasi urutan Spearman, hal ini agak sederhana

formula yang digunakan:

-1 6r.ri
p - - N(N2 -1)

dimana D = perbedaan antara pasangan berpasangan

r. ri = jumlah perbedaan kuadrat antara barisan

N = jumlah pasangan berpasangan

Jika data yang sebelumnya digunakan dikonversi ke peringkat dan dihitung Spearman's

p, akan terlihat seperti ini:

Seperti yang baru saja ditunjukkan, p Spearman dan r Pearson menghasilkan hal yang sama

hasil. Hal ini terjadi bila tidak ada ikatan. Bila ada dasi, hasilnya tidak akan

menjadi identik, namun bedanya tidak signifikan.


Koefisien korelasi order rank Spearman dengan cepat dan cepat

mudah. Ini adalah metode yang dapat diterima jika data hanya tersedia dalam bentuk ordinal. Guru

Dapat ditemukan metode penghitungan ini berguna saat melakukan penelitian menggunakan a

kelas tunggal siswa sebagai mata pelajaran.

Koefisien Korelasi Phi (tfJ)

Data dianggap dikotomis bila hanya ada dua pilihan untuk penilaian

variabel (misalnya, lulus gagal atau laki-laki). Dalam kasus ini skor masing-masing orang biasanya

akan diwakili oleh 0 atau 1, meskipun kadang-kadang 1 dan 2 digunakan sebagai gantinya

Korelasi product moment moment Pearson, ketika kedua variabel tersebut dikotomis,

dikenal sebagai koefisien phi (1fJ). Rumus untuk IfJ lebih sederhana daripada untuk Pears n's r

tapi algebraically identik. Karena jarang ada dua varia dari dikotomis

Kepentingan dimana peneliti ingin mengetahui hubungan, formul akan

tidak disajikan disini Penyebutan singkat tentang IfJ ini membuat pembaca awar.

Mereka yang menginginkan lebih banyak detail harus mengacu pada salah satu dari sekian banyak teks statistik yang dapat dibuat

(misalnya, Heiman, 1996; Glass & Hopkins, 1996)

dikotomisInterpretasi Koefisien Korelasi

Dua keadaan bisa menyebabkan korelasi yang lebih tinggi atau lebih rendah dari biasanya. Pertama,

satu orang atau sedikit orang memiliki sepasang nilai yang berbeda

sisa nilai sampel, rmay yang dihasilkan bisa sangat tinggi atau rendah. en

Hal ini terjadi, peneliti perlu memutuskan apakah akan menghapus indivi ual ini

sepasang nilai (dikenal sebagai outlier) dari data yang dianalisis. Kedua, ketika semua lainnya

Hal yang sama, semakin homogen sekelompok nilai, semakin rendah orrelasinya

akan. Artinya, semakin kecil rentang skor, semakin kecil r w 11 menjadi.

Periset perlu mempertimbangkan potensi masalah ini saat memilih sampel itu

mungkin sangat homogen Namun, jika peneliti mengetahui standar deviasi

dari kelompok heterogen dari mana grou homogen itu

dipilih, Glass dan Hopkins (1996) dan yang lainnya menggambarkan formula yang sesuai untuknya

rentang terbatas dan memberikan korelasi untuk gro bagian heterogen.

Ada beberapa cara untuk menafsirkan koefisien korelasi atau penyesuaian korelasi

koefisien, tergantung pada tujuan peneliti dan ances sirkit

yang dapat mempengaruhi besarnya korelasi. Salah satu metode yang sering terjadi! disajikan

adalah dengan menggunakan kriteria kasar untuk mengevaluasi besarnya korelasi:

Koefisien (r)
.00 sampai .20

.20 sampai .40

.40 sampai .60

.60 sampai .80

0,80 sampai 1,00

Hubungan

Tidak bisa diabaikan

Rendah

Moderat

Besar

Tinggi sampai yang sangat tinggi

Pendekatan interpretatif lainnya adalah uji signifikansi statistik dari korelasi th,

berdasarkan konsep sampling error dan uji signifikansi des runcing

di Bab II.

Masih ada cara lain untuk menafsirkan koefisien korelasi dalam hal var ance.

Perbedaan ukuran yang ingin kita prediksi bisa dibagi menjadi pa t itu

dijelaskan oleh, atau karena, variabel prediktor dan bagian yang dijelaskan d oleh

Faktor lain (umumnya tidak diketahui) termasuk kesalahan sampling. Kami menemukan persentase ini

Dari penjelasan varians dengan menghitung r2

, dikenal sebagai koefisien determinasi.

Persentase varians yang tidak dijelaskan oleh variabel prediktor adalah 1 r2

Contohnya bisa membantu pembaca memahami konsep penting ini. Dalam menggabungkan

Studi menggunakan IQ untuk memprediksi prestasi akademik secara umum, Walberg (1984)

menemukan keseluruhan korelasi antara variabel-variabel ini .71.Kita bisa menggunakan korelasi ini

untuk menemukan r 2 = .50. Ini berarti 50 persen varians dalam akademik

Prestasi (seberapa baik atau kurang siswa yang berbeda) dapat diprediksi dari variansnya

dari IQ Ini juga berarti bahwa 50 persen varians prestasi akademik

Karena faktor selain IQ, seperti motivasi, lingkungan rumah, sekolah

hadir, dan uji kesalahan Walberg juga menemukan bahwa korelasi IQ dengan sains

Prestasi adalah .48. Ini berarti hanya 23 persen (r 2

) varians dalam sains

Prestasi tersebut dapat diprediksi oleh IQ dan bahwa 77 persennya adalah karena faktor lainnya, beberapa

diketahui dan beberapa tidak diketahui Akhirnya, korelasi nilai IQ dan posttest
dilaporkan sebelumnya untuk 100 anak dalam data kami yang tercantum dalam Lampiran B adalah +638 dan

antara pra- dan posttests +.894. Jadi, 41% (.6382) varians di posttest

skor diprediksi oleh IQ sedangkan 80% (0,8942) diprediksi dengan skor pretest.

Ada teknik tambahan, beberapa terlalu maju untuk teks pendahuluan ini,

yang memungkinkan peneliti untuk menggunakan lebih dari satu variabel. Mungkin saja, misalnya, untuk

gunakan kombinasi IQ, skor pretest, dan tindakan lain seperti motivasi

dan skala sosioekonomi untuk memprediksi prestasi akademik (nilai posttest). Ini

Beberapa korelasi akan meningkatkan korelasi, yang akan meningkat

Persentase varians prestasi akademik yang dijelaskan oleh faktor yang diketahui.

Pada bab selanjutnya kita menunjukkan bagaimana regresi berganda dapat menghasilkan banyak

korelasi.

Outlier

Outliers adalah sejumlah individu yang sepertinya tidak cocok dengan sampel lainnya karena sifatnya yang ekstrem. Besarnya
kemungkinan korelasi mungkin

Outlier sangat terpengaruh oleh satu atau lebih pencilan. Plot plot, atau diagram, umumnya

digunakan untuk mengidentifikasi outlier. Gambar 10.11 menunjukkan dua scatter plot yang menunjukkan

outlier Pada plot scatter atas korelasi 0.52 diturunkan secara dramatis oleh

memiliki satu individu yang nilainya berbeda dari yang lain

mencicipi. Tanpa nilai individu ini, sisa delapan set hasil skor

dalam korelasi positif sempurna sebesar 1,0. Di plot paling bawah, justru sebaliknya

ditunjukkan. Tanpa outlier tunggal, tidak ada korelasi (r = 0,0) karena semua

dari individu memiliki skor yang sama pada salah satu variabel. Namun, oleh

termasuk outlier, korelasinya menjadi 0.666. Dengan demikian, interpretasi korelasi

Itu termasuk outlier yang sulit. Masalah serupa bisa ditemukan saat menghitung

berarti (median dapat diganti) atau standar deviasi.

Masalahnya adalah apakah membuang outlier atau menyimpannya. Untung atau

Sayangnya, tidak ada jawaban yang sederhana. Penyidik harus memutuskan setiap situasi

atas kelebihannya sendiri. Apakah outlier menambahkan informasi atau membingungkannya? Itu mungkin

mungkin untuk memutuskan apa yang harus dilakukan dengan outlier dengan mewawancarai individu. Untuk

Misalnya, jika individu sakit pada hari pengukuran, itu mungkin terjadi

sebuah indikasi untuk membuangnya Di sisi lain, informasi bisa didapat

memimpin Anda untuk memutuskan untuk menjaga skor. Dalam kedua kasus tersebut, laporan penelitian harus dilakukan

Katakan apa yang Anda tahu tentang outlier dan apa yang telah Anda lakukan, jika ada, dengan mereka. Hitung statistik baik
dengan dan tanpa outlier sehingga pembaca bisa melihat
efek dari outlier dan memutuskan untuk diri mereka sendiri.

Salah tafsir terhadap Koefisien Korelasi

Beberapa kesalahan dan keterbatasan harus dipertimbangkan dalam menafsirkan gagasan saya

dari koefisien korelasi. Koefisien tidak menyiratkan penyebab dan akibat

hubungan antar variabel Korelasi positif yang tinggi telah terobati

antara jumlah sarang bangau dan jumlah kelahiran manusia di Eropa barat laut dan antara jumlah pentahbisan para menteri di New

Koloni Inggris dan konsumsi galon rum. Korelasi tinggi ini

Jelas tidak menyiratkan kausalitas. Seiring bertambahnya populasi, baik dan buruk

Hal-hal cenderung meningkat dalam frekuensi.

Demikian pula, korelasi nol (atau bahkan negatif) tidak berarti itu

tidak ada penyebabnya adalah mungkin Glass and Hopkins (1996) menunjukkan, "Beberapa penelitian dengan

mahasiswa tidak menemukan korelasi antara jam belajar untuk ujian

dan uji kinerja .... [Hal ini mungkin disebabkan oleh fakta bahwa] beberapa siswa cerdas

belajar sedikit dan tetap meraih nilai rata-rata, sedangkan beberapa dari mereka kurang berbakat

Teman sekelas rajin belajar tapi tetap meraih performa rata-rata. Sebuah dikendalikan

Studi eksperimental hampir pasti menunjukkan beberapa hubungan kausal "(hal 139)

Penggunaan koefisien korelasi yang penting dan garis regresi Y pada X adalah

untuk prediksi nilai Y yang tidak diketahui dari nilai X yang diketahui. Karena itu adalah sebuah metode

untuk memperkirakan kinerja masa depan individu berdasarkan kinerja terdahulu dari samp1e, prediksi adalah aplikasi analisis
korelasi yang inferensial. Memiliki

telah disertakan dalam bab ini untuk menggambarkan salah satu aplikasi yang paling berguna

korelasi

Mari kita berasumsi bahwa petugas penerimaan perguruan tinggi ingin memprediksi kemungkinannya

prestasi akademik siswa yang dianggap masuk atau untuk beasiswa

hibah Mereka telah membangun sekumpulan data berdasarkan catatan masa lalu yang substansial

jumlah mahasiswi yang diakui selama periode beberapa tahun. Mereka punya

menghitung koefisien korelasi antara rata-rata tingkat sekolah menengah mereka

dan siswa kelas satu mereka rata-rata. Mereka sekarang bisa membangun sebuah

garis regresi dan memprediksi masa depan perguruan tinggi IPK untuk calon calon

siswa, berdasarkan IPK SMA-nya.

Mari kita asumsikan bahwa petugas penerimaan menemukan koefisien korelasi

menjadi + .52. Kemiringan garis bisa digunakan untuk menentukan nilai Y untuk apapun

Nilai X Proses ini akan cukup merepotkan, bagaimanapun, untuk semua nilai-point

rata-rata harus dimasukkan sebagai nilai sigma (z).


Prosedur yang lebih praktis adalah menyusun garis regresi dengan a

kemiringan b sehingga setiap titik rata-rata perguruan tinggi (Y) dapat diprediksi secara langsung

dari nilai rata-rata kelas SMA manapun. Garis regresi b dan grafik yang dibuat dengan hati-hati akan memberikan metode uick
untuk prediksi.

Berat Beta. Sebagai contoh

Você também pode gostar