Escolar Documentos
Profissional Documentos
Cultura Documentos
Elsa Mundstock Jandyra Maria Guimares Fachel Suzi Alves Camey Marilyn Agranonik
NDICE
1. INTRODUO AO SPSS ........................................................................................................ 3 1.1 - BANCO DE DADOS: Definio ............................................................................... 4 1.2 - COMO CRIAR UM BANCO DE DADOS................................................................. 4 1.3 - COMO DAR NOME AOS NVEIS DE UMA VARIVEL ......................................... 5 1.4 - COMO ACESSAR UM BANCO DE DADOS J EXISTENTE ................................ 6 2. INTRODUO AOS MTODOS ESTATSTICOS.................................................................. 7 2.1 - TIPOS DE VARIVEIS: Definio........................................................................... 7 2.2 - DESCRIO E EXPLORAO DE DADOS.......................................................... 7 2.3 - CATEGORIZAO DE VARIVEIS ....................................................................... 8 2.3.1 - COMO CATEGORIZAR UMA VARIVEL QUANTITATIVA................................ 8 2.3.2 - COMO DAR NOME AOS NVEIS DE UMA VARIVEL .................................... 10 2.4 - COMO CRIAR UMA VARIVEL A PARTIR DE UMA DATA................................ 10 2.5 - COMO CRIAR UMA VARIVEL ATRAVS DA COMBINAO DE OUTRAS DUAS ............................................................................................................................. 10 3. ANLISE UNIVARIADA ......................................................................................................... 12 3.1 - VARIVEIS QUANTITATIVAS .............................................................................. 12 3.1.1 - COMO OBTER AS ESTATSTICAS DESCRITIVAS ......................................... 12 3.1.2 - COMO OBTER UM HISTOGRAMA ................................................................... 12 3.2 - VARIVEIS CATEGRICAS (QUALITATIVAS)................................................... 13 3.2.1 - COMO OBTER A DISTRIBUIO DE FREQNCIAS ................................... 13 3.2.2 - COMO OBTER GRFICOS ............................................................................... 14 4. ANLISE BIVARIADA ............................................................................................................ 16 4.1 - VARIVEIS QUANTITATIVAS X QUANTITATIVAS............................................. 16 4.1.1 - COMO CALCULAR A CORRELAO ENTRE DUAS VARIVEIS QUANTITATIVAS........................................................................................................... 16 4.1.2 - COMO OBTER GRFICO DE PONTOS (SCATTERPLOT) ................. 16 4.1.3 - COMO OBTER O COEFICIENTE DE CORRELAO DE PEARSON ............ 18 4.1.4 - COMO FAZER REGRESSO LINEAR SIMPLES............................................. 19 4.2 - VARIVEIS CATEGRICAS X CATEGRICAS ................................................. 22 4.2.1 - COMO VERIFICAR A EXISTNCIA DE ASSOCIAO ENTRE VARIVEIS CATEGRICAS: Teste Qui - Quadrado........................................................................ 23 4.2.2 - COMO CALCULAR OS RESDUOS AJUSTADOS ........................................... 26 4.3 - VARIVEIS QUANTITATIVAS X CATEGRICAS ............................................... 27 4.3.1 - COMO FAZER O BOX-PLOT............................................................................. 28 5. COMPARAO DE MDIAS................................................................................................. 31 5.1 - COMO COMPARAR MDIAS ENTRE DOIS GRUPOS: Teste t para Amostras Independentes. .............................................................................................................. 31 5.2 - COMO COMPARAR AS MDIAS DE TRES OU MAIS GRUPOS: Anlise de Varincia ANOVA para um fator ............................................................................. 33 7. MANIPULAO DE DADOS ................................................................................................. 36 7.1 SORT CASES.......................................................................................................... 36 7.2 SELECT CASES...................................................................................................... 37 7.3 SPLIT FILE............................................................................................................... 39 7.4 MANIPULAO DE ARQUIVOS............................................................................. 41 7.5 COMO APAGAR ANLISES NO DESEJADAS NO ARQUIVO DE RESULTADOS *.spo............................................................................................................................. 41 7.6 COMO REALIZAR ALTERAES DE DADOS PARA CONSTRUO DE GRFICO....................................................................................................................... 41 8. ESTATSTICA NO PARAMTRICA .................................................................................... 43 8.1 TESTE DE KOLMOGOROV-SMIRNOV.................................................................. 43 9. AMOSTRAGEM...................................................................................................................... 45
1. INTRODUO AO SPSS
O pacote estatstico SPSS (Statistical Package for Social Sciences) uma ferramenta para anlise de dados utilizando tcnicas estatsticas bsicas e avanadas. um software estatstico de fcil manuseio internacionalmente utilizado h muitas dcadas, desde suas verses para computadores de grande porte. Tela inicial do SSPS 13.0 for Windows.
(a)
(b) Figura 1: Tela inicial do SSPS 13.0 for Windows. 1(a): Planilha Data View; 1(b): Planilha Variable View.
b) c) d) e)
f)
g) h)
(VAR001, VAR002, etc.), e uma margem vertical numerada a partir de 1 (como mostrado na Figura1a). Na primeira coluna, correspondendo VAR001, vamos criar uma varivel, por exemplo, NumCaso com o nmero do questionrio ou do caso em estudo. Para registrar as caractersticas da varivel, clicar duas vezes sobre o nome da coluna. Aparece a planilha variable view na qual cada varivel est definida em uma linha. Na primeira coluna (Name), digitar o nome da varivel (NumCaso). Para o nome das variveis utilize 8 dgitos no mximo, no utilize espao em branco nem os smbolos -, . e /. Clicar na coluna Type para definir o tipo de varivel, aparece a janela Variable Type onde se deve deixar a opo Numeric. Se a varivel for alfa-numrica (texto) escolha a opo String. Preferencialmente use sempre a modalidade Numeric para variveis categricas, como por exemplo, sexo, estado civil, municpio, etc. criando-se um cdigo para as categorias. No caso de no-resposta ou respostas que no se desejam considerar para o tratamento estatstico, como por exemplo, respostas no corretas, etc..., clicar na coluna Missing, abre-se a janela (Missing Values), registrar, na opo Discrete Missing Values, o cdigo de no-resposta, preferencialmente 9, 99, 999, etc. Clicar em "OK". A melhor opo para no resposta deixar o espao em branco no banco de dados. Retornar planilha data view e passar a digitar, em cada linha da coluna identificada, o valor da varivel. medida que o BANCO DE DADOS vai sendo registrado importante salvar as informaes digitadas, para tanto se procede da seguinte forma: Clicar em File, Save as... (abre-se a janela do caminho desejado) e criar um nome para o Banco de dados, que ter automaticamente a terminao .sav.
a) b) c) d) e)
Clicar em Values. Abre-se a janela Value Labels: Em Value, digitar 0; Em Value Label, digitar masculino; Clicar em ADD; Procede-se da mesma forma para os demais nveis de categorizao: digitar 1 para Value e feminino para Value Label, seguindo-se por ADD f) Clicar em OK.
OBSERVAO:
A manipulao do BANCO DE DADOS nos permite: Criar e recodificar variveis; Realizar anlise de dados atravs de estatsticas descritivas, grficos, etc; Selecionar casos para anlise, repetir a anlise para grupos de casos diferentes. importante dar-se ao arquivo o nome mais claro possvel para facilitar sua localizao e acesso. Os arquivos de dados so do tipo . sav
RECOMENDAO: A primeira coluna da matriz deve corresponder ao
nmero do questionrio, nmero do caso, ou ainda cdigo do registro, pois facilita a localizao de informaes no caso de serem identificados equvocos de digitao.
Para exemplificar, usaremos uma varivel categorizada utilizando quartis. Os quartis so pontos de corte na escala da varivel de tal forma que, cada grupo formado a partir destes pontos de corte ter um quarto dos casos, ou seja, 25% do tamanho total da amostra. Os passos necessrios para categorizar uma varivel utilizando os quartis so os seguintes: 1. Calcular os quartis da varivel em questo, neste caso, Populao (populatn): a) Clicar em Analyze, Descritive Statistics, Frequencies; b) Selecionar a varivel que se deseja categorizar na janela esquerda e clicar ; c) Retirar a opo de Display Frequency Tables, a fim de que no venha listada a totalidade de casos da varivel (no estudo em pauta o nmero de 109 casos); d) Clicar em Statistics e assinalar Quartiles; e) Clicar em Continue; OK.
RESULTADOS:
Frequencies
Statistics Population in thousands N Valid Missing Percentiles 25 50 75 109 0 5000,00 10400,00 37100,00
2. Criar uma varivel com 4 categorias, definidas pelos quartis, da seguinte maneira: Categoria 1 2 3 4 Intervalo de valores Mnimo at 5000,00 5001,00 at 10400,00 10401,00 at 37100,00 37101,00 at o Mximo no Banco de Dados
Para categorizar a varivel populatn, usando os limites dados pelos quartis procede-se da seguinte forma: a) Clicar em Transform, Recode, Into Different Variables; b) Localizar, na janela esquerda, a varivel a ser categorizada (populatn) e clicar na ; c) Digitar um novo nome para a varivel de sada (Output Variable), por exemplo POPREC e clicar em Change; d) Clicar em Old and New Values; e) Clicar em Range (lowest through) e digitar o valor obtido para o primeiro quartil, no caso 5000,00; f) Em New Value, digitar 1; g) Clicar em ADD; h) Assinalar Range, colocando: 5001,00 at (Through) 10400,00 (segundo quartil); i) Na opo New Value, digitar 2; j) Clicar em ADD; k) Assinalar Range, 10401,00 at (Through) o terceiro quartil 37100,00; l) Na opo New Value, digitar 3; m) Clicar em ADD; n) Clicar em Range (Through Highest) e digitar o valor imediatamente superior ao 3 quartil, no caso 37101,00; o) Na opo New Value, digitar 4; p) Clicar em ADD; Continue OK. A nova varivel POPREC corresponde varivel populatn categorizada, sendo esta automaticamente includa no banco de dados que estamos utilizando (World95.sav / Arquivo Data).
2.3.2 - COMO DAR NOME AOS NVEIS DE UMA VARIVEL No banco de dados, clicar 2 vezes sobre a nova varivel Poprec, obtendo-se a planilha Variable View. Para dar o nome aos nveis (1, 2, 3 e 4) da nova varivel Poprec procede-se da seguinte forma: a) b) c) d) e) Clicar em Values. Abre-se uma nova janela - Value Labels; Em Value, digitar 1; Em Value Label, digitar pop. inferior a 5000,00; Clicar em ADD; Procede-se da mesma forma para os demais nveis de categorizao: 2, 3 e 4; f) Clicar em Continue; OK.
Para criar uma varivel a partir da combinao de outras duas, como por exemplo, combinar a varivel sexo (sex) e a varivel raa (race) utilizaremos o seguinte procedimento para criar a varivel SEXRACE. Sabendo que a varivel SEX categorizada da seguinte forma: 1-Male e 2-Female e a varivel RACE categorizada da seguinte forma: 1- White, 2-Black e 3-Other pode-se criar a varivel SEXRACE com as seguintes categorias: 1- White Male, 2- White Female, 3- Black Male 4- Black Female 5- Other Male 6- Other Female a) b) c) d) e) f) g) h) g) h) i) j) k) Ento se procede da seguinte forma: Selecionar Transform, Compute; Em Target Variable digite o nome da nova varivel, por exemplo SEXRACE; Na janela Numeric Expression digite 1; Clicar em if; Selecione a opo Include if case satisfies condition; Localizar na janela abaixo de Include if case satisfies condition a varivel desejada, Aps ter selecionado a varivel (neste caso, sex), clicar na ; Digitar =1 & na janela ao lado da varivel sex; Selecionar na janela ao lado a varivel race e clicar na ; Na janela ao lado da varivel race digitar =1; Aps esse procedimento a expresso na janela deve ser a seguinte: sex=1 & race=1; Clicar em Continue e OK, (a varivel SEXRACE aparecer no final do banco de dados, Para criar as demais categorias da varivel SEXRACE procede-se de maneira anloga, alterando o cdigo na janela Numeric Expression para 2, 3, 4, 5 e 6 e a expresso da janela Include if case satisfies condition.
11
3. ANLISE UNIVARIADA
3.1 - VARIVEIS QUANTITATIVAS
3.1.1 - COMO OBTER AS ESTATSTICAS DESCRITIVAS Para calcular as estatsticas descritivas procede-se da seguinte forma: a) Clicar em Analyze, Descriptive Statistics, Descriptives; b) Localizar na janela esquerda a varivel de interesse (por exemplo, mortalidade infantil) e clicar na ; c) Clicar em Options, e assinalar as opes desejadas; d) Clicar em Continue; OK; e) Os resultados da anlise estatstica aparecem na janela de resultados (OUTPUT), que poder ser salva, dando origem a um arquivo do tipo .spo (SPSS output).
EXEMPLO:
Descriptives
Descriptive Statistics N Infant mortality (deaths per 1000 live births) Valid N (listwise) 109 109 Minimum 4,0 Maximum 168,0 Mean 42,313 Std. Deviation 38,0792
3.1.2 - COMO OBTER UM HISTOGRAMA a) Clicar em Graphs, Histogram b) Localizar na janela a varivel desejada, c) Aps ter selecionado a varivel (neste caso, babymort), clicar na ; d) Pode-se clicar na opo Titles para dar um ttulo ao histograma. e) Clicar em OK
12
30
25
20
Frequency
15
10
5 Mean =42,313 Std. Dev. =38,0792 N =109 0,0 50,0 100,0 150,0 200,0
RESULTADO:
Frequencies
Statistics Region or economic group N Valid 109 Missing 0
13
Region or economic group Frequency 21 14 17 19 17 21 109 Percent 19,3 12,8 15,6 17,4 15,6 19,3 100,0 Valid Percent 19,3 12,8 15,6 17,4 15,6 19,3 100,0 Cumulative Percent 19,3 32,1 47,7 65,1 80,7 100,0
Valid
OECD East Europe Pacific/Asia Africa Middle East Latn America Total
3.2.2 - COMO OBTER GRFICOS Para se obterem os diferentes tipos de grficos disponveis no programa procede-se da seguinte forma: a) Clicar em Graphs, selecionar o grfico desejado, que ao salvlo, d origem a um arquivo do tipo .cht (Chart) (arquivo de grficos).
OBSERVAO:
a) Clicar em Graphs, selecionar Pie; b) Selecionar a opo Summaries for groups of cases e clicar em Define; c) Na opo Define Slices by selecionar a varivel region.
14
RESULTADO:
Region or economic group
OECD East Europe Pacific/Asia Africa Middle East Latn America
a) b) c) d)
Para colocar o valor percentual de cada categoria no grfico: Clicar duas vezes no grfico; Abre o SPSS Chart Editor; clicar em elements/show data labels; Na janela properties, em data value labels, selecionar percents; Clicar OK.
RESULTADO:
Region or economic group
OECD East Europe Pacific/Asia Africa
19,27% 19,27%
12,84% 15,6%
15,6% 17,43%
15
4. ANLISE BIVARIADA
Para realizar uma anlise bivariada, ou seja, anlise da relao entre duas variveis, utilizam-se testes estatsticos e/ou grficos adequados: a) b) Para duas variveis quantitativas Grfico - Scatterplot de X e Y Coeficiente de Correlao de Pearson Anlise de Regresso Simples Para duas variveis categricas (qualitativas) Teste Qui-Quadrado e a Anlise dos Resduos Anlise de Correspondncia Grfico de colunas por estratos da segunda varivel
c) Para uma varivel quantitativa e uma qualitativa Categoriza-se a varivel quantitativa e procede-se como no item anterior. Grfico Box-Plot, para cada estrato ou categoria da varivel qualitativa.
O grfico de pontos (Scatterplot) deve ser uma etapa preliminar ao clculo do Coeficiente de Correlao. Neste grfico, cada ponto representa um par observado de valores das duas variveis (X,Y).
16
Atravs deste grfico podemos visualizar empiricamente a relao entre as variveis. Para se obter o grfico Scatterplot (grfico de pontos) procedese da seguinte maneira: a) Clicar em Graphs; Scatter, abre a janela Scatterplot, onde se seleciona o tipo de grfico, neste caso Simple; b) Clicar em Define. So apresentadas as variveis do Banco de Dados, escolhem-se as variveis, no caso, Literacy e Babymort; c) Define-se a varivel Y no caso Babymort, clicar na flecha pertinente e a varivel X, no caso Literacy, clicando-se na flecha correspondente; d) Clicar em OK. O grfico gerado na janela Chart. Esta janela pode ser salva em arquivo com a extenso.cht (arquivo de grfico).
RESULTADO:
Graph
200,0
150,0
100,0
50,0
0,0 0 20 40 60 80 100
17
4.1.3 - COMO OBTER O COEFICIENTE DE CORRELAO DE PEARSON Para calcular o coeficiente de Correlao de Pearson procede-se da seguinte maneira: a) Clicar em Analyze, Correlate, Bivariate, abre-se a janela Bivariate Correlations; b) Selecionar as variveis (no caso Literacy e Babymort), clicar na ; c) Selecionar a estatstica desejada, no caso, Pearson; d) Clicar em OK;
OBSERVAO:
O coeficiente de Correlao Linear de Pearson (r) uma medida que varia de 1 a +1. O coeficiente fornece informao do tipo de associao das variveis atravs do sinal: Se r for positivo, existe uma relao direta entre as variveis (valores altos de uma varivel correspondem a valores altos de outra varivel); Se r for negativo, existe uma relao inversa entre as variveis (valores altos de uma varivel correspondem a valores baixos de outra varivel); Se r for nulo ou aproximadamente nulo, significa que no existe correlao linear.
RESULTADO:
Nos resultados aparece uma tabela com 3 linhas em cada clula: o coeficiente de correlao, o resultado do teste de significncia desse coeficiente e o nmero de observaes utilizadas no clculo do coeficiente.
18
Correlations
Correlations Infant mortality People who (deaths per read (%) 1000 live births) 1 -,900** , ,000 107 107 -,900** 1 ,000 , 107 109
As hipteses do teste do Coeficiente de Correlao de Pearson so: Hiptese Nula (H0): = 0 (no existe correlao entre as variveis) Hiptese Alternativa (H1): 0 (existe correlao significativa)
CONCLUSO:
Ao analisarmos os dados obtidos, rejeita-se H0 (hiptese nula) de que no h correlao entre Literacy e Babymort, uma vez que o valor de p (Sig. 2-tailed) menor que 0,001 (muito pequena, neste caso) e conclui-se em favor da hiptese alternativa de que h correlao entre as variveis em estudo. Este resultado confirma a configurao do grfico Scatterplot, mostrando que medida que a taxa de pessoas alfabetizadas aumenta, a mortalidade infantil tende a diminuir.
4.1.4 - COMO FAZER REGRESSO LINEAR SIMPLES O modelo de regresso linear utiliza-se quando queremos ajustar uma equao linear entre duas variveis quantitativas com a finalidade, por exemplo, de estimar o valor de uma varivel em funo de outra (Y em funo de X). Para aplicar o modelo de regresso
19
devemos definir a priori a varivel explicativa ou independente (X) e a varivel explicada ou dependente (Y). A relao entre as variveis deve ser explicada teoricamente dentro da rea de estudo. Para obter a reta de regresso entre duas variveis, por exemplo, Literacy e Babymort, procede-se da seguinte forma: a) Clicar Analyze, Regression, Linear; b) Definir a varivel independente Literacy, e a varivel dependente Babymort; c) Selecionar Method Enter; d) Na opo Statistics, selecionar Casewise Diagnostics para mostrar a tabela com os valores residuais atpicos; e) Na opo Save, selecionar Predicted Values / Unstandardized, para salvar no banco de dados os valores estimados pela reta ajustada; f) Clicar OK.
RESULTADO:
Regression
b Variables Entered/Removed
Model 1
Variables Removed ,
Method Enter
a. All requested variables entered. b. Dependent Variable: Infant mortality (deaths per 1000 live births)
b Model Summary
Model 1
a. Predictors: (Constant), People who read (%) b. Dependent Variable: Infant mortality (deaths per 1000 live births)
infantil (Babymort) explicada pela varivel taxa de pessoas alfabetizadas (Literacy) atravs do modelo de regresso linear simples.
ANOVAb Model 1 Sum of Squares 126066,8 29400,822 155467,7 df 1 105 106 Mean Square 126066,834 280,008 F 450,226 Sig. ,000a
a. Predictors: (Constant), People who read (%) b. Dependent Variable: Infant mortality (deaths per 1000 live births)
regresso. A coluna F dessa tabela corresponde ao teste conjunto dos coeficientes de regresso. Neste exemplo, fizemos regresso simples, logo as resultados da tabela ANOVA e da tabela COEFFICIENTS so os mesmos.
Coefficientsa Unstandardized Coefficients B Std. Error 160,732 5,794 -1,507 ,071 Standardized Coefficients Beta -,900
Model 1
t 27,740 -21,219
onde o coeficiente linear da reta a = 160,732 e o coeficiente angular b = -1,507. Como o sig de b menor que 0,001, rejeitamos a hiptese nula de que = 0. A partir desta equao podemos estimar (predizer) os valores da varivel dependente (babymort).
As hipteses do Coeficiente Angular so: Hiptese Nula (H0): = 0 Hiptese Alternativa (H1): 0
21
a Casewise Diagnostics
Case Number 1
Residual 50,973
casos em que os valores residuais so atpicos, isto , valores dos resduos padronizados maiores do que 3 em valor absoluto, mostrando que a diferena entre o valor observado e o valor predito relativamente grande e isto pode ser um sintoma de que o modelo no est bem ajustado.
a Residuals Statistics
INTERPRETAO: Esta tabela mostra um resumo das estatsticas descritivas dos principais resultados da Anlise de Regresso. valores de Y estimados por essa equao aparecem na ltima coluna do banco de dados, pois selecionamos a opo Save / Predicted Values / Unstandardized. Essa coluna tem o nome de pre-1 (Unstandardized Predicted Value). Os resduos que forem calculados para outras variveis tero os nomes pre-2, pre-3, etc, esses nomes podem ser alterados pelo usurio.
OBSERVAO: Os
22
4.2.1 - COMO VERIFICAR A EXISTNCIA DE ASSOCIAO ENTRE VARIVEIS CATEGRICAS: Teste Qui Quadrado O banco GSS93.sav, ser utilizado para obter a tabela de contingncia e estudar a associao entre Sexrace e Income4 (salrio em categorias). Procede-se da seguinte forma: a) b) c) d) e) f) g) h) i) Clicar em Analyze, Descriptive Statistics, Crosstabs; Definir a varivel da linha Row - Sexrace; Definir a varivel da coluna Column Income4; Clicar em Statistics; Escolher o tratamento estatstico desejado, no caso, Chi-Square; Clicar em Continue; Clicar em Cell, veremos a janela Crosstabs : Cell Display; Assinalar as opes Observed; etc, de acordo com o desejado; Clicar em Continue; OK.
O valor esperado de cada casela na tabela pode ser obtido na janela Crosstabs : Cell Display assinalando-se tambm a opo Expected.
RESULTADOS:
Case Processing Summary Cases Missing N Percent 0 ,0%
23
SEXRACE * Total Family Income Crosstabulation Total Family Income 25,000 to 40,000 to 39,999 59,999 130 104 110,4 84,6 125 99 141,0 108,1 10 12 13,2 10,1 22 5 20,4 15,6 3 2 4,6 3,5 10 8 10,4 8,0 300 230 300,0 230,0
SEXRACE
Total
Count Expected Count Count Expected Count Count Expected Count Count Expected Count Count Expected Count Count Expected Count Count Expected Count
24,999 or less 181 215,3 285 275,0 30 25,7 58 39,8 13 9,0 18 20,3 585 585,0
60,000 or more 137 141,7 196 181,0 14 16,9 17 26,2 5 5,9 16 13,3 385 385,0
Total 552 552,0 705 705,0 66 66,0 102 102,0 23 23,0 52 52,0 1500 1500,0
A leitura das caselas na 1 linha (count) informa a freqncia bruta e a 2 linha (expected count) corresponde ao valor esperado, isto , o nmero de pessoas que seria esperado caso no houvesse nenhuma associao entre as variveis em estudo, ou seja, se as variveis fossem independentes.
o Teste Qui-Quadrado, para cada casela ij obtido com a frmula a seguir: (TLi X TCj) TG TL - total da linha i TC - total da coluna j TG - total geral
Quando se deseja obter o percentual correspondente linha (Row) procede-se como anteriormente s que, em Cell, abre-se a janela Crosstabs: Cell Display e assinala-se a opo Row em Percentages, obtendo-se a seguinte tabela:
24
RESULTADOS:
SEXRACE * Total Family Income Crosstabulation Total Family Income 25,000 to 40,000 to 39,999 59,999 130 104 110,4 84,6 23,6% 18,8% 125 99 141,0 108,1 17,7% 14,0% 10 12 13,2 10,1 15,2% 18,2% 22 5 20,4 15,6 21,6% 4,9% 3 2 4,6 3,5 13,0% 8,7% 10 8 10,4 8,0 19,2% 15,4% 300 230 300,0 230,0 20,0% 15,3%
SEXRACE
1,00
2,00
3,00
4,00
5,00
6,00
Total
Count Expected Count % within SEXRACE Count Expected Count % within SEXRACE Count Expected Count % within SEXRACE Count Expected Count % within SEXRACE Count Expected Count % within SEXRACE Count Expected Count % within SEXRACE Count Expected Count % within SEXRACE
24,999 or less 181 215,3 32,8% 285 275,0 40,4% 30 25,7 45,5% 58 39,8 56,9% 13 9,0 56,5% 18 20,3 34,6% 585 585,0 39,0%
60,000 or more 137 141,7 24,8% 196 181,0 27,8% 14 16,9 21,2% 17 26,2 16,7% 5 5,9 21,7% 16 13,3 30,8% 385 385,0 25,7%
Total 552 552,0 100,0% 705 705,0 100,0% 66 66,0 100,0% 102 102,0 100,0% 23 23,0 100,0% 52 52,0 100,0% 1500 1500,0 100,0%
Os percentuais relativos coluna (Column) e ao total (Total) podem ser obtidos da mesma forma que para o clculo da percentagem da linha. Cada casela poderia ter at 5 valores, descritos a seguir: 1 linha: valor observado; 2 linha: valor esperado; 3 linha: percentual da linha; 4 linha: percentual da coluna; 5 linha: percentual total.
OBSERVAO:
Sugere-se que, num relatrio final de pesquisa, seja selecionado apenas o valor observado e um destes percentuais.
25
RESULTADO:
Chi-Square Tests Asymp. Sig. (2-sided) ,000 ,000 ,013
df 15 15 1
a. 2 cells (8,3%) have expected count less than 5. The minimum expected count is 3,53.
se a hiptese nula (H0) de independncia entre as variveis. Sendo assim, conclui-se que h evidncias de associao entre Sexrace e Income4. As hiptese do teste Qui-Quadrado (Chi-Square) so: Hiptese Nula (H0): As variveis so independentes. Hiptese Alternativa (H1): As variveis so dependentes. 4.2.2 - COMO CALCULAR OS RESDUOS AJUSTADOS Verificada a associao global entre as variveis pode-se verificar se h associao local entre categorias, calculando-se os resduos ajustados. O resduo ajustado tem distribuio normal com mdia zero e desvio padro igual a 1. Desta forma, caso o resduo ajustado seja maior que 1,96, em valor absoluto, pode-se dizer que h evidncias de associao significante entre as duas categorias (p. ex. homem branco e salrio alto) naquela casela. Quanto maior for o resduo ajustado, maior a associao entre as categorias. Para obter os resduos ajustados procede-se da seguinte maneira: a) b) c) d) Selecionar Analyze, Descriptive Statistics, Crosstabs; Clicar em Cells, abre-se a janela Crosstabs: Cell Display; Assinalar a opo Observed e Adj. standardized; Clicar em Continue; OK.
26
RESULTADOS:
SEXRACE * Total Family Income Crosstabulation Total Family Income 25,000 to 40,000 to 39,999 59,999 130 104 2,6 2,9 125 99 -2,1 -1,3 10 12 -1,0 ,7 22 5 ,4 -3,0 3 2 -,8 -,9 10 8 -,1 ,0 300 230
SEXRACE
Total
Count Adjusted Residual Count Adjusted Residual Count Adjusted Residual Count Adjusted Residual Count Adjusted Residual Count Adjusted Residual Count
24,999 or less 181 -3,8 285 1,1 30 1,1 58 3,8 13 1,7 18 -,7 585
60,000 or more 137 -,6 196 1,8 14 -,8 17 -2,2 5 -,4 16 ,9 385
categorias) j foi considerada significativa. Agora a pergunta : Quais categorias esto associadas localmente? Olhando os resduos ajustados vemos que os maiores valores (positivos) indicam forte associao entre homem-branco e salrio alto, bem como h forte associao entre mulher-negra e salrio baixo. H outras associaes locais interessantes na tabela, identifique.
27
4.3.1 - COMO FAZER O BOX-PLOT a) b) c) d) Clicar em Graphs / Boxplot; Selecione Simple / Summaries for groups of cases; Clicar em Define; Em Variable selecionar uma varivel quantitativa (por exemplo, Babymort); e) Em Category Axis, selecionar uma varivel categrica (por exemplo, Region); f) Clicar em OK.
RESULTADO:
Explore
Region or economic group
Case Processing Summary Cases Missing N Percent 0 ,0% 0 ,0% 0 ,0% 0 ,0% 0 ,0% 0 ,0%
Region or economic group OECD East Europe Pacific/Asia Africa Middle East Latn America
A tabela acima apresenta o nmero de casos vlidos (valid), o nmero de no respostas (missing) e o nmero total das observaes de cada categoria.
INTERPRETAO:
28
INTERPRETAO:
Atravs do Box-plot pode-se observar como as variveis esto distribudas em relao homogeneidade dos dados, valores de tendncia central, valores mximos e mnimos e valores atpicos se existirem. Quando a caixinha (box) muito pequena, significa que os dados so muito concentrados em torno da mediana, e se a caixinha for grande, significa que os dados so mais hetereogneos.
29
LEGENDA:
Md: Mediana (linha horizontal escura dentro do box) Q1: Quartil inferior - 1 quartil (limite inferior do box) Q3: Quartil superior - 3 quartil (limite superior do box) d: diferena interquartlica (d = Q3 Q1) o : outlier (valores acima de 1,5 x d) x : outlier (valores acima de 3,0 x d)
30
5. COMPARAO DE MDIAS
5.1 - COMO COMPARAR MDIAS ENTRE DOIS GRUPOS: Teste t para Amostras Independentes.
O teste t apropriado para comparar as mdias de uma varivel quantitativa entre dois grupos independentes.
EXEMPLO: Comparar a mdia de salrios entre os sexos masculino e
feminino na empresa. a) Sexo (masculino, feminino) - Dois grupos (varivel que define os grupos). b) Idade no 1. Casamento (Agewed) - Varivel resposta ou de teste.
Para a aplicao do teste t nesta situao procede-se da seguinte forma: a) Clicar em Analyze, Compare Means, Independent Samples t test; b) Clicar sobre a varivel de teste (Test Variables): Agewed ou, conforme o caso em estudo, clicar na varivel correspondente; c) Clicar sobre a varivel de grupo (Grouping Variable) Gender; d) Clicar em: Define Group; e) Abre-se uma janela, na qual se define a categoria correspondente ao Group 1 (no caso masculino) digitando-se o cdigo da categoria atribuda quando da construo do Banco de Dados, nesse caso 1 e Group 2 (no caso feminino) digitando-se o cdigo 2. (Observao: No caso de se desejar confirmar os valores atribudos s variveis, abrir a janela Utilities, Variables) f) Clicar em Continue e OK.
31
RESULTADO:
T-Test
Group Statistics Respondent's Sex Male Female N 492 710 Mean 24,16 21,84 Std. Deviation 4,87 4,93 Std. Error Mean ,22 ,18
Independent Samples Test Levene's Test for Equality of Variances t-test for Equality of Means 95% Confidence Interval of the Difference Lower Upper 1,76 1,76 2,88 2,88
F Age When First Married Equal variances assumed Equal variances not assumed ,342
Sig. ,559
t 8,066 8,085
df 1200 1064,66
vemos o seguinte: a) Observa-se o resultado do teste para varincias iguais (Teste de Levene). Neste exemplo, o valor de p para o teste Levene 0,559, no se rejeita a hiptese de varincias iguais. b) O teste t a ser utilizado o que aparece na primeira linha (Equal variances assumed), considerando que p < 0,000 (Sig 2-tailed), rejeita-se a hiptese nula (H0) de igualdade das mdias dos dois grupos, logo, pode-se concluir que as mdias da varivel agewed so significativamente diferentes entre os dois grupos de sexo.
so: Hiptese Nula (H0): As varincias dos dois grupos so iguais. Hiptese Alternativa (H1): As varincias dos dois grupos so diferentes.
32
As hipteses do teste t para igualdade de mdias entre Amostras Independentes so: Hiptese Nula (H0): As mdias dos dois grupos so iguais. Hiptese Alternativa (H1): As mdias dos dois grupos so diferentes
5.2 - COMO COMPARAR AS MDIAS DE TRES OU MAIS GRUPOS: Anlise de Varincia ANOVA para um fator
Para comparar a mdia de trs ou mais grupos procede-se da seguinte maneira: a) Clicar em Analyze, Compare Means, One-Way Anova; b) Assinalar a varivel dependente em Dependent List, clicar sobre a seta correspondente (pode-se realizar mais de um teste incluindo outras variveis na lista, o teste ser repetido para cada varivel includa na lista), neste caso utilize Infant mortality; c) Assinalar a varivel independente Factor, no caso "Region", clicar na flecha correspondente; d) Clicar o boto Options. e) Clicar na alternativa do quadro Statistics Descriptive e depois Continue; f) Clicar no boto Post Hoc. Aparece uma tela One-Way Anova: Post Hoc Multiple Comparisons, assinalar a alternativa Tukey ou outro teste conforme a escolha; g) Clicar em Continue, "OK".
33
RESULTADOS:
Oneway
Descriptives Infant mortality (deaths per 1000 live births) 95% Confidence Interval for Mean Lower Upper Bound Bound 6,38 7,44 13,73 20,06 30,00 77,76 80,37 107,99 31,53 51,25 27,95 50,28 35,08 49,54
OECD East Europe Pacific/Asia Africa Middle East Latn America Total
N 21 14 17 19 17 21 109
ANOVA Infant mortality (deaths per 1000 live births) Sum of Squares 88983,515 67619,443 156602,958 df 5 103 108 Mean Square 17796,703 656,499 F 27,108 Sig. ,000
p<0,001, ento, rejeita-se a hiptese nula (H0) de igualdade das mdias dos seis grupos, logo, pelo menos duas mdias de mortalidade infantil diferem entre si. Um teste de comparaes mltiplas (post-hoc) permite identificar qual(is) grupo(s) diferem. As hipteses da Anlise de Varincia para um fator (ANOVA One-Way) so: Hiptese Nula (H0): As mdias de todos os grupos so iguais. Hiptese Alternativa (H1): Pelo menos duas mdias diferem entre si.
34
East Europe
Pacific/Asia
Africa
Middle East
Latn America
(J) Region or economic group East Europe Pacific/Asia Africa Middle East Latn America OECD Pacific/Asia Africa Middle East Latn America OECD East Europe Africa Middle East Latn America OECD East Europe Pacific/Asia Middle East Latn America OECD East Europe Pacific/Asia Africa Latn America OECD East Europe Pacific/Asia Africa Middle East
Mean Difference (I-J) -9,983* -46,972* -87,269* -34,484* -32,204* 9,983* -36,989 -77,286* -24,501* -22,221* 46,972* 36,989 -40,297 12,488 14,768 87,269* 77,286* 40,297 52,785* 55,065* 34,484* 24,501* -12,488 -52,785* 2,280 32,204* 22,221* -14,768 -55,065* -2,280
Std. Error 8,841 8,359 8,113 8,359 7,907 8,841 9,247 9,025 9,247 8,841 8,359 9,247 8,554 8,788 8,359 8,113 9,025 8,554 8,554 8,113 8,359 9,247 8,788 8,554 8,359 7,907 8,841 8,359 8,113 8,359
Sig. ,000 ,010 ,000 ,000 ,000 ,000 ,060 ,000 ,001 ,008 ,010 ,060 ,064 ,991 ,972 ,000 ,000 ,064 ,000 ,000 ,000 ,001 ,991 ,000 1,000 ,000 ,008 ,972 ,000 1,000
95% Confidence Interval Lower Upper Bound Bound -15,109 -4,857 -85,018 -8,927 -109,134 -65,404 -50,215 -18,753 -49,788 -14,620 4,857 15,109 -75,025 1,046 -99,390 -55,182 -40,604 -8,399 -40,163 -4,280 8,927 85,018 -1,046 75,025 -81,986 1,393 -27,291 52,267 -25,556 55,092 65,404 109,134 55,182 99,390 -1,393 81,986 27,463 78,107 28,621 81,508 18,753 50,215 8,399 40,604 -52,267 27,291 -78,107 -27,463 -19,841 24,400 14,620 49,788 4,280 40,163 -55,092 25,556 -81,508 -28,621 -24,400 19,841
As varincias da varivel mortalidade infantil dos diferentes grupos so muito heterogneas, por esta razo utilizamos um teste de comparaes mltiplas que leva em conta esta desigualdade de varincias, por exemplo, o teste T3 de Dunnet.
35
7. MANIPULAO DE DADOS
7.1 SORT CASES
Uma das necessidades na hora da manipulao dos dados no dia-a-dia a ordenao dos casos segundo uma ou mais variveis. Para fazer isso no SPSS for Windows, usar o procedimento Sort Cases presente no menu Data. Aps clicar em Data opo Sort Cases, uma janela aberta. Movemos para o quadro Sort by a varivel segundo a qual o arquivo deve ser ordenado. Podemos mover para esse quadro mais do que uma varivel. Nesse caso, o arquivo ordenado, em primeiro lugar, pelos valores da primeira varivel no quadro e, em segundo lugar, pela segunda varivel no quadro; a segunda ordenao feita para os valores comuns da primeira varivel. Podemos escolher tambm entre ordem crescente ou decrescente de ordenao para cada uma das variveis. Isso feito atravs do quadro Sort Order opes Descending (decrescente) ou Ascending (crescente). Vamos fazer uma ordenao segundo idade (ordem decrescente) dentro dos cdigos de sexo (ordem crescente). Para isso movemos a varivel sexo para ao quadro Sort Cases e escolhemos a opo Ascending no quadro Sort Order. Movemos em seguida a varivel idade para o quadro Sort Cases e escolhemos a opo Descending no quadro Sort Order. Agora, basta clicar OK para executar a ordenao. Note que aps a execuo deste comando a posio dos indivduos nas linhas fica completamente alterada, pois o indivduo na linha 1 do banco de dados aps ordenado pode no ser o primeiro caso digitado. Para que esta informao no se perca essencial que exista uma varivel com o nmero do indivduo.
36
37
Voc tem duas opes para o tratamento dos casos que no sero selecionados. atravs do quadro Unselected Cases Are que podemos fazer a escolha: Filtered os casos (linhas) que no so selecionados no so includos nas anlises posteriores, porm, permanecem na janela de dados; caso voc mude de idia e queira usar os casos no selecionados na mesma sesso do SPSS, basta desligar o filtro; Deleted os casos (linhas) no selecionados so apagados da janela de dados; caso voc mude de idia e queira usar os casos no selecionados, voc dever ler novamente o arquivo de dados original. Neste caso deve-se tomar o cuidado de salvar o banco de dados com outro nome (File...Save As). Suponha que estamos interessados em selecionar as pessoas que trabalham pelo menos 40 horas por semana e que tm at 20 horas de lazer. A funo condicional para seleo nesse caso dada por: trabalho 40 & lazer 20 Portanto, o tipo de seleo de dados que faremos deve possibilitar a criao de sentenas matemticas lgicas para seleo dos casos. Para isso, clicamos em If condition is satisfied e entramos no retngulo If.. Atravs da janela que aberta, usamos o retngulo superior para escrever uma funo lgica na qual a seleo vai ser baseada. Para a construo da funo, podemos usar todas as variveis que esto no quadro esquerda e as funes disponveis no quadro inferior direito. Uma vez escrita a funo que determina a regra de seleo dos casos, clique Continue e voc voltar janela anterior. No quadro inferior (Unselected cases are), vamos optar pelo modo Filtered (ou seja, os casos no selecionados permanecem na tela de dados, porm, no sero utilizados em anlises futuras) e clicar OK.
38
Voc pode perceber que, depois de feita a seleo, a janela de dados sofre algumas alteraes. As linhas (casos) que no foram selecionadas apresentam uma listra no canto esquerdo da janela de dados. A barra localizada na parte inferior da janela apresenta a mensagem Filter On. Alm disso, uma coluna de nome filter$ adicionada janela de dados. Essa nova coluna apresenta valor 0 para as linhas que no foram selecionadas e valor 1 para as linhas que foram selecionadas. Apesar de voc conseguir ver os casos que no foram selecionados, qualquer anlise efetuada da para frente no leva em conta esses casos. Podemos mudar de idia e querer usar todas as observaes para o clculo das estatsticas. Temos duas maneiras de cancelar a seleo de casos, se a opo Filtered foi usada para efetuar a seleo. A primeira delas ativar a opo All Cases da janela de seleo de casos (menu Select Cases) e clicar OK. A Segunda maneira deletar a coluna filter$ da janela de dados.
opo selecionada na janela Analyze all cases. Para repetir a anlise para as categorias de uma determinada varivel, clicamos em Compare groups ou Organize output by groups, e ento o quadro Groups Based on fica disponvel. Moveremos para esse quadro a varivel (ou variveis) que definiro os grupos para os quais a anlise deve ser repetida. Se mais do que uma varivel for selecionada, os grupos sero definidos pela combinao das categorias de todas as variveis. Podemos ainda escolher se o banco de dados deve ser ordenado pela varivel que definir os grupos (Sort the file by group variables) ou se o banco de dados j est ordenado pela varivel que definir os grupos (File is already sorted). No nosso caso, selecionamos a varivel sexo e a movemos para o quadro Groups Based on e clicamos OK. A nica mudana que acontece na janela de dados a mensagem Split File On na barra inferior, ou a ordenao dos casos pela varivel que definiu os grupos, caso o banco de dados ainda no estivesse ordenado. Porm, qualquer anlise ou grfico feitos de agora em diante vo gerar dois resultados, uma para os homens e outro para as mulheres. Note que os resultados so apresentados em dois blocos, o primeiro para o sexo masculino e o segundo para o sexo feminino se a opo escolhida foi ou Organize output by groups. Podemos mudar de idia e querer usar todas as observaes para o clculo das estatsticas. Para cancelar o procedimento Split File basta ativar a opo Analyze all cases presente na janela de definio da opo Split File menu Data.
40
41
b) Clica-se sobre a seta correspondente que dever estar com o sentido voltado para a esquerda; com este procedimento deixase o campo livre para a prxima varivel; c) Completa-se este campo de acordo com o item "d" do procedimento "COMO OBTER GRFICO DE CORRELAO.
Se o campo destinado varivel estiver ocupado, no h disponibilidade para substituio automtica (a flecha indicativa estar em cinza claro, da mesma forma que ficam quaisquer botes quando no esto em disponibilidade). Caso se deseje enriquecer o grfico quanto a sua forma de apresentao (mudar o tamanho dos "labels", colocar em negrito, colocar grades, trocar de cor, etc.) clica-se no Edit da barra de ferramentas. O resultado o aparecimento de uma nova barra de fontes e de um novo menu de funes, sobre as quais basta um clicar para obter-se o resultado desejado.
OBSERVAO:
42
8. ESTATSTICA NO PARAMTRICA
8.1 TESTE DE KOLMOGOROV-SMIRNOV
Para verificar se uma varivel segue determinada distribuio procede-se da seguinte maneira: a) Clicar em Analyze, Non-Parametric Tests, 1-Sample KS; b) Assinalar a varivel dependente em Dependent List, clicar sobre a seta correspondente (pode-se realizar mais de um teste incluindo outras variveis na lista, o teste ser repetido para cada varivel includa na lista), neste caso utilize Infant mortality; c) Assinalar a distribuio em relao a qual a varivel ser testada em Test Distribution. Neste caso, distribuio Normal; d) Clicar o boto Options. e) Clicar na alternativa do quadro Statistics Descriptive; f) Clicar em Continue, "OK".
RESULTADO:
NPar Tests
Descriptive Statistics N Infant mortality (deaths per 1000 live births) 109 Mean 42,313 Std. Deviation 38,079 Minimum 4,0 Maximum 168,0
43
One-Sample Kolmogorov-Smirnov Test Infant mortality (deaths per 1000 live births) 109 42,313 38,079 ,169 ,169 -,157 1,769 ,004
N Normal Parameters a,b Most Extreme Differences Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed)
INTERPRETAO: Ao analisarmos os dados obtidos, rejeita-se H0 (hiptese nula) de que a varivel Infant mortality segue distribuio Normal, uma vez que o valor de p (Asymp. Sig. 2tailed) menor que 0,004 (muito pequena, neste caso) e conclui-se em favor da hiptese alternativa de que a distribuio da mortalidade infantil no deve ser Normal. As hiptese do Teste de Kolmogorov-Smirnov so: Hiptese Nula (H0): A varivel segue distribuio Normal. Hiptese Alternativa (H1): A varivel no segue distribuio Normal.
44
9. AMOSTRAGEM
Para acessar o mdulo que permite selecionar diferentes tipos de amostras no SPSS 13.0, procede-se da seguinte maneira: a) Analyze; complex samples; select a sample Abre uma janela sampling wizard Escolhe-se o que se quer fazer: Desing a sample Edit a sample desing Draw a sample Utilizando desing sample: a) Em file, escolher o local onde deseja salvar os resultados. gravado um arquivo do tipo .csplan. b) Clicar em avanar. Aparece a janela desing variables, pode-se escolher estratificar ou criar clusters para a amostra. Por exemplo, para criar extratos por regio, selecionar a varivel region na janela da esquerda, clicar em passando a varivel para o quadro stratify by, clicar em avanar. c) Uma nova janela aparece. Deve-se escolher o mtodo de seleo da amostra dentro dos estratos definidos anteriormente (region). Em type, pode-se escolher entre simple random sampling (amostra aleatria simples) simple sistematic(amostra sistemtica simples) simple sequential (amostra seqencial simples) PPS PPS systematic e PPS sequential Para a amostra aleatria simples existem as opes de amostragem com ou sem reposio. Aps escolher o mtodo, clicar em Continue. d) Aparece uma janela, na qual deve-se especificar o tamanho da amostra. Colocar o valor escolhido em value, clicar em Continue. e) Uma nova janela output variables aparece. Aqui possvel salvar variveis como tamanho da populao (population size), tamanho da amostra (sample size), proporo da amostra (sample proportion) e peso da amostra (sample weight). Clicar em avanar. f) Na prxima janela (plan summary) aparece um resumo do que foi pedido at ento. Pode-se escolher criar mais um estgio de
45
amostragem ou terminar por aqui. Se a escolha for o ltimo caso, concluir. RESULTADOS: No banco de dados: as variveis selecionadas na janela output variables aparecem nas ltimas colunas do banco: InclusionProbability_1_ Inclusion (Selection) Probability for Stage 1 SampleWeightCumulative_1_: Cumulative Sampling Weight for Stage 1 PopulationSize_1_: Population Size for Stage 1 SampleSize_1_ : Sample Size for Stage 1 SampleWeight_Final_ : Final Sampling Weight No output: Complex Samples: Selection
Summary for Stage 1 Region or economic group OECD East Europe Pacific/Asia Africa Middle East Latn America Number of Units Sampled Requested Actual 10 10 10 10 10 10 10 10 10 10 10 10 Proportion of Units Sampled Requested Actual 47,6% 47,6% 71,4% 71,4% 58,8% 58,8% 52,6% 52,6% 58,8% 58,8% 47,6% 47,6%
46