Introdução À Análise Estatística Utilizando o SPSS 13 - 0

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL INSTITUTO DE MATEMTICA Cadernos de Matemtica e Estatstica Srie B: Trabalho de Apoio Didtico
INTRODUO ANLISE ESTATSTICA UTILIZANDO O SPSS 13.0
Elsa Mundstock Jandyra Maria Guimares Fachel Suzi Alves Camey Marilyn Agranonik
Srie B, Nmero XX Porto Alegre - maio de 2006
NDICE
1. INTRODUO AO SPSS ........................................................................................................ 3 1.1 - BANCO DE DADOS: Definio ............................................................................... 4 1.2 - COMO CRIAR UM BANCO DE DADOS................................................................. 4 1.3 - COMO DAR NOME AOS NVEIS DE UMA VARIVEL ......................................... 5 1.4 - COMO ACESSAR UM BANCO DE DADOS J EXISTENTE ................................ 6 2. INTRODUO AOS MTODOS ESTATSTICOS.................................................................. 7 2.1 - TIPOS DE VARIVEIS: Definio........................................................................... 7 2.2 - DESCRIO E EXPLORAO DE DADOS.......................................................... 7 2.3 - CATEGORIZAO DE VARIVEIS ....................................................................... 8 2.3.1 - COMO CATEGORIZAR UMA VARIVEL QUANTITATIVA................................ 8 2.3.2 - COMO DAR NOME AOS NVEIS DE UMA VARIVEL .................................... 10 2.4 - COMO CRIAR UMA VARIVEL A PARTIR DE UMA DATA................................ 10 2.5 - COMO CRIAR UMA VARIVEL ATRAVS DA COMBINAO DE OUTRAS DUAS ............................................................................................................................. 10 3. ANLISE UNIVARIADA ......................................................................................................... 12 3.1 - VARIVEIS QUANTITATIVAS .............................................................................. 12 3.1.1 - COMO OBTER AS ESTATSTICAS DESCRITIVAS ......................................... 12 3.1.2 - COMO OBTER UM HISTOGRAMA ................................................................... 12 3.2 - VARIVEIS CATEGRICAS (QUALITATIVAS)................................................... 13 3.2.1 - COMO OBTER A DISTRIBUIO DE FREQNCIAS ................................... 13 3.2.2 - COMO OBTER GRFICOS ............................................................................... 14 4. ANLISE BIVARIADA ............................................................................................................ 16 4.1 - VARIVEIS QUANTITATIVAS X QUANTITATIVAS............................................. 16 4.1.1 - COMO CALCULAR A CORRELAO ENTRE DUAS VARIVEIS QUANTITATIVAS........................................................................................................... 16 4.1.2 - COMO OBTER GRFICO DE PONTOS (SCATTERPLOT) ................. 16 4.1.3 - COMO OBTER O COEFICIENTE DE CORRELAO DE PEARSON ............ 18 4.1.4 - COMO FAZER REGRESSO LINEAR SIMPLES............................................. 19 4.2 - VARIVEIS CATEGRICAS X CATEGRICAS ................................................. 22 4.2.1 - COMO VERIFICAR A EXISTNCIA DE ASSOCIAO ENTRE VARIVEIS CATEGRICAS: Teste Qui - Quadrado........................................................................ 23 4.2.2 - COMO CALCULAR OS RESDUOS AJUSTADOS ........................................... 26 4.3 - VARIVEIS QUANTITATIVAS X CATEGRICAS ............................................... 27 4.3.1 - COMO FAZER O BOX-PLOT............................................................................. 28 5. COMPARAO DE MDIAS................................................................................................. 31 5.1 - COMO COMPARAR MDIAS ENTRE DOIS GRUPOS: Teste t para Amostras Independentes. .............................................................................................................. 31 5.2 - COMO COMPARAR AS MDIAS DE TRES OU MAIS GRUPOS: Anlise de Varincia ANOVA para um fator ............................................................................. 33 7. MANIPULAO DE DADOS ................................................................................................. 36 7.1 SORT CASES.......................................................................................................... 36 7.2 SELECT CASES...................................................................................................... 37 7.3 SPLIT FILE............................................................................................................... 39 7.4 MANIPULAO DE ARQUIVOS............................................................................. 41 7.5 COMO APAGAR ANLISES NO DESEJADAS NO ARQUIVO DE RESULTADOS *.spo............................................................................................................................. 41 7.6 COMO REALIZAR ALTERAES DE DADOS PARA CONSTRUO DE GRFICO....................................................................................................................... 41 8. ESTATSTICA NO PARAMTRICA .................................................................................... 43 8.1 TESTE DE KOLMOGOROV-SMIRNOV.................................................................. 43 9. AMOSTRAGEM...................................................................................................................... 45
1. INTRODUO AO SPSS
O pacote estatstico SPSS (Statistical Package for Social Sciences) uma ferramenta para anlise de dados utilizando tcnicas estatsticas bsicas e avanadas. um software estatstico de fcil manuseio internacionalmente utilizado h muitas dcadas, desde suas verses para computadores de grande porte. Tela inicial do SSPS 13.0 for Windows.
(a)
(b) Figura 1: Tela inicial do SSPS 13.0 for Windows. 1(a): Planilha Data View; 1(b): Planilha Variable View.
1.1 - BANCO DE DADOS: Definio

Banco de dados um conjunto de dados registrados em uma planilha, em forma de matriz, com n linhas, correspondentes aos casos em estudo e p colunas, correspondentes s variveis em estudo ou itens de um questionrio. O nmero de casos (nmero de linhas da matriz) deve ser, em geral, maior do que o nmero de variveis em estudo (nmero de colunas).
1.2 - COMO CRIAR UM BANCO DE DADOS

Para se criar um BANCO DE DADOS novo procede-se da seguinte forma: a) Clicar em File; New; Data. Aparece a planilha data view. Na primeira linha esto indicadas as posies das variveis
b) c) d) e)
f)
g) h)
(VAR001, VAR002, etc.), e uma margem vertical numerada a partir de 1 (como mostrado na Figura1a). Na primeira coluna, correspondendo VAR001, vamos criar uma varivel, por exemplo, NumCaso com o nmero do questionrio ou do caso em estudo. Para registrar as caractersticas da varivel, clicar duas vezes sobre o nome da coluna. Aparece a planilha variable view na qual cada varivel est definida em uma linha. Na primeira coluna (Name), digitar o nome da varivel (NumCaso). Para o nome das variveis utilize 8 dgitos no mximo, no utilize espao em branco nem os smbolos -, . e /. Clicar na coluna Type para definir o tipo de varivel, aparece a janela Variable Type onde se deve deixar a opo Numeric. Se a varivel for alfa-numrica (texto) escolha a opo String. Preferencialmente use sempre a modalidade Numeric para variveis categricas, como por exemplo, sexo, estado civil, municpio, etc. criando-se um cdigo para as categorias. No caso de no-resposta ou respostas que no se desejam considerar para o tratamento estatstico, como por exemplo, respostas no corretas, etc..., clicar na coluna Missing, abre-se a janela (Missing Values), registrar, na opo Discrete Missing Values, o cdigo de no-resposta, preferencialmente 9, 99, 999, etc. Clicar em "OK". A melhor opo para no resposta deixar o espao em branco no banco de dados. Retornar planilha data view e passar a digitar, em cada linha da coluna identificada, o valor da varivel. medida que o BANCO DE DADOS vai sendo registrado importante salvar as informaes digitadas, para tanto se procede da seguinte forma: Clicar em File, Save as... (abre-se a janela do caminho desejado) e criar um nome para o Banco de dados, que ter automaticamente a terminao .sav.
1.3 - COMO DAR NOME AOS NVEIS DE UMA VARIVEL

conveniente registrar no banco de dados os nomes das categorias de variveis categricas. Por exemplo, para a varivel sexo, os cdigos poderiam ser: 0 = masculino e 1 = feminino. Para registrar estes nomes, clicar 2 vezes sobre a varivel sexo, abrindo a planilha Variable View e proceder da seguinte forma:
5
a) b) c) d) e)
Clicar em Values. Abre-se a janela Value Labels: Em Value, digitar 0; Em Value Label, digitar masculino; Clicar em ADD; Procede-se da mesma forma para os demais nveis de categorizao: digitar 1 para Value e feminino para Value Label, seguindo-se por ADD f) Clicar em OK.
OBSERVAO:
A manipulao do BANCO DE DADOS nos permite: Criar e recodificar variveis; Realizar anlise de dados atravs de estatsticas descritivas, grficos, etc; Selecionar casos para anlise, repetir a anlise para grupos de casos diferentes. importante dar-se ao arquivo o nome mais claro possvel para facilitar sua localizao e acesso. Os arquivos de dados so do tipo . sav
RECOMENDAO: A primeira coluna da matriz deve corresponder ao
nmero do questionrio, nmero do caso, ou ainda cdigo do registro, pois facilita a localizao de informaes no caso de serem identificados equvocos de digitao.
1.4 - COMO ACESSAR UM BANCO DE DADOS J EXISTENTE

Para acessar um banco de dados j existente, procede-se da seguinte maneira: a) Iniciar o programa SPSS (clicar 2 vezes sobre o cone); b) Clicar em File, Open, Data, abrir o arquivo que se deseja. Usaremos como exemplo o arquivo chamado World95.sav que se encontra disponvel junto com o programa SPSS.
2. INTRODUO AOS MTODOS ESTATSTICOS

2.1 - TIPOS DE VARIVEIS: Definio
Devemos distinguir entre dois tipos bsicos de variveis: Variveis quantitativas. Aquelas que podem ser mensuradas atravs de escalas quantitativas, isto , escalas que tm unidades de medida. Ex.: Renda Familiar (medida em R$ ou em salrios mnimos); Idade (medida em anos, ou meses); Faturamento de uma Empresa (R$, US$); N de Empregados (N), Peso (em kg), Altura (em cm) Variveis qualitativas ou categricas. Variveis medidas originalmente em categorias. Ex: Sexo, Profisso, Religio, Municpio, Regio
2.2 - DESCRIO E EXPLORAO DE DADOS

O objetivo bsico deste procedimento introduzir tcnicas que permitam organizar, resumir e apresentar os dados, de tal forma que possam ser interpretados de acordo com os objetivos da pesquisa e o tipo de varivel. Um primeiro passo para analisar qualquer banco de dados analisar uma por uma das variveis (o que ser denominado de anlise univariada). Se as variveis so quantitativas usamos estatsticas descritivas (ex: mdia, desvio padro, valor mnimo, valor mximo) ou grficos (ex: histograma). Se as variveis so qualitativas usaremos tabelas de freqncia ou grficos (ex: de setores, tambm conhecido como pie, barra). No podemos calcular mdia, varincia ou desvio-padro de variveis qualitativas ou variveis categricas.
OBSERVAO:
2.3 - CATEGORIZAO DE VARIVEIS

2.3.1 COMO QUANTITATIVA CATEGORIZAR UMA VARIVEL
Para exemplificar, usaremos uma varivel categorizada utilizando quartis. Os quartis so pontos de corte na escala da varivel de tal forma que, cada grupo formado a partir destes pontos de corte ter um quarto dos casos, ou seja, 25% do tamanho total da amostra. Os passos necessrios para categorizar uma varivel utilizando os quartis so os seguintes: 1. Calcular os quartis da varivel em questo, neste caso, Populao (populatn): a) Clicar em Analyze, Descritive Statistics, Frequencies; b) Selecionar a varivel que se deseja categorizar na janela esquerda e clicar ; c) Retirar a opo de Display Frequency Tables, a fim de que no venha listada a totalidade de casos da varivel (no estudo em pauta o nmero de 109 casos); d) Clicar em Statistics e assinalar Quartiles; e) Clicar em Continue; OK.
RESULTADOS:
Frequencies
Statistics Population in thousands N Valid Missing Percentiles 25 50 75 109 0 5000,00 10400,00 37100,00
2. Criar uma varivel com 4 categorias, definidas pelos quartis, da seguinte maneira: Categoria 1 2 3 4 Intervalo de valores Mnimo at 5000,00 5001,00 at 10400,00 10401,00 at 37100,00 37101,00 at o Mximo no Banco de Dados
Para categorizar a varivel populatn, usando os limites dados pelos quartis procede-se da seguinte forma: a) Clicar em Transform, Recode, Into Different Variables; b) Localizar, na janela esquerda, a varivel a ser categorizada (populatn) e clicar na ; c) Digitar um novo nome para a varivel de sada (Output Variable), por exemplo POPREC e clicar em Change; d) Clicar em Old and New Values; e) Clicar em Range (lowest through) e digitar o valor obtido para o primeiro quartil, no caso 5000,00; f) Em New Value, digitar 1; g) Clicar em ADD; h) Assinalar Range, colocando: 5001,00 at (Through) 10400,00 (segundo quartil); i) Na opo New Value, digitar 2; j) Clicar em ADD; k) Assinalar Range, 10401,00 at (Through) o terceiro quartil 37100,00; l) Na opo New Value, digitar 3; m) Clicar em ADD; n) Clicar em Range (Through Highest) e digitar o valor imediatamente superior ao 3 quartil, no caso 37101,00; o) Na opo New Value, digitar 4; p) Clicar em ADD; Continue OK. A nova varivel POPREC corresponde varivel populatn categorizada, sendo esta automaticamente includa no banco de dados que estamos utilizando (World95.sav / Arquivo Data).
2.3.2 - COMO DAR NOME AOS NVEIS DE UMA VARIVEL No banco de dados, clicar 2 vezes sobre a nova varivel Poprec, obtendo-se a planilha Variable View. Para dar o nome aos nveis (1, 2, 3 e 4) da nova varivel Poprec procede-se da seguinte forma: a) b) c) d) e) Clicar em Values. Abre-se uma nova janela - Value Labels; Em Value, digitar 1; Em Value Label, digitar pop. inferior a 5000,00; Clicar em ADD; Procede-se da mesma forma para os demais nveis de categorizao: 2, 3 e 4; f) Clicar em Continue; OK.
2.4 - COMO CRIAR UMA VARIVEL A PARTIR DE UMA DATA

Para criar uma varivel, p.ex. Idade, a partir do ano de nascimento, utilizamos a funo XDATE.YEAR (datevalue) a partir da varivel data de nascimento, que no exemplo BDATE: a) Selecionar Transform, Compute; b) Em Target Variable digite o nome da nova varivel, por exemplo AGE; c) Na janela Numeric Expression digite 2001-; d) Na janela Functions selecionar a opo XDATE.YEAR(datevalue) e clicar na ; e) Localizar na janela abaixo de Target Variable a varivel bdate e clicar na (a varivel selecionada deve ficar entre os parnteses); f) Clicar em OK.
2.5 - COMO CRIAR UMA VARIVEL ATRAVS DA COMBINAO DE OUTRAS DUAS

Nesta seo, ser utilizado o banco GSS93.sav, que tambm se encontra disponvel junto com o programa SPSS.
10
Para criar uma varivel a partir da combinao de outras duas, como por exemplo, combinar a varivel sexo (sex) e a varivel raa (race) utilizaremos o seguinte procedimento para criar a varivel SEXRACE. Sabendo que a varivel SEX categorizada da seguinte forma: 1-Male e 2-Female e a varivel RACE categorizada da seguinte forma: 1- White, 2-Black e 3-Other pode-se criar a varivel SEXRACE com as seguintes categorias: 1- White Male, 2- White Female, 3- Black Male 4- Black Female 5- Other Male 6- Other Female a) b) c) d) e) f) g) h) g) h) i) j) k) Ento se procede da seguinte forma: Selecionar Transform, Compute; Em Target Variable digite o nome da nova varivel, por exemplo SEXRACE; Na janela Numeric Expression digite 1; Clicar em if; Selecione a opo Include if case satisfies condition; Localizar na janela abaixo de Include if case satisfies condition a varivel desejada, Aps ter selecionado a varivel (neste caso, sex), clicar na ; Digitar =1 & na janela ao lado da varivel sex; Selecionar na janela ao lado a varivel race e clicar na ; Na janela ao lado da varivel race digitar =1; Aps esse procedimento a expresso na janela deve ser a seguinte: sex=1 & race=1; Clicar em Continue e OK, (a varivel SEXRACE aparecer no final do banco de dados, Para criar as demais categorias da varivel SEXRACE procede-se de maneira anloga, alterando o cdigo na janela Numeric Expression para 2, 3, 4, 5 e 6 e a expresso da janela Include if case satisfies condition.
11
3. ANLISE UNIVARIADA
3.1 - VARIVEIS QUANTITATIVAS
3.1.1 - COMO OBTER AS ESTATSTICAS DESCRITIVAS Para calcular as estatsticas descritivas procede-se da seguinte forma: a) Clicar em Analyze, Descriptive Statistics, Descriptives; b) Localizar na janela esquerda a varivel de interesse (por exemplo, mortalidade infantil) e clicar na ; c) Clicar em Options, e assinalar as opes desejadas; d) Clicar em Continue; OK; e) Os resultados da anlise estatstica aparecem na janela de resultados (OUTPUT), que poder ser salva, dando origem a um arquivo do tipo .spo (SPSS output).
EXEMPLO:
Descriptives
Descriptive Statistics N Infant mortality (deaths per 1000 live births) Valid N (listwise) 109 109 Minimum 4,0 Maximum 168,0 Mean 42,313 Std. Deviation 38,0792
3.1.2 - COMO OBTER UM HISTOGRAMA a) Clicar em Graphs, Histogram b) Localizar na janela a varivel desejada, c) Aps ter selecionado a varivel (neste caso, babymort), clicar na ; d) Pode-se clicar na opo Titles para dar um ttulo ao histograma. e) Clicar em OK
12
EXEMPLO: Histograma da varivel Infant Mortality

Infant Mortality
30
25
20
Frequency
15
10
5 Mean =42,313 Std. Dev. =38,0792 N =109 0,0 50,0 100,0 150,0 200,0
Infant mortality (deaths per 1000 live births)
3.2 - VARIVEIS CATEGRICAS (QUALITATIVAS)

3.2.1 - COMO OBTER A DISTRIBUIO DE FREQNCIAS Para calcular as freqncias procede-se da seguinte forma: a) b) c) d) Clicar em Analyze, Descriptive Statistics, Frequencies; Selecionar a varivel desejada (neste caso, region), clicar na ; Selecionar Display frequency tables; Clicar em OK.
RESULTADO:
Frequencies
Statistics Region or economic group N Valid 109 Missing 0
13
Region or economic group Frequency 21 14 17 19 17 21 109 Percent 19,3 12,8 15,6 17,4 15,6 19,3 100,0 Valid Percent 19,3 12,8 15,6 17,4 15,6 19,3 100,0 Cumulative Percent 19,3 32,1 47,7 65,1 80,7 100,0
Valid
OECD East Europe Pacific/Asia Africa Middle East Latn America Total
3.2.2 - COMO OBTER GRFICOS Para se obterem os diferentes tipos de grficos disponveis no programa procede-se da seguinte forma: a) Clicar em Graphs, selecionar o grfico desejado, que ao salvlo, d origem a um arquivo do tipo .cht (Chart) (arquivo de grficos).
OBSERVAO:
Com variveis categricas, o adequado fazer grfico de setores (Pie), de Colunas

EXEMPLO: Grfico de Setores (Pie) para a varivel region
a) Clicar em Graphs, selecionar Pie; b) Selecionar a opo Summaries for groups of cases e clicar em Define; c) Na opo Define Slices by selecionar a varivel region.
14
RESULTADO:
Region or economic group
OECD East Europe Pacific/Asia Africa Middle East Latn America
a) b) c) d)
Para colocar o valor percentual de cada categoria no grfico: Clicar duas vezes no grfico; Abre o SPSS Chart Editor; clicar em elements/show data labels; Na janela properties, em data value labels, selecionar percents; Clicar OK.
RESULTADO:
OECD East Europe Pacific/Asia Africa
19,27% 19,27%
Middle East Latn America
12,84% 15,6%
15,6% 17,43%
15
4. ANLISE BIVARIADA
Para realizar uma anlise bivariada, ou seja, anlise da relao entre duas variveis, utilizam-se testes estatsticos e/ou grficos adequados: a) b) Para duas variveis quantitativas Grfico - Scatterplot de X e Y Coeficiente de Correlao de Pearson Anlise de Regresso Simples Para duas variveis categricas (qualitativas) Teste Qui-Quadrado e a Anlise dos Resduos Anlise de Correspondncia Grfico de colunas por estratos da segunda varivel
c) Para uma varivel quantitativa e uma qualitativa Categoriza-se a varivel quantitativa e procede-se como no item anterior. Grfico Box-Plot, para cada estrato ou categoria da varivel qualitativa.
4.1 - VARIVEIS QUANTITATIVAS X QUANTITATIVAS

4.1.1 - COMO CALCULAR A CORRELAO ENTRE DUAS VARIVEIS QUANTITATIVAS Para medir o grau de correlao entre duas variveis quantitativas esto disponveis no programa alguns coeficientes de correlao, entre os quais, o Coeficiente de Correlao de Pearson. 4.1.2 - COMO OBTER GRFICO DE (SCATTERPLOT) PONTOS
O grfico de pontos (Scatterplot) deve ser uma etapa preliminar ao clculo do Coeficiente de Correlao. Neste grfico, cada ponto representa um par observado de valores das duas variveis (X,Y).
16
Atravs deste grfico podemos visualizar empiricamente a relao entre as variveis. Para se obter o grfico Scatterplot (grfico de pontos) procedese da seguinte maneira: a) Clicar em Graphs; Scatter, abre a janela Scatterplot, onde se seleciona o tipo de grfico, neste caso Simple; b) Clicar em Define. So apresentadas as variveis do Banco de Dados, escolhem-se as variveis, no caso, Literacy e Babymort; c) Define-se a varivel Y no caso Babymort, clicar na flecha pertinente e a varivel X, no caso Literacy, clicando-se na flecha correspondente; d) Clicar em OK. O grfico gerado na janela Chart. Esta janela pode ser salva em arquivo com a extenso.cht (arquivo de grfico).
RESULTADO:
Graph
200,0
150,0
100,0
50,0
0,0 0 20 40 60 80 100
People who read (%)
17
4.1.3 - COMO OBTER O COEFICIENTE DE CORRELAO DE PEARSON Para calcular o coeficiente de Correlao de Pearson procede-se da seguinte maneira: a) Clicar em Analyze, Correlate, Bivariate, abre-se a janela Bivariate Correlations; b) Selecionar as variveis (no caso Literacy e Babymort), clicar na ; c) Selecionar a estatstica desejada, no caso, Pearson; d) Clicar em OK;
OBSERVAO:
O coeficiente de Correlao Linear de Pearson (r) uma medida que varia de 1 a +1. O coeficiente fornece informao do tipo de associao das variveis atravs do sinal: Se r for positivo, existe uma relao direta entre as variveis (valores altos de uma varivel correspondem a valores altos de outra varivel); Se r for negativo, existe uma relao inversa entre as variveis (valores altos de uma varivel correspondem a valores baixos de outra varivel); Se r for nulo ou aproximadamente nulo, significa que no existe correlao linear.
RESULTADO:
Nos resultados aparece uma tabela com 3 linhas em cada clula: o coeficiente de correlao, o resultado do teste de significncia desse coeficiente e o nmero de observaes utilizadas no clculo do coeficiente.
18
Correlations
Correlations Infant mortality People who (deaths per read (%) 1000 live births) 1 -,900** , ,000 107 107 -,900** 1 ,000 , 107 109
People who read (%)
Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N
**. Correlation is significant at the 0.01 level (2-tailed).
As hipteses do teste do Coeficiente de Correlao de Pearson so: Hiptese Nula (H0): = 0 (no existe correlao entre as variveis) Hiptese Alternativa (H1): 0 (existe correlao significativa)
CONCLUSO:
Ao analisarmos os dados obtidos, rejeita-se H0 (hiptese nula) de que no h correlao entre Literacy e Babymort, uma vez que o valor de p (Sig. 2-tailed) menor que 0,001 (muito pequena, neste caso) e conclui-se em favor da hiptese alternativa de que h correlao entre as variveis em estudo. Este resultado confirma a configurao do grfico Scatterplot, mostrando que medida que a taxa de pessoas alfabetizadas aumenta, a mortalidade infantil tende a diminuir.
4.1.4 - COMO FAZER REGRESSO LINEAR SIMPLES O modelo de regresso linear utiliza-se quando queremos ajustar uma equao linear entre duas variveis quantitativas com a finalidade, por exemplo, de estimar o valor de uma varivel em funo de outra (Y em funo de X). Para aplicar o modelo de regresso
19
devemos definir a priori a varivel explicativa ou independente (X) e a varivel explicada ou dependente (Y). A relao entre as variveis deve ser explicada teoricamente dentro da rea de estudo. Para obter a reta de regresso entre duas variveis, por exemplo, Literacy e Babymort, procede-se da seguinte forma: a) Clicar Analyze, Regression, Linear; b) Definir a varivel independente Literacy, e a varivel dependente Babymort; c) Selecionar Method Enter; d) Na opo Statistics, selecionar Casewise Diagnostics para mostrar a tabela com os valores residuais atpicos; e) Na opo Save, selecionar Predicted Values / Unstandardized, para salvar no banco de dados os valores estimados pela reta ajustada; f) Clicar OK.
RESULTADO:
Regression
b Variables Entered/Removed
Model 1
Variables Entered People who read a (%)
Variables Removed ,
Method Enter
a. All requested variables entered. b. Dependent Variable: Infant mortality (deaths per 1000 live births)
b Model Summary
Model 1
R R Square ,900a ,811
Adjusted R Square ,809
Std. Error of the Estimate 16,7334
a. Predictors: (Constant), People who read (%) b. Dependent Variable: Infant mortality (deaths per 1000 live births)
0,811, este valor indica que 81,1% da variao da varivel mortalidade

20
INTERPRETAO: O coeficiente de determinao (R square ) igual a
infantil (Babymort) explicada pela varivel taxa de pessoas alfabetizadas (Literacy) atravs do modelo de regresso linear simples.
ANOVAb Model 1 Sum of Squares 126066,8 29400,822 155467,7 df 1 105 106 Mean Square 126066,834 280,008 F 450,226 Sig. ,000a
Regression Residual Total
a. Predictors: (Constant), People who read (%) b. Dependent Variable: Infant mortality (deaths per 1000 live births)
INTERPRETAO: A tabela acima (ANOVA) analisa o modelo de
regresso. A coluna F dessa tabela corresponde ao teste conjunto dos coeficientes de regresso. Neste exemplo, fizemos regresso simples, logo as resultados da tabela ANOVA e da tabela COEFFICIENTS so os mesmos.
Coefficientsa Unstandardized Coefficients B Std. Error 160,732 5,794 -1,507 ,071 Standardized Coefficients Beta -,900
Model 1
(Constant) People who read (%)
t 27,740 -21,219
Sig. ,000 ,000
a. Dependent Variable: Infant mortality (deaths per 1000 live births)
onde o coeficiente linear da reta a = 160,732 e o coeficiente angular b = -1,507. Como o sig de b menor que 0,001, rejeitamos a hiptese nula de que = 0. A partir desta equao podemos estimar (predizer) os valores da varivel dependente (babymort).
INTERPRETAO: A equao de regresso Y = a + bX,
As hipteses do Coeficiente Angular so: Hiptese Nula (H0): = 0 Hiptese Alternativa (H1): 0
21
a Casewise Diagnostics
Case Number 1
Std. Residual 3,046
Infant mortality (deaths per 1000 live births) 168,0
Predicted Value 117,027
Residual 50,973
INTERPRETAO: A tabela Casewise Diagnostics apresenta os
casos em que os valores residuais so atpicos, isto , valores dos resduos padronizados maiores do que 3 em valor absoluto, mostrando que a diferena entre o valor observado e o valor predito relativamente grande e isto pode ser um sintoma de que o modelo no est bem ajustado.
a Residuals Statistics
Predicted Value Residual Std. Predicted Value Std. Residual
Minimum 10,026 -38,888 -,947 -2,324
Maximum 133,605 50,973 2,637 3,046
Mean 42,674 ,000 ,000 ,000
Std. Deviation 34,4864 16,6543 1,000 ,995
N 107 107 107 107
INTERPRETAO: Esta tabela mostra um resumo das estatsticas descritivas dos principais resultados da Anlise de Regresso. valores de Y estimados por essa equao aparecem na ltima coluna do banco de dados, pois selecionamos a opo Save / Predicted Values / Unstandardized. Essa coluna tem o nome de pre-1 (Unstandardized Predicted Value). Os resduos que forem calculados para outras variveis tero os nomes pre-2, pre-3, etc, esses nomes podem ser alterados pelo usurio.
OBSERVAO: Os
4.2 - VARIVEIS CATEGRICAS X CATEGRICAS
22
4.2.1 - COMO VERIFICAR A EXISTNCIA DE ASSOCIAO ENTRE VARIVEIS CATEGRICAS: Teste Qui Quadrado O banco GSS93.sav, ser utilizado para obter a tabela de contingncia e estudar a associao entre Sexrace e Income4 (salrio em categorias). Procede-se da seguinte forma: a) b) c) d) e) f) g) h) i) Clicar em Analyze, Descriptive Statistics, Crosstabs; Definir a varivel da linha Row - Sexrace; Definir a varivel da coluna Column Income4; Clicar em Statistics; Escolher o tratamento estatstico desejado, no caso, Chi-Square; Clicar em Continue; Clicar em Cell, veremos a janela Crosstabs : Cell Display; Assinalar as opes Observed; etc, de acordo com o desejado; Clicar em Continue; OK.
O valor esperado de cada casela na tabela pode ser obtido na janela Crosstabs : Cell Display assinalando-se tambm a opo Expected.
RESULTADOS:
Case Processing Summary Cases Missing N Percent 0 ,0%
Valid N SEXRACE * Total Family Income 1500 Percent 100,0%
Total N 1500 Percent 100,0%
23
SEXRACE * Total Family Income Crosstabulation Total Family Income 25,000 to 40,000 to 39,999 59,999 130 104 110,4 84,6 125 99 141,0 108,1 10 12 13,2 10,1 22 5 20,4 15,6 3 2 4,6 3,5 10 8 10,4 8,0 300 230 300,0 230,0
SEXRACE
1,00 2,00 3,00 4,00 5,00 6,00
Total
Count Expected Count Count Expected Count Count Expected Count Count Expected Count Count Expected Count Count Expected Count Count Expected Count
24,999 or less 181 215,3 285 275,0 30 25,7 58 39,8 13 9,0 18 20,3 585 585,0
60,000 or more 137 141,7 196 181,0 14 16,9 17 26,2 5 5,9 16 13,3 385 385,0
Total 552 552,0 705 705,0 66 66,0 102 102,0 23 23,0 52 52,0 1500 1500,0
A leitura das caselas na 1 linha (count) informa a freqncia bruta e a 2 linha (expected count) corresponde ao valor esperado, isto , o nmero de pessoas que seria esperado caso no houvesse nenhuma associao entre as variveis em estudo, ou seja, se as variveis fossem independentes.
o Teste Qui-Quadrado, para cada casela ij obtido com a frmula a seguir: (TLi X TCj) TG TL - total da linha i TC - total da coluna j TG - total geral
OBSERVAO: Valor Esperado sob hiptese de independncia para
Quando se deseja obter o percentual correspondente linha (Row) procede-se como anteriormente s que, em Cell, abre-se a janela Crosstabs: Cell Display e assinala-se a opo Row em Percentages, obtendo-se a seguinte tabela:
24
RESULTADOS:
SEXRACE * Total Family Income Crosstabulation Total Family Income 25,000 to 40,000 to 39,999 59,999 130 104 110,4 84,6 23,6% 18,8% 125 99 141,0 108,1 17,7% 14,0% 10 12 13,2 10,1 15,2% 18,2% 22 5 20,4 15,6 21,6% 4,9% 3 2 4,6 3,5 13,0% 8,7% 10 8 10,4 8,0 19,2% 15,4% 300 230 300,0 230,0 20,0% 15,3%
SEXRACE
1,00
2,00
3,00
4,00
5,00
6,00
Total
Count Expected Count % within SEXRACE Count Expected Count % within SEXRACE Count Expected Count % within SEXRACE Count Expected Count % within SEXRACE Count Expected Count % within SEXRACE Count Expected Count % within SEXRACE Count Expected Count % within SEXRACE
24,999 or less 181 215,3 32,8% 285 275,0 40,4% 30 25,7 45,5% 58 39,8 56,9% 13 9,0 56,5% 18 20,3 34,6% 585 585,0 39,0%
60,000 or more 137 141,7 24,8% 196 181,0 27,8% 14 16,9 21,2% 17 26,2 16,7% 5 5,9 21,7% 16 13,3 30,8% 385 385,0 25,7%
Total 552 552,0 100,0% 705 705,0 100,0% 66 66,0 100,0% 102 102,0 100,0% 23 23,0 100,0% 52 52,0 100,0% 1500 1500,0 100,0%
Os percentuais relativos coluna (Column) e ao total (Total) podem ser obtidos da mesma forma que para o clculo da percentagem da linha. Cada casela poderia ter at 5 valores, descritos a seguir: 1 linha: valor observado; 2 linha: valor esperado; 3 linha: percentual da linha; 4 linha: percentual da coluna; 5 linha: percentual total.
OBSERVAO:
Sugere-se que, num relatrio final de pesquisa, seja selecionado apenas o valor observado e um destes percentuais.
25
RESULTADO:
Chi-Square Tests Asymp. Sig. (2-sided) ,000 ,000 ,013
Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases
Value 42,956a 44,902 6,226 1500
df 15 15 1
a. 2 cells (8,3%) have expected count less than 5. The minimum expected count is 3,53.
INTERPRETAO: Considerando que p < 0,000 (significance), rejeita-
se a hiptese nula (H0) de independncia entre as variveis. Sendo assim, conclui-se que h evidncias de associao entre Sexrace e Income4. As hiptese do teste Qui-Quadrado (Chi-Square) so: Hiptese Nula (H0): As variveis so independentes. Hiptese Alternativa (H1): As variveis so dependentes. 4.2.2 - COMO CALCULAR OS RESDUOS AJUSTADOS Verificada a associao global entre as variveis pode-se verificar se h associao local entre categorias, calculando-se os resduos ajustados. O resduo ajustado tem distribuio normal com mdia zero e desvio padro igual a 1. Desta forma, caso o resduo ajustado seja maior que 1,96, em valor absoluto, pode-se dizer que h evidncias de associao significante entre as duas categorias (p. ex. homem branco e salrio alto) naquela casela. Quanto maior for o resduo ajustado, maior a associao entre as categorias. Para obter os resduos ajustados procede-se da seguinte maneira: a) b) c) d) Selecionar Analyze, Descriptive Statistics, Crosstabs; Clicar em Cells, abre-se a janela Crosstabs: Cell Display; Assinalar a opo Observed e Adj. standardized; Clicar em Continue; OK.
26
RESULTADOS:
SEXRACE * Total Family Income Crosstabulation Total Family Income 25,000 to 40,000 to 39,999 59,999 130 104 2,6 2,9 125 99 -2,1 -1,3 10 12 -1,0 ,7 22 5 ,4 -3,0 3 2 -,8 -,9 10 8 -,1 ,0 300 230
SEXRACE
1,00 2,00 3,00 4,00 5,00 6,00
Total
Count Adjusted Residual Count Adjusted Residual Count Adjusted Residual Count Adjusted Residual Count Adjusted Residual Count Adjusted Residual Count
24,999 or less 181 -3,8 285 1,1 30 1,1 58 3,8 13 1,7 18 -,7 585
60,000 or more 137 -,6 196 1,8 14 -,8 17 -2,2 5 -,4 16 ,9 385
Total 552 705 66 102 23 52 1500
CONCLUSO: A associao entre sex (sexo) e income4 (salrio em
categorias) j foi considerada significativa. Agora a pergunta : Quais categorias esto associadas localmente? Olhando os resduos ajustados vemos que os maiores valores (positivos) indicam forte associao entre homem-branco e salrio alto, bem como h forte associao entre mulher-negra e salrio baixo. H outras associaes locais interessantes na tabela, identifique.
4.3 - VARIVEIS QUANTITATIVAS X CATEGRICAS

Neste caso os tratamentos estatsticos possveis so os mesmos utilizados para duas variveis qualitativas, desde que as variveis quantitativas sejam categorizadas, logo, procede-se da seguinte forma: Categoriza-se a varivel quantitativa em classes apropriadas; Mede-se a associao aplicando-se o teste Qui-Quadrado e a Anlise dos Resduos; Tambm podemos utilizar grficos de colunas por estratos da segunda varivel e o grfico BOX-PLOT por categorias da segunda varivel para apresentao dos dados de forma descritiva, exploratria.
27
4.3.1 - COMO FAZER O BOX-PLOT a) b) c) d) Clicar em Graphs / Boxplot; Selecione Simple / Summaries for groups of cases; Clicar em Define; Em Variable selecionar uma varivel quantitativa (por exemplo, Babymort); e) Em Category Axis, selecionar uma varivel categrica (por exemplo, Region); f) Clicar em OK.
RESULTADO:
Explore
Case Processing Summary Cases Missing N Percent 0 ,0% 0 ,0% 0 ,0% 0 ,0% 0 ,0% 0 ,0%
Region or economic group OECD East Europe Pacific/Asia Africa Middle East Latn America
Valid N 21 14 17 19 17 21 Percent 100,0% 100,0% 100,0% 100,0% 100,0% 100,0%
Total N 21 14 17 19 17 21 Percent 100,0% 100,0% 100,0% 100,0% 100,0% 100,0%
A tabela acima apresenta o nmero de casos vlidos (valid), o nmero de no respostas (missing) e o nmero total das observaes de cada categoria.
INTERPRETAO:
28
INTERPRETAO:
Atravs do Box-plot pode-se observar como as variveis esto distribudas em relao homogeneidade dos dados, valores de tendncia central, valores mximos e mnimos e valores atpicos se existirem. Quando a caixinha (box) muito pequena, significa que os dados so muito concentrados em torno da mediana, e se a caixinha for grande, significa que os dados so mais hetereogneos.
29
LEGENDA:
Md: Mediana (linha horizontal escura dentro do box) Q1: Quartil inferior - 1 quartil (limite inferior do box) Q3: Quartil superior - 3 quartil (limite superior do box) d: diferena interquartlica (d = Q3 Q1) o : outlier (valores acima de 1,5 x d) x : outlier (valores acima de 3,0 x d)
30
5. COMPARAO DE MDIAS
5.1 - COMO COMPARAR MDIAS ENTRE DOIS GRUPOS: Teste t para Amostras Independentes.
O teste t apropriado para comparar as mdias de uma varivel quantitativa entre dois grupos independentes.
EXEMPLO: Comparar a mdia de salrios entre os sexos masculino e
feminino na empresa. a) Sexo (masculino, feminino) - Dois grupos (varivel que define os grupos). b) Idade no 1. Casamento (Agewed) - Varivel resposta ou de teste.
Para a aplicao do teste t nesta situao procede-se da seguinte forma: a) Clicar em Analyze, Compare Means, Independent Samples t test; b) Clicar sobre a varivel de teste (Test Variables): Agewed ou, conforme o caso em estudo, clicar na varivel correspondente; c) Clicar sobre a varivel de grupo (Grouping Variable) Gender; d) Clicar em: Define Group; e) Abre-se uma janela, na qual se define a categoria correspondente ao Group 1 (no caso masculino) digitando-se o cdigo da categoria atribuda quando da construo do Banco de Dados, nesse caso 1 e Group 2 (no caso feminino) digitando-se o cdigo 2. (Observao: No caso de se desejar confirmar os valores atribudos s variveis, abrir a janela Utilities, Variables) f) Clicar em Continue e OK.
31
RESULTADO:
T-Test
Group Statistics Respondent's Sex Male Female N 492 710 Mean 24,16 21,84 Std. Deviation 4,87 4,93 Std. Error Mean ,22 ,18
Age When First Married
Independent Samples Test Levene's Test for Equality of Variances t-test for Equality of Means 95% Confidence Interval of the Difference Lower Upper 1,76 1,76 2,88 2,88
F Age When First Married Equal variances assumed Equal variances not assumed ,342
Sig. ,559
t 8,066 8,085
df 1200 1064,66
Sig. (2-tailed) ,000 ,000
Mean Difference 2,32 2,32
Std. Error Difference ,29 ,29
INTERPRETAO: Ao serem analisados os dados do exemplo acima
vemos o seguinte: a) Observa-se o resultado do teste para varincias iguais (Teste de Levene). Neste exemplo, o valor de p para o teste Levene 0,559, no se rejeita a hiptese de varincias iguais. b) O teste t a ser utilizado o que aparece na primeira linha (Equal variances assumed), considerando que p < 0,000 (Sig 2-tailed), rejeita-se a hiptese nula (H0) de igualdade das mdias dos dois grupos, logo, pode-se concluir que as mdias da varivel agewed so significativamente diferentes entre os dois grupos de sexo.
so: Hiptese Nula (H0): As varincias dos dois grupos so iguais. Hiptese Alternativa (H1): As varincias dos dois grupos so diferentes.
As hipteses do teste Levene de igualdade de varincias
32
As hipteses do teste t para igualdade de mdias entre Amostras Independentes so: Hiptese Nula (H0): As mdias dos dois grupos so iguais. Hiptese Alternativa (H1): As mdias dos dois grupos so diferentes
5.2 - COMO COMPARAR AS MDIAS DE TRES OU MAIS GRUPOS: Anlise de Varincia ANOVA para um fator
Para comparar a mdia de trs ou mais grupos procede-se da seguinte maneira: a) Clicar em Analyze, Compare Means, One-Way Anova; b) Assinalar a varivel dependente em Dependent List, clicar sobre a seta correspondente (pode-se realizar mais de um teste incluindo outras variveis na lista, o teste ser repetido para cada varivel includa na lista), neste caso utilize Infant mortality; c) Assinalar a varivel independente Factor, no caso "Region", clicar na flecha correspondente; d) Clicar o boto Options. e) Clicar na alternativa do quadro Statistics Descriptive e depois Continue; f) Clicar no boto Post Hoc. Aparece uma tela One-Way Anova: Post Hoc Multiple Comparisons, assinalar a alternativa Tukey ou outro teste conforme a escolha; g) Clicar em Continue, "OK".
33
RESULTADOS:
Oneway
Descriptives Infant mortality (deaths per 1000 live births) 95% Confidence Interval for Mean Lower Upper Bound Bound 6,38 7,44 13,73 20,06 30,00 77,76 80,37 107,99 31,53 51,25 27,95 50,28 35,08 49,54
OECD East Europe Pacific/Asia Africa Middle East Latn America Total
N 21 14 17 19 17 21 109
Mean 6,91 16,89 53,88 94,18 41,39 39,11 42,31
Std. Deviation 1,17 5,48 46,44 28,65 19,18 24,52 38,08
Std. Error ,26 1,47 11,26 6,57 4,65 5,35 3,65
Minimum 4,0 8,7 4,4 39,3 8,6 10,2 4,0
Maximum 9,2 27,0 168,0 137,0 76,4 109,0 168,0
ANOVA Infant mortality (deaths per 1000 live births) Sum of Squares 88983,515 67619,443 156602,958 df 5 103 108 Mean Square 17796,703 656,499 F 27,108 Sig. ,000
Between Groups Within Groups Total
p<0,001, ento, rejeita-se a hiptese nula (H0) de igualdade das mdias dos seis grupos, logo, pelo menos duas mdias de mortalidade infantil diferem entre si. Um teste de comparaes mltiplas (post-hoc) permite identificar qual(is) grupo(s) diferem. As hipteses da Anlise de Varincia para um fator (ANOVA One-Way) so: Hiptese Nula (H0): As mdias de todos os grupos so iguais. Hiptese Alternativa (H1): Pelo menos duas mdias diferem entre si.
INTERPRETAO: No exemplo acima o valor p (Sig) da ANOVA
34
Post Hoc Tests

Multiple Comparisons Dependent Variable: Infant mortality (deaths per 1000 live births) Dunnett T3
(I) Region or economic group OECD
East Europe
Pacific/Asia
Africa
Middle East
Latn America
(J) Region or economic group East Europe Pacific/Asia Africa Middle East Latn America OECD Pacific/Asia Africa Middle East Latn America OECD East Europe Africa Middle East Latn America OECD East Europe Pacific/Asia Middle East Latn America OECD East Europe Pacific/Asia Africa Latn America OECD East Europe Pacific/Asia Africa Middle East
Mean Difference (I-J) -9,983* -46,972* -87,269* -34,484* -32,204* 9,983* -36,989 -77,286* -24,501* -22,221* 46,972* 36,989 -40,297 12,488 14,768 87,269* 77,286* 40,297 52,785* 55,065* 34,484* 24,501* -12,488 -52,785* 2,280 32,204* 22,221* -14,768 -55,065* -2,280
Std. Error 8,841 8,359 8,113 8,359 7,907 8,841 9,247 9,025 9,247 8,841 8,359 9,247 8,554 8,788 8,359 8,113 9,025 8,554 8,554 8,113 8,359 9,247 8,788 8,554 8,359 7,907 8,841 8,359 8,113 8,359
Sig. ,000 ,010 ,000 ,000 ,000 ,000 ,060 ,000 ,001 ,008 ,010 ,060 ,064 ,991 ,972 ,000 ,000 ,064 ,000 ,000 ,000 ,001 ,991 ,000 1,000 ,000 ,008 ,972 ,000 1,000
95% Confidence Interval Lower Upper Bound Bound -15,109 -4,857 -85,018 -8,927 -109,134 -65,404 -50,215 -18,753 -49,788 -14,620 4,857 15,109 -75,025 1,046 -99,390 -55,182 -40,604 -8,399 -40,163 -4,280 8,927 85,018 -1,046 75,025 -81,986 1,393 -27,291 52,267 -25,556 55,092 65,404 109,134 55,182 99,390 -1,393 81,986 27,463 78,107 28,621 81,508 18,753 50,215 8,399 40,604 -52,267 27,291 -78,107 -27,463 -19,841 24,400 14,620 49,788 4,280 40,163 -55,092 25,556 -81,508 -28,621 -24,400 19,841
*. The mean difference is significant at the .05 level.
As varincias da varivel mortalidade infantil dos diferentes grupos so muito heterogneas, por esta razo utilizamos um teste de comparaes mltiplas que leva em conta esta desigualdade de varincias, por exemplo, o teste T3 de Dunnet.
35
7. MANIPULAO DE DADOS
7.1 SORT CASES
Uma das necessidades na hora da manipulao dos dados no dia-a-dia a ordenao dos casos segundo uma ou mais variveis. Para fazer isso no SPSS for Windows, usar o procedimento Sort Cases presente no menu Data. Aps clicar em Data opo Sort Cases, uma janela aberta. Movemos para o quadro Sort by a varivel segundo a qual o arquivo deve ser ordenado. Podemos mover para esse quadro mais do que uma varivel. Nesse caso, o arquivo ordenado, em primeiro lugar, pelos valores da primeira varivel no quadro e, em segundo lugar, pela segunda varivel no quadro; a segunda ordenao feita para os valores comuns da primeira varivel. Podemos escolher tambm entre ordem crescente ou decrescente de ordenao para cada uma das variveis. Isso feito atravs do quadro Sort Order opes Descending (decrescente) ou Ascending (crescente). Vamos fazer uma ordenao segundo idade (ordem decrescente) dentro dos cdigos de sexo (ordem crescente). Para isso movemos a varivel sexo para ao quadro Sort Cases e escolhemos a opo Ascending no quadro Sort Order. Movemos em seguida a varivel idade para o quadro Sort Cases e escolhemos a opo Descending no quadro Sort Order. Agora, basta clicar OK para executar a ordenao. Note que aps a execuo deste comando a posio dos indivduos nas linhas fica completamente alterada, pois o indivduo na linha 1 do banco de dados aps ordenado pode no ser o primeiro caso digitado. Para que esta informao no se perca essencial que exista uma varivel com o nmero do indivduo.
36
7.2 SELECT CASES

Uma outra necessidade a seleo (temporria ou permanente) de parte do arquivo de dados. Digamos que estamos interessados em estudar um segmento especfico da amostra. O SPSS possui vrias formas de seleo de dados. Falaremos nessa seo de todas elas, mas discutiremos detalhadamente a mais usada de todas. Para maiores detalhes sobre as demais formas de seleo, recomenda-se que o leitor use o manual do SPSS for Windows. Para fazer qualquer tipo de seleo, devemos clicar o menu Data opo Select Cases. No quadro central Select, esto presentes cinco opes diferentes para seleo: All cases opo usada por default, utiliza todas as observaes do banco de dados; If condition is satisfied atravs dessa opo, podemos definir expresses condicionais para seleo de casos; Random sample of cases podemos selecionar uma porcentagem ou nmero exato de casos; a seleo feita aleatoriamente; Based on time or case range usamos essa opo quando estamos interessados em selecionar uma faixa especfica de valores, por exemplo, os casos do nmero 100 ao 200; tambm utilizada para fazer selees baseadas em datas; User filter variable uma varivel escolhida no banco de dados e usada como filtro; todos os casos para os quais a varivel filtro assume o valor 0 no sero selecionados.
37
Voc tem duas opes para o tratamento dos casos que no sero selecionados. atravs do quadro Unselected Cases Are que podemos fazer a escolha: Filtered os casos (linhas) que no so selecionados no so includos nas anlises posteriores, porm, permanecem na janela de dados; caso voc mude de idia e queira usar os casos no selecionados na mesma sesso do SPSS, basta desligar o filtro; Deleted os casos (linhas) no selecionados so apagados da janela de dados; caso voc mude de idia e queira usar os casos no selecionados, voc dever ler novamente o arquivo de dados original. Neste caso deve-se tomar o cuidado de salvar o banco de dados com outro nome (File...Save As). Suponha que estamos interessados em selecionar as pessoas que trabalham pelo menos 40 horas por semana e que tm at 20 horas de lazer. A funo condicional para seleo nesse caso dada por: trabalho 40 & lazer 20 Portanto, o tipo de seleo de dados que faremos deve possibilitar a criao de sentenas matemticas lgicas para seleo dos casos. Para isso, clicamos em If condition is satisfied e entramos no retngulo If.. Atravs da janela que aberta, usamos o retngulo superior para escrever uma funo lgica na qual a seleo vai ser baseada. Para a construo da funo, podemos usar todas as variveis que esto no quadro esquerda e as funes disponveis no quadro inferior direito. Uma vez escrita a funo que determina a regra de seleo dos casos, clique Continue e voc voltar janela anterior. No quadro inferior (Unselected cases are), vamos optar pelo modo Filtered (ou seja, os casos no selecionados permanecem na tela de dados, porm, no sero utilizados em anlises futuras) e clicar OK.
38
Voc pode perceber que, depois de feita a seleo, a janela de dados sofre algumas alteraes. As linhas (casos) que no foram selecionadas apresentam uma listra no canto esquerdo da janela de dados. A barra localizada na parte inferior da janela apresenta a mensagem Filter On. Alm disso, uma coluna de nome filter$ adicionada janela de dados. Essa nova coluna apresenta valor 0 para as linhas que no foram selecionadas e valor 1 para as linhas que foram selecionadas. Apesar de voc conseguir ver os casos que no foram selecionados, qualquer anlise efetuada da para frente no leva em conta esses casos. Podemos mudar de idia e querer usar todas as observaes para o clculo das estatsticas. Temos duas maneiras de cancelar a seleo de casos, se a opo Filtered foi usada para efetuar a seleo. A primeira delas ativar a opo All Cases da janela de seleo de casos (menu Select Cases) e clicar OK. A Segunda maneira deletar a coluna filter$ da janela de dados.
7.3 SPLIT FILE

Vamos supor que, aps uma srie de anlises, chegamos concluso de que o comportamento dos homens e das mulheres completamente diferente com relao s preferncias para horas de lazer. No faz sentido, portanto, apresentar a anlise do questionrio de opinio sobre lazer com os homens e mulheres juntos. No fundo, o que pretendemos fazer, daqui para frente, so duas anlises idnticas, uma para cada sexo. Para esse tipo de situao, podemos utilizar o procedimento Split File, presente no menu Data. Por default sempre analisamos todos os casos juntos, sem separao por grupos. Por esse motivo, a
39
opo selecionada na janela Analyze all cases. Para repetir a anlise para as categorias de uma determinada varivel, clicamos em Compare groups ou Organize output by groups, e ento o quadro Groups Based on fica disponvel. Moveremos para esse quadro a varivel (ou variveis) que definiro os grupos para os quais a anlise deve ser repetida. Se mais do que uma varivel for selecionada, os grupos sero definidos pela combinao das categorias de todas as variveis. Podemos ainda escolher se o banco de dados deve ser ordenado pela varivel que definir os grupos (Sort the file by group variables) ou se o banco de dados j est ordenado pela varivel que definir os grupos (File is already sorted). No nosso caso, selecionamos a varivel sexo e a movemos para o quadro Groups Based on e clicamos OK. A nica mudana que acontece na janela de dados a mensagem Split File On na barra inferior, ou a ordenao dos casos pela varivel que definiu os grupos, caso o banco de dados ainda no estivesse ordenado. Porm, qualquer anlise ou grfico feitos de agora em diante vo gerar dois resultados, uma para os homens e outro para as mulheres. Note que os resultados so apresentados em dois blocos, o primeiro para o sexo masculino e o segundo para o sexo feminino se a opo escolhida foi ou Organize output by groups. Podemos mudar de idia e querer usar todas as observaes para o clculo das estatsticas. Para cancelar o procedimento Split File basta ativar a opo Analyze all cases presente na janela de definio da opo Split File menu Data.
40
7.4 MANIPULAO DE ARQUIVOS

Para retornar aos arquivos: *.sav (arquivo de dados) *.cht (arquivo com cada grfico realizado) *.spo (arquivo de resultados) procede-se da seguinte maneira: a) Clica-se na opo de menu Window; b) Seleciona-se a janela de sada desejada que consta na lista de arquivos abertos ou disponveis, clicando uma vez sobre sua indicao.
7.5 COMO APAGAR ANLISES NO DESEJADAS NO ARQUIVO DE RESULTADOS *.spo

Quando inadvertidamente realiza-se um procedimento no desejado, para corrigir o equvoco, procede-se da seguinte forma: a) Clica-se em Edit, Select, Output Block a partir deste momento ser selecionada a ltima sada executada , o que vai dar origem a uma tarja preta; b) Aperta-se o boto Delete, tornando sem efeito o ltimo procedimento efetuado. Tambm podem-se apagar outros blocos de resultados, bastando para tal colocar o cursor sobre o bloco que se deseja apagar e repetir a operao explicada acima.
7.6 COMO REALIZAR ALTERAES DE DADOS PARA CONSTRUO DE GRFICO

Caso haja uma varivel selecionada que no a desejada ou deseja-se substitu-la, para um novo estudo, procede-se da seguinte maneira: a) Clica-se sobre a varivel a ser substituda;
41
b) Clica-se sobre a seta correspondente que dever estar com o sentido voltado para a esquerda; com este procedimento deixase o campo livre para a prxima varivel; c) Completa-se este campo de acordo com o item "d" do procedimento "COMO OBTER GRFICO DE CORRELAO.
Se o campo destinado varivel estiver ocupado, no h disponibilidade para substituio automtica (a flecha indicativa estar em cinza claro, da mesma forma que ficam quaisquer botes quando no esto em disponibilidade). Caso se deseje enriquecer o grfico quanto a sua forma de apresentao (mudar o tamanho dos "labels", colocar em negrito, colocar grades, trocar de cor, etc.) clica-se no Edit da barra de ferramentas. O resultado o aparecimento de uma nova barra de fontes e de um novo menu de funes, sobre as quais basta um clicar para obter-se o resultado desejado.
OBSERVAO:
42
8. ESTATSTICA NO PARAMTRICA
8.1 TESTE DE KOLMOGOROV-SMIRNOV
Para verificar se uma varivel segue determinada distribuio procede-se da seguinte maneira: a) Clicar em Analyze, Non-Parametric Tests, 1-Sample KS; b) Assinalar a varivel dependente em Dependent List, clicar sobre a seta correspondente (pode-se realizar mais de um teste incluindo outras variveis na lista, o teste ser repetido para cada varivel includa na lista), neste caso utilize Infant mortality; c) Assinalar a distribuio em relao a qual a varivel ser testada em Test Distribution. Neste caso, distribuio Normal; d) Clicar o boto Options. e) Clicar na alternativa do quadro Statistics Descriptive; f) Clicar em Continue, "OK".
RESULTADO:
NPar Tests
Descriptive Statistics N Infant mortality (deaths per 1000 live births) 109 Mean 42,313 Std. Deviation 38,079 Minimum 4,0 Maximum 168,0
43
One-Sample Kolmogorov-Smirnov Test Infant mortality (deaths per 1000 live births) 109 42,313 38,079 ,169 ,169 -,157 1,769 ,004
N Normal Parameters a,b Most Extreme Differences Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed)
Mean Std. Deviation Absolute Positive Negative
a. Test distribution is Normal. b. Calculated from data.
INTERPRETAO: Ao analisarmos os dados obtidos, rejeita-se H0 (hiptese nula) de que a varivel Infant mortality segue distribuio Normal, uma vez que o valor de p (Asymp. Sig. 2tailed) menor que 0,004 (muito pequena, neste caso) e conclui-se em favor da hiptese alternativa de que a distribuio da mortalidade infantil no deve ser Normal. As hiptese do Teste de Kolmogorov-Smirnov so: Hiptese Nula (H0): A varivel segue distribuio Normal. Hiptese Alternativa (H1): A varivel no segue distribuio Normal.
44
9. AMOSTRAGEM
Para acessar o mdulo que permite selecionar diferentes tipos de amostras no SPSS 13.0, procede-se da seguinte maneira: a) Analyze; complex samples; select a sample Abre uma janela sampling wizard Escolhe-se o que se quer fazer: Desing a sample Edit a sample desing Draw a sample Utilizando desing sample: a) Em file, escolher o local onde deseja salvar os resultados. gravado um arquivo do tipo .csplan. b) Clicar em avanar. Aparece a janela desing variables, pode-se escolher estratificar ou criar clusters para a amostra. Por exemplo, para criar extratos por regio, selecionar a varivel region na janela da esquerda, clicar em passando a varivel para o quadro stratify by, clicar em avanar. c) Uma nova janela aparece. Deve-se escolher o mtodo de seleo da amostra dentro dos estratos definidos anteriormente (region). Em type, pode-se escolher entre simple random sampling (amostra aleatria simples) simple sistematic(amostra sistemtica simples) simple sequential (amostra seqencial simples) PPS PPS systematic e PPS sequential Para a amostra aleatria simples existem as opes de amostragem com ou sem reposio. Aps escolher o mtodo, clicar em Continue. d) Aparece uma janela, na qual deve-se especificar o tamanho da amostra. Colocar o valor escolhido em value, clicar em Continue. e) Uma nova janela output variables aparece. Aqui possvel salvar variveis como tamanho da populao (population size), tamanho da amostra (sample size), proporo da amostra (sample proportion) e peso da amostra (sample weight). Clicar em avanar. f) Na prxima janela (plan summary) aparece um resumo do que foi pedido at ento. Pode-se escolher criar mais um estgio de
45
amostragem ou terminar por aqui. Se a escolha for o ltimo caso, concluir. RESULTADOS: No banco de dados: as variveis selecionadas na janela output variables aparecem nas ltimas colunas do banco: InclusionProbability_1_ Inclusion (Selection) Probability for Stage 1 SampleWeightCumulative_1_: Cumulative Sampling Weight for Stage 1 PopulationSize_1_: Population Size for Stage 1 SampleSize_1_ : Sample Size for Stage 1 SampleWeight_Final_ : Final Sampling Weight No output: Complex Samples: Selection
Summary for Stage 1 Region or economic group OECD East Europe Pacific/Asia Africa Middle East Latn America Number of Units Sampled Requested Actual 10 10 10 10 10 10 10 10 10 10 10 10 Proportion of Units Sampled Requested Actual 47,6% 47,6% 71,4% 71,4% 58,8% 58,8% 52,6% 52,6% 58,8% 58,8% 47,6% 47,6%
Plan File: C:\ESTAP\SPSS13\teste3.csplan
46

Introdução À Análise Estatística Utilizando o SPSS 13 - 0

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Introdução À Análise Estatística Utilizando o SPSS 13 - 0

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL INSTITUTO DE MATEMTICA Cadernos de Matemtica e Estatstica Srie B: Trabalho de Apoio Didtico

INTRODUO ANLISE ESTATSTICA UTILIZANDO O SPSS 13.0

Srie B, Nmero XX Porto Alegre - maio de 2006

1.1 - BANCO DE DADOS: Definio

1.2 - COMO CRIAR UM BANCO DE DADOS

1.3 - COMO DAR NOME AOS NVEIS DE UMA VARIVEL

1.4 - COMO ACESSAR UM BANCO DE DADOS J EXISTENTE

2. INTRODUO AOS MTODOS ESTATSTICOS

2.2 - DESCRIO E EXPLORAO DE DADOS

2.3 - CATEGORIZAO DE VARIVEIS

2.4 - COMO CRIAR UMA VARIVEL A PARTIR DE UMA DATA

2.5 - COMO CRIAR UMA VARIVEL ATRAVS DA COMBINAO DE OUTRAS DUAS

EXEMPLO: Histograma da varivel Infant Mortality

Infant mortality (deaths per 1000 live births)

3.2 - VARIVEIS CATEGRICAS (QUALITATIVAS)

Com variveis categricas, o adequado fazer grfico de setores (Pie), de Colunas

Middle East Latn America

4.1 - VARIVEIS QUANTITATIVAS X QUANTITATIVAS

Infant mortality (deaths per 1000 live births)

People who read (%)

People who read (%)

Infant mortality (deaths per 1000 live births)

Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N

**. Correlation is significant at the 0.01 level (2-tailed).

Variables Entered People who read a (%)

R R Square ,900a ,811

Adjusted R Square ,809

Std. Error of the Estimate 16,7334

0,811, este valor indica que 81,1% da variao da varivel mortalidade

INTERPRETAO: O coeficiente de determinao (R square ) igual a

Regression Residual Total

INTERPRETAO: A tabela acima (ANOVA) analisa o modelo de

(Constant) People who read (%)

Sig. ,000 ,000

a. Dependent Variable: Infant mortality (deaths per 1000 live births)

INTERPRETAO: A equao de regresso Y = a + bX,

Std. Residual 3,046

Infant mortality (deaths per 1000 live births) 168,0

Predicted Value 117,027

a. Dependent Variable: Infant mortality (deaths per 1000 live births)

INTERPRETAO: A tabela Casewise Diagnostics apresenta os

Predicted Value Residual Std. Predicted Value Std. Residual

Minimum 10,026 -38,888 -,947 -2,324

Maximum 133,605 50,973 2,637 3,046

Mean 42,674 ,000 ,000 ,000

Std. Deviation 34,4864 16,6543 1,000 ,995

N 107 107 107 107

a. Dependent Variable: Infant mortality (deaths per 1000 live births)

4.2 - VARIVEIS CATEGRICAS X CATEGRICAS

Valid N SEXRACE * Total Family Income 1500 Percent 100,0%

Total N 1500 Percent 100,0%

1,00 2,00 3,00 4,00 5,00 6,00

OBSERVAO: Valor Esperado sob hiptese de independncia para

Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases

Value 42,956a 44,902 6,226 1500

INTERPRETAO: Considerando que p < 0,000 (significance), rejeita-

1,00 2,00 3,00 4,00 5,00 6,00

Total 552 705 66 102 23 52 1500

CONCLUSO: A associao entre sex (sexo) e income4 (salrio em

4.3 - VARIVEIS QUANTITATIVAS X CATEGRICAS

Infant mortality (deaths per 1000 live births)

Valid N 21 14 17 19 17 21 Percent 100,0% 100,0% 100,0% 100,0% 100,0% 100,0%

Total N 21 14 17 19 17 21 Percent 100,0% 100,0% 100,0% 100,0% 100,0% 100,0%