Você está na página 1de 37

11  12 

Breves Considerações sobre SPSS 

Escola Superior de Educação Profª. Raquel Vieira

raquelsav@gmail.com

1  ESETN: Estatística /Tratamento Estatístico                                                             Profª. Raquel Vieira 

ÍNDICE
1. APRESENTAÇÃO SUCINTA DO AMBIENTE SPSS  1.1.  1.2.  1.3.  1.4.  PRINCIPAIS MENUS E JANELAS  SPSS PARA ORGANIZAR DADOS  EXPLORAÇÃO DE VARIÁVEIS  A APRESENTAÇÃO GRÁFICA DE DADOS E O TIPO DE VARIÁVEL  3  3  5  10  11  15 22  22  25  26  27  27  29  36 

2. MEDIDAS DE LOCALIZAÇÃO DE TENDÊNCIA CENTRAL REVISÃO DE CONCEITOS E APLICAÇÃO A SPSS 3. ASSOCIAÇÃO E CORRELAÇÃO  3.1.  DIAGRAMA DE DISPERSÃO  3.2.  COVARIÂNCIA E CORRELAÇÃO  3.2.1. COEFICIENTE DE CORRELAÇÃO LINEAR DE PEARSON  3.2.2. COEFICIENTE DE CORRELAÇÃO ORDINAL DE SPEARMAN  3.2.3. COEFICIENTE DE CORRELAÇÃO BISSERIAL POR PONTOS  3.3.  ASSOCIAÇÃO: TABELAS DE CONTINGÊNCIA E COEFICIENTE DE ASSOCIAÇÃO  4. TESTES PARAMÉTRICOS E NÃO PARAMÉTRICOS 

2  ESETN: Estatística /Tratamento Estatístico                                                             Profª. Raquel Vieira 

1. Apresentação sucinta do Ambiente SPSS
O SPSS (Statistical Package for Social Sciences) é um software de análise estatística e tratamento de dados vocacionado para as Ciências Sociais que permite, entre muitas outras possibilidades, a manipulação, transformação e criação de tabelas e gráficos que resumam a informação obtida. Mas as suas potencialidades vão mais além do que a simples análise descritiva de um conjunto de dados. É também possível realizar, com este software, procedimentos mais avançados que vão desde a Inferência Estatística, teste de hipóteses e estatísticas multivariadas para dados qualitativos e quantitativos.

1.1. Principais menus e janelas
Tal como em outros programas, podemos encontrar na parte superior um conjunto de comandos que permitem a execução de várias operações (File, Edit, View, Data, Transform, Analyze, Graphs, Utilities, Window e Help). Embora quando de se abre um novo documento de SPSS, a aparência possa ser muito semelhante ao programa Excel, no que se refere à organização em linhas e colunas, a forma de funcionamento apresenta diferenças estruturais. De facto, cada uma das células resulta do cruzamento de várias colunas onde devem constar as variáveis em estudo (Ex. Peso, sexo, idade, etc.) e várias linhas, sendo cada uma destas respeitante a cada um dos sujeitos ou participantes.

3  ESETN: Estatística /Tratamento Estatístico                                                             Profª. Raquel Vieira 

destacamos:  A janela de edição (SPSS Data Editor) que se subdivide em duas janelas: . Raquel Vieira  . ou se modificam. Cada coluna representa uma variável e cada linha é um registo.(Variable View): O SPSS tem uma janela de vista de variáveis onde se definem. . No que se refere a janelas. O conteúdo pode ser editado e gravado em ficheiro. sob a forma de tabelas ou gráficos são exibidos. tais como: janelas.  A Janela de resultados (Output Viewer) – Onde todos os resultados. 4  ESETN: Estatística /Tratamento Estatístico                                                             Profª.(Data View): Ao abrir o SPSS é a primeira janela que é visualizada e consiste numa matriz (linhas/colunas) onde vão ser inseridos (ou alterados) os dados. barras de ferramentas e de estado e caixas de diálogo que tornam mais acessível o seu manuseamento. todos os aspectos relativos a cada uma das variáveis.Janela de dados . o SPSS apresenta outro tipo de interfaces. caso ou observação.Além dos Menus.Janela de Variáveis .

alfanuméricas .numéricos com notação científica .DolLar-para moeda dólar . nas diferentes colunas as dimensões para a caracterização das variáveis em estudo:  Name: Define-se o nome da variável. Para isso.  Type: Determina-se o tipo de variável em uso: . antecipadamente sejam identificadas e classificadas as variáveis em questão.                                                          1 Mesmo quando as variáveis são qualitativas é possível escolher numeric para que se possam realizar posteriormente análises estatísticas com este tipo de variáveis.2.outros fomatos para valores monetários .Restricted Numeric: número inteiro com zeros à esquerda  Label: etiqueta que.Com ponto separador nos milhares .String.Scientific notation . Por exemplo. Raquel Vieira  .1.mais usada para posteriormente identificar casos em 1 apresentação gráfica de resultados.Date. queremos que saia.   5  ESETN: Estatística /Tratamento Estatístico                                                             Profª. deve ser seleccionada a Janela das Variáveis (Variable View) onde deverão ser preenchidas.numéricas .data-város formatos .Custom Currency. .com vírgulas a separar os milhares .Dot. Grau de satisfação ser 1 para muito baixo.Numeric .Comma . por exemplo. no Output dos resultados. ou seja para variáveis Nominais e Ordinais. SPSS para organizar dados 1º PASSO: INTRODUÇÃO E DEFINIÇÃO DE VARIÁVEIS A introdução de dados pressupõe que. 2 para moderado e 3 para muito alto.

Input : variável independente .05* massa muscular inicial o SPSS permite.Split: permite a compatibilidade (nos dois sentidos) com o PASW Modeler (programa que permite a descoberta de padrões).Permite definir/alterar o tamanho da coluna.  Columns .  Measure – Permite definir o tipo de variável: . Value Labels.mesmo sendo numéricos.  Role – Permite definir o papel que a variável poderá tonar na análise dos dados: .Permite calcular valores.Target: variável depente .Permite definir/alterar o alinhamento da coluna. A fórmula matemática correspondente será: massa muscular final = 1.  Align . mesmo que os valores sejam numéricos).Partition: será usada para a partição de dados em duas amostras separadas .atribui etiquetas aos valores da variável  Missing values . e se necessário também seleccionar casos a analisar. Compute.None: sem papel assumido . usando Compute Variable. Raquel Vieira  . Por exemplo: Um determinado suplemento alimentar faz aumentar a massa muscular em 5%.Os valores em falta. a criação de uma nova variável partindo da anterior.Both: ambas .especificados como missing values pelo utilizador são excluídos do tratamento estatístico dos dados e são tratados como um caso especial. Note-se que os valores de uma variável. assim. alterar os valores a uma variável ou até criar novas variáveis a partir de outras. A EXPLORAÇÃO DE ALGUMAS FERRAMENTAS:  O Menu Transform O SPSS possui um conjunto de ferramentas que permitem transformar as variáveis. escrevemos o nome da nova variável MMfinal" na caixa de texto e em Target Variable a expressão numérica 1.Scale se são quantitativas . mediante uma expressão matemática.Nominal e Ordinal se são variáveis qualitativas (ambas tratadas como categóricas nos procedimentos de tabelas e gráficos.05*MMinicial (Variável anterior) 6  ESETN: Estatística /Tratamento Estatístico                                                             Profª.

99 .99 . incluindo um nome mais completo em Label. podemos ter necessidade de a codificar em intervalos pela classificação de IMC: até 19.obesidade a partir de 36 . sendo útil para conseguir categorizar variáveis ou para agrupar ou transformar valores nominais em numéricos.99 .peso baixo 20 a 24. Recode – Este comando permite codificar valores de uma variável em novos valores. Por exemplo se temos uma variável que necessitamos agrupar por classes. Por exemplo: Depois de inserirmos a variável peso. por exemplo classimc. 7  ESETN: Estatística /Tratamento Estatístico                                                             Profª.obesidade mórbida Acedemos ao menu Transform – Recode – Into different Variables e criamos o nome da nova variável.Clicamos OK.peso normal 25 a 29.99 . Raquel Vieira  .excesso de peso 30 a 35.

99 .Value podemos atribuir a cada um dos valores uma etiqueta: AINDA OUTRAS FERRAMENTAS NO MENU TRANSFORM Count.peso baixo 2-> 20 a 24. Raquel Vieira  .99 . 8  ESETN: Estatística /Tratamento Estatístico                                                             Profª.cria scores .obesidade mórbida Depois de criada a nova variável. para os casos de acordo com os valores de uma variável .Seleccionamos Old and New Values e atribuímos um código a cada uma das classes. no modo Variable View. Rank Cases. o Recode é mais usado porque permite controlar as categorias e atribuição de rótulos. Por exemplo: 1-> até 19.99 . no entanto.obesidade 5-> a partir de 36 .99 . ordens.Comando que permite criar uma variável que faz a contagem de determinado caso numa variável. Automatic Recode – Converte as categorias de uma variável Nominal ou Ordinal em valores numéricos e automaticamente cria rótulos para os valores.excesso de peso 4-> 30 a 35.peso normal 3-> 25 a 29.

por enquanto: Sort Cases.  Split Files – permite dividir ficheiros de dados em função de categorias de uma variável categórica. Por exemplo: feminino e masculino. num intervalo (time or case range). Por exemplo: seleccionar todos os casos em que a idade seja inferior ou igual a 30 anos: 9  ESETN: Estatística /Tratamento Estatístico                                                             Profª. aleatoriamente (Random Sample of cases) . O Menu Data No menu data estão alguns dos comandos directamente relacionados com os dados.Permite escolher um subconjunto de observações para se fazer várias análises.permite acrescentar valores (casos ou variáveis) de outro ficheiro de dados do SPSS. dos quais podemos destacar alguns procedimentos. tendo em consideração esses valores.  Merge files. Raquel Vieira  .Transpõe linhas para colunas o que significa que as variáveis passam a ser casos e as observações variáveis. Neste exemplo os dados estão ordenados a partir da variável peso:  Transpose.Ordena os casos de acordo com uma variável. dependendo de um critério introduzido (if condition is satisfied).  Select Cases. Útil quando é necessário compara resultados para dois grupos distintos.

aprofundar a definição das variáveis.  Ordinal (Ordinal): dados classificados por categorias ordenadas  Intervalar (Scale): dados expressos numa escala numérica com origem arbitrária  Razão (Scale): dados expressos numa escala numérica com origem fixa Note-se que. 1. A exploração de variáveis em qualquer um dos contexto remete-nos ao menu Analize  Menu Analyze e a estatística descritiva Mostrar as potencialidades deste menu exige. Valores nulos. Weight Cases. 10  ESETN: Estatística /Tratamento Estatístico                                                             Profª. Ou seja em vez de cada linha representar uma observação. omissos ou negativos serão excluídos.3. há necessidade de categorizar variáveis contínuas. pois esta definição é determinante na saída dos dados. Raquel Vieira  . antes de mais.Apresenta os valores “pesados”por uma variável . em primeiro lugar. Sabemos que existem os seguintes tipos de variáveis:  Nominal (Nominal): dados classificados por categorias não ordenadas. esta poderá representar tantos casos como os que estarão definidos pela variável definida para pesar os valores (weight). dois tipos de estatísticas: a que pretende descrever os dados amostrais .estatística descritiva . Os valores dessa variável devem indicar o número de observações que verificam conjuntamente as categorias das outras variáveis.e a que pretende extrapolar esses resultados para a população – estatística inferencial. por vezes. Exploração de variáveis Numa análise estatística há a distinguir.

A apresentação Gráfica de dados e o tipo de variável Variável Nominal Uma forma simples de apresentar as variáveis nominais é recorrendo a uma tabela de frequências (frequências absolutas e relativas) ou em gráfico (de barras. onde podem ser escolhidas diversas opções.4.1. circular). 11  ESETN: Estatística /Tratamento Estatístico                                                             Profª. Raquel Vieira  . Estas obtêm-se no menu Analyze.

Variável Ordinal A informação sumária das variáveis. Raquel Vieira  . 12  ESETN: Estatística /Tratamento Estatístico                                                             Profª. geralmente. no entanto não se pode alterar a ordem das categorias uma vez que estas têm uma ordem própria. é semelhante ao descrito anteriormente para as variáveis nominais.

→ Esta tabela tem a particularidade de permitir ao observador uma percepção do aspecto global dos dados sem perda de informação contida na colecção de dados inicial. A tabela de frequências será uma lista de valores que torna a informação a extrair da variável muito complexa. Por isso as barras são representadas todas juntas. Cada intervalo de valores tem a continuação no intervalo da barra seguinte. Raquel Vieira  . muito útil. normalmente. Da mesma forma um gráfico de barras para dados contínuos seria composto por uma série de pequenas barras. Para construir um gráfico de caule-e-flores deve proceder aos seguintes passos: Descritive Statistics -> Explore e escolher a variável que pretender e seleccionar Plots -> Stem-and-leaf 13  ESETN: Estatística /Tratamento Estatístico                                                             Profª. O histograma é semelhante ao gráfico de barras com a diferença que cada barra representa a frequência de valores num intervalo ou classe (de valores). Uma opção que permite uma visualização dos dados melhor que a obtida com um gráfico de barras é o histograma. que assumam vários valores. ou para variáveis contínuas uma tabela de frequências não é. Mas para variáveis discretas. pois grande parte dos valores terão frequência muito baixa.Variável Contínua e Discreta Para descrever variáveis discretas que assumam poucos valores ainda é possível usar uma tabela de frequências e/ou gráficos de barras. Gráfico de Caule-e-folhas O diagrama de caule-e-folha (stem and leaf) consiste numa representação gráfica que apresentar os dados separando em cada dado quantitativo os algarismos de maior ordem (caule) dos de menor ordem (folhas).

Obtendo o seguinte Output: 14  ESETN: Estatística /Tratamento Estatístico                                                             Profª. Raquel Vieira  .

pois não é tão sensível aos dados. É muitas vezes designada de centro de gravidade da distribuição e depende do valor de todas a observações.2... • A média é o centro nas distribuições normais DESVANTAGEM DA MÉDIA: A média é muito sensível a valores muito grandes ou muito pequenos. é por isso uma medida sensível e pouco resistente. x3. Depois de ordenada a amostra: • Se n é ímpar – a mediana é o elemento médio. 15  ESETN: Estatística /Tratamento Estatístico                                                             Profª. passando a ser uma aproximação. dado que a soma dos desvios de todas as observações em relação à média é zero. x2. 2) Quando os dados estão agrupados em classes. . xn os n valores de uma variável quantitativa. Chama-se média. a mediana é mais resistente do que a média. Medidas de localização de tendência central Revisão de Conceitos e aplicação a SPSS  Média aritmética 1) Seja x1. • Se n é par – a mediana é a semi-soma dos dois elementos médios. x3.  Mediana Indica o valor central das observações. sendo objectivamente afectada pelos valores extremos. A mediana é o valor que a divide ao meio. x1. Como medida de localização. yi é o ponto médio da classe i (representante da classe).. e representa-se por . A média aritmética é o valor único que equilibra a distribuição. xn são os valores médios da classe com k =número de classes. 50% dos elementos da amostra são menores ou iguais à mediana e os outros 50% são maiores ou iguais. x2. Raquel Vieira  .. O valor que obtemos para a média deixa de ser exacto. Fi=frequência absoluta classe i. ao valor obtido por . depois de ordenadas. isto é...

n – dimensão da população F – frequência acumulada da classe anterior à classe mediana. 2º quartil coincide com a mediana. Se os dados estão agrupados em classes de igual amplitude. pelo menos. Os quantis podem ser: • Quartis – divide a distribuição de frequências em 4 partes iguais. Q1 Q2 Q3 x1   mediana  xn   Q1. Moda É o valor mais frequente da distribuição ou o valor que mais observações apresenta no conjunto de dados. • Decis – divide a distribuição de frequências em 10 partes iguais • Percentis – divide a distribuição de frequências em 100 partes iguais.Mediana a partir de dados agrupados: A fórmula empírica para o cálculo da mediana é: Sendo: l – limite inferior da classe. e o nº de observações superiores é 25%. Q2 e Q3 representam os quartis da distribuição: • • • • 1º quartil é o valor da variável tal que o número de observações para valores inferiores a Q1 é 25%. 50% estão acima de Q2. e o nº de observações é superior a 75%. f – frequência da classe mediana  Quantil A designação de quantil encontra-se associada à ideia de que os quantis dividem a distribuição de frequências em quantidades iguais. o menor e o maior valor da variável considerando o conjunto ordenado. Raquel Vieira  . respectivamente. o que significa que 50% das observações estão abaixo de Q2 e. Existem conjuntos de dados que não apresentam moda. 3º quartil é o valor da variável tal que o número de observações para valores inferiores a Q3 é 75%. com igual número de observações. e existem conjuntos de dados com duas ou mais modas. c – amplitude da classe mediana. porque nenhum valor se repete maior número de vezes. a classe de maior 16  ESETN: Estatística /Tratamento Estatístico                                                             Profª. substituindo respectivamente por e (e os valores na fórmula têm de ser adaptados ao intervalo correspondente ao quartil). isto é. Sejam x1 e xn. As fórmulas de cálculo do Q1 e do Q3 são idênticas à da mediana.

 Raquel Vieira  . imaginemos que limávamos as arestas do polígono de frequências de modo a obter uma linha curva em vez de uma linha quebrada. Para ser mais acessível esta leitura. Não é afectada por valores extremos Mas apresenta uma clara desvantagem: Não pode ser definida com rigor  Medidas de Assimetria e Curtose .Assimetria Este método consiste na comparação das três medidas de tendência central: a média. Quando as amplitudes são variáveis. A moda tem algumas vantagens como medida de estatística descritiva: • • É fácil de calcular e interpretar. A moda pode considerar-se o ponto médio da classe modal. o conhecimento de uma única medida pouco adianta para a compreensão do fenómeno.frequência chama-se classe modal. a classe modal é aquela que corresponde ao rectângulo com maior altura do histograma. quando temos uma representação através de um polígono de frequências. Podemos resumir em três casos as diferentes curvas que se podem obter:  enviesada para a esquerda (assimétrica negativa)  simétrica  enviesada para a direita (assimétrica positiva) 17  ESETN: Estatística /Tratamento Estatístico                                                             Profª. Na maioria dos estudos. a mediana e a moda. Vejamos que relação existe entre estas três medidas.

De um modo geral: Curva simétrica Curva assimétrica positiva Curva assimétrica negativa .Achatamento ou Curtose As medidas de curtose dão-nos uma indicação da intensidade das frequências na vizinhança dos valores centrais. Como referência ao grau de achatamento podemos ter: Distribuição Leptocúrtica Distribuição Mesocúrtica Distribuição Platicúrtica 18  ESETN: Estatística /Tratamento Estatístico                                                             Profª. Raquel Vieira  .

a distribuição é platicúrtica.Para medir o grau de curtose pode ser utilizada a seguinte medida: Grau de Curtose Sendo Q1 e Q3 o primeiro e terceiro quartis e P90 e P10 o 90º e 10º percentis. Raquel Vieira  .263 Se K > 0. • • • Se K = 0. Para obter as medidas descritivas. a distribuição é leptocúrtica.263 Se K < 0. 19  ESETN: Estatística /Tratamento Estatístico                                                             Profª. basta explorar o menu Analyse: Analyse -> Descritive Statistics.263 a distribuição é mesocúrtica.

Este diagrama tanto pode ser apresentado na forma horizontal como vertical. Determinar os quartis 3. medidas de localização. Se o construíssemos manualmente deveríamos seguir os seguintes passos: 1. obtemos a seguinte estatística descritiva e respectivo Diagrama de caixa e bigodes: 20  ESETN: Estatística /Tratamento Estatístico                                                             Profª. também denominado por diagrama de extremos e quartis. como já referimos anteriormente. Da construção deste diagrama depende a determinação das seguintes medidas:  Mediana  Quartis  Distância entre quartis  Valores extremos Este diagrama. Desenhar uma régua graduada e assinalar os pontos anteriormente assinalados. Partindo do exemplo dos pesos dos alunos de uma turma em que o peso máximo é 100 kg e o mínimo é 55. Diagrama de caixa de bigodes Há situações para as quais a avaliação dos extremos é fundamental. curtose e os outliers. seguindo a distribuição ao lado. Construir a caixa de bigodes. assimetria. Raquel Vieira  . em suma. é uma das representações gráficas mais utilizadas na prática uma vez que é fácil de construir e evidencia uma quantidade de informação dos dados. Turkey (1977) desenvolveu uma técnica denominada caixa e bigodes (blox plot) que nos fornece uma indicação clara dos valores extremos. Determinar máximo e mínimos 2. 4. da mesma forma que o histograma e o diagrama de caule e folhas informa como os valores estão distribuídos.

 Se Q2-Q1 < Q3-Q2 a distribuição é aproximadamente assimétrica positiva. é feita com recurso a um critério de distância.  Se Q2-Q1 > Q3-Q2 a distribuição é aproximadamente assimétrica negativa.Máximo  Q3  Mediana  Q1  Mínimo  No SPSS podemos obtê-la em: A identificação dos outliers. pelo menos 50% das observações. Este critério permite identificar e classificar se esses valores diferem muito do restante conjunto de dados. ou seja. dos valores que diferem significativamente do conjunto. é de referir:  Quanto mais pequena for a caixa. permitindo o cálculo das chamadas barreiras internas e externas (superior e inferior). maior é a concentração da distribuição de frequências (menor dispersão) para. Raquel Vieira  . Relativamente à interpretação a dar à caixa de bigodes. 21  ESETN: Estatística /Tratamento Estatístico                                                             Profª. com referencia ao Q1 e Q3. São determinadas distâncias.  Se Q2-Q1 = Q3-Q2 a distribuição é aproximadamente simétrica.

5 12.5 2. A análise de correlação linear entre duas variáveis X e Y tem por objectivo quantificar a intensidade da relação linear existente entre elas. é usual designar-se a relação entre elas por associação. .0 15..0 15.yi).0 14.0 2.0 13. variam no sentido inverso. Existem vários coeficiente de correlação. a correlação mede o grau de associação linear entre variáveis.0 16. Neste capítulo iremos estudar os aspectos essenciais acerca de Associação de variáveis.0 3. Associação e Correlação No capítulo anterior vimos como caracterizar dados descrevendo uma variável. recorre-se ao conceito de correlação. 2. Diagrama de Dispersão Na representação de uma amostra de n observações de duas variáveis X e Y utiliza-se muitas vezes um diagrama de dispersão. no entanto.0 14.0 2. Assim.5 Média de horas de estudo 2. . este consiste na representação das observações (xi.0 17.0 4.5 Podemos construir uma tabela que relacione.0 2.0 1. enquanto se assumirem valores negativos. Consideremos os seguintes dados acerca das médias de curso e da média horas de estudo respectivas: Média curso 14.1.0 16.5 3. Note-se que a correlação mede apenas o grau de associação entre variáveis não constituindo.5 4. Raquel Vieira  . isoladamente uma prova de causalidade entre as mesmas. Ou seja. que variam em absoluto entre 0 e 1. 3. i= 1.0 15. uma das grandes vantagens na utilização do SPSS consiste na potencialidade comparar o comportamento de várias variáveis entre si. e distinguir em que situações devemos usar os coeficientes de correlação respectivos.3.0 14. Quando as variáveis são de natureza qualitativa e estão medidas através de uma escala nominal.0 2. as variáveis evoluem no mesmo sentido.0 1. Se assumir valores positivos. n num referencial cartesiano. analisando portanto a sua variação conjunta. A disposição das observações neste gráfico pode alertar para a existência de possíveis relações entre as duas variáveis bem como a existência de eventual valores aberrantes (outliers). ordenadamente as duas variáveis: 22  ESETN: Estatística /Tratamento Estatístico                                                             Profª..0 3. Quanto mais próximo de 1. mais forte é a associação entre as variáveis.0 12. caso se pretenda estudar a relação existente entre duas variáveis de natureza quantitativa ou qualitativa medida em escala ordinal.

E obtemos No entanto. Raquel Vieira  . facilmente concluir. Podemos afirmar. que à medida que aumentam as médias de curso aumenta o número médio de horas de estudo. e nos permite. o diagrama de dispersão é uma das representações gráficas mais adequadas para analisar graficamente a relação entre estas duas variáveis. neste exemplo. nesta situação que existe uma relação 23  ESETN: Estatística /Tratamento Estatístico                                                             Profª.

este tipo de diagrama não nos permite quantificar a intensidade desta relação. em média. No entanto.positiva entre as duas variáveis. associados valores elevados de média de horas de estudo. Raquel Vieira  . 24  ESETN: Estatística /Tratamento Estatístico                                                             Profª. já que a valores elevados de média estão.

Assim. Uma primeira medida de correlação linear é denominada por covariância e é definida pela média dos produtos dos desvios em relação à média. O seu sinal depende do quadrante em que o para ordenado se encontra no sistema de eixos cartesianos. e vice-versa. Raquel Vieira  . predominam os produtos dos desvios negativos em relação aos positivos e. quando uma variável aumenta a outra também diminui.2. em média. Como podemos observar na seguinte tabela: Quadrantes 1º Quadrante ( x − x) i ( y − y) i ( x − x )( y − y) i i + 2º Quadrante + + 3º Quadrante + - 4º Quadrante - + + - - O sinal da covariância indica se a relação entre X e Y é positiva ou negativa. as variáveis variam em média no mesmo sentido. a covariância entres elas é definida por: sxy = 1 n ∑ xi − x yi − y n i =1 ( )( ) Pode fazer-se uma interpretação simples da expressão da covariância a partir do respectivo diagrama de dispersão.  Se o sinal for negativo. por consequência. por consequência. Assim. e quando uma variável diminui a outra também diminui.3.  Se o sinal for positivo. em média. Assim. para duas variáveis quantitativas X e Y. quando uma variável aumenta a outra também aumenta. 25  ESETN: Estatística /Tratamento Estatístico                                                             Profª. predominam os produtos dos desvios positivos em relação aos negativos e. Covariância e Correlação Detectada uma possível relação linear entre as variáveis coloca-se a questão de quantificar a intensidade dessa relação através de medidas adequadas. os desvios tendem a ser ambos positivos ou ambos negativos (Q1 e Q3). em média. os desvios tendem a ter sinais contrários (Q2 e Q4). ou seja.

Assim a informação contida na covariância é essencialmente sobre o sinal e não sobre a sua intensidade. a magnitude dos desvios positivos e negativos é igual e.y = 0 A variável não apresenta relação linear. por isso.1. A correlação linear entre as variáveis é negativa perfeita. Raquel Vieira  . -1 < rx. Surge assim a necessidade de criar um coeficiente de correlação linear que damos o nome de Pearson. podemos concluir que a covariância é uma medida pouco precisa.2. que assume valores no intervalo [-1.y menor é a variabilidade dos pontos em torno da recta. pois dá-nos pouca informação relativamente à intensidade de correlação existente entre as variáveis. Coeficiente de Correlação Linear de Pearson  Na avaliação do grau de correlação entre duas variáveis.y = -1 Os pontos estão inscritos numa recta de declive negativo.y menor é a variabilidade dos pontos em torno da recta. Quanto mais próximo de -1 for o valor de rx.1] e não depende das unidades de medida das variáveis e que se calcula fazendo: rx.y < 0 rx.y < 1 Os pontos estão inscritos numa recta de declive positivo. a covariancia apresenta desde logo dois inconvenientes: depende das unidades de medida das variáveis. A correlação linear entre as variáveis é positiva. e assume valores no conjunto dos números reais. y = sxy sx sy = 1 n ∑ x − x yi − y n i =1 i 1 n ∑ x −x n i =1 i ( )( ) ) 2 ( ) 2 1 n ∑ y −y n i =1 i ( Em função do sinal e do valor absoluto deste coeficiente pode concluir-se sobre a direcção e a intensidade da relação existente entre duas variáveis quantitativas Coeficiente de correlação Conclusões Diagrama de dispersão rx. 0 < rx. 26  ESETN: Estatística /Tratamento Estatístico                                                             Profª. Atendendo a que a precisão de qualquer medida é inversamente proporcional à amplitude do intervalo onde a mesma toma valores. 3. Os pontos estão inscritos numa recta de declive negativo. Quanto mais próximo de 1 for o valor de rx. não existe relação linear entre as variáveis. A correlação linear entre as variáveis é negativa. Quando a covariância é nula.

3.y = 1 Os pontos estão inscritos numa recta de declive positivo. e é definido da seguinte forma: rx.   3. Este coeficiente recorre às ordens de observações em detrimento dos seus valores observados. O coeficiente de correlação de Spearman mede a intensidade da relação existente entre duas variáveis medidas numa escala pelo menos ordinal. entre as ordens de observação.  -1 quando tiverem ordem inversa  0 quando as ordens se dispuserem de uma forma aleatória uma relativamente à outra.2. que mede a intensidade da relação entre variáveis ordinais. Coeficiente de Correlação Bisserial por pontos  O Coeficiente de Correlação Bisserial por pontos mede a intensidade da relação existente entre uma variável quantitativa y e uma variável qualitativa dicotómica x.rx.2. e calcula-se da seguinte forma: rx. em x. e  n p é o número de casos de categoria (x=1)  n o número toral de casos 27  ESETN: Estatística /Tratamento Estatístico                                                             Profª. O coeficiente de correlação de Spearman pode ser encarado como um caso particular do coeficiente de correlação de Pearson. Coeficiente de Correlação Ordinal de Spearman  Quando se pretende analisar a correlação entre duas variáveis medidas em escala ordinal deve recorrer-se ao Coeficiente de Correlação Ordinal de Spearman. Raquel Vieira  . 3.2. A correlação linear entre as variáveis é positiva perfeita. y = em que  y p − yq sy pq p= np n Proporção de casos com 1. y = 1 −  6∑ d 2 n n −1 n ( i =1 2 ) em que di = o(xi ) − o(yi ) e o(xi ) é a ordem da observação xi na amostra  o(yi ) é a ordem da observação yi na amostra  n é o número total de observações Este coeficiente assume valor:  1 quando as observações tiverem exactamente a mesma ordem.

 basta fazer:        28  ESETN: Estatística /Tratamento Estatístico                                                             Profª. uma correlação positiva entre Y e a característica medida como 0 em Y. e  n p é o número de casos de categoria (x=0)  n o número toral de casos     y média aritmética de todos os valores de Y y p  média. de todos os casos a que correspondem 1’s em X yq  média. q= nq n Proporção de casos com 0. assume os valores:  1 quando as observações tiverem exactamente a mesma ordem. à semelhança do coeficiente de correlação de Spearman.   Para obter estes coeficientes no SPSS. na variável Y.  -1 quando tiverem ordem inversa  0 quando as ordens se dispuserem de uma forma aleatória uma relativamente à outra. Este coeficiente. rbp < 0 → y p < yq existe uma correlação negativa entre Y e a característica medida como 1 em Y. na variável Y. de todos os casos a que correspondem 0’s em X sy  desvio padrão dos valores de Y. em x. Raquel Vieira  . ou. Interpretação:   rbp > 0 → y p > yq existe uma correlação positiva entre Y e a característica medida como 1 em Y.

NOTA: O Coeficiente Bisserial por pontos não se calcula directamente no SPSS. e o seu cálculo é baseado numa tabela de contingência do tipo:                B  A  1  2  Totais    1  a  c  a + c  2  b  d  b + d  Totais  a + b  c + d   a+b+c+d=n  29  ESETN: Estatística /Tratamento Estatístico                                                             Profª. Raquel Vieira  . B. 4‐Muito Bom) e a nota num  trabalho medido pela escala (A. mas pode  facilmente ser obtido a partir do Bisserial. medida numa escala entre  0 e 20. C.3. D)  Associação entre o número de horas que um grupo  demora a executar certa tarefa e o género   3. Associação: Tabelas de Contingência e Coeficiente de Associação Quando se pretende estudar a associação existente entre duas variáveis medidas em escala nominal ou ordinal.      Coeficiente  de  correlação  Linear de   Pearson  Ordinal de   Spearman  Bisserial  Variáveis  Quantitativa  X  Quantitativa  Ordinal  X  Ordinal  (pelo menos)  Quantitativa  X  Qualitativa  dicotómica  Exemplos  Associação entre o número de horas de trabalho  dedicado e a nota obtida. E o Bisserial é idêntico a calcular coeficiente  correlação de Pearson. O coeficiente de associação φ permite quantificar a associação existente entre duas variáveis dicotómicas.  Associação de uma nota medida pela Escala (1‐Mau. 3‐Bom. recorre-se aos conceitos de tabela de contingência (ou de dupla entrada) e de coeficiente de associação.  2‐Suficiente.

526   O valor do coeficiente de associação é 0. já que só  pode assumir dois valores diferentes (Cumpridas ou não cumpridas)   Quadros: variável dicotómica (Superiores ou técnicos)  Por se tratarem de duas variáveis nominais e dicotómicas.   Φ= ( 350 + 150 ) (125 + 575 ) ( 350 + 125 ) (150 + 575 ) 350 × 575 − 150 × 125 = 0. B2) e por  modalidades discordantes (A1.   30  ESETN: Estatística /Tratamento Estatístico                                                             Profª. B1) / (A2.  As variáveis são:   Opinião sobre normas de segurança: variável dicotómica. A opinião dos inquiridos  encontra‐se resumida na seguinte tabela:    Opinião  São  Não são  Totais  cumpridas  cumpridas  Quadros  350  150  500  Superiores  Quadros  125  575  700   Técnicos  Totais  475  725  1200  Pretende‐se saber como se relacionam e qual a intensidade da relação entre  a duas variáveis consideradas. os quadros superiores têm uma maior tendência em afirmar que as regras de  segurança são cumpridas. o que significa que existe uma relação  positiva entre a opinião e as normas de segurança e a categoria profissional. Raquel Vieira  .526.Designam‐se por modalidades concordantes (A1. ou  seja. B1): O coeficiente de associação φ é dado por:  ad − bc   Φ= ( a + b )( c + d )( a + c )(b + d ) A interpretação deste coeficiente é feita da seguinte forma:    coeficiente de associação φ Conclusões  -1 < φ < 1  Existe uma associação entre A e B nas  φ > 0  modalidades concordantes  Não existe associação entre as variáveis  φ = 0  A e B  Existe associação entre A e B nas  φ<0  modalidades discordantes    Exemplo:  No Ministério da Educação foram inquiridos 500 indivíduos dos quadros  técnicos superiores e 700 dos quadros técnicos sobre as normas de  segurança dos respectivos locais de trabalho. B2)/(A2. para medir a  intensidade da relação entre elas vamos utilizar o coeficiente de associação.

 Inserir as variáveis e caracterizá‐las convenientemente:    NOTA: para quadros e opinião deve usar a opção Values  para indicar as  possibilidades das variáveis. Raquel Vieira  .  31  ESETN: Estatística /Tratamento Estatístico                                                             Profª.  Usando o SPSS:  1.

 Raquel Vieira  .  2. Especificar que a variável freqobs  caracteriza as frequências observadas:    3.            Obter o coeficiente de Associação através dos seguintes passos:              32  ESETN: Estatística /Tratamento Estatístico                                                             Profª.

  Obtemos assim:          33  ESETN: Estatística /Tratamento Estatístico                                                             Profª.  4. Raquel Vieira  .

 0. obter uma interpretação mais aprofunda. seleccionando em  Crosstabs ‐> Cells      34  ESETN: Estatística /Tratamento Estatístico                                                             Profª. o valor obtido anteriomente. ainda.526 (Phi).    Podemos.    Confirmando assim. Raquel Vieira  .

   Dos 500 elementos de quadros superiores 350 (70%) afirmam que as  normas de segurança são cumpridas e 150 (30%) afirmam que não são  cumpridas. 350 (73. 1200.3%) são de quadros técnicos. 575 (47.Para obter:     Podemos retirar algumas conclusões desta tabela:   Dos 475 elementos que afirmaram que as normas de segurança são  cumpridas. 500 (41.7%) são dos quadros superiores e os restantes 125  (26.9%) são de quadros técnicos e  afirmam que as normas de segurança não são cumpridas. Raquel Vieira  .   Do total dos elementos.7%) são de quadros superiores.   Do total das elementos. 1200.  35  ESETN: Estatística /Tratamento Estatístico                                                             Profª.

Para verificar a forma de distribuição das populações. a opção encontrada é a utilização de testes não paramétricos. podem usar-se os testes de bondade ou qualidade de ajustamento das amostras a funções de distribuição de probabilidades. são utilizados métodos paramétricos . no caso de variáveis quantitativas. sobre a média ou valor esperado. o teste de KolmogorovSmirnov. a distribuição da estatística de teste do teste t-Student para comparar as médias de duas amostras pressupõe que as amostras foram retiradas de uma população que se distribui segundo uma função de probabilidades Normal. tais como o teste do qui-quadrado. São muitos os estudos de investigação que recorrem a esta estratégia e torna-se necessário aprofundar técnicas de tratamento e análise dos dados obtidos. Contudo. Preferencialmente. Qui-quadrado. Kruskal-Wallis e Friedman). Por exemplo.4. e não em valores absolutos. Alguns dos testes não paramétricos baseiam-se em probabilidades ou em frequências (Binomial. no entanto. se encontram afastadas da normalidade e/ou amostras pequenas. Testes paramétricos e não paramétricos Uma ferramenta de extrema utilidade em estatísticas são os testes de hipóteses. a fim de se decidir pela utilização de um teste paramétrico ou por um teste não paramétrico.  36  ESETN: Estatística /Tratamento Estatístico                                                             Profª.                                                          2 Estes testes (por exemplo testes t‐student e ANOVA) não serão objecto de estudo desta  disciplina. Independentemente do teste utilizado ser. teste de Shapiro-Wilk. A distribuição de probabilidades da estatística de teste pressupõe uma forma particular das distribuições populacionais de onde as amostras foram recolhidas. Raquel Vieira  . McNemar) ou de valores centrais (Mann-Whitney. não são tão potentes como os paramétricos. a questão da aleatoriedade da amostra é fundamental. Os testes não paramétricos não estão condicionados por qualquer distribuição de probabilidades dos dados em análise. sendo que estes últimos se baseiam em ordenações. Wilcoxon. Geralmente utilizam-se quando as variáveis envolvidas são tipicamente qualitativas (nominais ou ordinais) ou. quando estas condições não estão reunidas. paramétrico. Etc. e além disso pressupõe também que as variâncias das duas amostras são homogéneas. ou não. Os testes incidem explicitamente sobre um parâmetro de uma ou mais populações (por exemplo. e quando estão 2 reunidas diversas condições (ver quadro abaixo). ou sobre a variância).

Folha de Apoio . Raquel Vieira  .. A.dce. Martinez.pt/leies/pacgi/Folhaapoio1. R. Lisboa. (6ª Ed. SPSS Guia Prático de Utilização: Análise de dados para ciências sociais e psicologia. (2008).). (2006). A. Estatística Aplicada Às Ciências e Tecnologias da Saúde. Lisboa: Lidel. G. & Oliveira. F. F. & Ferreira. (2006).ua. M. Pereira. Martins. Edições Sílabo 37  ESETN: Estatística /Tratamento Estatístico                                                             Profª.Iniciação ao SPSS. (2007). Referências Bibliográficas  Bessa.).F. Análise de dados com SPSS: Primeiros passos (2ªed.pdf] Cunha. L. I. R. Aveiro: Universidade de Aveiro [Acessível em http://www2. J.. Lisboa: Escolar Editora. Sousa.