Você está na página 1de 58

See

discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/263426057

O livro que explica a estatística que precisa em


13 aulas IBM-SPSS & Excel

BOOK · JUNE 2014


DOI: 10.13140/2.1.3914.7201

READS

1,419

1 AUTHOR:

Margarida Pocinho
Escola Superior de Tecnologia da Saúde de…
40 PUBLICATIONS 13 CITATIONS

SEE PROFILE

Available from: Margarida Pocinho


Retrieved on: 19 February 2016
O livro que explica a estatistica que precisa
em 13 aulas
IBM-SPSS & Excel

Teoria e prática

MARGARIDA POCINHO
ESCOLA SUPERIOR DE TECNOLOGIA DA SAÚDE DE COIMBRA
INSTITUTO SUPERIOR MIGUEL TORGA

June 27, 2014


Estatística e SPSS

AULA 1. INTRODUÇÃO .................................................................................................................. 2

ALGUMAS CURIOSIDADES ............................................................................................................................. 2

AULA 2. MEDIDAS DE TENDÊNCIA CENTRAL OU DE POSIÇÃO:....................................................... 8

AULA 3. POPULAÇÃO E AMOSTRA ................................................................................................ 9

NOÇÕES GERAIS ......................................................................................................................................... 9

AULA 4. USAR O SPSS PARA ORGANIZAR E MOSTRAR OS DADOS: .............................................. 13

AULA 5. TRANSFORMAÇÃO DOS DADOS ..................................................................................... 17

AULA 6. REPRESENTAÇÕES GRÁFICAS PARA DIFERENTES TIPOS DE VARIÁVEIS ........................... 23

AULA 7. ANÁLISE DESCRITIVA: MÉDIA, MO E MD EM SPSS ......................................................... 26

AULA 8. ESTATÍSTICA PARAMÉTRICA E NÃO PARAMÉTRICA ....................................................... 30

AULA 9. ESTATÍSTICA BIVARIADA ................................................................................................ 35

Hipótese: ......................................................................................................................................... 40

AULA 10. TESTES DE HIPÓTESES: ................................................................................................... 43

AULA 11. TESTES PARAMÉTRICOS: ................................................................................................ 48

AULA 12. *ESTATÍSTICA NÃO PARAMÉTRICA ................................................................................ 53

AULA 13. DO SPSS AO EXCEL E DO EXCEL AO SPSS ........................................................................ 56

1
Estatística e SPSS

Aula 1. Introdução

A Estatística é uma ciência que recolhe, ordena, analisa e interpreta os dados de um grupo
de indivíduos (sejam eles uma amostra ou uma população -censo), prescindindo das
palavras e recursos literários, sendo então feita através de uma “linguagem numérica”
expressiva e cheia de força e impacto (teoria das probabilidades), da qual faz referência das
generalizações, com a finalidade de inferir para a população ou prever a evolução de
determinado fenómeno.
Esta é uma parte essencial para o dia-a-dia de qualquer individuo, na medida em que é
imprescindível para o treino profissional e formação, atividades de investigação pessoal e
para interpretação de literatura científica, funcionando assim como uma “evidência”
científica que irá permitir a prática clínica e que ajudará na perceção do impacto e
importância daquilo que se diz e faz.
Mediante isto, este manual tem por fim fornecer conhecimentos estatísticos (sem ter
muitos conhecimentos matemáticos) e ajudar a interpretar os resultados que podem ser
obtidos quer através do cálculo manual, quer através de programas de computador. Assim,
pretende demonstrar os principais conteúdos e conceitos de Estatística, dando especial
importância e enfatizando com maior rigor os apreendidos em contexto prático, usando
como principal ferramenta o programa SPSS e pontualmente também o uso do programa
Microsoft Office Excel.

Algumas curiosidades
Desde séculos o homem tem, muitas vezes, tomado notas de coisas e de pessoas, não com
o único fim de acumular números, mas com a esperança de utilizar os dados do passado
para a resolução de problemas do presente assim como para a previsão de acontecimentos
futuros. No entanto, o sucesso quanto a este objetivo só foi possível em data muito recente:
só no final do século XIX e, sobretudo, no princípio do século XX é que, com a aplicação
de probabilidades aos problemas sobre a interpretação dos dados recolhidos, foi possível
resolver alguns deles.
A Estatística conquistou, hoje, o seu lugar entre as ciências. O poder do seu método é,
sobretudo, afirmado nas últimas décadas e aplica-se, agora, nos domínios mais variados.
Até aqui, só um pequeno número de pessoas se preocupou com estudos estatísticos, quer
pela natureza das suas investigações, quer por causa da sua utilidade para as diferentes
profissões. O valor e a importância do método estatístico residem no esforço para melhor
compreender o nosso mundo, tão maravilhosamente complexo, tanto no ponto de vista
físico como social, levam-nos a sonhar que ele se torne objecto de um conhecimento como
as outras ciências. A vida corrente leva-nos a decisões para passar do conhecido ao
desconhecido, da experiência à previsão.
Para algumas pessoas, a Estatística não é senão um quadro de colunas mais ou menos
longas de números que dizem respeito à população, à indústria ou ao comércio, como se vê

2
Estatística e SPSS

frequentemente em revistas; para outras, ela dá gráficos mostrando a variação no tempo de


um facto económico ou social, a produção ou os números relativos aos negócios de uma
empresa, assim como se encontra nos escritórios de empresas privadas.
Tão diferenciados se apresentam os métodos estatísticos que não é possível estabelecer
uma definição que os contenha a todos. Apesar disso, apresentamos a seguir uma definição
que, embora necessariamente incompleta como qualquer outra, tem a vantagem de
introduzir o aluno na matéria.
A Estatística tem como finalidade elaborar de uma síntese numérica que evidencie o que de
mais generalizado e significativo exista num conjunto numeroso de observações. O grande
número de observações de que se parte reflete uma diversidade tal que se torna
ininteligível a sua interpretação. Para que, a partir dessa diversidade se possa começar a
entender logo, torna-se necessário reduzir sucessivamente as observações, ganhando-se em
generalidade o que se vai perdendo em individualidade.
A síntese implica, assim, que nos desprendamos do que é particular e individual para nos
atermos ao que existe de mais geral no conjunto das observações; à medida que a síntese
progride, vai-se perdendo o contacto com as particularidades imediatas.
Deste modo, a Estatística não se ocupa do que é excecional, mas apenas do que é geral:
não se interessa pelo indivíduo, mas por grupos de indivíduos; não se ocupa, em suma, de
uma só medição, mas de um conjunto de medições. Acrescente-se, ainda, que a síntese é
numérica. Quer isto dizer que se prescinde inteiramente das palavras e dos recursos
literários de mais ou menos efeito que elas possibilitam. Alcança-se a síntese pelo recurso
exclusivo dos números.
Daí o afã com que frequentemente se escolhem os números de acordo com os argumentos.
A Estatística é intrinsecamente uma disciplina não literária, manipula exclusivamente
números e alcança a síntese ordenando-os e cooperando com eles.
“Estatística”, deriva de “status” que em latim significa Estado, e que só por si demonstra a
ligação que sempre existiu entre ambos. O primeiro levantamento estatístico remonta a
3050 a.C., no Egipto, tendo como objetivo informar o estado sobre recursos humanos e
económicos. No séc. XVII d.C., a disciplina de Estatística era já lecionada nas
universidades alemãs, continuando com a finalidade de descrever as populações e as
riquezas do Estado. Ainda no séc. XVII, dá-se a expansão dos seus campos de investigação
a áreas como a Saúde pública; a Indústria; o Comércio e os Estudos Demográficos.
Os métodos de inferência estatística surgem com Jonh Graunt (1620-1674), um modesto
comerciante, que tira conclusões válidas sobre uma população desconhecida por ele.
Fermat (1601-1665) e Pascal (1623-1662) permitem que o estudo do acaso tome uma
expressão matemática, introduzindo o Cálculo das Probabilidades. Esta expressão
matemática e o aparecimento do método dos mínimos quadrados, vêm credibilizar a
Estatística conferindo-lhe a fundamentação matemática em que ela, hoje, assenta.
No séc. XVIII Lambert Quetelet (1796-1874) introduziu a Estatística nas análises da
Meteorologia; da Antropometria; das Ciências Sociais; da Economia e da Biologia.
Aos contributos anteriores Francis Galton (1822-1911), acrescenta as noções de regressão
e correlação; Karl Pearson (1857-1936) apresenta a mais bela e acabada teoria de
Estatística, ficando também conhecido pelos seus coeficientes (r; c); Fisher com os seus

3
Estatística e SPSS

trabalhos sobre inferência Estatística também deu um grande contributo ao


desenvolvimento da Estatística.
Em 1943, dá-se uma grande reviravolta, uma vez que o tratamento de dados deixa de ser
feito manualmente e passa, numa primeira fase, a ser apoiado por calculadoras potentes
para mais tarde ser computadorizado.
O Método Estatístico, segundo a teoria de Cramer, pressupõe as seguintes fases:
Recolha de dados estatísticos: obtenção da amostra a partir da população, devendo depurar
e retificar os dados estatísticos, que no seu conjunto são denominados série estatística.
Descrição: conjunto de operações, numéricas ou gráficas, efetuadas sobre os dados
estatísticos determinando a sua distribuição; procede-se à sua ordenação, codificação e
representação por meio de quadros e tabelas.
Análise: consiste em tirar conclusões sobre a distribuição da população, determinar o seu
grau de confiança e ainda formular hipóteses, tentando verificá-las, quanto ao fenómeno
em estudo.
Predição: é uma previsão do comportamento do fenómeno em estudo, tendo em conta a
definição da distribuição estatística.
Em termos gerais, parece-nos que uma boa definição do que é a estatística, já que resume
os conceitos dos vários autores, é:
Ciência que trata do planeamento, colheita, organização, sintetização, apresentação e
análise de dados, bem como, a obtenção de conclusões válidas e tomada de decisões em
diversos campos do saber (engenharias, saúde, biologia, farmácia, biofísica, ciencias
sociais, geografia, etc.).
Com efeito, o papel da Estatística na pesquisa científica é apoiar o investigador na
formulação das hipóteses estatísticas e fixação das regras de decisão, no fornecimento de
técnicas para um eficiente plano de investigação, na colheita, tabulação e análise dos dados
(estatística descritiva) e em fornecer testes de hipóteses a serem realizados de tal modo que
a incerteza da inferência possa ser expressa em um nível probabilístico pré-fixado
(inferência estatística) cujo valor máximo de erro mais consensual é de 5%.
Como vimos, historicamente foram muitas as definições estabelecidas para Estatística. Da
mesma forma, são muitas as definições para Bioestatística. Preferimos adotar a seguinte:
Conjunto de técnicas que permite recolher, apurar e apresentar dados para que sejam
analisados, proporcionando inferências indutivas sobre as ciências da vida.
A má utilização de dados médicos ou de outras ciências, com interpretações erróneas ou
mal-intencionadas, tem produzido um grande ceticismo em relação à estatística. Podemos
encontrar muitos professores, clínicos ou mesmo profissionais de ciências básicas, que
acham que “bom senso" é suficiente para tratar desses dados, que qualquer coisa que exija
prova estatística não pode ter valor prático ou que procurarão um matemático se tiverem
algum problema estatístico em seu trabalho.
É importante compreender, no entanto, que cada vez que se toma a média de duas leituras
de exame, por exemplo, ou o número médio de dias de internamento no hospital de
pacientes com determinada doença, se está a usar um método estatístico. Do mesmo modo,
usamos métodos estatísticos para concluir que a pressão arterial do paciente está normal ou
que um tratamento cirúrgico é melhor que outro. Deste modo, a Estatística nas ciências da

4
Estatística e SPSS

saúde constitui-se realmente nos princípios da Medicina Quantitativa. Muito das ciências
da saúde depende, direta ou indiretamente, de contagem ou mensuração. Isto é óbvio em
pesquisa e verdadeiro também no diagnóstico. Quando um profissional superior de saúde,
leva em consideração na avaliação de um tumor a sua idade e história familiar, está a
utilizar dados quantitativos, ou seja, a incidência de tumores por idade e por família.
Convencionou-se chamar de Bioestatística o conjunto de conceitos e métodos científicos
usados no tratamento da variabilidade nas ciências da saúde em especial as ciências
médicas e biológicas. A Bioestatística fornece métodos para se tomar decisões ótimas na
presença de incerteza, estabelecendo faixas de confiança para a eficácia dos tratamentos e
verificando a influência de fatores de risco no aparecimento de doenças. Dentro da área
biológica, compreende-se por Biometria a ciência que estuda as medidas de seres vivos.
A ênfase crescente do papel dos métodos quantitativos na prática da medicina torna
imperativo que o estudante de medicina assim como o profissional de saúde tenham algum
conhecimento de estatística.
O estudante aprende na escola o melhor método de diagnostico e terapêutica; depois de
formado dependerá necessariamente de trabalhos apresentados em reuniões, jornais e
revistas científicas, para aprender novos métodos de terapia, assim como os progressos em
diagnóstico e técnicas terapêuticas, psicoterapêuticas, tecnológicas….
Pode verificar que em quase todas as licenciaturas, mestrados ou doutoramentos encontra
unidades curriculares, módulos e/ ou seminários de estatística, pois um profissional deverá
:
Estar apto a avaliar por si próprio os resultados de outros pesquisadores, deverá
decidir quando uma nova técnica ou método pode substituir os antigos.
Estar apto a dar à família do paciente, ou ao próprio, bem como aos seus colegas de
trabalho, segurança quanto ao diagnóstico, o que pode depender de sua capacidade de
avaliar adequadamente os resultados de exames laboratoriais e outros, como também de
seu conhecimento sobre a relação entre a idade, sexo e outras condições do paciente e uma
determinada doença. Os novos conhecimentos virão através do trabalho de pesquisa
realizado por ele próprio ou por outros.
Ser capaz de selecionar, da massa de informações, aquelas que forem válidas e que
resistirem a testes científicos rígidos.
Desenvolver um ceticismo sadio em relação a tudo que lê. Uma noção básica é o
reconhecimento de que os indivíduos diferem não apenas uns dos outros, mas também em
relação a si próprios, de dia para dia ou mesmo de hora para hora. Uma certa quantidade de
variação é normal, mas a questão que desafia o profissional de saúde é determinar quando
uma variação específica se torna patológica (referente à doença).
Para isso, deve aprender como medir a variação em indivíduos normais e definir qual é o
limite de variação normal. Deve aprender que há algum erro aleatório presente em cada
medida ou contagem feita. é altamente improvável que duas contagens sucessivas de
glóbulos, feitas na mesma amostra de sangue, sejam idênticas. Quando, porém, uma
diferença se torna maior que o erro de mensuração? Para exercer as suas funções do
melhor modo possível, o profissional de saúde deve saber responder a questões como essa.
Para cada medida ou determinação fornecida pelo laboratório, o profissional de saúde deve

5
Estatística e SPSS

conhecer a variação que é parte do próprio método, para saber quando uma dada variação
representa uma mudança real no paciente. Sempre que novos métodos de terapia são
introduzidos, é necessário saber se são realmente superiores, isto é, mais eficientes que os
velhos métodos. Será necessário fazer-se a avaliação crítica do estudo experimental,
verificando principalmente se as medidas foram realizadas de modo a produzir resultados
fidedignos, se o fator em prova foi o único fator de diferença entre o grupo experimental e
o grupo controle, se a diferença entre os resultados obtidos nos dois grupos foi maior que
aquela que poderia ser atribuída ao acaso. Apenas depois da avaliação, através de técnicas
estatísticas adequadas, da fidedignidade dos resultados, comparabilidade dos grupos
experiência e controle e, significância da diferença encontrada é que podemos tirar as
conclusões relativas ao novo método.
O número de falhas encontradas em publicações médicas enfatiza a necessidade de uma
avaliação crítica da literatura. Para ajudar o estudante a desenvolver tal atitude são
necessários certos conceitos estatísticos básicos e uma certa familiaridade com a
terminologia mais usada. Os Métodos estatísticos são essenciais no estudo de situações em
que as variáveis de interesse estão sujeitas, inerentemente, a flutuações aleatórias. Este é o
caso da área da saúde principalmente na Medicina. Mesmo tomando-se um grupo de
pacientes homogéneos, observa-se grande variabilidade, por exemplo, no tempo de
sobrevida após um tratamento adequado. Dosagens de características hematológicas
flutuam não só entre indivíduos, como também no mesmo indivíduo em ocasiões
diferentes. Na realidade, há variações entre diferentes pacientes para qualquer variável de
interesse clínico. Portanto, para se estudar problemas clínicos, é necessária uma
metodologia capaz de tratar a variabilidade de forma adequada.
Deve-se notar, entretanto, que ao tratar um paciente, o profissional de saúde se vale da
experiência de eventos anteriores, vivenciada pessoalmente ou transmitida por outros
através de livros e artigos. Assim, a Estatística pode ser vista como ferramenta de
organização e validação do conhecimento na área da saúde.
É inegável, hoje, que a ciência busca a verdade descrevendo o universo e estabelecendo
princípios gerais para explicar os fenómenos do universo. Para tanto deve valer-se do
pensamento científico, que se estabelece ao nível de uma linguagem teórica de conceitos e
hipóteses. As hipóteses precisam ser comprovadas, quando se faz necessária a utilização de
instrumentos operacionais que explicitarão os procedimentos usados para observação e
mensuração do fenómeno. São as hipóteses estatísticas.
A passagem da hipótese teórica para a hipótese estatística poderia ser assim exemplificada:
Determinado investigador estudará a veracidade da hipótese: "Os indivíduos gordos
comem mais que os indivíduos magros". Esta hipótese encerra alguns conceitos, como:
gordo, magro e comer mais. Qualquer que seja o entendimento destes conceitos teóricos,
para se operacionalizar a comprovação desta hipótese o investigador deverá estabelecer a
maneira de medir gordo, magro e comer mais. Ou seja, como observar e medir gordo,
magro e comer mais? Uma tradução operacional destes conceitos pode ser de que gordo é
o indivíduo que apresente peso acima da faixa de normalidade no índice de massa corporal
(IMC), e magro é o indivíduo que apresente peso abaixo dessa faixa. Comer mais seria

6
Estatística e SPSS

traduzido como consumir mais calorias do que o definido como necessário pela tabela de
ingestão diária de calorias de acordo com o perfil de atividades do indivíduo.
Desta forma, a hipótese científica poderia ser enunciada como uma hipótese estatística da
seguinte forma: "Os indivíduos que apresentam índice de Massa Corporal IMC normal são
mais produtivos, do que os indivíduos que apresentam IMC abaixo do normal". Se esta
hipótese se referir a poucos indivíduos basta verificar se é verdade para estes indivíduos e a
questão estará resolvida. No entanto, para a ciência não terá muita utilidade tal observação,
uma vez que nada garante que esse acontecimento não surgiu por acaso ou que só acontece
naquele grupo apenas.
Em ciência buscam-se hipóteses mais gerais, referentes a parâmetros populacionais. Para
tanto, serão projetados e implementados planos de recolha e análise de dados que
permitirão testar a hipótese dando-lhe validade científica. Esquematicamente:
Observa-se determinado fenómeno e elabora-se uma hipótese científica que procura
estabelecer a relação entre variáveis;
A partir da hipótese científica e dentro dos conhecimentos atuais elabora-se uma
hipótese estatística que permita explorar, descrever ou explicar o fenómeno observado;
Tendo a hipótese estatística, através de uma inferência (dedutiva) deduzem-se as
consequências lógicas quanto ao que deve ser esperado empiricamente com relação à
população;
São estabelecidas as margens de erro e os níveis de confiança que permitirão uma
decisão para aceitação ou rejeição da hipótese;
A hipótese estatística será verificada através de técnicas estatísticas adequadas
definidas previamente;
A veracidade científica da hipótese induz-se (inferência indutiva), a partir dos
resultados e com base na teoria das probabilidades.
A inferência indutiva terá tanto mais significado quanto mais rigoroso for o delineamento
da colheita de dados e quanto mais apropriada for a análise estatística destes dados. As
falhas nestas fases podem implicar em que os valores encontrados não reflitam
adequadamente os parâmetros correspondentes. A inferência da hipótese estatística para a
hipótese científica será tanto melhor quanto mais adequada tenha sido a formulação dos
conceitos teóricos. Uma má formulação dos conceitos teóricos não permitirá aceitar como
verdade a conclusão matemática retirada dos teste. Pelo contrario uma formulação
adequada dos conceitos teóricos permite tirar conclusões indutivas que se transformam
num princípio, ainda que provisório. Estas serão ajustadas aos novos conhecimentos,
somando experiências que a regulem, e permitindo o contínuo ajuste do modelo à
realidade.
Ao verificar a provável (probabilidades) verdade de uma hipótese, a Estatística estabelece
o nível de erro ao aceitar ou rejeitar uma hipótese. É por isso um dos mais poderosos
instrumentos na busca da verdade científica, e o principal instrumento para generalizar
conclusões da parte para o todo.

7
Estatística e SPSS

Aula 2. Medidas de tendência central ou de posição:


Sob esta designação agrupam-se os parâmetros que, ou nos indicam algo de
associável ao núcleo ou centro da distribuição, ou nos permitem compartimentá-la. São
estes: média, moda e mediana.
 Média aritemética: ponto de equilíbrio dos dados, isto é, tendo um conjunto de n
valores x1, x2,…, xn de uma variável X, é o quociente entre a soma desses valores e o nº
deles.

 Mediana (Md): é o valor que ocupa a posição central de uma


série, logo é necessário encontrar a posição média entre os
dados, isto é, de uma série de n observações x1, x2,…, xn de uma variável X, é o valor que
ocupa a posição central quando as observações estão ordenadas por ordem crescente ou
decrescente, ou seja, é op valor dessa variável tal que a frequência dos valores que lhe são
inferiores é a mesma que a frequência dos valores que lhe são superiores. Usada quando na
amostra há valores excêntricos em relação a outros valores.
 Quando N é ímpar:
 Quando N é par:

 Moda (ou valor modal- Mo): de uma série de n


valores x1, x2, …, xn de uma variável X, é o valor onde
a frequência atinge o máximo relativo, isto é, se uma
variável é discreta, a(s) moda(s) é(são) o(s) valor(es) da variável estatística que se
observa(m) com maior frequência.

NOTAS:
 Distribuição simétrica ou não enviesada: Mo= média= Md
 Distribuição enviesada á esquerda: Mo> Md> Média
 Distribuição enviesada á direita: Mo< Md< Média
Medidas de dispersão:

As medidas de tendência central não fornecem por si só, uma informação exaustiva
da distribuição em causa, até muito pelo contrário, pois a capacidade que se lhe atribui de
representar os elementos de uma distribuição depende do modo como estes se concentram
ou dispersam em torno dela, sendo então aqui necessário o auxílio das medidas de
dispersão para permitir assim uma melhor caraterização da distribuição, pois tal como o
nome indica, são elas que irão exprimir o grau de dispersão ou variabilidade dos dados.
São elas:
 Amplitude total;

8
Estatística e SPSS

 Amplitude interquartis;
 Desvio médio;
 Desvio padrão;
 Variância;
 Coeficiente de dispersão ou de variação.

Aula 3. População e Amostra

Noções gerais

 População: conjunto de pessoas, objetos ou acontecimentos que se estão a analisar


em que cada elemento seu se denomina de Unidade estatística.
 População-alvo: elemento com qualquer caraterística em comum que estão a ser
sujeitos a uma análise estatística, por terem interesse para o estudo.

Existente/ Real

Natureza:

Hipotética
População

Finita

Nº de elementos:

Infinita

9
Estatística e SPSS

 Amostra: subconjunto da população, não tendenciosa, que se supõe ser


representativo de todas as caraterísticas da mesma, sobre o qual será feito o estudo, com o
objetivo de serem tiradas conclusões válidas sobre a população, permitindo desta forma a
generalização.
 Amostragem: procedimento pelo qual um grupo de pessoas ou um subconjunto de
uma população è escolhido com vista a obter informações relacionadas com um fenómeno,
para que toda a população em interesse esteja representada.

 Plano de amostragem: serve para descrever a estratégia a utilizar para selecionar a


amostra.
 Modalidade: toda a manifestação possível de uma variável, isto é, as várias
hipóteses de resposta.

Variáveis:

 Propriedades em relação à qual os indivíduos de uma amostra variam,


tendo por isso interesse estatístico.

 Variável estatística: aspetos (caraterísticas) que se têm em conta, ao ser efetuada


uma análise estatística.

Classificação das variáveis:

 Independentes: identifica-se com a dimensão ou a caraterística que o investigador


manipula deliberadamente para conhecer o seu impacto numa outra variável (a variável
dependente);
 Dependentes: caraterística que aparece ou muda quando o investigador aplica,
suprime ou modifica a variável independente;
 Moderadoras: fatores que são mediados, manipulados ou selecionados pelo
investigador para verificar se afetam a relação entre a variável independente e um
fenómeno observado;
 Controle: fatores que são controlados pelo investigador para inibir ou neutralizar
qualquer efeito que possam ter no fenómeno observado;
 Parasitas: qualquer fator que, teoricamente, afeta o fenómeno observado, mas não
pode ser visto, medido ou manipulado.

10
Estatística e SPSS

Quantitativas

Ordinais

Nominais

Natureza das variáveis:

 Qualitativas: a natureza da variável varia de elemento para elemento;

Nominais: Ordinais:
Quando o seu significado só se entende em Quando existe uma
função do nome e o número ou código que se ordenação possível.
lhe atribua não nos dá nenhuma informação.
(dicotómicas ou politómicas)

 Quantitativas: a intensidade da variável varia de elemento para elemento;

Discretas:
Assumem valores isolados, normalmente
Continuas:
inteiros. É possível qualquer
operação aritmética, podendo
assumir qualquer valor real

Tipos de estatística:

 Estatística descritiva: Recolhe, organiza e


analisa os dados de uma amostra, sem retirar
qualquer conclusão sobre um grupo maior.

 Estatística indutiva: Recolhe, organiza,


analisa e estabelece relações entre os dados para
fazer inferências sobre a população e,
consequentemente, chegar a leis e teorias (dando a
descritiva um apoio a esta tarefa).

11
Estatística e SPSS

 Parâmetro: toda a função definida a partir dos dados numéricos de uma população.
Ex: resultado de uma média

 Dado estatístico: toda a função definida a partir dos dados numéricos duma amostra.
Ex: resultado de uma média é um dado estatístico.

Pode-se assim concluir que o parâmetro está para a população, assim como o
dado estatístico está para a amostra!

12
Estatística e SPSS

Aula 4. Usar o SPSS para organizar e mostrar os dados:

1) Iniciar programa SPSS for Windows. Aparecerá o ecrã de abertura do SPSS.


2) Pressionar em Type in data para proceder á abertura de uma nova janela (caso se
pretenda abrir uma já existente deve pressionar-se open file e selecionar o ficheiro
pretendido). Passará de imediato ao editor de dados, que funciona de forma semelhante a
uma folha de cálculo.

No SPSS o ficheiro de dados corresponde a uma matriz na qual as colunas


correspondem ás variáveis e as linhas aos indivíduos. Cada célula corresponde a uma
observação da variável correspondente.
O editor de dados é composto por duas folhas: uma que se designa por Data View
(onde se procede à introdução dos dados) e outra que se designa por Variable View (na
qual se estrutura o ficheiro de dados, explicitando os nomes das variáveis e as suas
caraterísticas.

13
Estatística e SPSS

 Name: define-se nesta coluna o nome da variável.


 Type: Numeric.
 Width: número de dígitos (8).
 Decimals: Número de casas decimais apenas é considerada uma casa decimal para a
variável nível de ferro.
 Label: Descrição da variável, que surgirá sempre que, estando no Data View, passar
com o rato no topo das variáveis, bem como nos gráficos e tabelas solicitados.
 Values: De enorme importância aquando da presença de variáveis qualitativas, pois
é nesta coluna que são definidos os códigos e a designação das respetivas categorias de
cada variável.

14
Estatística e SPSS

A variável dieta equilibrada pode assumir


dois valores ou categorias (1=”Sim” e
2=”Não”).
A variável intensidade dos treinos pode
assumir três valores ou categorias,
nomeadamente: 1=”Baixa”, 2=”Moderada” e
3=”Elevada”).

 Missing: Possibilita a codificação e


tratamento de valores omissos na base de
dados. Neste ficheiro não há valores omissos,
pelo que não se altera esta coluna.
 Columns: Permite definir a dimensão
da coluna de cada variável.
 Align: Permite definir o alinhamento dos dados.
 Measure: Permite a identificação da escala de medição das variáveis. O SPSS
considera apenas três escalas de medição das variáveis: nominal, ordinal e métrica (scale).
Esta escala agrega as duas escalas para variáveis quantitativas, a de intervalo e a de razão.
3) Depois de criado o ficheiro são introduzidos os dados disponíveis, obtendo-se a base
de dados seguinte.
4) Representação sob a forma de tabela de frequências e representações gráficas.
AnalyzeDescriptive Statistics Frequencies
 Selecionar a variável;
 Marcar Display frequency tables;
 Em Charts escolher Bar charts e Continue.

15
Estatística e SPSS

5) Visualização dos dados do output gerado


intensidade dos treinos
Frequency Percent Valid Percent Cumulative
Percent
Valid baixa 5 50,0 50,0 50,0
moderada 2 20,0 20,0 70,0
elevada 3 30,0 30,0 100,0
Total 10 100,0 100,0

nível de ferro (mg)


Frequency Percent Valid Percent Cumulative
Percent
Valid 7,8 1 10,0 10,0 10,0
9,9 1 10,0 10,0 20,0
10,5 1 10,0 10,0 30,0
11,0 1 10,0 10,0 40,0
14,3 1 10,0 10,0 50,0
14,5 1 10,0 10,0 60,0
15,4 1 10,0 10,0 70,0
15,9 1 10,0 10,0 80,0
20,8 1 10,0 10,0 90,0
27,0 1 10,0 10,0 100,0
Total 10 100,0 100,0

 Sendo a variável nível de ferro quantitativa contínua e assumindo tantos valores


diferentes, a respetiva tabela de frequências, tal como é apresentada, revela ser pouco
funcional, não facilitando uma leitura rápida da informação. Para ultrapassar esta questão
dever-se-á proceder á categorização da variável, ou seja, à transformação da variável em
variável qualitativa organizada em classes.
 Vamos considerar, a título de exemplo, que se constroem duas classes a partir dos
dados de que dispomos. A primeira classe congrega os indivíduos com valores do nível de
ferro menores ou iguais a 14,7 mg (valor correspondente ao valor da média do nível de
ferro). A segunda integra indivíduos com valores do nível de ferro superiores a 14,7 mg.
Esta operação realiza-se do seguinte modo no SPSS.

16
Estatística e SPSS

Aula 5. Transformação dos dados


6) Para proceder á transformação de variáveis: TransformRecode Into diferente
Variables
Neste menu importa identificar a variável
que se pretende classificar (nivelferro),
atribuir à nova variável um nome
(classes_ferro), atribuir um label (nível de
ferro-classes) e depois pressionar o botão
Old and New Values.

É nesta janela que se dá indicação ao SPSS


do critério a seguir para a constituição das
classes. Neste exemplo, atribuímos à 1ª
classe o código numérico 1, associando-o aos
indivíduos com valores de nível de ferro
menores ou iguais a 14,7 mg. O
procedimento é o mesmo para definir a 2ª
classe. Por fim pressionamos o botão
Continue.
É acrescentada à base de dados
original uma nova variável
(classes_nferro). Esta variável não está
ainda configurada. Para tal é necessário
recorrer à folha variable view.Pode agora
considerar-se o número de casas decimais
igual a zero, preencher a coluna values
com os respetivos códigos e por fim
designar corretamente a escala de medida da variável (ordinal).

17
Estatística e SPSS

O resultado da formatação efetuada é o seguinte

7) Por fim pode representar-se a distribuição


de frequências da nova variável através de uma
tabela de frequências, conforme surge
seguidamente

8) (cujo procedimento já foi descrito


anteriormente):

nível de ferro (classes)


Frequency Percent Valid Percent umulative
Percent
Valid [0 ;14,7] 6 60,0 60,0 60,0
[14,8 ;30] 4 40,0 40,0 100,0
Total 10 100,0 100,0

9) As representações gráficas executam-se de acordo com os procedimentos descritos


de seguida:

 Gráfico circular
1. Graphs Legacy DialogsPieSummaries for groups of casesDefine
2.

3. Destes procedimentos resulta a representação gráfica seguinte:

18
Estatística e SPSS

 Histograma

Graph Legacy Dialogs Histogram inserir variável nível de ferro (mg) OK

 Obtém-se então o seguinte gráfico:

19
Estatística e SPSS

Transformação através do visual binning


 Para criar uma nova variável:
1) Transform Visual Binning
2) Selecionar variável education level;
3) Continue

Introdução do nome “habilitações” à nova variável;

20
Estatística e SPSS

4) Criação das classes:

Se selecionar exclude e inserir os valores


 9=
 12=
 15=
 17=
 High=
Se clicar em make labels aparece
 9= <9
 12= 9-11
 15= 12-14
 17= 15-16
 19= 17-18
 High= 19+
Não esquecer que se selecionar Included a transformação inclui o valor colocado

21
Estatística e SPSS

5) Variável “habilitações” criada e visível em Data View

 Em Variable View:

22
Estatística e SPSS

Aula 6. Representações gráficas para diferentes tipos de variáveis

Na escolha da representação gráfica a utilizar, é fulcral ter em conta a natureza e


escala de medição da variável e o objetivo da representação gráfica (o que se pretende
evidenciar).
 Representações gráficas para variáveis qualitativas ou quantitativas Discretas
Gráfico de Barras
Para representar a distribuição de frequências, absolutas ou relativas, de uma variável
qualitativa ou quantitativa discreta pode utilizar-se o gráfico de barras. Este tem como
referência dois eixos. No eixo das abcissas são representados os valores (ou categorias, no
caso de variáveis qualitativas) da variável. No eixo das ordenadas são representadas as
respetivas frequências (absolutas ou relativas) de ocorrência dos valores observados. A
largura das barras é igual para todas as categorias ou valores e a altura é proporcional à
frequência observada.
O espaço existente entre as barras adjacentes evidencia a natureza qualitativa ou
quantitativa discreta da variável.
Gráficos Circulares
Esta representação gráfica é particularmente utilizada na representação da
distribuição de frequências de variáveis qualitativas. A sua funcionalidade diminui quando
os valores que uma variável pode assumir são em número elevado.
Os gráficos circulares estão divididos em áreas proporcionais à frequência da
categoria que representam. O círculo representa a totalidade das observações.
Habitualmente, estes gráficos evidenciam as frequências relativas (em percentagem)
e usam-se quando o número de categorias é pequeno (não superior a 10).
Diagrama em escala integral
À representação gráfica das frequências acumuladas (absolutas ou relativas) dá-se o
nome de diagrama em escada ou digrama integral.
A altura de cada degrau corresponde à frequência registada (absolutas ou relativas)
para o valor considerado da varável. As descontinuidades ocorrem nas abcissas dos pontos
onde surgem os saltos, pelo que a função cumulativa é contínua à direita nesses pontos.

 Representações gráficas para variáveis quantitativas contínuas


As representações gráficas mais habituais para frequências simples da distribuição de
uma variável contínua são os histogramas, os polígonos de frequências, o polígono
integral ou os gráficos de linhas, estes últimos mais utilizados nas representações gráficas
de séries temporais.

23
Estatística e SPSS

Histograma
O histograma permite representar graficamente a distribuição de frequências de uma
variável contínua. No eixo horizontal representam-se as classes e no eixo vertical as
frequências absolutas ou relativas. Utilizam-se barras com área proporcional à frequência
da classe correspondente. As barras são contiguas para evidenciar a continuidade da
variável, tendo uma fronteira comum.
Considerando classes com igual amplitude cada barra tem a mesma base igual a a e altura
igual à respetiva frequência (relativa ou absoluta). A área total do gráfico é igual à soma de
cada uma das barras. A área de cada uma das barras e igual ao produto da largura pela sua
altura.
Refira-se que quando se trabalha com variáveis continuas a amplitude das classes extremas
não está, muitas vezes, definida. Nestes casos, convenciona-se que estas classes têm a
amplitude das classes adjacentes
Polígono de frequências
Os polígonos de Frequências são gráficos de linhas que são obtidos unindo
sucessivamente, por segmentos de reta, os pontos médios dos topos dos retângulos do
histograma que representa as frequências relativas. O polígono de frequências é uma das
representações gráficas que possibilita uma fácil e rápida comparação de duas ou mais
distribuições de frequências de variáveis continuas.
Para a construção de um polígono de frequências acrescentam-se dois segmentos
terminais ao polígono de frequências. Estes novos segmentos são obtidos unindo os
vértices extremo, da linha poligonal já obtida, aos vértices de duas classes adicionais, cada
uma com amplitude igual ás restantes, frequência nula, sendo uma adjacente á primeira
classe e a segunda adjacente à ultima. Deste modo, o número total de vértices do polígono
de frequências é igual ao número de classes acrescido de duas unidades. A área abaixo do
polígono de frequências é deste modo, igual à área correspondente à soma das áreas das
barras.

Um polígono de frequências acumuladas ou polígono integral é representado com


base nas frequências relativas acumuladas. Neste caso, admite-se que a distribuição dos
elementos dentro das classes se faz de uma forma uniforme, o que origina no intervalo de
valores de uma mesma classe, uma representação linear.
A representação prática do polígono integral é feita unindo o conjunto dos pontos
cujas abcissas são os limites superiores das classes, e as ordenadas as correspondentes
frequências relativas acumuladas. A este conjunto acrescenta-se um ponto à esquerda cuja
abcissa é o limite inferior da primeira classe e cuja ordenada é zero. Finalmente, obtém-se
o polígino de frequências acumuladas unindo estes pontos por segmentos de reta e
prolongando-a nas extremidades, por linhas horizontais.

24
Estatística e SPSS

Construção de um Gráfico de Barras no SPSS


Aquando na presença de variáveis qualitativas ou quantitativas discretas:
-Baseada na variável eco da base de dados fornecida no exercício 3, página 48 do livro
“Estatística Aplicada às Ciências e Tecnologias da Saúde”

1) Analyze Descritive Statistics Frequencies


2) Selecionar a variável pretendida e adicionar á coluna Variable(s);
3) Desativar a seleção Display frequency tables;
4) Charts Bar Charts Continue OK

Obtém-se então o gráfico no Output, podendo depois tratar-se as caraterísticas a gosto:

25
Estatística e SPSS

Aula 7. Análise descritiva: média, Mo e Md em SPSS


1) Caraterizar a amostra devidamente;
2) Distribuição da amostra relativamente às habilitações (ordinal), ao sexo (nominal) e
ao salário atual (quantitativa).
3) Analyze Frequencies;
4) Selecionar a variável que pretendemos estudar (salário atual);
5) Desselecciona-se a opção Display frequencie tables, visto a variável escolhida ser
quantitativa ;

6) Seleciona-se as medidas que pretendemos estudar.

Charts Histograma Continue.

26
Estatística e SPSS

7) Visualização do Output gerado:

A curva tem uma distribuição ligeiramente assimétrica para a direita, uma assimetria
positiva, onde: média > mediana > moda

Nota: Quando se altera de variável quantitativa para qualitativa, ou vice-versa, é


necessário fazer o reset dos dados para evitar um possível viés nos resultados.

27
Estatística e SPSS

 Não é possível fazerem-se descritivas, contudo, já se pode fazer a tabela das


frequências, que na variável anterior não era possível!
A variável sexo e a variável habilitações são ambas variáveis qualitativas, logo

8) Visualização do Output gerado:

 Para ver as descritivas das duas variáveis quantitativas: variáveis “meses de


trabalho” e “experiência prévia”?
1. Analyze Descriptive Statistics descriptives

28
Estatística e SPSS

(NOTA: este menu usa-se apenas para variáveis quantitativas)


2. Selecionar as variáveis de interesse.
3. Visualização do Output obtido:

29
Estatística e SPSS

Aula 8. Estatística Paramétrica e Não Paramétrica


 Há 2 tipos de estatística
1. Paramétrica *
2. Não paramétrica

Não Paramétrica: Considera se certos resultados são superiores ou inferiores a outros


resultados.
*Paramétrica: Calcula as diferenças numéricas exatas entre os resultados.
No entanto, sempre que se pretende empregar a estatística paramétrica existe uma lista de
requisitos que têm de ser verificados e respeitados, nomeadamente:
1. Variável direta tem de ser quantitativa (no caso das correlações de variável direta e
indireta);
2. Ser simétrica (largura);
3. Ser mesocúrtica (com exceção do T de Student);
4. Ter distribuição normal (só se puder aceitar a H0).

Nota: A demonstração experimental em contexto de como verificar os pré-requisitos vai


ser feita em simultâneo com a aula prática que se encontra de seguida.

 Verificação do 2º pré- requisito - Ser simétrica:


1) Analyse Descriptive Statistics Explore
Aula prática

Usar o SPSS Para verificação dos pré-requisitos da estatística paramétrica e o


uso do R de Pearson:
1) Abrir SPSS;
2) FileOpenDataDocument(c) Program File x86Diet StudyOpen

30
Estatística e SPSS

3) Hipótese proposta: Verificar a existência ou não de correlação entre a variável tg0


e wgt0.
 Como ambas as variáveis são quantitativas, mas não são dados emparelhados (isto é,
não é a mesma variável medida duas vezes mas em tempos diferentes) e é para se verificar
a existência de uma correlação, exclui-se de imediato os testes T de Student para dados
Emparelhados, o W de Wilcoxon e o Anova para Medidas repetidas, sobrando então duas
opções: o R de Pearson e o seu correspondente não paramétrico Rho de Spearman.

 Observado isto, é necessário então proceder-se ao “teste dos pré-requisitos” para


verificar se estamos perante estatística paramétrica ou não paramétrica.

4) Verificação de pré-requisitos no SPSS:


2) Analyse → Descriptive Statistics → Explore
3) Inserir na janela Depend List as variáveis Quantitativas (caso existam
qualitativas deve-se colocá-las na janela Fator list).
4) Plots desseleccionar Stem-and-leaf, selecionar Histogram e Normality
Plots with tests

5)  ContinuePaste.Obtém-se então a Syntax:

31
Estatística e SPSS

NOTA: Para se tirar apontamentos na Syntax, começa-se sempre com um * e terminamos com um ponto final.

1. Seleciona-se tudo e clica-se em Run Selection;


2. Obtém-se então o seguinte Output:
3. Verificar se é simétrica;

Para se verificar a simetria da distribuição, é necessário proceder-se á divisão do coeficiente de simetria


(Skewness) pelo erro padrão e o seu resultado deve estar compreendido entre -2 e 2.
 Triglicerídeos:
-0.004/0.564=0.007
 Peso:
0.113/0.564=0.201
-Conclusão: Como os resultados estão compreendidos entre 2 e -2, a distribuição é simétrica.
Simetria Graficamente: Histograma:

32
Estatística e SPSS

1. Boxplot ou Gráfico de Bigodes:

Podemos observar que não há valores fora da caixa- outliers, permitindo-nos assim
concluir que a distribuição é simétrica.

 Verificar se é Mesocúrtica;

Para se verificar se uma variável é mesocúrtica, é necessário proceder-se á divisão do coeficiente de


achatamento (Kurtosis) pelo erro padrão e o seu resultado deve estar compreendido entre -2 e 2.
 Triglicerídeos:
-1.265/1.091=-1.159
 Peso:
-1.318/1.091=-1.208
-Conclusão: Como os resultados estão compreendidos entre 2 e -2, a distribuição é mesocúrtica.

33
Estatística e SPSS

 Ter distribuição normal:


 Visualiza-se através do teste Shapiro-Wilk, pois a amostra tem menos de 50 casos e
só se recorre ao teste de Kolmogorov- Smimov se a amostra tivesse mais de 50 casos.
 Se Sig for menor ou igual a 0.05 rejeita-se a homogeneidade, admitindo assim que
elas t~em diferenças, não tendo uma distribuição idêntica e semelhante, ou seja, rejeita-se a
H0.

Conclusão: como o Sig é superior a 0.05, aceita-se a a H0 e diz-nos que a variável tem
distribuição normal. Podendo-se usar então o R de Pearson.

NOTA: Caso os resultados de um teste paramétrico não estejam de acordo com os pré-
requisitos (mínimo dados intervalares, distribuição simétrica, mesocúrtica e normal), estes
não têm, interpretação significativa, optando, neste caso, a maior parte dos investigadores,
por testes de significância não paramétricos, que podem ser usado mesmo quando os dados
são medidos num nível ordinal ou até mesmo quando são nominais.

34
Estatística e SPSS

Aula 9. Estatística Bivariada


 Correlação:
È medida a relação entre variáveis, quando estas são quantitativas ou também as
ordens de variáveis, como nas ordinais. Se ambas as variáveis, dependente e independente,
forem quantitativas e cumprirem com os restantes requisitos da estatística paramétrica,
vistos anteriormente, pode então aqui utilizar-se o R de pearson, como foi verificado no
caso anterior, permitindo-nos assim verificar se há relação entre a ingestão de triglicerídeos
no início do estudo e o aumento de peso num mesmo indivíduo.
Para todos os dados estatísticos processados em SPSS, o Sig tem a seguinte
significância:
 Se sig <0.001 – muito significativo (rejeito hipótese nula)
 Se sig <0.01 – muito significativo (rejeito a hipótese nula)
 Se sig <0.05 – significativo – rejeito hipótese nula
 Se sig 0.05 -0.1 tendencialmente significativo, mas aceita-se h0 (hipótese nula)
 Se sig >0.05 não existe a relação entre as variáveis, aceita-se h0.

Mediante isto, só existe correlação estatisticamente significativa entre as variáveis em


causa se o valor de Sig for inferior a 0.05.
Na Estatística Bivariada, aceita-se a hipótese nula, H0, quando as variáveis são
independentes, não existindo relação entre as duas; rejeita-se Ho quando as variáveis são
dependentes.
 R de Pearson no SPSS:
1. AnalyzeCorrelate Bivariate

35
Estatística e SPSS

2. Seleciona-se as variáveis em interesse

3)Visualização do Output:

Conclusão: Como sig superior a 0.05, não existe relação entre as variáveis.

 Teste do Qui-Quadrado da Aderência (x2):


Teste não paramétrico usado aquando da presença de apenas uma variável, consistindo
na comparação dos dados obtidos experimentalmente, com os esperados de acordo com a
lei.

 Uma variável
 Variável qualitativa nominal

Procedimento:

1) Analyze Non parametric testsLegacy DialogsChi-square

36
Estatística e SPSS

Verifique se existe alguma distribuição homogénea entre homens e mulheres a


trabalharem na sua área de formação.

A variável gender não surge com as outras variáveis, devido ao facto de ser do tipo
“string” e não do tipo “numérico”, pelo que, se terá de proceder á sua transformação para
que seja possível a seguimento do processo.

37
Estatística e SPSS

2) Transform Recode into Different Variable

3) Selecionar Old and New Values;

4) nserir os números 1e 2 para definirmos, respetivamente, o sexo feminino e o


masculino (1=female; 2=male). O SPSS faz distinção entre maiúsculas e minúsculas.

Variável transformada, sendo necessário dar os valores à nova variável.

38
Estatística e SPSS

Pode então retomar-se a execução do teste.


5) Volta-se a repetir o procedimento, mas desta vez já surge a variável.

6) Paste run

7) Visualização do Output:

39
Estatística e SPSS

Como Sig: 0.054>0.05, logo aceita-se a hipótese nula, o que nos permite concluir que
não existem diferenças estatisticamente significativas entre a distribuição de homens e
mulheres a trabalharem no sector da nutrição, não se podendo desta forma dizer se esta
profissão é significativamente mais feminina ou masculina.

Hipótese: Saber se há uma distribuição diferente em função dos anos de


escolaridade (nível de educação em anos).
 Variável quantitativa;
Distribuição simétrica:
1. Analyze Descriptive Statisticsexplore;

2. Selecionar variável e clicar em plots

40
Estatística e SPSS

3. Visualizar Output gerado:

4. Verificação dos pré-requisitos.


Copia-se a tabela no output e recorrendo ao Excel podemos colar a tabela e aí dividir o
Skewness pelo seu erro padrão e também a Kurtosis pelo seu erro padrão, facilitando os
cálculos.

Tests of Normality

41
Estatística e SPSS

a
Kolmogorov-Smirnov Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
Educational Level (years) ,210 474 ,000 ,906 474 ,000

Conclusão: Para testar esta hipótese estudou-se uma amostra cujo número de casos é
superior a 50, devendo por isso analisar-se os dados referentes ao Kolomogorov- Smimov.
Como o valor de Sig é inferior a 0.05, a variável não apresenta distribuição normal, tendo
então de se usar o equivalente não paramétrico.

42
Estatística e SPSS

Aula 10. Testes de Hipóteses:


Hipótese 1: Existem diferenças de anos de escolaridade em função da categoria
profissional.
Neste caso verifica-se que existem mais de duas amostras de dados independentes
(3 categorias: Estagiário, Contratado e Chefia), remetendo assim para os testes H de
kruskal- Wallis e o Anova. Como remete para diferenças entre médias, a categoria
profissional tem: estagiário/aprendiz contratados e chefias, como são independentes e não
é paramétrico como se comprovou anteriormente, terá de ser o H de Kruskal-Wallis.

1. Analyze  Nonparametric tests  Legacy Dialogs  K independent samples

2. Selecionar as variáveis pretendidas;

 Em Test Variable Level coloca-se sempre a variável quanditativa (anos de escolaridade);


 Em Grouping Variable Coloca-se sempre a variável qualitativa (Categoria profissional).

43
Estatística e SPSS

3. Preenchimento dos espaços referentes ao máximo e ao mínimo da categoria


profissional (mín.1- porque existe no mínimo 1 categoria profissional e no máximo 3
porque no total existem 3 categorias profissionais);
4. Visualizar o Output gerado:
Ranks

Employment Category N Mean Rank


Educational Level (years) Clerical 363 206,43
Custodial 27 95,89
Manager 84 417,27
Total 474

a,b
Test Statistics
Educational Level
(years)
Chi-Square 209,516
df 2
Asymp. Sig. ,000

Conclusão: Como Sig<0.05, rejeita-se a hipótese nula, concluindo-se então que a hipótese
1 verifica-se, ou seja, há diferenças de anos de habilitações literárias em função da
categoria profissional ocupada, sendo isto comprovado pela análise das tabelas anteriores,
pois verifica-se que os estagiários e as chefias têm maior grau de habilitações literárias
quando comparados com os contratados.~

Hipótese 2: Quanto maior a escolaridade, maior a categoria profissional.


Neste exemplo pretende-se conhecer uma correlação, nomeadamente entre os anos de
escolaridade e a profissão, sendo que os testes de correlação conhecidos são o R de
Pearson e o RHO de Spearman. Como não pode ser o teste paramétrico, terá então de ser o
RHO De Spearman.
1. Menu Analyze  Correlate  Bivariate;

44
Estatística e SPSS

2. Selecionar ambas as variáveis para a lista.


Mudar o visto para: Pearson
3. Fazer paste e run
4.

5. Visualizar o Output gerado:


Correlations
Educational Employment
Level (years) Category
**
Spearman's rho Educational Level (years) Correlation Coefficient 1,000 ,484
Sig. (2-tailed) . ,000
N 474 474
**
Employment Category Correlation Coefficient ,484 1,000
Sig. (2-tailed) ,000 .
N 474 474
**. Correlation is significant at the 0.01 level (2-tailed).

Conclusão: Como o valor de sig é nulo e inferior a 0.05 significa que existe correlação,
pois rejeita-se a H0, tendo esta valor de 0.484 que segundo Bryman e Cramer é
considerada uma correlação moderada (pois 0,4<0,4840,69) entre a escolaridade e a
categoria profissional ocupada. Para além disso, como o coeficiente de correlação é
positivo, podemos ainda dizer que quanto maior for o cargo exercido, maios será o grau de
escolaridade do indivéduo em causa, estabelecendo assim uma relação de
proporcionalidade direta.
A intensidade ou força varia entre -1 e 1. Se a correlação for zero não existe correlação
entre as variáveis.
Em modúlo, segundo Bryman e Cramer, a correlação pode ser definida como:
 0,2 Correlação muito fraca e sem significância
 0,2<r0,39 Correlação fraca
 0,4<r0,69 Correlação moderada
 0,7<r0,89 Correlação forte
 0,9<r1 Correlação muito elevada

NOTA: A direção da “evolução” é nos indicada pelo sinal “+” ou “-“.

45
Estatística e SPSS

Hipótese 3: Em termos proporcionais, as chefias têm habilitações literárias mais


elevadas.
Neste último caso, visto estar-se a falar de uma diferença de proporções entre duas
variáveis qualitativas ordinais, nomeadamente a variável chefias e a variável habilitações
literárias, o teste utilizado deverá ser o Teste do Qui-Quadrado da Independência.
1. Analize  Descriptive Statistics  Crosstabs

2. Selecionar as variáveis.

3. Statistics: Colocar visto em Chi-square

46
Estatística e SPSS

4. Cells: Selecionar Observed e Column Continue

5. Visualizar o Output gerado:

Conclusão: Visto o valor do Sig ser nulo e inferior a 0.05, rejeita-se H0, admitindo-se
assim que existem diferenças entre as variáveis, aceitando-se desta forma a hipótese
experimental, ou seja, as chefias têm habilitações literárias mais elevadas.

 A maioria são licenciados (46,4%), existindo também uma quantidade significativa


de indivíduos com doutoramento (34,5%) na categoria de “manager”;
 As categorias de “contratado” e de “estagiário” é constituído essencialmente por
pessoas com o 3º ciclo (48,1% e 50,1% respetivamente), existindo também uma diferença
significativa na quantidade de licenciados nestas categorias.

47
Estatística e SPSS

Aula 11. Testes paramétricos:


Suponhamos que a nossa variável “ anos de escolaridade” tivesse distribuição normal.
Neste caso, trabalharíamos com os testes paramétricos para testar todas as hipóteses.
Teste ANOVA
No caso da hipótese 1 teríamos de utilizar este teste.
1. Analyze  Compare Means  Oney-Way ANOVA
2. Selecionar as variáveis pretendidas.

Variável Quantitativa

Variável Qualitativa

3. para o caso de existirem diferenças significativas temos de proceder às comparações


à posteriori – Post-Hoc.

~
4. Selecionar Post Hoc  Colocar visto no teste Tukey (Moderado) se pretender um
teste moderado, no LSD se liberal ou no Sheffé se necessitar de um teste conservador.

48
Estatística e SPSS

5. Porque a anova exige homogeneidade da variância ainda temos que selecionar:


Option  selecionar Homogeneity of variance test (para além de outros que considerar
necessários como o Descriptive) Continuepaste

6. Visualizar o output gerado.

49
Estatística e SPSS

Conclusão: O valor do Sig é inferior a 0,05, logo rejeita-se a HO. Como se rejeita a HO
dizemos que existem diferenças entre os anos de escolaridade em função da categoria
profissional. O teste post-hoc revela que as diferenças são entre qualquer cruzamento das
variáveis.

Teste T de Student para dados Independentes


Hipótese 5: Verificar se existem diferenças entre o nível de escolaridade e o sexo.
1. Analyze  Compare Means  Independent-Samples T Test

2. Selecionar as variáveis prentendidas.


Variável Quantitativa

Variável Qualitativa

3. Selecionar Define Groups


4. Inserir código numérico da variável que colocou neste campo: 1-feminino e 2-
Masculino

5. Visualizar o output gerado.

50
Estatística e SPSS

Conclusão: O valor do Sig é inferior a 0,05, logo rejeita-se a H0. Como se rejeita a H0
dizemos que existem diferenças entre os anos de escolaridade em função da categoria
profissional. Os homens (14,43), em média, possuem mais escolaridade que as mulheres
(12,37), logo rejeita-se a hipótese experimental.

Teste T de Student para amostras Emparelhadas


Hipótese 6: Verificar se existem diferenças entre o salário atual e o salário anterior
(progressão na carreira).
1. Analyze  Compare Means  Paired-Samples T Test

2. Selecionar: Variável 1-Salário Inicial; Variável 2- Salário atual e passar para a


coluna Paired Variables

3. Visualizar output gerado.

51
Estatística e SPSS

Conclusão: O valor do Sig é nulo e inferior a 0,05, rejeita-se a H0. Como se rejeita a HO
dizemos que existem diferenças entre o salário inicial e o atual de um trabalhador, havendo
portanto uma progressão.

52
Estatística e SPSS

Aula 12. *Estatística Não Paramétrica


Quando os dados não respeitam as premissas básicas que embaçam os procedimentos
estatísticos, deve utilizar-se a estatística não paramétrica, como por exemplo quando não
nos é permitido assumir a normalidade e, noutros casos, quando os dados que dispomos
não nos permitem calcular a média (quando, por exemplo, os dados são ordinais).
No entanto, este é um tipo de estatística que apresenta menor sensibilidade a erros de
medida e rápidos para pequenas amostras, é também menos poderoso do que a técnica
paramétrica que lhe é correspondente e são testes que não aproveitam toda a informação
disponível sobre a distribuição de dados por usarem postos em vez do valor da observação
(o posto de uma observação é a posição relativa ás demais observações, quando os dados
estão em ordem crescente, tendo desta forma apenas em conta se certos resultados são
superiores ou inferiores a outros resultados.
O teste de H de Kruskal-Wallis é utilizado para comparar três ou mais amostras
independentes e podemos assumir que elas são de populações com o mesmo formato, não
necessariamente Normal, podendo ser usado com dados ordinais, intervalares ou
proporcionais
Se tanto a nossa variável dependente quanto a independente forem nominais e se se
pretender conhecer a associação entre elas pode recorrer-se ao qui-quadrado da
independência. No caso de ambas serem ordinais, utiliza-se o rho de spearman.
Teste W Wilcoxon
É o equivalente não paramétrico do teste t de student para amostras emparelhadas,
sendo usado em particular aquando da presença de medições repetidas de uma amostra,
mas a população original não tem necessariamente o formato de uma Normal, podendo ser
usado com dados ordinais, intervalares ou proporcionais

No SPSS:
1. AnalizeNon Parametric Tests Legacy Dialogs2 Related Samples

53
Estatística e SPSS

2. Seleciona-se as variáveis desejadas;

3. Em Test Type seleciona-se WilcoxonOK


4. Analisa-se o Output obtido.

Teste U de Mann-Whitney
É o equivalente não paramétrico do teste t de student para amostras independentes,
podendo-se utilizar para testar a hipótese nula que afirma que as médias populacionais são
as mesmas para os dois grupos, não exigindo que as populações tenham a mesma
variância, sendo então usado em designs com duas situações, não-relacionado, quando são
utilizados sujeitos diferentes em cada uma das situações experimentais.
No SPSS:
1. AnalizeNon Parametric TestesLegacy Dialogs2 Independent Samples

54
Estatística e SPSS

Adiciona-se as variáveis em causa;

Variável Quantitativa

Variável Qualitativa

2. Em Test Type seleciona-se Mann-Whitney U;


3. Selecionar Define Groups

4. Inserir código da variável qualitativa: 1-… e 2-…


5. Continue.
6. Visualização do Output gerado.

Exercício: Ao longo do portefólio, algumas tarefas realizadas com a base de dados do SPSS
“employee data” com a variável “Education Level”, ela nem sempre está bem classificada.
Porquê? __________________________________________________________________
__________________________________________________________________________

55
Estatística e SPSS

Aula 13. Do SPSS ao EXCEL e do EXCEL ao SPSS


Do spss para o excel basta guardar como e escolhe o tipo de ficheiro excel e pronto jáa
está
Também pode fazer através do copiar e colar.
Mas do EXCEL para o SPSS, a primeira etapa é a organização dos dados, na primeira
linha devem estar as variáveis e na primeira coluna os casos. Os casos, na maioria das
vezes, estarão separados por linhas. Assim, cada linha representará um caso.
Como o SPSS é um software que prefere dados numéricos, o melhor é ter os atributos
das suas variáveis em números (por exemplo substituir sim por 1 e não por 2).
MUITO SIMPLES.
Que quiser fazer gráficos no EXCEL a partir de tabelas do SPSS, basta copiar do
output e colar no EXCEL, depois é pedir e trabalhar os gráficos desejados.

56