Escolar Documentos
Profissional Documentos
Cultura Documentos
Olivroqueexplicaaestatisticaem 13 Aulas
Olivroqueexplicaaestatisticaem 13 Aulas
Olivroqueexplicaaestatisticaem 13 Aulas
net/publication/263426057
O livro que explica a estatística que precisa em 13 aulas IBM-SPSS & Excel
CITATIONS READS
0 22,248
1 author:
Margarida Pocinho
Escola Superior de Tecnologia da Saúde de Coimbra / Instituto Politécnico de Coimbra
83 PUBLICATIONS 138 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
Riscos psicossociais em docentes do ensino superior. Comparativo entre instituição pública e privada de ensino. View project
All content following this page was uploaded by Margarida Pocinho on 25 July 2014.
Teoria e prática
MARGARIDA POCINHO
ESCOLA SUPERIOR DE TECNOLOGIA DA SAÚDE DE COIMBRA
INSTITUTO SUPERIOR MIGUEL TORGA
Hipótese: ......................................................................................................................................... 40
1
Estatística e SPSS
Aula 1. Introdução
A Estatística é uma ciência que recolhe, ordena, analisa e interpreta os dados de um grupo
de indivíduos (sejam eles uma amostra ou uma população -censo), prescindindo das
palavras e recursos literários, sendo então feita através de uma “linguagem numérica”
expressiva e cheia de força e impacto (teoria das probabilidades), da qual faz referência das
generalizações, com a finalidade de inferir para a população ou prever a evolução de
determinado fenómeno.
Esta é uma parte essencial para o dia-a-dia de qualquer individuo, na medida em que é
imprescindível para o treino profissional e formação, atividades de investigação pessoal e
para interpretação de literatura científica, funcionando assim como uma “evidência”
científica que irá permitir a prática clínica e que ajudará na perceção do impacto e
importância daquilo que se diz e faz.
Mediante isto, este manual tem por fim fornecer conhecimentos estatísticos (sem ter
muitos conhecimentos matemáticos) e ajudar a interpretar os resultados que podem ser
obtidos quer através do cálculo manual, quer através de programas de computador. Assim,
pretende demonstrar os principais conteúdos e conceitos de Estatística, dando especial
importância e enfatizando com maior rigor os apreendidos em contexto prático, usando
como principal ferramenta o programa SPSS e pontualmente também o uso do programa
Microsoft Office Excel.
Algumas curiosidades
Desde séculos o homem tem, muitas vezes, tomado notas de coisas e de pessoas, não com
o único fim de acumular números, mas com a esperança de utilizar os dados do passado
para a resolução de problemas do presente assim como para a previsão de acontecimentos
futuros. No entanto, o sucesso quanto a este objetivo só foi possível em data muito recente:
só no final do século XIX e, sobretudo, no princípio do século XX é que, com a aplicação
de probabilidades aos problemas sobre a interpretação dos dados recolhidos, foi possível
resolver alguns deles.
A Estatística conquistou, hoje, o seu lugar entre as ciências. O poder do seu método é,
sobretudo, afirmado nas últimas décadas e aplica-se, agora, nos domínios mais variados.
Até aqui, só um pequeno número de pessoas se preocupou com estudos estatísticos, quer
pela natureza das suas investigações, quer por causa da sua utilidade para as diferentes
profissões. O valor e a importância do método estatístico residem no esforço para melhor
compreender o nosso mundo, tão maravilhosamente complexo, tanto no ponto de vista
físico como social, levam-nos a sonhar que ele se torne objecto de um conhecimento como
as outras ciências. A vida corrente leva-nos a decisões para passar do conhecido ao
desconhecido, da experiência à previsão.
Para algumas pessoas, a Estatística não é senão um quadro de colunas mais ou menos
longas de números que dizem respeito à população, à indústria ou ao comércio, como se vê
2
Estatística e SPSS
3
Estatística e SPSS
4
Estatística e SPSS
saúde constitui-se realmente nos princípios da Medicina Quantitativa. Muito das ciências
da saúde depende, direta ou indiretamente, de contagem ou mensuração. Isto é óbvio em
pesquisa e verdadeiro também no diagnóstico. Quando um profissional superior de saúde,
leva em consideração na avaliação de um tumor a sua idade e história familiar, está a
utilizar dados quantitativos, ou seja, a incidência de tumores por idade e por família.
Convencionou-se chamar de Bioestatística o conjunto de conceitos e métodos científicos
usados no tratamento da variabilidade nas ciências da saúde em especial as ciências
médicas e biológicas. A Bioestatística fornece métodos para se tomar decisões ótimas na
presença de incerteza, estabelecendo faixas de confiança para a eficácia dos tratamentos e
verificando a influência de fatores de risco no aparecimento de doenças. Dentro da área
biológica, compreende-se por Biometria a ciência que estuda as medidas de seres vivos.
A ênfase crescente do papel dos métodos quantitativos na prática da medicina torna
imperativo que o estudante de medicina assim como o profissional de saúde tenham algum
conhecimento de estatística.
O estudante aprende na escola o melhor método de diagnostico e terapêutica; depois de
formado dependerá necessariamente de trabalhos apresentados em reuniões, jornais e
revistas científicas, para aprender novos métodos de terapia, assim como os progressos em
diagnóstico e técnicas terapêuticas, psicoterapêuticas, tecnológicas….
Pode verificar que em quase todas as licenciaturas, mestrados ou doutoramentos encontra
unidades curriculares, módulos e/ ou seminários de estatística, pois um profissional deverá
:
Estar apto a avaliar por si próprio os resultados de outros pesquisadores, deverá
decidir quando uma nova técnica ou método pode substituir os antigos.
Estar apto a dar à família do paciente, ou ao próprio, bem como aos seus colegas de
trabalho, segurança quanto ao diagnóstico, o que pode depender de sua capacidade de
avaliar adequadamente os resultados de exames laboratoriais e outros, como também de
seu conhecimento sobre a relação entre a idade, sexo e outras condições do paciente e uma
determinada doença. Os novos conhecimentos virão através do trabalho de pesquisa
realizado por ele próprio ou por outros.
Ser capaz de selecionar, da massa de informações, aquelas que forem válidas e que
resistirem a testes científicos rígidos.
Desenvolver um ceticismo sadio em relação a tudo que lê. Uma noção básica é o
reconhecimento de que os indivíduos diferem não apenas uns dos outros, mas também em
relação a si próprios, de dia para dia ou mesmo de hora para hora. Uma certa quantidade de
variação é normal, mas a questão que desafia o profissional de saúde é determinar quando
uma variação específica se torna patológica (referente à doença).
Para isso, deve aprender como medir a variação em indivíduos normais e definir qual é o
limite de variação normal. Deve aprender que há algum erro aleatório presente em cada
medida ou contagem feita. é altamente improvável que duas contagens sucessivas de
glóbulos, feitas na mesma amostra de sangue, sejam idênticas. Quando, porém, uma
diferença se torna maior que o erro de mensuração? Para exercer as suas funções do
melhor modo possível, o profissional de saúde deve saber responder a questões como essa.
Para cada medida ou determinação fornecida pelo laboratório, o profissional de saúde deve
5
Estatística e SPSS
conhecer a variação que é parte do próprio método, para saber quando uma dada variação
representa uma mudança real no paciente. Sempre que novos métodos de terapia são
introduzidos, é necessário saber se são realmente superiores, isto é, mais eficientes que os
velhos métodos. Será necessário fazer-se a avaliação crítica do estudo experimental,
verificando principalmente se as medidas foram realizadas de modo a produzir resultados
fidedignos, se o fator em prova foi o único fator de diferença entre o grupo experimental e
o grupo controle, se a diferença entre os resultados obtidos nos dois grupos foi maior que
aquela que poderia ser atribuída ao acaso. Apenas depois da avaliação, através de técnicas
estatísticas adequadas, da fidedignidade dos resultados, comparabilidade dos grupos
experiência e controle e, significância da diferença encontrada é que podemos tirar as
conclusões relativas ao novo método.
O número de falhas encontradas em publicações médicas enfatiza a necessidade de uma
avaliação crítica da literatura. Para ajudar o estudante a desenvolver tal atitude são
necessários certos conceitos estatísticos básicos e uma certa familiaridade com a
terminologia mais usada. Os Métodos estatísticos são essenciais no estudo de situações em
que as variáveis de interesse estão sujeitas, inerentemente, a flutuações aleatórias. Este é o
caso da área da saúde principalmente na Medicina. Mesmo tomando-se um grupo de
pacientes homogéneos, observa-se grande variabilidade, por exemplo, no tempo de
sobrevida após um tratamento adequado. Dosagens de características hematológicas
flutuam não só entre indivíduos, como também no mesmo indivíduo em ocasiões
diferentes. Na realidade, há variações entre diferentes pacientes para qualquer variável de
interesse clínico. Portanto, para se estudar problemas clínicos, é necessária uma
metodologia capaz de tratar a variabilidade de forma adequada.
Deve-se notar, entretanto, que ao tratar um paciente, o profissional de saúde se vale da
experiência de eventos anteriores, vivenciada pessoalmente ou transmitida por outros
através de livros e artigos. Assim, a Estatística pode ser vista como ferramenta de
organização e validação do conhecimento na área da saúde.
É inegável, hoje, que a ciência busca a verdade descrevendo o universo e estabelecendo
princípios gerais para explicar os fenómenos do universo. Para tanto deve valer-se do
pensamento científico, que se estabelece ao nível de uma linguagem teórica de conceitos e
hipóteses. As hipóteses precisam ser comprovadas, quando se faz necessária a utilização de
instrumentos operacionais que explicitarão os procedimentos usados para observação e
mensuração do fenómeno. São as hipóteses estatísticas.
A passagem da hipótese teórica para a hipótese estatística poderia ser assim exemplificada:
Determinado investigador estudará a veracidade da hipótese: "Os indivíduos gordos
comem mais que os indivíduos magros". Esta hipótese encerra alguns conceitos, como:
gordo, magro e comer mais. Qualquer que seja o entendimento destes conceitos teóricos,
para se operacionalizar a comprovação desta hipótese o investigador deverá estabelecer a
maneira de medir gordo, magro e comer mais. Ou seja, como observar e medir gordo,
magro e comer mais? Uma tradução operacional destes conceitos pode ser de que gordo é
o indivíduo que apresente peso acima da faixa de normalidade no índice de massa corporal
(IMC), e magro é o indivíduo que apresente peso abaixo dessa faixa. Comer mais seria
6
Estatística e SPSS
traduzido como consumir mais calorias do que o definido como necessário pela tabela de
ingestão diária de calorias de acordo com o perfil de atividades do indivíduo.
Desta forma, a hipótese científica poderia ser enunciada como uma hipótese estatística da
seguinte forma: "Os indivíduos que apresentam índice de Massa Corporal IMC normal são
mais produtivos, do que os indivíduos que apresentam IMC abaixo do normal". Se esta
hipótese se referir a poucos indivíduos basta verificar se é verdade para estes indivíduos e a
questão estará resolvida. No entanto, para a ciência não terá muita utilidade tal observação,
uma vez que nada garante que esse acontecimento não surgiu por acaso ou que só acontece
naquele grupo apenas.
Em ciência buscam-se hipóteses mais gerais, referentes a parâmetros populacionais. Para
tanto, serão projetados e implementados planos de recolha e análise de dados que
permitirão testar a hipótese dando-lhe validade científica. Esquematicamente:
Observa-se determinado fenómeno e elabora-se uma hipótese científica que procura
estabelecer a relação entre variáveis;
A partir da hipótese científica e dentro dos conhecimentos atuais elabora-se uma
hipótese estatística que permita explorar, descrever ou explicar o fenómeno observado;
Tendo a hipótese estatística, através de uma inferência (dedutiva) deduzem-se as
consequências lógicas quanto ao que deve ser esperado empiricamente com relação à
população;
São estabelecidas as margens de erro e os níveis de confiança que permitirão uma
decisão para aceitação ou rejeição da hipótese;
A hipótese estatística será verificada através de técnicas estatísticas adequadas
definidas previamente;
A veracidade científica da hipótese induz-se (inferência indutiva), a partir dos
resultados e com base na teoria das probabilidades.
A inferência indutiva terá tanto mais significado quanto mais rigoroso for o delineamento
da colheita de dados e quanto mais apropriada for a análise estatística destes dados. As
falhas nestas fases podem implicar em que os valores encontrados não reflitam
adequadamente os parâmetros correspondentes. A inferência da hipótese estatística para a
hipótese científica será tanto melhor quanto mais adequada tenha sido a formulação dos
conceitos teóricos. Uma má formulação dos conceitos teóricos não permitirá aceitar como
verdade a conclusão matemática retirada dos teste. Pelo contrario uma formulação
adequada dos conceitos teóricos permite tirar conclusões indutivas que se transformam
num princípio, ainda que provisório. Estas serão ajustadas aos novos conhecimentos,
somando experiências que a regulem, e permitindo o contínuo ajuste do modelo à
realidade.
Ao verificar a provável (probabilidades) verdade de uma hipótese, a Estatística estabelece
o nível de erro ao aceitar ou rejeitar uma hipótese. É por isso um dos mais poderosos
instrumentos na busca da verdade científica, e o principal instrumento para generalizar
conclusões da parte para o todo.
7
Estatística e SPSS
NOTAS:
Distribuição simétrica ou não enviesada: Mo= média= Md
Distribuição enviesada á esquerda: Mo> Md> Média
Distribuição enviesada á direita: Mo< Md< Média
Medidas de dispersão:
As medidas de tendência central não fornecem por si só, uma informação exaustiva
da distribuição em causa, até muito pelo contrário, pois a capacidade que se lhe atribui de
representar os elementos de uma distribuição depende do modo como estes se concentram
ou dispersam em torno dela, sendo então aqui necessário o auxílio das medidas de
dispersão para permitir assim uma melhor caraterização da distribuição, pois tal como o
nome indica, são elas que irão exprimir o grau de dispersão ou variabilidade dos dados.
São elas:
Amplitude total;
8
Estatística e SPSS
Amplitude interquartis;
Desvio médio;
Desvio padrão;
Variância;
Coeficiente de dispersão ou de variação.
Noções gerais
Existente/ Real
Natureza:
Hipotética
População
Finita
Nº de elementos:
Infinita
9
Estatística e SPSS
Variáveis:
10
Estatística e SPSS
Quantitativas
Ordinais
Nominais
Nominais: Ordinais:
Quando o seu significado só se entende em Quando existe uma
função do nome e o número ou código que se ordenação possível.
lhe atribua não nos dá nenhuma informação.
(dicotómicas ou politómicas)
Discretas:
Assumem valores isolados, normalmente
Continuas:
inteiros. É possível qualquer
operação aritmética, podendo
assumir qualquer valor real
Tipos de estatística:
11
Estatística e SPSS
Parâmetro: toda a função definida a partir dos dados numéricos de uma população.
Ex: resultado de uma média
Dado estatístico: toda a função definida a partir dos dados numéricos duma amostra.
Ex: resultado de uma média é um dado estatístico.
Pode-se assim concluir que o parâmetro está para a população, assim como o
dado estatístico está para a amostra!
12
Estatística e SPSS
13
Estatística e SPSS
14
Estatística e SPSS
15
Estatística e SPSS
16
Estatística e SPSS
17
Estatística e SPSS
Gráfico circular
1. Graphs Legacy DialogsPieSummaries for groups of casesDefine
2.
18
Estatística e SPSS
Histograma
19
Estatística e SPSS
20
Estatística e SPSS
21
Estatística e SPSS
Em Variable View:
22
Estatística e SPSS
23
Estatística e SPSS
Histograma
O histograma permite representar graficamente a distribuição de frequências de uma
variável contínua. No eixo horizontal representam-se as classes e no eixo vertical as
frequências absolutas ou relativas. Utilizam-se barras com área proporcional à frequência
da classe correspondente. As barras são contiguas para evidenciar a continuidade da
variável, tendo uma fronteira comum.
Considerando classes com igual amplitude cada barra tem a mesma base igual a a e altura
igual à respetiva frequência (relativa ou absoluta). A área total do gráfico é igual à soma de
cada uma das barras. A área de cada uma das barras e igual ao produto da largura pela sua
altura.
Refira-se que quando se trabalha com variáveis continuas a amplitude das classes extremas
não está, muitas vezes, definida. Nestes casos, convenciona-se que estas classes têm a
amplitude das classes adjacentes
Polígono de frequências
Os polígonos de Frequências são gráficos de linhas que são obtidos unindo
sucessivamente, por segmentos de reta, os pontos médios dos topos dos retângulos do
histograma que representa as frequências relativas. O polígono de frequências é uma das
representações gráficas que possibilita uma fácil e rápida comparação de duas ou mais
distribuições de frequências de variáveis continuas.
Para a construção de um polígono de frequências acrescentam-se dois segmentos
terminais ao polígono de frequências. Estes novos segmentos são obtidos unindo os
vértices extremo, da linha poligonal já obtida, aos vértices de duas classes adicionais, cada
uma com amplitude igual ás restantes, frequência nula, sendo uma adjacente á primeira
classe e a segunda adjacente à ultima. Deste modo, o número total de vértices do polígono
de frequências é igual ao número de classes acrescido de duas unidades. A área abaixo do
polígono de frequências é deste modo, igual à área correspondente à soma das áreas das
barras.
24
Estatística e SPSS
25
Estatística e SPSS
26
Estatística e SPSS
A curva tem uma distribuição ligeiramente assimétrica para a direita, uma assimetria
positiva, onde: média > mediana > moda
27
Estatística e SPSS
28
Estatística e SPSS
29
Estatística e SPSS
30
Estatística e SPSS
31
Estatística e SPSS
NOTA: Para se tirar apontamentos na Syntax, começa-se sempre com um * e terminamos com um ponto final.
32
Estatística e SPSS
Podemos observar que não há valores fora da caixa- outliers, permitindo-nos assim
concluir que a distribuição é simétrica.
Verificar se é Mesocúrtica;
33
Estatística e SPSS
Conclusão: como o Sig é superior a 0.05, aceita-se a a H0 e diz-nos que a variável tem
distribuição normal. Podendo-se usar então o R de Pearson.
NOTA: Caso os resultados de um teste paramétrico não estejam de acordo com os pré-
requisitos (mínimo dados intervalares, distribuição simétrica, mesocúrtica e normal), estes
não têm, interpretação significativa, optando, neste caso, a maior parte dos investigadores,
por testes de significância não paramétricos, que podem ser usado mesmo quando os dados
são medidos num nível ordinal ou até mesmo quando são nominais.
34
Estatística e SPSS
35
Estatística e SPSS
3)Visualização do Output:
Conclusão: Como sig superior a 0.05, não existe relação entre as variáveis.
Uma variável
Variável qualitativa nominal
Procedimento:
36
Estatística e SPSS
A variável gender não surge com as outras variáveis, devido ao facto de ser do tipo
“string” e não do tipo “numérico”, pelo que, se terá de proceder á sua transformação para
que seja possível a seguimento do processo.
37
Estatística e SPSS
38
Estatística e SPSS
6) Paste run
7) Visualização do Output:
39
Estatística e SPSS
Como Sig: 0.054>0.05, logo aceita-se a hipótese nula, o que nos permite concluir que
não existem diferenças estatisticamente significativas entre a distribuição de homens e
mulheres a trabalharem no sector da nutrição, não se podendo desta forma dizer se esta
profissão é significativamente mais feminina ou masculina.
40
Estatística e SPSS
Tests of Normality
41
Estatística e SPSS
a
Kolmogorov-Smirnov Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
Educational Level (years) ,210 474 ,000 ,906 474 ,000
Conclusão: Para testar esta hipótese estudou-se uma amostra cujo número de casos é
superior a 50, devendo por isso analisar-se os dados referentes ao Kolomogorov- Smimov.
Como o valor de Sig é inferior a 0.05, a variável não apresenta distribuição normal, tendo
então de se usar o equivalente não paramétrico.
42
Estatística e SPSS
43
Estatística e SPSS
a,b
Test Statistics
Educational Level
(years)
Chi-Square 209,516
df 2
Asymp. Sig. ,000
Conclusão: Como Sig<0.05, rejeita-se a hipótese nula, concluindo-se então que a hipótese
1 verifica-se, ou seja, há diferenças de anos de habilitações literárias em função da
categoria profissional ocupada, sendo isto comprovado pela análise das tabelas anteriores,
pois verifica-se que os estagiários e as chefias têm maior grau de habilitações literárias
quando comparados com os contratados.~
44
Estatística e SPSS
Conclusão: Como o valor de sig é nulo e inferior a 0.05 significa que existe correlação,
pois rejeita-se a H0, tendo esta valor de 0.484 que segundo Bryman e Cramer é
considerada uma correlação moderada (pois 0,4<0,4840,69) entre a escolaridade e a
categoria profissional ocupada. Para além disso, como o coeficiente de correlação é
positivo, podemos ainda dizer que quanto maior for o cargo exercido, maios será o grau de
escolaridade do indivéduo em causa, estabelecendo assim uma relação de
proporcionalidade direta.
A intensidade ou força varia entre -1 e 1. Se a correlação for zero não existe correlação
entre as variáveis.
Em modúlo, segundo Bryman e Cramer, a correlação pode ser definida como:
0,2 Correlação muito fraca e sem significância
0,2<r0,39 Correlação fraca
0,4<r0,69 Correlação moderada
0,7<r0,89 Correlação forte
0,9<r1 Correlação muito elevada
45
Estatística e SPSS
2. Selecionar as variáveis.
46
Estatística e SPSS
Conclusão: Visto o valor do Sig ser nulo e inferior a 0.05, rejeita-se H0, admitindo-se
assim que existem diferenças entre as variáveis, aceitando-se desta forma a hipótese
experimental, ou seja, as chefias têm habilitações literárias mais elevadas.
47
Estatística e SPSS
Variável Quantitativa
Variável Qualitativa
~
4. Selecionar Post Hoc Colocar visto no teste Tukey (Moderado) se pretender um
teste moderado, no LSD se liberal ou no Sheffé se necessitar de um teste conservador.
48
Estatística e SPSS
49
Estatística e SPSS
Conclusão: O valor do Sig é inferior a 0,05, logo rejeita-se a HO. Como se rejeita a HO
dizemos que existem diferenças entre os anos de escolaridade em função da categoria
profissional. O teste post-hoc revela que as diferenças são entre qualquer cruzamento das
variáveis.
Variável Qualitativa
50
Estatística e SPSS
Conclusão: O valor do Sig é inferior a 0,05, logo rejeita-se a H0. Como se rejeita a H0
dizemos que existem diferenças entre os anos de escolaridade em função da categoria
profissional. Os homens (14,43), em média, possuem mais escolaridade que as mulheres
(12,37), logo rejeita-se a hipótese experimental.
51
Estatística e SPSS
Conclusão: O valor do Sig é nulo e inferior a 0,05, rejeita-se a H0. Como se rejeita a HO
dizemos que existem diferenças entre o salário inicial e o atual de um trabalhador, havendo
portanto uma progressão.
52
Estatística e SPSS
No SPSS:
1. AnalizeNon Parametric Tests Legacy Dialogs2 Related Samples
53
Estatística e SPSS
Teste U de Mann-Whitney
É o equivalente não paramétrico do teste t de student para amostras independentes,
podendo-se utilizar para testar a hipótese nula que afirma que as médias populacionais são
as mesmas para os dois grupos, não exigindo que as populações tenham a mesma
variância, sendo então usado em designs com duas situações, não-relacionado, quando são
utilizados sujeitos diferentes em cada uma das situações experimentais.
No SPSS:
1. AnalizeNon Parametric TestesLegacy Dialogs2 Independent Samples
54
Estatística e SPSS
Variável Quantitativa
Variável Qualitativa
Exercício: Ao longo do portefólio, algumas tarefas realizadas com a base de dados do SPSS
“employee data” com a variável “Education Level”, ela nem sempre está bem classificada.
Porquê? __________________________________________________________________
__________________________________________________________________________
55
Estatística e SPSS
56