Você está na página 1de 82

Estatistica - Volume I

2009

Estatistica - Volume I
Teoria e exercicios passo-a-passo

O Volume I deste manual apresenta as estatisticas


paramtricas e o Volume II as no-paramtricas.

Margarida Pocinho
01-01-2009

1
Estatistica - Volume I
2009
ndice Geral

I - INTRODUO ...............................................................................................................5

1. NOES GERAIS...........................................................................................................9

2. POPULAO E AMOSTRA ........................................................................................ 11

3. MTODOS DE AMOSTRAGEM ................................................................................. 12

3.1 Amostragens Probabilsticas e No-Probabilsticas ................................................ 12

3.2 Determinao do Tamanho da Amostra .................................................................. 16

3.3 Indivduo ou Unidade Estatstica............................................................................. 21

3.4 Variveis ................................................................................................................. 22

4. ESTATSTICA DESCRITIVA ..................................................................................... 27

4.1 Parmetro e dado estatstico ................................................................................... 28

4.2 Representao de uma varivel estatstica .............................................................. 28

4.3 Reduo de uma varivel estatstica ........................................................................ 31

Medidas de disperso ................................................................................................... 39

5. CARACTERSTICAS DA DISTRIBUIO NORMAL ............................................. 49

5.1 A CURVA NORMAL E OS DESVIOS-PADRO .................................................................... 51

6. TESTES ESTATISTICOS ............................................................................................. 55

6.1. TESTES PARAMTRICOS PASSO-A-PASSO ...................................................................... 62

6.1.1 Teste t de Student (no relacionado)..................................................................... 62

6.1.2 Teste t de Student (relacionado) ........................................................................... 65

6.1.3 Correlao momento-produto de brawais-pearson ............................................... 68

6.1.4 Anlise da variancia de um critrio (ANOVA) ...................................................... 74

2
Estatistica - Volume I
2009
ndice de Ilustraes

FIGURA 1: POPULAO E AMOSTRA ...................................................................................... 11

FIGURA 2: AMOSTRA ESTRATIFICADA .................................................................................... 14

FIGURA 3: CONVERSO DOS NVEIS DE CONFIANA EM DESVIOS PADRO................................ 17

FIGURA 4: VARIVEIS PRIMARIAS E DERIVADAS ..................................................................... 25

FIGURA 5: QUARTIS .............................................................................................................. 39

FIGURA 6: CURVA SIMTRICA ACHATADA (PLATOCURTICA) ................................................... 41

FIGURA 7: CURVA SIMTRICA MESOCURTICA ......................................................................... 41

FIGURA 8: DISTRIBUIO NORMAL ........................................................................................ 50

FIGURA 9: IDENTIFICAR OS TESTES ESTATISTICOS ................................................................... 59

FIGURA 10: DIAGRAMAS DE DISPERSO DE PONTOS, SCATTERPLOT OU SCATTERGRAM ........... 69

FIGURA 11: DIAGRAMAS DE DISPERSO : CAUSA & EFEITO ..................................................... 70

3
Estatistica - Volume I
2009

ndice de tabelas

TABELA 1: DISTRIBUIO DE FREQUENCIAS ........................................................................... 29

TABELA 2: EXERCCIO DE DISTRIBUIO DE FREQUENCIAS ..................................................... 29

TABELA 3: CLCULO DO DESVIO MDIO ............................................................................... 43

TABELA 4: CLCULO DO DESVIO MDIO PARA CLASSES......................................................... 44

TABELA 5: CLCULO DA VARINCIA ..................................................................................... 45

TABELA 6: EXERCICIO - CLCULO DA VARINCIA ................................................................. 46

TABELA 7: GRELHA DE DECISO DOS TESTES ......................................................................... 61

TABELA 8: CLCULO DO VALOR T ......................................................................................... 64

TABELA 9: VALORES CRTICOS T DE STUDENT ........................................................................ 66

TABELA 10: CLCULO DO TESTE T EMPARELHADO ................................................................. 67

TABELA 11: CLCULO DO R DE PEARSON............................................................................... 72

TABELA 12: CLCULO DA ANOVA PARA TAMANHOS IGUAIS ................................................. 76

TABELA 13: APRESENTAO DA ANOVA ............................................................................. 78

TABELA 14: CLCULO DA DIFERENA MNIMA SIGNIFICATIVA - TUKEY .................................. 79

TABELA 15: CLCULO DA ANOVA PARA TAMANHOS IGUAIS ................................................. 80

TABELA 16: TESTE POST-HOC -TUKEY .................................................................................. 82

4
Estatistica - Volume I
2009

I - INTRODUO

Desde sculos o homem tem, muitas vezes, tomado notas de coisas e de pessoas, no com o nico fim
de acumular nmeros, mas com a esperana de utilizar os dados do passado para a resoluo de
problemas do presente assim como para a previso de acontecimentos futuros. No entanto, o sucesso
quanto a este objectivo s foi possvel em data muito recente: s no final do sculo XIX e, sobretudo,
no princpio do sculo XX que, com a aplicao de probabilidades aos problemas sobre a
interpretao dos dados recolhidos, foi possvel resolver alguns deles.

O jogo foi o motor de arranque e o primeiro beneficiado com as probabilidades. De facto, por volta de
1200 a.C. existiam dados com forma cbica feitos a partir de ossos. No entanto, o jogo atingiu uma
grande popularidade com os gregos e os romanos. Na Idade Mdia, a igreja catlica era contra o jogo
dos dados, no pelo jogo em si, mas pelo vcio de beber e dizer palavres que acompanhavam os
jogos. Os jogadores inveterados do sculo XVI procuravam cientistas de renome para que estes lhes
dessem frmulas mgicas para garantir ganhos substanciais nas mesas de jogo.

O contributo decisivo para o incio da teoria das probabilidades foi dada pela correspondncia trocada
entre os matemticos franceses Blaise Pascal e seu amigo Pierre de Fermat, em que ambos, por
diferentes caminhos, chegaram soluo correcta do clebre problema da diviso das apostas em
1654.

Quis o acaso que o austero Pascal conhecesse Mr, jogador mais ou menos profissional, que lhe
contava as suas disputas com os adversrios em problemas de resoluo controversa sobre dados e
apostas. Um desses problemas veio a interessar Pascal 1. Depois de reflectir sobre ele, trocou uma
interessante correspondncia sobre o assunto com o matemtico Fermat, seu amigo. Essas cartas
histricas, que contm as reflexes conjugadas de ambos, so os documentos fundadores da Teoria
das Probabilidades.

1
Em meados do sculo XVII, o jogador francs, o Chevalier de Mr, que vinha calmamente ganhando a vida apostando o seu bom
dinheiro em jogos de dados, decidiu oferecer a mesma quantia para uma aposta diferente. Vinha garantindo, de incio, um seis em
quatro jogadas de um s dado; passou, ento, a apostar que conseguiria pelo menos um duplo seis em vinte e quatro jogadas de dois
dados. Mas, percebeu que os seus lucros comearam a diminuir e sobre isso procurou aconselhar-se com o seu amigo Pascal. Este
explicou a Mr que ele no estava a ser vtima de uma crise de m sorte mas, apenas, da aco imutvel das probabilidades:
enquanto a possibilidade de conseguir um 6 uma em 3*8 jogadas de um s dado, a possibilidade para um duplo 6 de uma em
24*61 jogadas de dois dados

5
Estatistica - Volume I
2009
Mais tarde, a Teoria das Probabilidades desenvolveu-se e atravs dos trabalhos de Jacques Bernoulli
(1654-1705), Moivre (1667.1759) e Thomas Bayes(1702-1761). A Bernoulli deveu-se a publicao
do livro Ars Conjectandi que foi publicado em 1713 e foi o primeiro a ser tratado inteiramente s
teorias das probabilidades. Nesta obra inclui diversas combinaes e das permutaes, os teoremas
binomial e polinomial e a lei dos grandes nmeros (hoje chamado Teorema de Bernoulli). A lei dos
grandes nmeros pode enunciar-se do seguinte modo:

A frequncia relativa de um acontecimento tende a estabilizar-se nas vizinhanas de um valor


quando o nmero de provas cresce indefinidamente

Moivre introduziu e demostrou a lei normal. A Bayes deve-se o clculo das chamadas probabilidades
e das causas. Ou seja, este clculo consistiu em determinar a probabilidade de acontecimentos perante
certas condies iniciais.

Na segunda metade do sculo XVIII e na primeira metade do sculo XIX(1749-1827) elaborou uma
posio concisa e sistemtica dos acontecimentos probabilsticos e demonstrou uma das formas do
Teorema das Probabilidades.

Laplace escreveu: A teoria das probabilidades, no fundo, no mais do que o bom senso traduzido
em clculo, permite calcular com exactido aquilo que as pessoas sentem por uma espcie de
instinto. natural como tal cincia, que comeou com estudos sobre jogos de azar, tenha alcanado os
mais altos nveis do conhecimento humano.

Em 1812, Laplace publicou uma importante obra de Teoria Analtica das Probabilidades, onde
sistematizou os conhecimentos da poca e onde se encontra definida a Lei de Laplace..

Destaca-se a participao de Gauss (1777-1855) no aprofundamento da Lei Normal e de Poisson na


sua Teoria da lei dos grandes nmeros e da lei de repartio.

No sculo XIX e princpio do sculo XX a teoria das probabilidades tornou-se um instrumento


eficaz, exacto e fivel do conhecimento.

Surge a clebre escola de S. Petersburgo. Desta escola resultaram grandes nomes, tais como:
Tchbychev 81821-1894), Markov (1856-1922) e Liapounav (1857-1918).

escola de S. Petersburgo sucedeu a escola sovitica na qual destaca-se a participao de


Kolmogorov (1903-1987) que axiomatizou correctamente a teoria das probabilidades.

A Histria regista censos, para fins de alistamento militar e de colheita de impostos, realizados h
mais de 4000 mil anos, como o caso do censo do imperador Yao na China, em 2200 A.C.. Nesta
altura a estatstica era simplesmente um trabalho de exibio e sntese dos dados referentes colhidos
pelos censos. Esta estatstica no envolvia nenhum trabalho probabilstico, pois todos os objectos do
universo envolvido (a populao) eram observados ou medidos.

6
Estatistica - Volume I
2009
Adolph Quletet em 1850 foi o primeiro a utilizar uma amostra no seu estudo, e, a partir da anlise
probabilstica, estender os resultados da amostra a toda a populao.

A partir dele, rapidamente surgiu a ideia de dar um embasamento mais rigoroso para o mtodo
cientfico, a partir de uma fundamentao probabilista para as etapas da colecta e a da anlise indutiva
de dados cientficos. Hoje esta concepo essencial no trabalho cientfico, contudo s atingiu um
nvel prtico no incio do sec XX desenvolvendo-se em 3 grandes frentes:

A Estatistica estuda tcnicas quem permitem quantificar probabilisticamente as incertezas envolvidas


ao induzirmos para um universo observaes feitas numa amostra do mesmo Inferncia Estatstica.
Os pais desta tcnica so J. Neyman e Karl Pearson. Embora os estudos de Neyman e Pearson
estivessem associados a questes de hereditariedade, os mtodos e expresses que criaram, tais como
hiptese nula e a nvel de significancia fazem hoje parte da rotina diria de todo o estatstico e
cientista.

Trata das precaues que o cientista deve tomar, antes de iniciar as suas observaes ou medidas, de
modo a que se possa dar uma boa probabilidade de que os objectivos pretendidos sejam atingidos o
delineamento das experimentaes cientficas. O pai desta tcnica R.A. Fisher que ao trabalhar na
seleco gentica de plantas agrcolas, desenvolveu uma imensa quantidade de resultados bsicos
sobre o delineamento de experimentaes, divulgando-os em dois livros histricos: Statistical
Methods for Research Wakers, 1925, e The Design of Experiments, publicado em 1935.

Suponhamos que um cientista faz simultaneamente a medida de duas ou mais variveis: uma poderia
ser a altura e a outra o peso de pessoas de uma populao. Se ambas as variveis (peso e altura)
tendem a crescer ou decrescer simultaneamente, dizemos que so positivamente correlacionados.
Dizemos que so negativamente correlacionados se uma varivel tende a crescer e a outra a decrescer.

O cientista ao afirmar que duas ou mais variveis so correlacionadas, pode utilizar uma srie de
tcnicas (chamadas anlise de regresso) para achar frmulas expressando os valores de uma dessas
variveis em termos da outra, ou outras. Tudo isto dentro de uma margem de erro que o cientista
poder estimar probabilisticamente.

O pai da ideia da correlao entre variveis foi Francis Galton, o qual no final do sculo passado a
usou numa srie de estudos de hereditariedade motivados pela teoria da evoluo de Darwin e com
objectivos decididamente eugnicos , contudo, a base matemtica de Galton era precria, cabendo a
Karl Pearson dar uma fundamentao mais matemtica para a correlao.

A teoria das probabilidades, que comeou com um jogo, transformou-se, hoje em dia, num dos ramos
da matemtica com mais aplicaes nas outras cincias: exactas, naturais, sociais.

A Estatstica conquistou, hoje, o seu lugar entre as cincias. O poder do seu mtodo , sobretudo,
afirmado nas ltimas dcadas e aplica-se, agora, nos domnios mais variados. At aqui, s um

7
Estatistica - Volume I
2009
pequeno nmero de pessoas se preocupou com estudos estatsticos, quer pela natureza das suas
investigaes, quer por causa da sua utilidade para as diferentes profisses. O valor e a importncia do
mtodo estatstico residem no esforo para melhor compreender o nosso mundo, to
maravilhosamente complexo, tanto no ponto de vista fsico como social, levam-nos a sonhar que ele
se torne objecto de um conhecimento como as outras cincias. A vida corrente leva-nos a decises
para passar do conhecido ao desconhecido, da experincia previso.

Este manual tem por fim fornecer conhecimentos estatsticos (sem ter muitos conhecimentos
matemticos) e ajudar a interpretar os resultados que podem ser obtidos quer atravs do calculo
manual, quer atravs de programas de computador.

8
Estatistica - Volume I
2009

1. NOES GERAIS

Para algumas pessoas, a Estatstica no seno um quadro de colunas mais ou menos longas de
nmeros que dizem respeito populao, indstria ou ao comrcio, como se v frequentemente em
revistas; para outras, ela d grficos mostrando a variao no tempo de um facto econmico ou social,
a produo ou os nmeros relativos aos negcios de uma empresa, assim como se encontra nos
escritrios de empresas privadas.

To diferenciados se apresentam os mtodos estatsticos que no possvel estabelecer uma definio


que os contenha a todos. Apesar disso, apresentamos a seguir uma definio que, embora
necessariamente incompleta como qualquer outra, tem a vantagem de introduzir o aluno na matria.

A Estatstica tem como finalidade elaborar de uma sntese numrica que evidencie o que de mais
generalizado e significativo exista num conjunto numeroso de observaes.

O grande nmero de observaes de que se parte reflecte uma diversidade tal que se torna ininteligvel
a sua interpretao. Para que, a partir dessa diversidade se possa comear a entender logo, torna-se
necessrio reduzir sucessivamente as observaes, ganhando-se em generalidade o que se vai
perdendo em individualidade.

A sntese implica, assim, que nos desprendamos do que particular e individual para nos atermos ao
que existe de mais geral no conjunto das observaes; medida que a sntese progride, vai-se
perdendo o contacto com as particularidades imediatas.

Deste modo, a Estatstica no se ocupa do que excepcional, mas apenas do que geral: no se
interessa pelo indivduo, mas por grupos de indivduos; no se ocupa, em suma, de uma s medio,
mas de um conjunto de medies.

Acrescente-se, ainda, que a sntese numrica. Quer isto dizer que se prescinde inteiramente das
palavras e dos recursos literrios de mais ou menos efeito que elas possibilitam. Alcana-se a sntese
pelo recurso exclusivo dos nmeros.

Da o af com que frequentemente se escolhem os nmeros de acordo com os argumentos. A


Estatstica intrinsecamente uma disciplina no literria, manipula exclusivamente nmeros e alcana
a sntese ordenando-os e cooperando com eles.

Estatstica, deriva de status que em latim significa Estado, e que s por si demonstra a ligao que
sempre existiu entre ambos;

9
Estatistica - Volume I
2009
O primeiro levantamento estatstico remonta a 3050 a.C., no Egipto, tendo como objectivo informar o
estado sobre recursos humanos e econmicos.

No sc. XVII d.C., a disciplina de Estatstica era j leccionada nas universidades alems, continuando
com a finalidade de descrever as populaes e as riquezas do Estado.

Ainda no sc. XVII, d-se a expanso dos seus campos de investigao a reas como a Sade pblica;
a Indstria; o Comrcio e os Estudos Demogrficos.

Os mtodos de inferncia estatstica surgem com Jonh Graunt (1620-1674), um modesto comerciante,
que tira concluses vlidas sobre uma populao desconhecida por ele.

Fermat (1601-1665) e Pascal (1623-1662) permitem que o estudo do acaso tome uma expresso
matemtica, introduzindo o Clculo das Probabilidades.

O Clculo das Probabilidades e o aparecimento do Mtodo dos mnimos quadrados, vm credibilizar a


Estatstica conferindo-lhe a fundamentao matemtica em que ela assenta hoje.

No sc. XVIII Lambert Quetelet (1796-1874) introduziu a Estatstica nas anlises da Meteorologia;
da Antropometria; das Cincias Sociais; da Economia e da Biologia.

Aos contributos anteriores Francis Galton (1822-1911), acrescenta as noes de regresso e


correlao; Karl Pearson (1857-1936) apresenta a mais bela e acabada teoria de Estatstica, ficando
tambm conhecido pelos seus coeficientes (r; c); Fisher com os seus trabalhos sobre inferncia
Estatstica tambm deu um grande contributo ao desenvolvimento da Estatstica.

Em 1943, d-se uma grande reviravolta, uma vez que o tratamento de dados deixa de ser feito
manualmente e passa a ser numa primeira fase apoiado por calculadoras potentes para mais Tarde ser
feito quase exclusivamente de forma computadorizada.

O Mtodo Estatstico, segundo a teoria de Cramer, pressupe as seguintes fases:

Recolha de dados estatsticos: obteno da amostra a partir da populao, devendo depurar e


rectificar os dados estatsticos, que no seu conjunto so denominados srie estatstica.
Descrio: conjunto de operaes, numricas ou grficas, efectuadas sobre os dados
estatsticos determinando a sua distribuio; procede-se sua ordenao, codificao e
representao por meio de quadros e tabelas.
Anlise: consiste em tirar concluses sobre a distribuio da populao, determinar o seu grau
de confiana e ainda formular hipteses, tentando verific-las, quanto ao fenmeno em
estudo.
Predio: uma previso do comportamento do fenmeno em estudo, tendo em conta a
definio da distribuio estatstica.

10
Estatistica - Volume I
2009

2. POPULAO E AMOSTRA

Populao: somatrio dos indivduos ou elementos, com qualquer caracterstica comum e que esto
sujeitos a uma anlise estatstica, por terem interesse para o estudo. Quanto sua origem pode ser: um
conjunto de pessoas; um conjunto de objectos ou um conjunto de acontecimentos. Quanto sua
natureza pode ser: Existente ou real; Hipottica ou parcialmente existente. Pode ainda ser: um
conjunto finito ou um conjunto infinito.

Amostra: um subconjunto retirado da populao, que se supe ser representativo de todas as


caractersticas da mesma, sobre o qual ser feito o estudo, com o objectivo de serem tiradas
concluses vlidas sobre a populao.

Amostragem: o procedimento pelo qual um grupo de pessoas ou um subconjunto de uma populao


escolhido com vista a obter informaes relacionadas com um fenmeno, e de tal forma que a
populao inteira nos interessa esteja representada (fig. 1)

Populao

Populao-alvo

Amostra

Figura 1: Populao e Amostra

O Plano de Amostragem serve para descrever a estratgia a utilizar para seleccionar a amostra. Este
plano fornece os detalhes sobre a forma de proceder relativamente utilizao de um mtodo de
amostragem para determinado estudo.

Logo que o investigador delimite a populao potencial para o estudo, ele deve precisar os critrios de
seleco dos seus elementos, que podem ser de incluso ou de excluso dos sujeitos que faro parte do
estudo:

11
Estatistica - Volume I
2009
Um investigador interessado pela readaptao aps cirurgia de revascularizao, pode concentrar-se
somente nos sujeitos que tiveram uma nica experincia deste tipo e exclurem os outros.

Uma amostra dita representativa se as suas caractersticas se assemelham o mais possvel s da


populao-alvo. particularmente importante que a amostra represente no s as variveis em estudo,
mas tambm outros factores susceptveis de exercer alguma influncia sobre as variveis estudadas,
como a idade, o sexo, a escolaridade, o rendimento, etc.

A Representatividade avalia-se comparando as mdias da amostra com as da populao-alvo.

Como se ignora se todas as caractersticas da populao esto presentes numa amostra dado que estas
so muitas vezes desconhecidas, admite-se que existe sempre um grau de erro.

ERRO DE AMOSTRAGEM: a diferena que existe entre os resultados obtidos numa amostra e os
que teriam sido obtidos na populao-alvo.

Duas solues existem para reduzir ao mnimo o erro amostral:

1. Retirar de forma aleatria e um nmero suficiente de sujeitos que faro parte da amostra.

2. Procurar reproduzir o mais fielmente possvel a populao pela tomada em conta das caractersticas
conhecidas desta.

3. MTODOS DE AMOSTRAGEM

3.1 AMOSTRAGENS PROBABILSTICAS E NO-PROBABILSTICAS

3.1.1 TIPOS DE AMOSTRAGENS PROBABILSTICAS

Os mtodos de amostragem probabilstica servem para assegurar uma certa preciso na estimao dos
parmetros da populao, reduzindo o erro amostral.

A principal caracterstica dos mtodos de amostragem probabilstica reside no facto de que cada
elemento da populao tem uma probabilidade conhecida e diferente de zero, de ser escolhida,
aquando da tiragem ao acaso para fazer parte da amostra.

12
Estatistica - Volume I
2009
O objectivo desta abordagem obter a melhor representatividade possvel.

Tipos de Amostragem:

A Amostragem Aleatria Simples;

A Amostragem Aleatria Estratificada;

A Amostragem em Cachos;

A Amostragem Sistemtica.

AMOSTRAGEM ALEATRIA SIMPLES

A Amostragem aleatria simples uma tcnica segundo a qual cada um dos elementos (sujeitos) que
compe a populao alvo tem igual probabilidade de ser escolhido para fazer parte de uma amostra. A
amostragem aleatria simples consiste em elaborar uma lista numrica de elementos de onde se tira,
com a ajuda de uma tabela de nmeros aleatrios, uma srie de nmeros para constituir a amostra.

AMOSTRAGEM ALEATRIA ESTRATIFICADA

A Amostragem aleatria estratificada uma variante da amostra aleatria simples. Esta tcnica
consiste em dividir a populao alvo em subgrupos homogneos chamados estratos e a seguir tirar
de forma aleatria uma amostra de cada estrato. A Amostragem aleatria estratificada utilizada
quando a populao inteira reconhecida por certas caractersticas precisas, tais como a idade, o sexo,
a incidncia de uma condio de sade, tudo isto para assegurar a melhor representatividade possvel.

13
Estatistica - Volume I
2009
Populao-Alvo

2000 estudantes em Cincias


Sociais

Classificao

Estratificao Proporcional

Estrato 1 Estrato 2 Estrato 3


Doutoramento Mestrado Licenciatura
400 = 20% 600 = 30% 1000 = 50%

Escolha Aleatria

Estratificao No-Proporcional
Amostra = 200
Escolha Aleatria de 10% em cada Estrato

40 Estudantes 60 Estudantes 100 Estudantes


Doutoramento Mestrado Licenciatura

Figura 2: Amostra estratificada

AMOSTRAGEM EM CACHOS

Consiste em retirar de forma aleatria os elementos por cachos em vez de unidades. til quando os
elementos da populao esto naturalmente por cachos e por isso devem ser tratados como grupos ou
quando no possvel obter uma listagem de todos os elementos da populao-alvo.

AMOSTRAGEM SISTEMTICA

Consiste quando existe uma lista ordenada de elementos da populao. Esta tcnica consiste K
elementos dessa lista sendo o primeiro elemento da amostra retirado ao acaso.

O intervalo entre os elementos corresponde razo entre o tamanho da populao e da amostra.

Exemplo: Se pretender uma amostra de 100 indivduos e a populao for de 1000 o sistema ser
1000:100=10 (dez em dez o sistema), isto , ser includo um elemento da lista de 10 em 10
indivduos a partir do 1. n. sorteado.

14
Estatistica - Volume I
2009
Importante

Se se utilizar uma amostragem por cachos ou outros tipos de agrupamentos, a amostra s


considerada probabilstica se os grupos foram escolhidos ao acaso antes da repartio aleatria dos
sujeitos nos grupos.

3.1.2 TIPOS DE AMOSTRAGENS NO PROBABILSTICAS:

um procedimento de seleco segundo o qual cada elemento da populao no tem a mesma


probabilidade de ser escolhido para formar a amostra.

Este tipo de amostragem tem o risco de ser menos representativa que a probabilstica no entanto
muitas vezes o nico meio de construir amostras em certas disciplinas profissionais nomeadamente na
rea da sade.

Tipos de Amostragens No-Probabilsticas:

A Amostragem Acidental ou de Convenincia;

A Amostragem por Cotas;

A Amostragem de Seleco Racional ou Tipicidade;

A Amostragem por Redes ou Bola de Neve.

AMOSTRAGEM ACIDENTAL OU DE CONVENINCIA

formada por sujeitos facilmente acessveis, que esto presentes num determinado local e momento
preciso.

Exemplo: pessoas hospitalizadas. Um investigador pode ter acesso a uma unidade hospitalar para
constituir uma amostra de pacientes hospitalizados.

Neste tipo de amostra tem a vantagem de ser simples em organizar e pouco onerosa, todavia este tipo
de amostra provoca enviesamentos, pois nada indica que as primeiras 30 a 40 pessoas sejam
representativas da populao-alvo. So utilizadas em estudos que no tm como finalidade a
generalizao dos resultados.

AMOSTRAGEM POR COTAS

Idntica amostragem aleatria estratificada diferindo desta apenas pelo facto dos sujeitos no serem
escolhidos aleatoriamente no interior de cada estrato ou de cada grupo.

15
Estatistica - Volume I
2009

AMOSTRAGEM POR SELECO RACIONAL OU POR TIPICIDADE

Tem por base o julgamento do investigador para constituir uma amostra de sujeitos em funo do seu
carcter tpico.

Por exemplo: o estudo de casos extremos ou desviantes como uma patologia rara ou uma instituio.

AMOSTRAGEM POR REDES OU BOLA DE NEVE

Consiste em escolher sujeitos que seriam difceis de encontrar de outra forma. Toma-se por base,
redes sociais amizades e conhecimentos.

Por exemplo: Imigrantes de Leste.

Quando o investigador encontra sujeitos que satisfazem os critrios escolhidos pede-lhes que
indiquem outras pessoas de caractersticas similares.

3.2 DETERMINAO DO TAMANHO DA AMOSTRA

Os tamanhos das amostras so relativos, isto , depende do tamanho da populao. Para determinar as
amostras existem vrias frmulas, consoante o parmetro em critrio. As mais utilizadas na sade so
as que se baseiam na percentagem do fenmeno:

3.2.1 CLCULO DO TAMANHO DA AMOSTRA PARA POPULAES INFINITAS (>100.000


ELEMENTOS)

A amostra depende da:

1. Extenso do universo;
2. Do Nvel de Confiana;
3. Do Erro Mximo permitido;
4. Da percentagem com que o fenmeno se verifica.

Formula

16
Estatistica - Volume I
2009

n= Tamanho da amostra

= Nvel de confiana escolhido expresso em n desvios padro (s)

p = % com o qual o fenmeno se verifica

q = % complementar (100-p)

e = Erro mximo permitido

Se desejarmos um nvel de confiana bastante alto superior a 99% aplica-se a frmula dos trs
desvios.

Figura 3: Converso dos nveis de confiana em desvios padro

Logo, o desvio (s)2 seria igual a 32 = 9

Se o erro mximo for de 2% o e2 ser igual a 22 = 4

Exemplo: Se for possvel admitir que o nmero de captaes de gua em profundidade se situam por
volta dos 50%, no ultrapassando esta %, ento p=50 e, consequentemente, q=100-50 ou seja 50.
Assim, tem-se a equao

17
Estatistica - Volume I
2009

Isto , para atender s exigncias estabelecidas, o n. de captaes a analisar seria 5625.

Se todavia, for aceite o nvel de confiana de 95% (2 desvios) e um erro mximo de 5% o n. de


elementos ser bem menor.

os clculos.

Convm lembrar que sempre que no seja possvel estimar uma percentagem do fenmeno, deve
utilizar-se sempre p=50

3.2.2 CLCULO DO TAMANHO DA AMOSTRA PARA POPULAES FINITAS (<100.000


ELEMENTOS)

1. A amostra depende da:


2. Extenso do universo;
3. Do Nvel de Confiana;
4. Do Erro Mximo permitido;
5. Da percentagem com que o fenmeno se verifica.

Frmula

Onde:

n = Tamanho da amostra; N = tamanho da populao


= nvel de confiana escolhido, expresso em nmeros de desvios padro
p = percentagem do fenmeno; q = percentagem complementar
e2 = erro mximo permitido

18
Estatistica - Volume I
2009

Exemplo: Verificar quantos dos 100 empregados de uma cantina cumprem correctamente as normas
de higiene e segurana do trabalho.

Presume-se que esse n. no seja superior a 30% do total; deseja-se um nvel de confiana de 95% (2
desvios) e tolera-se um erro at 3%.

Ento, n=90,4 Logo devero ser pesquisados 90 empregados.

Confirme aplicando a frmula

Mas, se a populao fosse de 10.000 empregados, com os mesmos critrios anteriormente referidos,
ento:

O tamanho "ptimo" de uma amostra, no depende tanto do tamanho da populao mas sim de dois
parmetros estatsticos: a margem de erro e o nvel de confiana

Margem de erro Uma amostra representa aproximadamente (e nunca exactamente) uma populao.
A medida deste "aproximadamente" a chamada margem de erro, e lido assim:

se uma pesquisa tem uma margem de erro de 2% e a Doena Cardaca teve 25% de prevalncia na
amostra recolhida, podemos dizer que, naquele instante, na populao, ela ter uma prevalncia entre
23% e 27% (25% menos 2% e 25% mais 2%).

Nvel de confiana As pesquisas so feitas com um parmetro chamado nvel de confiana,


geralmente de 95%.

Estes 95% querem dizer o seguinte: se realizarmos uma outra pesquisa, com uma amostra do mesmo
tamanho, nas mesmas datas e locais e com o mesmo instrumento de recolha de dados, h uma
probabilidade de 95% de que os resultados sejam os mesmos (e uma probabilidade de 5%, claro, de
que tudo difira).

19
Estatistica - Volume I
2009

Quando j se efectivou uma pesquisa e se deseja conhecer a margem de erro utilizada aplica-se a
frmula:

Onde:

n = Tamanho da amostra

p = Erro padro ou desvio da percentagem com que se verifica determinado fenmeno

p = percentagem do fenmeno

q = percentagem complementar

3.2.3 DETERMINAO DA MARGEM DE ERRO DA AMOSTRA

Exemplo: Numa pesquisa efectuada com 1000 adultos, verificou-se que 30% bebem caf pelo menos
uma vez por dia. Qual a probabilidade de que tal resultado seja verdadeiro para todo o universo.

Como o valor encontrado (margem de erro) corresponde a um desvio, ento para dois desvios
(95,5%), temos 1,45 *2=2,90.

Para 3 desvios o triplo (4,35).

Isto significa que, por exemplo, para um nvel de confiana de 95% (2 desvios) o resultado da
pesquisa apresentar como margem de erro 2,90 para mais ou menos.

provvel, portanto, que o n. de consumidores de caf esteja entre 27,10% (30%-2,90) e 32,90%
(30%+2,90).

20
Estatistica - Volume I
2009

3.2.4 DETERMINAO DA AMOSTRA SEM CONHECER OS LIMITES DA POPULAO

Frmula

Em que:

p= fenmeno]
= erro
{Se IC (intervalo de confiana)=95%, =5% (0,05)} Ento /2 = 0,05/2 =0,025
Z (/2) = Z(0,025)= 1,96
d=nmero de desvios

Assim para um fenmeno que tenha uma prevalncia de 25%, os resultados seriam:

Em termos estatsticos consideramos que uma amostra : Pequena se n < 30 que o valor para a qual
comea a tender normalidade.

Cuidados a ter na escolha da amostra:

1. Imparcialidade: todos os elementos devem ter a mesma probabilidade e oportunidade de


serem escolhidos;
2. Representatividade: deve conter em proporo todas as caractersticas que a populao possui,
qualitativa e quantitativamente, de modo a que no se torne tendenciosa;
3. Tamanho: suficientemente grande de modo a fornecer as principais caractersticas, por outro
lado pequena para economizar tempo, dinheiro e pessoal.

3.3 INDIVDUO OU UNIDADE ESTATSTICA

21
Estatistica - Volume I
2009
O estudo Estatstico recai sobre a amostra, no entanto este feito de modo pormenorizado a cada um
dos elementos da amostra, que so designados por Indivduo ou Unidade Estatstica.

Unidade Estatstica: o factor elementar, o objecto de anlise, que independentemente da sua natureza
tem que possuir uma definio precisa.

As principais caractersticas de uma boa unidade Estatstica so:

1. Propriedade ou adequao ao objectivo da investigao;


2. Clareza;
3. Mensurabilidade;
4. Comparabilidade.

No estudo de cada unidade Estatstica, surgem resultados individuais com os quais so feitas as
inferncias sobre a populao. Estes resultados tm o nome de Dado Estatstico.

Dado Estatstico: o resultado do estudo efectuado a cada unidade Estatstica tendo em conta a sua
individualidade, sendo este depois tratado de modo a permitir inferir sobre a colectividade que a
integra (populao).

3.4 VARIVEIS

Propriedade em relao qual os indivduos de uma amostra variam. Note-se que as propriedades que
no variam no so de interesse estatstico. H muitos modos de dividir os diferentes tipos de
variveis.

Ao ser efectuada uma anlise Estatstica a uma populao, os aspectos (caractersticas) que se tm em
conta, um ou vrios, so denominados por Varivel Estatstica.

Uma varivel Estatstica pode ser:

Qualitativa: se a sua natureza que varia de elemento para elemento.

As variveis qualitativas dividem:se em:

Variveis nominais: quando o seu significado s se entende em funo do nome e o nmero ou cdigo
que se lhe atribua no nos d nenhuma informao (sexo, cor de olhos, grau de parentesco, tipo de
patologia, presena/ausncia de factores de risco, etc.).

Variveis ordinais: quando existe uma ordenao possivel (gravidade de uma leso, classe social, grau
de escolaridade, etc.).

22
Estatistica - Volume I
2009
Quantitativa: se a sua intensidade que varia de elemento para elemento, tornando-a mensurvel ou
referencivel.

As variveis quantitativas dividem-se em:

Variveis discretas: assume valores isolados, normalmente inteiros (n. de filhos, n. de factores de
risco, n. de dependentes, n. de respostas, etc)

Variveis contnuas: em que possvel qualquer operao aritmtica, podendo assumir qualquer valor
real (altura, peso, IMC, distncia, etc).

Tendo em conta o nmero de atributos (caractersticas) que esto a ser estudadas, as variveis podem
ser:

Unidimensionais: se apenas corresponde a um atributo

Bidimensionais: se corresponde a dois atributos;

Pluridimensionais: se corresponde a vrios atributos.

Modalidade: toda a manifestao possvel de uma varivel, isto , as vrias hipteses de resposta,
podendo elas ser duas ou mais.

As modalidades tm obrigatoriamente que ser:

Incompatveis: cada unidade Estatstica no pode pertencer simultaneamente a duas ou mais


modalidades;

Exaustivas: todas as unidades Estatsticas tm que ser inseridas numa modalidade.

A escolha das modalidades deve ser feita de acordo com as informaes possudas. No entanto,
surgem situaes em que h necessidade de se aumentar uma modalidade suplementar.

VARIVEIS DEPENDENTES E INDEPENDENTES

Gostaramos agora de introduzir a terminologias variveis independentes e variveis dependentes. A


varivel manipulada pelo experimentador conhecida como varivel independente. Isto porque as
situaes experimentais que testam esta varivel so definidas independentemente mesmo antes de a
prpria experincia se iniciar. A segunda varivel, os resultados nos testes de estatstica, conhecida
como varivel dependente (os resultados de estatstica dependem da utilizao de um esquema de
mnemnica), porque os resultados do teste so dependentes da maneira como o experimentador
manipula a varivel independente esquema de mnemnica.

23
Estatistica - Volume I
2009
Assumindo que demonstramos que o esquema de mnemnica produz algum efeito, lembrar-se- que a
questo seguinte levantada pelo cptico tinha a ver com o facto dos alunos com menos dificuldades
com os clculos serem aqueles que beneficiariam mais do esquema do que aqueles que tinham
maiores dificuldades com a estatstica.

Uma forma de investigar esta possibilidade seria a de transformar a facilidade em fazer operaes
matemticas em varivel independente.

O investigador apresentaria ento a todos os alunos um teste que avaliasse aquele facto, e
seleccionaria de seguida dois grupos de estudantes, um grupo com facilidade em efectuar operaes
matemticas e outro com dificuldades.

Se a ambos os grupos fosse apresentado o esquema de mnemnica, seria ento possvel avaliar o
efeito da varivel independente facilidade em efectuar operaes matemticas na outra varivel
resultados do teste. Por outras palavras, seria o grupo de bons estatsticos ou o grupo de maus
estatsticos que apresentava maiores progressos nos resultados do teste?

Um dos aspectos de que j se deve ter dado conta de que no possvel manipular a varivel
independente facilidade em fazer operaes matemticas da mesma forma como manipulamos
anteriormente varivel dependente com ou sem esquema de mnemnica. Neste ltimo caso da
inteira responsabilidade do experimentador decidir quais os alunos a quem d o esquema de
mnemnica e a quem no d.

No que diz respeito facilidade em fazer operaes matemticas, no existe forma de o


experimentador dar ou retirar a um aluno facilidade em fazer operaes matemticas. Ainda assim, o
experimentador pode manipular essa varivel criando dois grupos, um em que coloca os que tm
dificuldade e outro em que coloca os que no tm, constituindo assim dois grupos experimentais.

A H1 poder ser: Apenas os alunos que tm maior facilidade em fazer operaes matemticas
apresentam resultados superiores em estatstica.

O esquema de mnemnica deixou de ser varivel e passou a situao constante, j que neste caso
todos usufruram do mesmo. Por outras palavras, o investigador previra uma diferena entre os
resultados do teste dos dois grupos de alunos aps ter sido apresentado a ambos o esquema de
mnemnica.

Uma outra varivel independente do mesmo tipo o sexo. At mesmo o experimentador mais
omnipotente no pode transformar um homem numa mulher e vice-versa. at bastante comum
formar grupos de homens e mulheres para se investigarem as diferenas de performance nas mais
diversas tarefas, que possam ser devidas a esse factor.

Mas quando estamos perante um estudo cientifico, nem sempre possvel estabelecer relaes de
dependncia e, existem mesmo alguns tipos de estudos em que esta denominao contra-indicada,

24
Estatistica - Volume I
2009
por conterem apenas questes de investigao e serem, por isso, exploratrios (nvel I), descritivos e
em alguns casos descritivo-correlacionais (nvel II). Nestes casos podemos definir as variveis como
primrias, secundrias e complementares, embora no seja obrigatrio.

VARIVEIS PRIMRIAS, DERIVADAS OU SECUNDRIAS E COMPLEMENTARES

As variveis primrias so as consideradas como principais no nosso estudo e as nicas que tm peso
no momento da concluso (variveis includas nas hipteses). Por exemplo, na pesquisa cuja pergunta
qual a qualidade de vida dos cuidadores de idosos acamados? A varivel primria a qualidade de
vida.

As variveis secundrias so importantes para avaliar a situao em estudo mas raramente so


determinantes na concluso do estudo.

As variveis complementares so aquelas que utilizamos para caracterizar a nossa populao ou


amostra.

Em cada uma das variveis dever ser apresentado: a definio da varivel, como, quem e quando ser
mensurada

Por exemplo, numa pesquisa cuja a pergunta :

- Qual a prevalncia de obesidade nos estudantes universitrios?

A varivel primria ser a prevalncia de obesidade; as variveis secundrias sero a estatura, o peso,
a circunferncia abdominal e a qualidade de vida.

Os dados complementares sero a idade, sexo, curso de graduao, ano do curso de graduao.

As variveis derivadas (ou variveis secundrias) so novas variveis que podem ser criadas a partir
de operaes lgicas e/ou matemticas sobre variveis existentes nas bases de dados (variveis
primrias)

Figura 4: variveis primarias e derivadas

25
Estatistica - Volume I
2009
VARIVEIS E RESPECTIVOS TIPOS DE ESCALAS DE MEDIDA

Nveis de mensurao das variveis

As variveis diferem em "quo bem" elas podem ser medidas, ou seja, em quanta informao seu
nvel de mensurao pode gerar. Operacionalmente, muitas vezes pode-se estudar algo de diferentes
maneiras.

Exemplificando, supondo que pretende estudar os hbitos tabgicos. Qual seria a escala? Haveria
apenas 2 grupos: fumadores e no fumadores? Ou seria contado o nmero de cigarros consumidos
durante determinado perodo? Utilizaria a Unidade Masso Ano (UMA)? Como seria definido o
fumador? Quem fuma 1 cigarro por dia ser considerado o qu? E que, fuma 1 mao de cigarros por
dia? Pertencem mesma categoria?

Assim, de acordo com sua escala de medio, as variveis podem ser classificadas em 3 tipos:

ESCALA NOMINAL

So variveis qualitativas. Os dados podem ser distribudos em categorias mutuamente exclusivas.


Seus valores s so registados como nomes, s permitindo classificao qualitativa, no existindo
ordem entre as categorias existentes. Assim, pode-se dizer que dois indivduos so diferentes em
termos da varivel analisada, mas no se pode dizer qual deles "tem mais" da qualidade representada
pela varivel.

Exemplos: sexo, estado civil, presena/ ausncia de doena, patologia, causa de morte, etc.

As anlises estatsticas mais comuns so o estudo de propores e testes baseados no Qui-quadrado.

ESCALA ORDINAL

So variveis qualitativas. Os dados podem ser distribudos em categorias mutuamente exclusivas,


mas que tm ordenao natural. So aquelas com possveis resultados nominais, sem valores mtricos,
mas em que existe uma ordenao entre as categorias, com um resultado precedendo o outro
(hierarquia ou grau). Portanto, permitem ordenar os itens medidos em termos de qual tem menos e
qual tem mais da qualidade representada pela varivel, mas no possibilitam que se diga "o quanto
mais".

Exemplos: estgio da doena (inicial, intermdio, terminal); escolaridade (1. CEB, 2. CEB, 3. CEB,
Lic. MSC, PHD); peso, quando medido em 3 nveis (leve, mdio, pesado); nvel socioeconmico de

26
Estatistica - Volume I
2009
famlias residentes numa localidade (pobre, classe mdia, Alta); classificao no teste (muito bom,
bom, satisfaz, medocre, mau), , grau de estenose (ligeira, moderada, severa), etc.

As anlises estatsticas mais comuns so o estudo de propores, medianas, quartis, moda. Testes:
Qui-quadrado, Kruskal-Wallis, regresso logstica e outros testes no paramtricos.

ESCALAS INTERVALAR E PROPORCIONAL OU DE RAZO

A escala intervalar estabelecem-se intervalos iguais a partir de uma origem arbitrria, enquanto que na
de razo existe um ponto zero a partir do qual se estabelecem intervalos iguais. Ambas so
quantitativas e os seus dados so expressos por nmeros. Permitem no apenas ordenar os itens que
esto sendo medidos, mas tambm possibilitam quantificar e comparar o tamanho das diferenas entre
eles. Os seus valores so medidos em uma escala mtrica e por isso no so diferenciadas em alguns
softwares estatsticos, como exemplo o SPSS, em que so denominadas de SCALE.

Exemplos: Temperatura em C; Idade, em anos; Peso corporal em quilos, classificao no teste: (0,...,
20), comprimento do segmento de recta desenhado etc.

evidente que as variveis quantitativas incluem mais informao, portanto permitem que sejam
aplicadas provas estatsticas mais potentes.

4. ESTATSTICA DESCRITIVA

A Estatstica Descritiva recolhe, organiza e analisa os dados de uma amostra, sem tirar qualquer
concluso sobre um grupo maior, enquanto que a Estatstica Indutiva ou inferencial recolhe, organiza,
analisa e estabelece relaes entre os dados para fazer inferncias sobre a populao. Com base nos
resultados obtidos sobre a amostra podemos inferir concluses vlidas sobre a populao (este ramo
da Estatstica j exige a utilizao de recursos matemticos especiais, nomeadamente a Teoria das
Probabilidades).

Assim, a Estatstica Indutiva permite-nos fazer inferncias sobre a populao e chegar a leis e a teorias
e a descritiva d um apoio a esta tarefa.

27
Estatistica - Volume I
2009
4.1 PARMETRO E DADO ESTATSTICO

O parmetro toda a funo definida a partir dos dados numricos de uma populao.

Exemplo: consideremos as seguintes notas em Estatstica - 10 11 10 15 9

Mdia =xi/n = 55/5 = 11

O valor 11 o parmetro (resultado da mdia aritmtica).

O dado estatstico toda a funo definida a partir dos dados numricos de uma amostra.

Exemplo: consideremos a amostra: 10 10

Mdia =xi/n = 20/2 = 10 O valor 10 o dado estatstico

4.2 REPRESENTAO DE UMA VARIVEL ESTATSTICA

Depois de termos definido algumas noes bsicas de estatstica, tratar-se-, a seguir, da segunda fase
de um estudo estatstico. Como j referimos, os dados numricos recolhidos registam-se em sries
estatsticas e, para serem analisados, devem ser ordenados e representados em quadros e em grficos.

Quando trabalhamos com uma varivel discreta ou descontnua falamos em seriao e quando
trabalhamos com uma varivel contnua falamos em classificao.

SERIAO DE UMA AMOSTRA

Como j referimos anteriormente, uma seriao implica que a varivel seja discreta (exemplo: nmero
de filhos de um casal, nmero de divises de uma casa, etc.).

DISTRIBUIO DE FREQUNCIAS

o arranjo dos valores e suas respectivas freqncias. Assim, a distribuio de freqncias para o
exemplo ser:

Valores Freqncia absoluta (Fi) Freqncia relativa (Fr) Percentagem (%)

FREQUNCIA ABSOLUTA (FI)

o nmero de vezes que o elemento aparece na amostra, ou o nmero de elementos pertencentes a


uma classe. A soma de todas as freqncias deve ser o nmero total de elementos do conjunto (N). Se

28
Estatistica - Volume I
2009
o nmero de elementos for muito grande ou pouco repetidos, podemos separar o conjunto em classes,
que so intervalos numricos a I b ou a x b.

A diferena b a chama-se amplitude das classes (h) e utilizada a mesma amplitude para todas as
classes com intervalos fechados esquerda.

FREQUNCIA RELATIVA (FR)

A frequncia relativa, para cada valor assumido por uma varivel, definida como a razo entre a
frequncia absoluta (Fi) e o nmero total de dados (N). Para calcularmos a percentagem de cada valor,
basta multiplicar por 100 a frequncia relativa.

Exerccios

Tabela 1: distribuio de frequencias

Valores Frequncia absoluta (Fi) Frequncia relativa (Fr) Percentagem (%)


21 3 3/30 = 0.1 10
22 2 2/30 = 0.066 6.6
23 2 2/30 = 0.066 6.6
24 1 1/30 = 0.034 3.4
25 4 4/30 = 0.132 13.2
26 3 3/30 = 0.1 10
28 1 1/30 = 0.034 3.4
30 1 1/30 = 0.034 3.4
31 3 3/30 = 0.1 10
32 1 1/30 = 0.034 3.4
33 3 3/30 = 0.1 10
34 3 3/30 = 0.1 10
35 2 2/30 = 0.066 6.6
36 1 1/30 = 0.034 3.4
Total 30 1 100

Em uma pesquisa socioeconmica sobre itens de conforto, perguntou-se a cada um dos 800
entrevistados: Quantos aparelhos de TV h em sua casa? Os resultados aparecem na tabela:

Tabela 2: Exerccio de distribuio de frequencias

N Frequncia Frequncia Porcentagem


aparelhos absoluta relativa
0 20
1
2 0.6
3 7.5
4 30

Complete a tabela.

29
Estatistica - Volume I
2009
CLASSIFICAO DE UMA AMOSTRA

Como j referimos anteriormente, uma classificao implica que a varivel seja contnua (exemplo: a
temperatura de um corpo, a altura de uma pessoa, a durao de certo fenmeno, etc. - variveis
relacionadas com o espao, o tempo ou a massa).

Na primeira coluna temos as classes. Por conveno, as classes so abertas superiormente, com
excepo da ltima classe, naturalmente.

Na segunda coluna temos as marcas da classe. Esta coluna pode ser tambm designada por x'i. A
marca de uma classe o ponto mdio dessa classe, ou seja, o ponto equidistante dos extremos de
uma classe.

Exemplo: classe c0-c1 x'1 = (c0 + c1) / 2

Na terceira coluna apresentamos as frequncias absolutas simples ou efectivas, ou seja, o nmero de


vezes que os valores de determinada classe foram observados. Esta coluna pode ser tambm
denominada por ni. Mais uma vez, ni = n (nmero total de indivduos pertencentes populao/ou
amostra, a que se chama efectivo total).

Na quarta coluna apresentamos as frequncias acumuladas, isto , a soma das frequncias absolutas
correspondentes a valores inferiores a um determinado valor. Esta coluna pode ser tambm
denominada por N(i).

Na quinta coluna temos as frequncias relativas simples. Esta coluna pode ser tambm denominada
por fi, em que fi = ni/n e, de tal modo, que fi =1.

Na sexta coluna apresentamos as frequncias relativas acumuladas, isto , a soma das frequncias
relativas correspondentes a valores inferiores a um determinado valor. Esta coluna pode ser tambm
denominada por F(i).

Numa classificao habitual representarmos por K o nmero de classes (em geral K varia entre 5 e
20, inclusive) e por A a amplitude (em que A=x mximo - x mnimo).

Ento,

- Se K dado = A/K

- Se dado K=A/ , sendo a amplitude do intervalo de classe e A a amplitude


do intervalo da amostra

30
Estatistica - Volume I
2009

Exemplo: Construa o quadro de frequncias com os seguintes dados:

Classes [20-23[ [23-26[ [26-29[ [29-32[ [32-35[ [35-38]

ni 2 5 7 10 4 2

Classes ni fi N(i) F(i) x'i

[20-22] 2 2/30 2 2/30 21

[23-25] 5 5/30 7 7/30 24

[26-28] 7 14

[29-31] 10 24

[32-34] 4 28

[35-38] 2 30

=3 ni = 30 fi = 1 n = 30

4.3 REDUO DE UMA VARIVEL ESTATSTICA

CONCEITO DE REDUO E SUA CONVENINCIA

Anteriormente definimos o conceito de varivel estatstica e construram-se quadros e grficos


estatsticos com vista a uma descrio numrica e grfica de uma varivel estatstica. Naturalmente, os
grficos permitem uma primeira sntese das informaes registadas nos quadros.

Por outro lado, por simples aproximao das curvas de frequncias absolutas ou relativas de duas ou
mais variveis, podemos fazer uma primeira comparao entre elas.

H, porm, necessidade de sintetizarmos toda a informao respeitante a uma varivel estatstica,


resumindo-se os dados a um pequeno nmero de elementos que bastam para caracteriz-la. Tal sntese
consiste na reduo de dados e os elementos numricos obtidos designam-se por parmetros da
varivel estatstica.

Feita a representao dos dados estatsticos por meio de quadros e/ou de grficos, importa fazer sobre
os mesmos um estudo no sentido de se poder chegar a concluses.

31
Estatistica - Volume I
2009
Para tal, impe-se um trabalho de simplificao que consiste em proceder a snteses, em reduzir
grandes quantidades de dados a nmeros simples que permitam uma anlise rpida e uma fcil
comparao com outras sries da mesma natureza ou de natureza diferente.

Tais nmeros so designados, habitualmente, por caractersticas, parmetros ou medidas e so


agrupados em categorias conforme o tipo de informao que fornecem.

MEDIDAS DE TENDNCIA CENTRAL OU DE POSIO

Sob esta designao agrupam-se os parmetros que, ou nos indicam algo de associvel ao ncleo ou
centro da distribuio, ou nos permitem compartiment-la. Vamos considerar as seguintes medidas de
tendncia central ou de posio: mdia, mediana, moda e quantis.

MDIA

A mdia o ponto de equilbrio dos dados, isto , tendo um conjunto de n valores x1, x2, ..., xn de
uma varivel X o quociente entre a soma desses valores e o nmero deles.

A mdia aritmtica simples (dados no agrupados) pode ser representada pela seguinte frmula
matemtica: n

x i
X= i =1
n

Simplificando:x = xi / n

Numa amostra seriada os valores x1, x2, ..., xk ocorrem n1, n2, ..., nk vezes, respectivamente, a mdia
aritmtica ser x = nixi / n = fixi

32
Estatistica - Volume I
2009

Exercicio: Para distribuio de frequncia por varivel discreta: Para os dados Populacionais calcule a
Mdia, sabendo que

xi 4 6 7 8 10

ni 2 4 5 3 2

xi ni nixi

4 2 8

6 4 24

7 5 35

8 3 24

10 2 20

=16 =111

Ento, x = nixi / n = 111/16= 6,94

Numa amostra classificada a frmula definidora da mdia no se pode aplicar directamente porque
no conhecemos os valores exactos da varivel estatstica, mas apenas o nmero de observaes
dentro de cada classe, isto , quando os dados esto agrupados em classes, para o clculo da mdia
simples, devemos considerar o ponto mdio de cada classe (marca) como representativo de todos os
valores nela includos, pelo que aquela pode ser representada pela frmula matemtica seguinte:

x = nix'i / n = fix'i

33
Estatistica - Volume I
2009

Exemplo: Calcule a mdia aritmtica, sabendo que

Classes [3-5[ [5-7[ [7-9[ [9-11[ [11-13]

ni 2 4 5 3 2

Classes ni x'i nix'i

[3-5[ 2 3,5 7

[5-7] 4 5,5 22

[7-9[ 5 7,5 37,5

[9-11[ 3 9,5 28,5

[11-13] 2 12 24

=16 =119

Ento: x = nix'i / n = 119/16 = 7,43

Temos de salientar que quando usamos a marca da classe estamos a colocar um certo erro de
agrupamento, pelo que devemos considerar a Correco de Sheppard, de tal modo que:

x semelhante a x

Relativamente s propriedades da mdia aritmtica podemos enunciar duas:

1. Somando ou subtraindo uma constante a todos os valores observados, a mdia resultante


ficar aumentada ou diminuda, respectivamente, dessa constante;
2. Multiplicando ou dividindo os valores observados por uma constante diferente de zero, a
mdia resultante ficar multiplicada ou dividida, respectivamente, por essa constante.

Mdia Aritmtica Pesada ou Ponderada: a mdia aritmtica afectada por pesos (varivel discreta e
varivel contnua).

34
Estatistica - Volume I
2009
Por outras palavras, associa-se a x1, x2, ..., xk certos factores de ponderao ou pesos p1, p2, ..., pk
que dependem do significado ou importncia atribuda s observaes. Assim, a frmula matemtica
da mdia ser:x p = pixi / pi

Exemplo : Um professor de matemtica quer saber a mdia poderada das suas avaliaes nas quatro
turmas em que lecciona, sabendo que o teste tinha uma ponderao de 30% e o trabalho uma
ponderao de 70%:

Turma A - Mdia da nota do teste =65% Mdia da nota do trabalho =78%

Turma B - Mdia da nota do teste =60% Mdia da nota do trabalho =70%

Turma C - Mdia da nota do teste =40% Mdia da nota do trabalho =28%

Turma D Mdia da nota do teste =80% Mdia da nota do trabalho =75%

Determine a mdia ponderada das quatro turmas em conjunto.

xp=pixi/pi = [((65*30)/100) + ((78*70)/100) + ((60*30)/100) + ((70*70)/100) + ((40*30)/100) +


((28*70)/100) + ((80*30)/100) + ((75*70)/100)]/4 = 62,3

Se preferirmos em quadro a resoluo ser

xi pi pixi
65 30 1950
60 30 1800
40 30 1200
80 30 2400
78 70 5460
70 70 4900
28 70 1960
75 70 5250
400 24920

x p = pixi / pi=24920/400=62,3

Exercicio: Seja uma Amostra dos pesos de seis alunos de Administrao. Encontre a mdia para: xi =
68, 56, 47, 66, 93, 56

35
Estatistica - Volume I
2009
Para alm da mdia aritmtica e da mdia aritmtica ponderada, temos tambm a mdia geomtrica, a
mdia harmnica e a mdia quadrtrica (a estes trs tipos de mdias no iremos dar relevancia).

MEDIANA

MEDIANA (Md) um valor que ocupa a posio central em uma srie, logo, precisamos encontrar a
posio mdia entre os dados.

A mediana de uma srie de n observaes x1, x2, ..., xn de uma varivel X o valor que ocupa a
posio central quando as observaes esto ordenadas por ordem crescente ou decrescente, isto , a
mediana de uma varivel estatstica o valor dessa varivel tal que a frequncia dos valores que lhe
so inferiores a mesma que a frequncia dos valores que lhe so superiores. Representa-se,
habitualmente, por Md.

A mediana usada quando na amostra h valores excntricos em relao a outros valores.

Para o clculo da mediana, temos de considerar duas situaes: o caso em que N mpar e o caso em
que N par.

N mpar:

A mediana um valor observado, de tal modo que o lugar que ocupa dado pela frmula

Md = (N +1) / 2

Exemplo: Determine a mediana para a seguinte srie de dados

5 9 8 7 6

Ordenando por ordem crescente, vem 5 6 7 8 9

Como N mpar, ento Md=(N+1) / 2 = (5+1) / 2 = 6/2 = 3 ento a mediana ocupa a terceira
posio ou terceiro termo, o seu valor 7.

Exercicio: Determinar a Mediana da Amostra: X = 2, 20, 12, 23, 20, 8, 12.

Para n = 07 (mpar) temos - Md = (n+1)/2 =

Interpretao: Podemos dizer que 50 % dos valores da srie so menores ou iguais a __________ e
que 50 % dos valores so maiores ou iguais a ____________.

36
Estatistica - Volume I
2009

N par:

A mediana no coincide com nenhum valor observado ficando compreendida entre dois valores
centrais - classe mediana; convencionou-se tomar para mediana a mdia destes dois valores. A
posio que a mediana ocupa dada pela frmula

Md = mdia dos valores que se encontram na posio N / 2 e (N / 2) + 1

Exemplo: Determine a mediana para a seguinte srie de dados

5 6 12 9 8 7

Ordenando por ordem crescente, vem 5 6 7 8 9 12

Como N par, ento N/2 = 6/2 = 3; ( N/2 + 1) = 3+1 = 4 Assim, a classe mediana ocupada pelas
posies 3 e 4, ou seja, pelos valores 7 e 8, pelo que a Md = (7+8) / 2 = 15/2 = 7,5

Exercicio: Determinar a Mediana para a Amostra X = 7, 21, 13, 15, 10, 8, 9, 13.

Para n = 08 (par) temos: Md 1 = e Md 2 =

Logo, a Md =

Interpretao: Podemos dizer que 50 % dos valores da srie so menores ou iguais a __________ e
que 50 % dos valores so maiores ou iguais a ___________.

MODA

A moda (ou valor modal) de uma srie de n valores x1, x2, ..., xn de uma varivel X o valor onde a
frequncia atinge o mximo (relativo). Representa-se, habitualmente, por Mo.

A moda o valor da varivel com maior efectivo, isto , se uma varivel discreta, a(s) moda(s)
(so) o(s) valor(es) da varivel estatstica que se observa(m) com maior frequncia.

Exemplo: Determine a moda para a seguinte srie de valores

xi 4 6 8 10 2

ni 1 3 5 4 2

A moda 8.

Exercicio: Seja uma Amostra aleatria dos pesos de seis alunos de Administrao. Encontre a moda.
se xi = 68, 56, 47, 66, 93, 56.

37
Estatistica - Volume I
2009

QUANTIS

Chama-se quantil de ordem p com 0 p 1 e representa-se, habitualmente, por Cp ao valor de x tal


que F(x)=p.

Alguns quantis tm denominaes especiais:

Quartis:

Os quartis dividem a srie ordenada em 4 partes iguais, contendo cada uma delas 1/4 ou 25% das
observaes.

Q1=1 quartil (corresponde ao quantil de ordem p=1/4)

Q2=2 quartil (corresponde ao quantil de ordem p=1/2)

Q3=3 quartil (corresponde ao quantil de ordem p=3/4)

Assim, Q1 o valor da varivel estatstica que deixa atrs de si 25% das observaes; Q2 o valor da
varivel estatstica que deixa atrs de si 50% das observaes e Q3 o valor da varivel estatstica que
deixa atrs de si 75% das observaes. A (Q1- Q3) chama-se intervalo interquartil e o intervalo ao
qual pertencem 50% das observaes, deixando 25% para a direita e 25% para a esquerda.

de notar que dizer que os quartis dividem a srie em 4 partes iguais no significa que, por exemplo,
os intervalos (Q1, Q2) e (Q2, Q3) tm a mesma amplitude, mas sim que contm o mesmo nmero de
observaes.

Decis:

Os decis dividem a srie ordenada em 10 partes iguais, contendo cada uma delas 1/10 ou 10% das
observaes.

D1=1 decil (corresponde ao quantil de ordem p=1/10)

D2=2 decil (corresponde ao quantil de ordem p=2/10)

38
Estatistica - Volume I
2009
Centis:

Os centis dividem a srie ordenada em 100 partes iguais, contendo cada uma delas 1/100 ou 1% das
observaes.

C1=1 centil (corresponde ao quantil de ordem p=1/100)

C2=2 centil (corresponde ao quantil de ordem p=2/100)

RELAES ENTRE QUARTIS, DECIS, CENTIS E MEDIANA:

Como podemos observar na figura ao lado

Q1=C25

Q2=Md=D5=C50

Q3=C75

D1=C10

D2=C20

Figura 5: Quartis

MEDIDAS DE DISPERSO

Uma medida de tendncia central no nos d, s por si, uma informao exaustiva da distribuio
considerada; pelo contrrio, a capacidade que se lhe atribui de representar os elementos de uma
distribuio depende do modo como estes se concentram ou dispersam em torno dela. Assim,
podemos dizer que os parmetros de tendncia central no so suficientes para caracterizar uma srie
estatstica, apesar de a mediana e os quantis darem j uma ideia sumria do modo como esto
distribudas as observaes.

Consideremos o seguinte exemplo: Dois grupos de alunos com as seguintes classificaes

A 2 3 10 16 19

B 8 9 10 11 12

39
Estatistica - Volume I
2009
A mdia e a mediana 10 e, contudo, estas distribuies so muito diferentes. Com efeito, enquanto
no grupo A as notas apresentam desvios muito grandes, na distribuio B todos os valores se
aproximam de 10. A disperso ou variabilidade da primeira srie mais acentuada do que na segunda.

Quer dizer: distribuies com a mesma tendncia central podem apresentar aspectos bastante
diferentes no que concerne disperso ou variabilidade, e medida que esta disperso aumenta,
menos significativas da distribuio vo sendo as medidas de tendncia central.

Assim, para melhor caracterizarmos uma distribuio, temos de considerar, alm das medidas de
tendncia central, uma outra medida que exprima o grau de disperso ou variabilidade dos dados.

Vamos considerar as seguintes medidas de disperso: amplitude total, amplitude interquartis, desvio
mdio, varincia, desvio padro e coeficiente de disperso ou de variao.

AMPLITUDE

A amplitude total a diferena entre o maior valor e o menor valor, isto , a amplitude total de uma
varivel estatstica a diferena entre o valor mximo e o valor mnimo dos valores observados. a
forma mais simples de avaliar a disperso dos dados, de tal modo que quanto maior for a amplitude
total maior a disperso dos dados.

A amplitude total pode ser tambm denominada de intervalo total ou campo de variao; representa-
se, habitualmente, por A e apenas usa valores extremos.

Numa amostra seriada

A = xmximo - xmnimo

Numa amostra classificada

A = extremo superior da ltima classe - extremo inferior da primeira classe

Se alguma destas classes for de amplitude indeterminada no possvel definir o intervalo de


variao.

A amplitude total apresenta as seguintes desvantagens:

Embora seja fcil de calcular, a amplitude total depende somente dos valores extremos, que so,
geralmente, os menos frequentes e os menos significativos de uma distribuio, desprezando-se os
valores intermdios que so os mais frequentes. Alm disso, os valores extremos so vulgarmente

40
Estatistica - Volume I
2009
anmalos e muito variveis, consoante a amostra que se retire de uma populao, de tal modo que
duas distribuies podem ter a mesma amplitude total, mas disperses muito diferentes.

Outro inconveniente da amplitude total consequncia de no tomar em considerao as frequncias


das observaes.

Exemplo: Calcule a amplitude total do grupo G, sabendo que

G= 2 3 10 16 19

A = xmximo - xmnimo = 19-2 = 17

Amplitude interquartis: Os quartis fornecem indicao quanto forma como as observaes se


distribuem em torno da mediana.

Como o 1 e o 3 quartis representam valores abaixo dos quais esto, grosso modo, respectivamente,
25% e 75% das observaes, entre eles existiro, assim, 50% das observaes centrais.
Consequentemente, quanto mais aproximados estiverem estes quartis, maior ser a concentrao das
observaes em torno da mediana.

A amplitude interquartis pode ser definida como a diferena entre o Quartil 3 e o Quartil 1. Esta
medida de disperso pode ser tambm denominada de intervalo interquartis ou intervalo quartlico.
Como podemos observar na figura, quanto mais achatada a curva maior a amplitude e quanto
maior a amplitude interquartlica mais dispersa a distribuio.

Figura 6: Curva simtrica achatada (platocurtica)

Figura 7: Curva simtrica mesocurtica

41
Estatistica - Volume I
2009

Exemplo: Calcule a amplitude interquartis, sabendo que Q3=177,46 e Q1=166,88.

Q = Q3-Q1 = 177,46-166,88 = 10,58

Podemos tambm calcular a amplitude semi-interquatis ou intervalo inter-quartlico ou intervalo semi-


quartil ou desvio quartlico ou amplitude semi-interquartlico, que se representa, habitualmente, por Q
e pode ser definida do seguinte modo:

Q = (Q3-Q1) / 2

A distribuio tanto mais dispersa quanto maior for a amplitude interquartis.

Podemos enumerar as vantagens e as desvantagens do uso da amplitude interquartis e da amplitude


semi-interquartis:

Estas medidas so mais completas do que a amplitude total, porque usam dois valores menos extremos
(Q1 e Q3). No entanto, tm ainda a limitao de no entrarem em linha de conta com a disposio das
frequncias nos intervalos definidos pelos valores separados - exemplo: a amplitude interquartis ser a
mesma, quer as 50% das observaes se acumulem num s ponto, quer estejam uniformemente
distribudas por esse intervalo interquartis.

As medidas de disperso que passaremos a descrever no tm esta limitao, porquanto o seu clculo
depende de todos os valores da srie.

42
Estatistica - Volume I
2009

DESVIO

Dados n valores x1, x2, ..., xn de uma varivel X, chama-se desvio de cada valor xi em relao
constante c, a diferena de xi para c, isto , xi - c

Note-se que os desvios da varivel X em relao a c, isto , (x1-c), (x2-c), ..., (xn-c) constituem os n
valores da varivel X-c.

DESVIO MDIO

Falamos em desvio mdio quando consideramos os desvios de cada valor xi em relao mdia
aritmtica, isto :

xi-x

O simples total destes desvios no pode ser utilizado como medida de disperso, por ser identicamente
nulo. De facto, para n valores singulares, ter-se-:

(xi-x)=0

No entanto, o quociente entre a soma dos mdulos destes desvios e o nmero deles, j pode ser
considerado como medida de disperso

D.M.= |xi-x | / n

Exemplo: Calcule o desvio mdio para A = 4 5 3

Tabela 3: Clculo do Desvio Mdio

xi xi-x |xi-x |
4 4-4=0 0
5 5-4=1 1

3 3-4=-1 1
=12 3-4=-1 =2

x = xi / n =12/3=4

D.M.= |xi-x| / n = 2/3=0,67

Observao: tambm se utiliza o desvio mdio em relao a qualquer outra medida de posio central.

43
Estatistica - Volume I
2009
Numa amostra seriada temos:

D.M.= ni |xi-x| / n = fi |xi-x|

Se os valores da varivel estiverem tabelados de modo que cada valor xi corresponda a frequncia
absoluta ni, o desvio mdio igual soma dos produtos das frequncias pelos valores absolutos dos
respectivos desvios em relao mdia, dividida pelo efectivo da distribuio.

Numa amostra classificada, os desvios em relao mdia aritmtica so calculados a partir dos
pontos mdios de cada classe, ou seja,

D.M.= ni |x'i-x'| / n = fi |x'i-x'|

Exemplo: Calcule o desvio mdio para classes [4-6[ [6-8]

ni 1 2

Tabela 4: Clculo do Desvio Mdio para classes

Classes ni xi xi-x |xi-x| ni|xi-x|


[4-6[ 1 4,5 4,5-6,2 1,7 1,7
[6-8] 2 7 7-6,2 0,8 1,6
=2,4 =3,3

x' = nix'i / n = [(1x4,5) + (2x7)] / 3 = 6,2

Ento, o desvio mdio

D.M.= ni |x'i-x'| / n = 3,3 /3 = 1,1

O desvio mdio apresenta a seguinte desvantagem: Embora dependa de todos os valores observados,
o desvio mdio tem a desvantagem de considerar os valores absolutos dos desvios, o que impede o seu
tratamento algbrico.

VARINCIA

Outra maneira de eliminarmos os sinais dos desvios, consiste em elev-los ao quadrado. Por isso, em
vez da mdia dos valores absolutos dos desvios considera-se a mdia dos quadrados dos desvios.
Obtm-se, assim, uma outra medida de disperso bastante usada - a varincia. n

(x x)
2
i
S2 = i =1
n 1

44
Estatistica - Volume I
2009
Dados n valores x1, x2, ..., xn de uma varivel X, chama-se varincia e representa-se, habitualmente,
por s2 ou s2x a mdia aritmtica dos quadrados dos desvios em relao mdia dessas valores, isto ,

S2 = (xi-x)2 / n-1

Exemplo: Calcule a varincia para X=17,18,19,20,21

Resoluo:

1. passo: calcular a mdia x = xi / n = (17+18+19+20+21) / 5 = 19

Ento, a varincia

Tabela 5: Clculo da Varincia

xi (xi-x) (xi-x)2
17 17-19=-2 4
18 18-19=-1 1
19 19-19=0 0
20 20-19=1 1
21 21-19=2 4
N=5 =10

S2 = (xi-x)2/ n = 10/(5-1) = 2,5

Se x1, x2, ..., xn ocorrem n1, n2, ..., nk vezes, respectivamente, temos

Para uma amostra seriada:

S2 = ni (xi-x)2 / n-1

Para uma amostra classificada:

S'2 = ni (x'i-x ')2 / n-1

Exemplo: Calcule a varincia para a distribuio cuja mdia 103

Classes [85-90[ [90-95[ [95-100[ [100-105[ [105-110[ [110-115[ [115-120]

ni 12 25 38 85 93 16 9

45
Estatistica - Volume I
2009

Tabela 6: Exercicio - Clculo da Varincia

Classes ni xi (nixi) (xi-x) (xi-x)2 ni(xi-x)2

85-90 12 87 1044 -15,5 240,25 2883

90-95 25 92 2300 -10,5 110,25 2756,25

95-100 38 97 3686 -5,5 30,25 1149,5

100-105 85 102 8670 -0,5 0,25 21,25

105-110 93 107 9951 4,5 20,25 1883,25

110-115 16 112 1792 9,5 90,25 1444

115-120 9 117,5 1057,5 15 225 2025

278 28500,5 12162,25

x = (nixi) / n =28500,5/278 =102,5

Ento, a varincia

S'2 = ni (x'i-x)2/ n = 12162,25/ (278-1) = 43,91

Podemos, agora, enumerar as propriedades da varincia:

Somando ou subtraindo uma constante a todos os valores observados, a varincia resultante


permanecer inalterada;

Multiplicando ou dividindo todos os valores observados por uma constante diferente de zero, a
varincia resultante vir multiplicada ou dividida, respectivamente, pelo quadrado dessa constante.

Correco de Sheppard:

Ao calcular-se a mdia e a varincia da amostra classificada atravs da distribuio emprica das


marcas, comete-se um certo erro (erro de agrupamento), pois supomos que as observaes agrupadas
em cada classe tm todas o valor da respectiva marca. Todavia, existem frmulas correctivas devidas
a Sheppard, isto ,na variancia, ao valor calculado deve subtrair-se 1/12 ao quadrado da amplitude das
classes (a)

s2x = s2x' - a2/12 assim, no nosso exemplo anterior, a variancia corrigida era s2x =43,91 - (52/12)

s2x =41,827

46
Estatistica - Volume I
2009

DESVIO PADRO

O desvio padro pode ser definido como a raiz quadrada da varincia, representando-se,
habitualmente, por sx, isto ,

Ainda que a varincia nos d uma boa informao sobre a distribuio ou variabilidade dos valores
observados em relao sua mdia, apresenta, no entanto, a desvantagem de no se exprimir na
mesma unidade a que esto referidos os dados iniciais. Contudo, esta desvantagem poder ser
eliminada se extrairmos a raiz quadrada da varincia. A nova medida chama-se desvio padro ou
desvio quadrtico.

Numa amostra seriada, temos:

Exemplo: Calcule o desvio padro, sabendo que a varincia de uma amostra seriada 2.

sx = s2x = 2 = 1,414

Numa amostra classificada, temos

Exemplo: Calcule o desvio padro, sabendo que a varincia corrigida de uma amostra classificada
4327,16.

UTILIZAO DAS MEDIDAS ABSOLUTAS DE DISPERSO

Amplitude total

Utiliza-se quando:

Os dados forem muito raros ou demasiado dispersos para se justificar o clculo de uma medida mais
precisa de disperso;

For apenas necessrio o conhecimento dos resultados extremos;

47
Estatistica - Volume I
2009
Desejamos um ndice muito rpido de disperso.

Amplitude interquartlica

Utiliza-se quando:

A mediana a medida de tendncia central usada;

Existirem resultados extremos que poderiam afectar o desvio padro de uma maneira
desproporcionada;

A distribuio truncada;

A distribuio apresenta uma forte assimetria.

Desvio mdio

Utiliza-se quando:

Desejamos ponderar todos os desvios em relao mdia de acordo com a sua grandeza;

Os desvios extremos influenciarem indeterminadamente o desvio padro.

Desvio padro e Varincia

Utilizam-se quando:

Se procura uma medida de disperso em relao com a curva normal;

Tiverem de ser calculados posteriormente coeficientes de correlao e outras estatsticas;

Se desejar obter uma medida que se revista de um mximo de estabilidade;

Se se trata somente de descrever uma distribuio prefere-se o desvio padro varincia. A varincia
intervm sobretudo na anlise estatstica.

COEFICIENTE DE DISPERSO OU VARIAO

As medidas de disperso a que anteriormente nos referimos so medidas que se exprimem na mesma
unidade dos dados e, sendo assim, torna-se impossvel comparar entre si as disperses de duas
distribuies cujos valores no se refiram mesma unidade.

Exemplo: Distribuio A: xA=30 sA=10

Distribuio B: xB=600 sB=20

Qual a distribuio mais dispersa? Se compararmos os desvios padres a B, porque tem maior
desvio padro. Mas a variao de 20 para 600 muito maior do que 10 para 30. Assim, em vez de

48
Estatistica - Volume I
2009
compararmos os desvios padres, aplicamos outra medida de disperso relativa que o coeficiente de
variao ou de disperso, que pode ser definido pela frmula.

S
CV
= 100%
X

Exemplo 26: A distribuio dos pesos e das alturas de um grupo de estudantes de determinada
Universidade conduziu aos seguintes resultados:

X: Pesos Mdia=57,5Kg Desvio Padro=7,5Kg

Y: Alturas Mdia=170cm Desvio Padro=7,1cm

Determine o coeficiente de disperso para cada uma das distribuies e, depois, indique em qual delas
a disperso relativa maior.

Vx = sx / x = 7,5Kg / 57,5Kg = 0,130 = 13%

Vy = sy / Y = 7,1cm / 170cm = 0,042 = 4,2%

Assim, podemos dizer que a disperso relativa mais acentuada na distribuio dos pesos (X).

A disperso maior na distribuio que tiver maior coeficiente de disperso.

Se pretendermos estabelecer comparaes entre disperses absolutas, devemos usar o desvio padro,
de tal modo que quanto maior for o desvio padro maior ser a disperso.

Se pretendermos estabelecer comparaes entre disperses relativas, devemos usar um coeficiente de


disperso, de tal modo que quanto maior for o coeficiente de disperso V maior ser a disperso.

5. CARACTERSTICAS DA DISTRIBUIO NORMAL

A distribuio normal simtrica e apresenta uma curva em forma de sino, como mostra a figura. A
sua principal caracterstica a de as trs medidas de tendncia central - mdia, mediana e moda - Se
encontrarem todas no mesmo ponto da curva, ou seja, todas terem o mesmo valor ou, pelo menos,
valores muito prximos. Se os elementos que constituem uma distribuio esto muito prximos ou
muito dispersos, encontraremos assimetrias positvas ou negativas, consoante a media seja inferior
mediana e moda (negativa) ou superior s mesmas (positiva).

49
Estatistica - Volume I
2009

Figura 8: Distribuio normal

Estas no so distribuies normais, apesar de a mdia, a mediana e a moda se encontrarem todas no


mesmo ponto ( isto que confere simetria distribuio); a distribuio normal tem sempre a forma de
um sino. Como foi descoberta pelo matemtico Gauss, tambm lhe chamamos distribuio
gaussiana.

A maior parte dos dados recolhidos com organismos vivos tm este padro. Podemos observar que,
devido forma da curva, h poucos resultados muito baixos e poucos resultados muito eleva. dos (a
curva cai nos extremos esquerdo e direito, o que se deve s baixas frequncias encontradas),
enquanto a maioria dos resultados se encontram junto mdia. Vamos debruar-nos sobre o padro de
resultados muito em breve, mas nesta fase referiremos outra caracterstica muito importante da
distribuio normal. Tericamente, a curva nunca toca o eixo horizontal, mas aproxima-se dele
infinitamente. Esta uma propriedade matemtica da distri' buio que no se reflecte na recolha de
dados real. No nos cruzamos com seres humanos com dimenses gigantescas ou micros' cspicas!

Ento as propriedades da distribuio normal so as seguintes:

1) simtrica;

2) Tem forma de sino;

3) A mdia, a mediana e a moda encontram-se no mesmo ponto da curva;

4) Tem duas pontas que nunca tocam o eixo horizontal.

50
Estatistica - Volume I
2009

Podemos perguntar-nos quo rgida a distribuio normal relativamente aos elementos. Por outras
palavras, quanto pode uma curva desviar-se da forma de sino e continuar a ser considerada normal?
Geralmente, usamos duas abordagens para tomarmos este tipo de deciso; na verdade, este problema
mais importante do que o leitor pode pensar, pois existem testes estatsticos, descritos mais frente,
que s podem realizar-se se os elementos forem normalmente distribudos. Uma das abordagens
baseia-se na observao dos dados por averiguao, para lhe darmos um nome mais respeitvel. Se
o conjunto de nmeros for extenso, tornar-se- mais fcil desenhar uma distribuio de frequncias. A
outra abordagem reside em seguir um dos procedimentos matemticos para determinar se um conjunto
de resultados normalmente distribudo. A verso do teste do quiquadrado que inclumos neste
manual um desses procedimentos. Na verdade, improvvel que nesta fase da sua carreira estatstica
necessite de saber com grande preciso se uma distribuio considerada normal ou no, pelo que o
teste grfico deve bastar. No entanto, deve ser sensvel ao problema.

5.1 A CURVA NORMAL E OS DESVIOS-PADRO

Suponhamos que temos um conjunto de nmeros cuja mdia 50 e cujo desvio padro 5.
Chamamos a este valor (centmetros, segundos, pontos numa escala, ou outra coisa qualquer) um
desvio padro. Dez centmetros, segundos, etc., seriam dois desvios padro e quinze centmetros,
segundos, etc., trs desvios padro ... sempre com referncia ao conjunto atravs do qual obtivemos o
valor 5. como se pudssemos tirar o desvio padro e transform-lo numa unidade de medida de uma
escala; como se dissssemos que uma polegada so 2,54 cm. Nunca misturaramos polegadas e
centmetros nos mesmos clculos, mas poderamos converter uma unidade na outra. Do mesmo modo,
no misturamos resultados de desvios padro com resultados reais, mas convertemos uma escala na
outra.

Voltemos s propores de nmeros em diferentes partes da distribuio. Se retirarmos uma parte da


curva entre a mdia, que esta marcada no eixo horizontal da figura que se segue como 50, e um desvio
padro, marcado no eixo horizontal como 55, sabemos que devemos ter cerca de um tero de todos os
resultados neste conjunto, porque o que acontece sempre com a distribuio normal. De uma forma
mais precisa, a proporo exacta do nmero total de resultados que se encontram entre a mdia e um
desvio-padro acima da mdia (50 e 55 neste caso) 34,13 %. Como a distribuio normal
simtrica, deve verificar-se a mesma coisa abaixo da mdia, isto , devemos ter outros 34,13 % dos
resultados entre os valores 50 e 45 - sendo 45 o valor da mdia menos um desvio-padro de 5 pontos.
Observemos as duas partes a sombreado. A aritmtica elementar diz-nos que 68,26 % do total dos
resultados se encontram entre os valores 45 e 55, pertencendo 31,74 % aos valores extremos que se

51
Estatistica - Volume I
2009
encontram nos outros dois lados. Mais uma vez, a simetria da curva significa que, para esta proporo,
metade de 31,74 %, ou seja, 15,87 %, encontra-se de cada um dos lados da distribuio. Por outras
palavras, cerca de 16 % de todos os nmeros neste conjunto sero menores do que 45, sendo a mesma
quantidade maior do que 55.

Exemplo: Suponhamos que o professor obtm os resultados de um teste de leitura feito a 200 crianas.
Os resultados so normalmente distribudos com uma mdia de 60 e um desvio-padro de 8. A partir
das propriedades da distribuio normal, sabemos que cerca de dois teros dos resultados, isto ,
aqueles que foram obtidos com cerca de 136 crianas, encontrar-se-o entre os 52 e os 68 pontos.
Cerca de 32 crianas (16 %) tero resultados abaixo de 52 e cerca de 32 tero resultados acima de 68.
J os referimos todos. Suponhamos ento que os pais de uma criana que obteve 68 gostariam de
saber algo acerca do progresso do seu filho. Quando souberam que o resultado da criana estava
acima da mdia, ficaram contentes, mas gostariam de saber, posteriormente, quo acima da mdia
se encontra, relativamente aos outros 50 % de crianas que tambm obtiveram resultados acima da
mdia. Por outras palavras, os pais pretendem saber qual a posio relativa do desempenho do filho.
Se os resultados estivessem todos muito perto da mdia, sendo a nota mxima 68, os pais
continuariam encantados. Ficariam, porm, menos satisfeitos se soubessem que a nota mxima tinha
sido 90, com um grande conjunto de notas altas, acima de 70. No entanto, o professor sabe que o
desvio-padro das notas foi 8 e, por isso, um tero de todos os resultados estava entre 60 e 68.
Sabendo que 50 % dos resultados obtidos estavam abaixo da mdia, podemos perceber que a
posio desta criana est ao nvel de 84 % dos resultados, na parte superior de todos os resultados.
Afinal, os pais tm razes para estarem contentes! Se a criana tivesse obtido 76, os pais teriam muito
mais razes para estarem orgulhosos, pois saberiam que o seu filho estava acima de 98 % das outras
crianas (nota 76 e dois desvios-padro acima da mdia); uma nota 84 colocaria o menino na posio
invejvel de estar acima de 99,87 % das outras crianas - por outras palavras, num grupo de 200
crianas, estaria, muito provavelmente, no topo. Os desvios-padro cortam propores fixas da
distribuio normal, a partir da mdia e at ao infinito (pelo menos teoricamente), nas duas direces.
Deve certificar-se de que percebeu como se obtm a posio relativa da nota 76 (isto , 50 % + 33 %
+ 15 %) e como se calcula que neste grupo de crianas existem outras quatro com notas acima de 76.
Veja se consegue calcular a nota que colocaria a criana na posio, menos invejvel, de estar apenas
a quatro lugares do fim.

A resposta 44. Para obtermos esta nota necessitamos de saber que nota representa dois desvios-
padro abaixo da mdia ou que nota corresponde a 2 %. Partindo de 60, a mdia, se lhe subtrairmos o
valor de dois desvios-padro - 16, duas vezes o valor de 8, que um desvio-padro - obteremos 44.
Devemos ter cuidado e no misturar os valores dos desvios-padro com os resultados reais. Neste
exemplo no subtramos o valor 2 da mdia de 60, apesar de querermos o resultado que estava dois

52
Estatistica - Volume I
2009
desvios-padro abaixo dele. Subtramos 16 pontos, pois este o nmero que corresponde a dois
desvios-padro para este conjunto de re sultados.

Resultados z Nos exemplos considerados os resultados encontravam-se sempre na mdia, ou


exactamente um, dois ou trs desvios-padro acima ou abaixo dela. Temos, porm, de examinar
resultados que no sejam to facilmente convertveis para desvios-padro. Suponhamos, por exemplo,
que uma criana com pais ansiosos obteve uma nota 64 num teste de leitura. A posio da criana na
curva seria a metade da distncia, no eixo horizontal, entre o resultado da mdia (60) e um desvio-
padro acima (68).

A posio da criana exactamente a meio entre os pontos 60 e 68. Significar isto que a sua posio
no grupo o ponto central entre a mdia de 50 % e 84 % da nota 68? Isto , encontrar-se- a criana
acima de 67 % dos colegas? Olhemos cuidadosamente para as duas pores da curva que est dividida
pela linha ao nvel da nota 64. Sero simtricas? No - e aqui temos um problema que torna o clculo
de uma posio relativa muito mais complicado e cansativo do que gostaramos. Quanto mais nos
afastamos da mdia, menos resultados correspondem s diferentes propores. Assim, se tivermos
duas pores entre 60 e 64 e entre 64 e 68, haver menos resultados neste ltimo intervalo. Haver
ainda menos no intervalo sguinte, entre as notas 68 e 72, e assim sucessivamente. Isto tambm
verdadeiro para os resultados abaixo da mdia, mas, neste caso, so os resultados mais elevados, e no
os mais baixos, que se encontram mais perto da mdia. H muito menos resultados entre 44 e 48 do
que entre 48 e 52, apesar de, em ambos os casos, a variao de notas ser de 4 pontos, ou seja, meio
desvio-padro. Quando olhamos para a forma de uma distribuio normal, o tamanho diferente das
propores que cada desvio-padro compreende parece bvio. No entanto, o problema de decidir a
posio relativa de uma nota 64, quando comparada com os resultados, no desapareceu. Como
podemos determin-la? A resposta dada atravs de resultados z. Os resultados z correspondem a
desvios-padro e, na verdade, so virtualmente a mesma coisa, excepto no facto de um resultado z se
referir sempre posio de um ponto em relao a mdia. Isto vai tornar-se claro em breve. Para j,
pensemos que um resultado z de 1 a mesma coisa que um desvio-padro de 1, que um resultado z de
2 e um dp 2, e assim por diante. Como no h, virtualmente, nada numa distribuio normal depois do
terceiro desvio-padro ou resultado z - em qualquer das direces -, r,aro que os desvios-padro ou
os resultados z incluam o valor 4. E comum referirmo-nos aos resultados z como mais ou menos; aos
desvios-padro descrevemo-los como situando-se acima ou abaixo da mdia, em vez de mais ou
menos. Um desvio-padro tem um valor definido no varivel, enquanto um resultado z se refere a
uma posio relativa na curva e referido em funo da mdia. Como, at agora, um resultado z tem o
mesmo significado que um desvio-padro acima da mdia, podemos considerar que os resultados z e
os desvios-padro so iguais. No entanto, um desvio-padro pode referir-se a um conjunto de
resultados que distem um desvio-padro de qualquer ponto da curva, enquanto os resultados z tm

53
Estatistica - Volume I
2009
posies fixas. Um resultado z de + 1 corresponde exactamente a um desvio-padro acima da mdia, e
no a qualquer conjunto de resultados que constituam um desvio-padro. Voltemos ao problema do
resultado de 64 e sua posio relativa. Sabemos que a sua posio exactamente metade de um
desvio-padro acima da mdia, pelo que lhe damos um resultado z de + 0,5.

H tabelas que nos permitem ver muito facilmente onde os resultados z se situam na curva normal.
Procure uma tabela estatstica da distrbuio normal vejamos como utiliz-las. Utilizaremos o nosso
exemplo de 64, cujo valor z + 0,5.

Lemos o valor na primeira coluna da esquerda, encabeada por z, at chegarmos ao valor 0,5.
Olhamos para a coluna direita e vemos o nmero 19,15. Temos de somar 50 %, de modo a obtermos
o valor 69,15. Sabemos ento que h 69,15 % dos resultados abaixo de 64 e 30,85 % acima. Devemos
arredondar os valores para 69 % e 31 %, respectivamente. Consideremos outro exemplo, desta vez
com o valor 65. Este valor est 5 pontos acima da mdia e o desvio-padro para o conjunto de 8. Um
resultado de 5 pontos acima da mdia 5/8 de desvio-padro acima da mdia. Se fizermos as contas,
sabemos que z + 0,63. Como se encontra acima da mdia, o seu valor positivo. Voltemos tabela.
Como z tem, desta vez, duas casas decimais, os procedimentos vo ser um pouco diferentes. O valor
imediatamente direita (22,7) a percentagem correcta para um resultado z de 0,6. No entanto, o
nosso resultado 0,63, pelo que temos de andar trs colunas da tabela at ao valor 0,03, no topo. Este
valor, somado ao valor 0,6, d-nos o z de 0,63 - ou seja, 23,57. Como o nosso z positivo, devemos
somar-lhe 50 % para obtermos o valor final de 73,57. Assim, a nota 65 est frente de 74 % da escala.
Podemos ver pela tabela que 49 % de todas as notas em cada um dos lados da curva esto includas
num z de 2,33 ou um bocadinho mais abaixo, para sermos mais precisos). Notemos que,
matematicamente, as caudas da curva nunca tocam o eixo horizontal, nem incluem todos os resultados
possveis.

Reparemos agora na posio relativa de uma pessoa que obtenha um resultado abaixo da mdia,
digamos uma nota 41 na amostra original. Esta nota est 19 pontos abaixo da mdia, apenas um pouco
menos do que dois desvios-padro. Para sermos precisos, est 19/8 ou 2,375 abaixo. O seu z ser -
2,375. Na tabela SI iem anexo vemos que um z de + 2,3 inclui 48,93 % dos resultados, mas o nosso
resultado z o valor um pouco superior de 2,375. A nossa tabela s pode ser usada com duas casas
decimais, pelo que vamos arredondar este valor para 2,38. Paramos, desta vez, junto da coluna de 0,08
e obtemos o valor 49,13. Assim, um z de + 2,38 inclui 50 % + 49,13 % = 99,13 % de todos os
resultados. At agora tudo bem, mas o problema que o nosso valor era negativo. Basta virarmos a
nossa curva ao contrrio e trabalharmos com a sua imagem ao espelho. Assim, com o nosso valor -
2,38 sabemos que 99,13 % de todas as notas da distribuio esto acima dele e apenas 0,87 % abaixo.
Se considerarmos esta pequena proporo de 1 %, devemos esperar que, na nossa amostra de 200
indivduos, 1 %, ou seja, dois indivduos tenham notas inferiores a 41. No outro extremo das notas,

54
Estatistica - Volume I
2009
devemos esperar que apenas dois alunos tenham notas de 19 ou mais pontos acima da mdia, ou seja,
notas que excedam os 79 %.

O modo de obter o valor z dado pela expresso formal

Z= desvio da nota em relao mdia

desvio-padro

Se o desvio em relao mdia tiver um sinal positivo ou negativo, se estiver acima ou abaixo da
mdia, respectivamente, z ficar com o sinal correcto.

Nota: : tenha cuidado quando trabalhar com z e dp, de modo a us-los sempre que os dados atravs
dos quais foram obtidos sigam uma distribuio normal Ou aproximadamente normal. De outro modo,
arranjar confuses

6. TESTES ESTATISTICOS

Estatstica Paramtrica: calcula as diferenas numricas exactas entre os resultados.

Estatstica No paramtrica: considera se certos resultados so superiores ou inferiores a outros


resultados.

Requisitos para utilizao de testes paramtricos

Quando se pretende empregar um teste t de Student ou uma anlise da varincia para fazer
comparaes entre amostras (testes paramtricos), existe uma lista de requisitos que inclui, entre
outros:

que a varivel tenha sido mensurada num nvel mnimo intervalar;

que a distribuio seja simtrica e mesocurtica;

que a caracterstica estudada (varivel) tenha distribuio normal numa dada populao.

Sempre que no se pode, honestamente, admitir a simetria e a normalidade de distribuio, ou os


dados foram recolhidos num nvel de mensurao inferior ao intervalar, devemos recorrer a testes que
no incluem a normalidade da distribuio ou nvel intervalar de mensurao. Esses testes chamam-se
no paramtricos

55
Estatistica - Volume I
2009

Vantagens dos testes no-paramtricos

Podem ser utilizados, mesmo quando os seus dados s podem ser medidos num nvel ordinal, isto ,
quando for apenas possvel orden-los por ordem de grandeza) podem ser utilizados mesmo quando os
seus dados so apenas nominais, i.e., quando os sujeitos podem apenas ser classificados em
categorias.

Poder de um teste

O poder de um teste a probabilidade de rejeitarmos a H0 quando ela realmente nula

Os testes mais poderosos (os que tm maior probabilidade) de rejeio de H0, so testes que possuem
pr-requisitos mais difceis de satisfazer (testes paramtricos como t e F).

As alternativas no paramtricas exigem muito menos pr-requisitos mas produzem testes de


significncia com menos poder que os correspondentes paramtricos.

Em consequncia

Ao rejeitar-se a H0 sem preencher as exigncias mnimas dos testes paramtricos, mais provvel que
essa rejeio seja falsa (se rejeitar a H0 quando ela verdadeira comete um erro de tipo I; se aceitar a
H0 quando ela falsa comete um erro de tipo II). Quando os requisitos de um teste paramtrico so
violados, torna-se impossvel conhecer o seu poder e a sua dimenso ()

obvio que os investigadores querem, a todo o custo, rejeitar a H0 quando ela mesmo falsa,
evitando um erro de tipo I.

O teste ideal seria aquele que =0 e =1, o que implicaria que o teste conduziria sempre deciso
correcta, contudo este teste ideal raramente existe.

A probabilidade do erro de 1 espcie deve ser reduzida, fixando terico em 0,1; 0,05 ou 0,01. o
valor fixado para depende da importncia que se d ao facto de rejeitar a H0 quando esta
verdadeira.

Uma ilustrao deste ponto de vista pode ser feita com o seguinte exemplo:

Uma pessoa inocente at prova do contrrio

H0: A pessoa inocente

H1: A pessoa culpada

Erro I: A pessoa condenada mas est inocente

56
Estatistica - Volume I
2009
Erro II: A pessoa absolvida mas culpada

Naturalmente a justia procura reduzir a possibilidade de ocorrer o erro de 1 espcie, pois entende-se
que mais grave condenar inocentes que absolver criminosos.

Para certos sistemas judiciais um = 0,1 demasiado elevado, optando por =0,01; noutros sistemas
judiciais pode admitir que = 0,05 um valor razovel.

ASSIM

Fixada a probabilidade do erro de tipo I (dimenso do teste), o teste mais potente aquele em que a
escolha da regio critica minimiza a probabilidade do erro de 2 espcie. Diz-se tambm que esta
regio critica a mais potente.

Facilmente se conclui que o teste mais potente aquele que, uma vez fixada a probabilidade de
rejeitar a H0, quando ela verdadeira, maximiza a potncia ou a capacidade para rejeitar a mesma
hiptese quando esta falsa.

Pressupostos

Para saber se uma varivel simtrica dividimos o coeficiente assimetria (Skewness) pelo erro padro
e se o resultado estiver entre 2 e -2 a distribuio simtrica.

Para saber se uma varivel mesocurtica dividimos o coeficiente de achatamento (Kurtosis) pelo erro
padro e se o resultado estiver entre 2 e -2 a distribuio mesocurtica.

Mas se os resultados de um teste paramtrico, no cumpriram com os requisitos (no mnimo dados
intervalares; distribuio simtrica, mesocurtica e normal), ento no tm interpretao significativa.

Quando acontecem estes factos, a maioria dos investigadores opta por testes de significncia no-
paramtricos.

Para escolher qualquer tipo de teste estatstico

Distinguir se a nossa amostra constituda pelos mesmos sujeitos em todas as situaes ou se


formada por diferentes sujeitos para cada situao

Inter-sujeitos ou design no-relacionado

57
Estatistica - Volume I
2009
este tipo de design utilizado quando um indivduo ou objecto avaliado apenas uma vez. A
comparao efectuado entre os grupos de sujeitos/ objectos cujos resultados so no-relacionados.

Desvantagem: conjunto das diferenas individuais na forma como os sujeitos reagem ou respondem
tarefa.

Intra-sujeitos ou design relacionado

A comparao feita entre os mesmos sujeitos (sujeitos do mesmo grupo).

A importncia destes designs a eliminao de quaisquer particularidades individuais, uma vez que
ficam igualizadas em todas as situaes.

Desvantagem: Efeito de memria e aprendizagem.

Amostras emparelhadas

Igualizam-se sujeitos diferentes mas emparelhados, em termos de idade, sexo, profisso e outras
caractersticas gerais que parecem importantes para cada pesquisa em particular.

estes tipos de designs podem ser considerados de designs relacionados, uma vez que controlado nas
suas caractersticas relevantes.

Desvantagem: Dificuldade em encontrar sujeitos que permitam o emparelhamento de todas as


caractersticas relevantes.

Dificuldades arranjar grandes amostras.

ESTRATGIAS ESTATISTICAS DE ANLISE DE DADOS

A maioria dos investigadores principiantes enfrenta srias dificuldades quando tem de usar a anlise
estatstica. apontado como provveis causas o ensino de Estatstica que, frequentemente, tem um
enfoque matemtico ou de receita que no conduzem ao aproveitamento desta ferramenta e o
consequente despoletar de uma ansiedade matemtica, que pode levar os estudantes a evitar o seu
uso. Essa situao conduz, no raras vezes, dependncia de outros para seleccionar a estatstica
adequada ao seu projecto. O objetivo desta lio ajudar a ter uma idia da potencialidade da
estatstica apropriada a sua pesquisa.

Primeiro examine seu estudo, identifique o que quer com sua anlise estatstica, devendo, para isso,
especificar claramente as vrias questes a que quer que sua anlise estatstica responda (conhecer a

58
Estatistica - Volume I
2009
associao ou verificar as diferenas). Comece por escrever as suas questes de pesquisa e hipteses.
Depois identifique a varivel dependente e independente bem como os seus nveis de mensurao.
Apos estar na posse dessa informao consulte a figura que se segue e vai ver que tudo comea a ficar
mais fcil.

Figura 9: identificar os testes estatisticos

Como segundo passo na escolha da estatstica apropriada, verifique se sua varivel dependente
adequada para a estatstica paramtrica. A estatstica paramtrica envolve pelo menos dois
pressupostos iniciais: o primeiro se a varivel dependente segue uma distribuio normal e, o
segundo, se os dados entre diferentes sujeitos so independentes ou emparelhados/relacionados.

59
Estatistica - Volume I
2009
Portanto, uma varivel dependente qualitativa ou categrica no se enquadra neste tipo de estatstica,
devendo usar o enfoque da estatstica no paramtrica.

Assim recorremos a estatstica paramtrica quando analisamos variveis dependentes contnuas.


Se essas variveis violam os pressupostos e no tem como corrigir essa violao, ento deve utilizar a
estatstica no paramtrica. S tem duas opes: ou aprende a lidar com a Estatstica no
paramtrica ou ento aumenta o tamanho da amostra.

Examine cada varivel dependente uma por uma nesse processo. Nem todas tero as mesmas
caractersticas. Um erro comum, por exemplo, assumir que pode usar sempre o mesmo teste
estatstico se os grupos experimentais so equivalente em idade, gnero, anos de estudos e outras
variveis demogrficas. Idade e anos de estudo so duas variveis geralmente analisadas com
estatstica paramtrica. O gnero e a etnia so variveis nominais e por isto devem ser analisadas com
Estatstica no paramtrica.

Definir quais as estratgias estatsticas a utilizar exige o conhecimento das lies anteriores. As mais
robustas estratgias estatsticas exigem que as variveis apresentem propriedades intervalares para que
sejam obtidos resultados fidedignos. Contudo na investigao com seres humanos nem sempre
possvel termos variveis quantitativas, por isso para cada teste estatstico paramtrico existe um
equivalente no paramtrico mas destes ltimos existem vrios que no tem equivalente paramtrico.

Por exemplo se tanto a nossa varivel dependente (VD) quanto a independente (VI) forem nominais e
quisermos conhecer a associao entre elas podemos recorrer ao qui-quadrado (x2) da independncia;
se ambas forem ordinais podemos recorrer ao rho de spearman mas se forem quantitativas e
cumprirem com os restantes pr-requisitos da estatistica paramtrica (simtricas, mesocurticas e
distribuio normal) podemos utilizar o teste r de Pearson.

Se em vez de querermos ver umas associao ou correlao pretendermos verificar se existem


diferenas na distribuio de uma varivel (VD) em funo de outra com nivel de mensurao
nominal e dicotmica (VI) ento podemos utilizar o teste t de Student para amostras independentes
(caso estejam cumpridos os prerequisitos impostos VD i, quantitativa, simtrica e apresente
distribuio aproximadamente normal) ou o seu equivalente no paramtrico u de Mann-Whitney
(caso no estejam cumpridos os pr-requisitos da estatistica paramtrica mas a VD tenha um nivel de
mensurao no minimo ordinal).

60
Estatistica - Volume I
2009
Se a figura anterior no o deixou muito esclarecido experimente consultar o quadro que se segue.
Otestes estatsticos paramtricos esto assinados com um asterisco (*)

Tabela 7: Grelha de deciso dos testes

NIVEIS DE MENSURAO
Nominal Ordinal Quantitativa
Testes para uma
-TESTE DE KOLMOROGOV-
amostra
TESTE DE QUI-QUADRADO DA ADERNCIA TESTE DE KOLMOROGOV-SMIRNOV SMIRNOV
-TESTE T PARA UMA AMOSTRA
*

Variveis Independentes
Qualitativas Quantitativa
Nominal/ dicotomica Ordinal/ Grupo
TESTE DE QUI-QUADRADO DA INDEPENDENCIA
Nominal KAPPA DE COHEN TESTE DE QUI-QUADRADO DA
MACNEMAR INDEPENDENCIA

Q DE COCHRAN
TESTE DE QUI-QUADRADO DA INDEPENDENCIA RHO DE SPEARMAN
Variveis Dependentes

TESTE DE U DE MANN-WHITNEY W DE WILCOXON


Ordinal TESTE DE H DE KRUSKAL-WALLIS KAPPA DE COHEN RHO DE SPEARMAN
MACNEMAR
TESTE DE QUI-QUADRADO DA
INDEPENDENCIA
TESTE T DE STUDENT PARA N
TESTE T DE STUDENT PARA DADOS INDEPENDENTES * EMPARELHADOS *
TESTE DE U DE MANN-WHITNEY W DE WILCOXON
TESTE ANOVA DE UM CRITRIO E RESPECTIVO POST-
Quantitativa HOC * RHO DE SPEARMAN R DE PEARSON *
RHO DE SPEARMAN
TESTE DE H DE KRUSKAL-WALLIS e RESPECTIVO POST- TESTE ANOVA PARA MEDIDAS
HOC (Nemenyi) REPETIDAS *
TESTE FRIEDMAN

Supondo que suas variveis dependentes tivessem uma distribuio normal ou que sua amostra fosse
suficientemente grande, deve verificar todas as possibilidades de anlise: univariada , bivariada,
mltipla e multivariada, se for o caso. A anlise univariada quando a varivel analisada per se,
anlise bivariada quando uma varivel dependente relacionada com uma nica varivel
independente, anlise mltipla quando se analisa uma varivel dependente em funo de vrias
variveis independentes, e anlise multivariada, quando se analisa vrias variveis dependentes
contnuas em funo de variveis independentes categricas ou quando se analisa a estrutura das
variveis, visando a reduo do nmero de variveis.

O quadro anterior no esgota as analises estatsticas, alis existem outras tantas quantas as que
apresentamos aqui, contudo mostra as mais utilizadas nas anlises univariadas e bivariadas.

61
Estatistica - Volume I
2009

6.1. TESTES PARAMTRICOS PASSO-A-PASSO

6.1.1 TESTE T DE STUDENT (NO RELACIONADO)

CARACTERSTICAS E REQUISITOS DO TESTE T NO RELACIONADO OU INDEPENDENTE

1. Teste para a comparao de mdias;


2. Distribuio com forma leptocrtica, isto , as caudas da distribuio so mais grossas do que
na distribuio normal;
3. Escala de medida intervalar e Contnua;
4. Simtrica;
5. De forma campanular;
6. Varia de mais infinito a menos infinito;
7. desvio padro da varivel de acordo com n.
8. distribuio normal;
9. n >=30).

Utiliza-se para designs experimentais com duas situaes testando uma varivel independente,
quando nessas situaes se encontram sujeitos diferentes - designs no relacionados. O teste t no
relacionado o equivalente paramtrico do teste no paramtrico U de Mann-Whitney; ambos
comparam diferenas entre dois grupos.

O objectivo deste teste comparar a quantidade da variabilidade devida s diferenas previstas nos
resultados entre dois grupos com a variabilidade total nos resultados dos sujeitos. As diferenas
previstas so calculadas como uma diferena entre os resultados mdios entre os dois grupos.

A estatstica t representa o tamanho da diferena entre as mdias para os dois grupos, tomando em
considerao a varincia total.

Para que o valor observado de t seja significativo ter de ser igual ou superior aos valores
crticos de t apresentados na tabela.

62
Estatistica - Volume I
2009
Instrues passo-a-passo

1. Elevar ao quadrado cada resultado individual para ambos os grupos em separado


2. Adicionar os totais dos resultados ao quadrado para cada grupo
3. Elevar ao quadrado todos os resultados individuais para cada grupo
4. Calcular a mdia para cada grupo
5. Calcular t:

em que

1 = mdia do grupo 1
2 = mdia do grupo 2
x12 = soma dos quadrados para o grupo 1
x22 = soma dos quadrados para o grupo 2
( x1)2 = resultados totais do grupo 1 ao quadrado
( x2)2 = resultados totais do grupo 2 ao quadrado
n1 = nmero de sujeitos do grupo 1
n2 = nmero de sujeitos do grupo 2
(n1 - 1) + (n2 - 1) = graus de liberdade (gl)

Se t observado t crtico rejeita-se H0 Se t observado < t crtico aceita-se H0

63
Estatistica - Volume I
2009
Exemplo: para verificar se duas dietes para emagrecer so igualmente eficazes, um mdico separou ao acaso
um conjunto de pacientes em dois grupos. Cada paciente seguiu a dieta designada para o seu grupo durante 4
meses. O mdico registou a perda de peso em kg de cada paciente por grupo. Os dados esto apresentados no
quadro que se segue:

Tabela 8: Clculo do valor t

Grupo 1 (dieta 1) Grupo 2 (dieta 2)

Resultados Resultados ao quadrado Resultados Resultados ao quadrado

10 100 2 4

5 25 1 1

6 36 7 49

3 9 4 16

9 81 4 16

8 64 5 25

7 49 2 4

5 25 5 25

6 36 3 9

5 25 4 16

x1 = 64 x12 = 450 x2 = 37 x22 = 165

Calcule o valor de t observado 2 e verifique se igual, superior ou inferior ao valor crtico e intrepete o
resultado.

2
Soluo:tObs=3,1 tcrit(18)=2,9

64
Estatistica - Volume I
2009

6.1.2 TESTE T DE STUDENT (RELACIONADO)

CARACTERSTICAS E REQUISITOS DO TESTE T RELACIONADO OU EMPARELHADO

Utiliza-se para designs experimentais com duas situaes testando uma varivel independente, quando
os mesmos sujeitos (ou emparelhados) se encontram em ambas as situaes - design relacionado. O
teste t relacionado equivalente ao teste no paramtrico de Wilcoxon.

O objectivo comparar as diferenas entre as duas situaes experimentais com a variabilidade total
nos resultados. Quando os mesmos sujeitos so usados em ambas as situaes podem comparar-se
pares de resultados obtidos por cada indivduo quando sujeito a ambas as situaes.

A estatstica t apresenta o tamanho das diferenas entre os resultados dos sujeitos para as duas
situaes. Para que seja significativo o valor de t ter de ser igual ou superior aos valores crticos da
tabela

Instrues passo-a-passo

1. Calcular as diferenas entre os resultados dos sujeitos subtraindo os resultados da situao B


para a situao A
2. Elevar essas diferenas ao quadrado
3. Calcular o somatrio das diferenas obtidas (d)
4. Calcular o somatrio do quadrado das diferenas (d2)
5. Elevar ao quadrado as diferenas totais (d)2
6. Calcular t:

65
Estatistica - Volume I
2009

em que

d = soma das diferenas dos resultados A e B

d2 = soma dos quadrados das diferenas

( d)2 = soma das diferenas elevadas ao quadrado

N = nmero de sujeitos

N 1= gl

Por fim consulta-se a tabela dos valores crticos e,

Se t observado t crtico rejeita-se H0 Se t observado < t crtico aceita-se H0

Tabela 9: Valores crticos t de student

66
Estatistica - Volume I
2009
Exemplo: Para verificar se a eficcia de uma dieta era influenciada pelo ministrar de um frmaco, um
mdico decidiu administrar, a um grupo de individuos que o tinham procurado para perder peso, um placebo
em conjunto com uma dieta que j havia administrado um ms antes aos mesmos sujeitos. Referiu aos seus
casos que aquele medicamento servia para perder apetite e ajudava a queimar gorduras.

Registou a perda de peso que tinha ocorrido nos 30 dias antecedentes tomada de placebo e trinta dias aps
o placebo. Os resultados esto no quadro que se segue

Tabela 10: Clculo do teste t emparelhado

Situao A Situao B d
Sujeito d2
(com placebo) (s com dieta) (A-B)
1 10 2 8 64
2 5 1 4 16
3 6 7 -1 1
4 3 4 -1 1
5 9 4 5 25
6 8 5 3 9
7 7 2 5 25
8 5 5 0 0
9 6 3 3 9
10 5 4 1 1
Total 64 37 d = 27 d2 = 151

Resoluo 50:

Instrues Passo-a-Passo:

1. construir tabela
2. calcular as mdias
3. d = 27
4. d2 = 151
5. ( d)2 = 27 x 27 = 729
6. proceder aos calculos
7. g.l. = N - 1 = 10 - 1 = 9

67
Estatistica - Volume I
2009
calcule o valor observado 3 de t e verifique se superior, igual ou inferior ao valor crtico de e
interprete os resultados.

6.1.3 CORRE LAO MOMENTO-PRODUTO DE BRAWAIS-PEARSON

Quando estudamos um grupo relativamente a dois caracteres vemos, como j dissemos, que pode
existir uma relao entre eles.

Se medirmos os raios de vrias circunferncias e tambm os seus permetros verificamos que existe
uma relao entre eles que constante; neste caso temos "dependncia funcional". Isto quer dizer que
existe uma frmula exprimindo a medida do segundo em funo da do primeiro: P=2r.

Suponhamos agora que registamos, durante todos os dias de um certo perodo de tempo, o numero de
alunos que frequentam a biblioteca do Instituto Superior Miguel Torga e o nmero de passageiros dos
SMTUC da linha 6 (CHC-HUC). V-se bem que entre as duas estatsticas assim obtidas no
esperada nenhuma relao. Diremos que os dois caracteres so "independentes". Mas espera-se que
exista uma dependncia estatstica entre as pessoas que tentam o suicdio e a depresso. Diremos que
estes caracteres esto correlacionados.

Desde que os dois caracteres sejam tais que as suas variaes sejam sempre no mesmo sentido, ou em
sentidos contrrios, pressentimos que os caracteres estejam ligados entre si: dizemos, ento, que existe
uma correlao entre eles.

Estes mtodos de correlao foram criados por Sir Francis Galton, que trabalhou juntamente com
Pearson, nos fins do sculo XIX. A correlao e a regresso so dois aspectos que andam sempre
muito ligados, pertencendo Estatstica correlacional. Assim, importa fazermos a distino entre eles:

A correlao pode ser definida como o grau de semelhana no sentido das variaes entre os valores
correspondentes dos dois caracteres, isto , a correlao preocupa-se quer com a descrio da relao
entre variveis quer com a sua direco (directa ou inversamente proporcional, positiva ou negativa).

J a regresso usada quando queremos conhecer as variveis preditoras de uma outra conhecida.

3
tobs=2,90; tcrit(0,010)=2,821

68
Estatistica - Volume I
2009

TIPOS DE COEFICIENTE DE CORRELAO

Basicamente, podemos considerar dois tipos de coeficientes de correlao:

- Coeficiente de correlao momento-produto de Brawais-Pearson, cujo smbolo "r", e que uma


tcnica de estatstica paramtrica;

- Coeficiente de correlao Rho de Spearman-Rank, cujo smbolo "", e que uma tcnica de
estatstica no paramtrica.

Devemos salientar que, para o clculo das correlaes, necessrio termos sempre duas medidas para
cada sujeito.

REPRESENTAO GRFICA

representao grfica da correlao chamamos diagrama de disperso de pontos ou scatterplot ou


scattergram e, genericamente, toma a seguinte forma:

Figura 10: Diagramas de disperso de pontos, scatterplot ou scattergram

69
Estatistica - Volume I
2009
A anlise de r deve vir acompanhada do diagrama de disperso, pois a associao pode no
ser linear.

140 160

r=0 r 0,90
0 0
0 20 0 14

Figura 11: Diagramas de disperso : causa & efeito

Suponhamos que temos duas sries estatsticas formadas pelos valores xi e yi de dois caracteres.
Podemos fazer uma representao grfica dos dados representando todos os pontos (xi, yi) e obtendo a
nuvem de pontos.

Segundo os dados, a nuvem de pontos pode apresentar diversos aspectos.

Por exemplo os pontos podem distribuir-se na semelhana de uma linha recta ou de uma curva: isto
sugere a existncia de uma relao funcional entre X e Y.

Os pontos podem ser dispersos e colocados ao acaso no plano; pode acontecer que os pontos cubram
uma poro do plano da qual se pode definir o contorno; esta forma sugere que as duas variveis esto
ligadas. Limitemo-nos ao caso mais simples em que a nuvem tem uma forma alongada lembrando
uma elipse e suponhamos que a sua orientao tal que desde que X cresa, a varivel Y tambm
cresce. A forma desta nuvem sugere a possibilidade da existncia de uma recta tal que os valores
estimados por esta recta, a partir dos valores de xi, sejam boas aproximaes dos valores de yi. Ns
podemos determinar pelo mtodo dos mnimos quadrados uma recta tal que a soma dos quadrados dos
desvios seja mnima. Esta recta chamada recta de regresso de Y em X ou recta de estimao de Y
em X.

Mas, poderamos, de um modo semelhante, procurar uma recta tal que os valores de x estimados ao
longo desta recta, a partir de yi, constituam igualmente boas aproximaes de xi. Esta recta chamada
recta de regresso de X em Y ou recta de estimao de X em Y.

Normalmente, estas rectas so distintas uma da outra. Elas sero confundidas quando existe ligao
funcional linear e so perpendiculares ao eixos quando h independncia. Compreendemos, assim,
que a correlao entre os caracteres tanto maior quanto maior as rectas de regresso estejam mais
prximas uma da outra.

70
Estatistica - Volume I
2009
CARACTERISTICAS E REQUISITOS DE UTILIZAO DO TESTE R

1. Este tipo de coeficiente de correlao utiliza-se quando:


2. As duas variveis so contnuas;
3. A distribuio se aproxima da distribuio normal;
4. prefervel para distribuies unimodais;
5. Escala intervalar de medida.

Frmula

Ento -1 r 1

Interpretao:

O coeficiente de correlao obtido pode se interpretado com base em:

Para Cardoso:

r 0,2 Correlao muito baixa (valores desprezveis)

0,2 < r 0,5 Correlao baixa

0,5 < r 0,7 Valores significativos

0,7 < r 0,9 Alta correlao

0,9 < r 1 Muito alta correlao

Para Borg:

0,20 < r 0,35 Ligeira relao entre as variveis, embora j possam ser
estatisticamente significativas

0,35 < r 0,65 Correlao estatisticamente significativa para alm do nvel de 1%

71
Estatistica - Volume I
2009
0,65 < r 0,85 Correlaes que tornam possveis predies do grupo de que so dignas

r > 0,85 ntima relao entre as variveis correlacionadas

Para Byrman e Cramer,

se Eta, r, Rho, phi:

0,2 Correlao muito fraca e sem significncia

0,2 < r 0,39 Correlao fraca

0,4 < r 0,69 Correlao moderada

0,7 < r 0,89 Correlao forte

0,9 < r 1 Correlao muito elevada

Coeficiente de correlao d-nos:

A direco que indicada pelo sinal + ou -

A intensidade ou fora que dada pelo valor que varia entre -1 e 1. Se a correlao for zero no existe
correlao entre as variveis (exemplo: cor dos olhos e inteligncia).

Exemplo: Considere as classificaes (numa escala de 0 a 100) obtidas por 10 alunos nas disciplinas
Estatistica I (STAT I), Estatistica II (STAT II),Portugues (PORT) e Franes (FRA):

Tabela 11: Clculo do r de Pearson

Estudante STAT I (X) STAT II (Y) PORT FRA XY XZ XW


(Z) (W)
1 75 75 45 45 5625
2 70 70 50 50 4900
3 70 70 50 50 4900
4 65 65 55 55 4225
5 60 60 60 60 3600
6 60 60 60 60 3600
7 55 55 65 65 3025
8 50 50 70 70 2500
9 50 50 70 70 2500
10 45 45 75 75 2025
600 600 600 600 36900

72
Estatistica - Volume I
2009
1. Com base dos dados que se seguem calcule o coeficiente de correlao 4 entre X e Y

Sabe-se que:

X=60 Y=60 XY=36900

s2x= 90 s2y= 90

qual o valor de r? ________________

que concluso retira dos resultados?

2. recorrendo ao valores da tabela precedente calcule os valores necessrios obteno do


coeficiente de correlao entre X e Z.

qual a mdia das variveis?

qual o valor de r? ________________

que concluso retira dos resultados?

4
a)=1 b)=-1

73
Estatistica - Volume I
2009

6.1.4 ANLISE DA VARIANCIA DE UM CRITRIO (ANOVA)

CARACTERSTICAS E REQUISITOS DA ANOVA

O ponto 6.1.1 explica como comparar mdias de duas populaes, com base em amostras dessas
populaes. Mas s vezes preciso comparar mdias de mais de duas populaes. Por exemplo, para
verificar se pessoas com diferentes nveis socioeconmicos, isto , alto, mdio e baixo tm, em mdia,
o mesmo peso corporal, preciso comparar mdias de trs populaes.

Para comparar mdias de mais de duas populaes aplica-se a ANOVA (o teste F), na forma que a
seguir se descreve, desde que a varivel em estudo tenha distribuio normal ou aproximadamente
normal. Mas antes de mostrar como se faz esse teste, convm apresentar um exemplo.

6.1.4.1 ANLISE DA VARINCIA COM IGUAL TAMANHO

Se a varivel em estudo tem distribuio normal ou aproximadamente normal, para comparar mais de
duas mdias aplica-se o teste F.

Primeiro, preciso estudar as causas de variao. Por que os dados variam? Uma explicao o
facto de as amostras provirem de populaes diferentes. Outra explicao o acaso, porque at
mesmo os dados provenientes de uma mesma populao variam.

O teste F feito atravs de uma anlise de varincia, que separa a variabilidade devido aos
"tratamentos" (no exemplo, devido s amostras terem provindo de populaes diferentes) da
variabilidade residual, isto , devido ao acaso. Para aplicar o teste F preciso fazer uma srie de
clculos, que exigem conhecimento da notao.

Para fazer a anlise de varincia preciso proceder aos seguintes calculos:

1. Graus de liberdade

gl dos grupos: k 1

gl do total: n-1

gl dos residuos: (n-1)-(k-1) = n-k

74
Estatistica - Volume I
2009

2. calcular o valor de Correco (C) que dado pelo total geral ao quadrado e dividido pelo
nmero de dados.

3. calcular a Soma dos Quadrados Total (SQT)

4. calcular a Soma do Quadrado do Total de cada repetio (SQTr)

5. calcular a Soma dos Quadrados dos Resduos (SQR)

6. calcular o Quadrado mdio do Total de cada repetio (QMTr)

7. calcular o Quadrado mdio do Total do Residuo (QMR)

8. finalmente calcular o valor de F

SeF observado F crtico rejeita-se H0 Se F observado < F crtico aceita-se H0

75
Estatistica - Volume I
2009
para interpretar os resultados necessitamos de comparar o F calculado com o valor dado na tabela de
F, ao nivel de significncia estabelecido, observando os k-1 graus de liberdade no numerador e os n-k
graus de liberdade no denominador (coluna da esquerda).

Exemplo: Um profissional de sade recm contratado para acompanhar um conjunto de atletas de alta
competio, verificou, pelos registos clnicos deixados pelo seu antecessor, que alguns atletas com o mesmo
tipo de leso (em grau e extenso) tinham mais recidivas que outros, apesar das condies de treino e o
tempo de recuperao ser o mesmo. Colocou a hiptese de que tal acontecimento se podia dever s diferentes
teraputicas que eram utilizadas para tratar as mesmas leses. Os resultados podem ser observados no quadro
que se segue:

Tabela 12: Clculo da ANOVA para tamanhos iguais

Tratamento Tratamento Tratamento Tratamento


A B C D
11 8 5 4

8 5 7 4

5 2 3 2

8 5 3 0

8 5 7 0

40 25 25 10
8 5 5 2

1. passo:

os graus de liberdade (gl)dos grupos: k 1 = 4-1=3

gl do total: n-1 = 20-1=19

gl dos residuos: n-k = 20-4=16

calcular o valor de Correco (C) que dado pelo total geral ao quadrado e dividido pelo nmero de
dados.

76
Estatistica - Volume I
2009

calcular a Soma dos Quadrados Total (SQT)

calcular a Soma do Quadrado do Total de cada repetio (SQTr)

calcular a Soma dos Quadrados dos Resduos (SQR)

calcular o Quadrado mdio do Total de cada repetio (QMTr)

calcular o Quadrado mdio do Resduo (QMR)

77
Estatistica - Volume I
2009

calcular o valor de F

Finalmente ir tabela F para um nvel de significncia (p) de 5% (0,05) e observar qual o F terico
para 3 e 16 graus de liberdade.

Como o valor calculado (7,06) maior que o da tabela (3,24), conclumos que as mdias das recidivas
diferem em funo do tratamento, para um nvel de significncia de 0,05.

A acompanhar este comentrio, os valores calculados devem ser apresentados num quadro, da
seguinte forma:

Tabela 13: Apresentao da ANOVA

Causas de variao gl SQ QM F p

Tratamentos 3 90 30 <0,05
7,06
Resduo 16 68 4,25

Total 19 158

Mas, como se pode observar, apesar da tabela mostrar que existem diferenas significativas, no nos
informa, que tratamentos que produzem diferenas e quais so semelhantes. Sempre que as
diferenas so significativas, e s nesse caso, temos que proceder s comparaes posteriori (Post-
Hoc). Podemo-nos socorrer de diversos testes (LSD; Bonferroni; Sidak; Scheffe; SNK; Tukey; etc.), a
grande diferena entre eles reside no tipo de distribuio em que assentam e no tipo de ajustamento).

78
Estatistica - Volume I
2009
Apresentaremos de seguida apenas o teste de Tukey, por ser dos mais utilizados e o mais simples de
calcular, quando recorremos ao clculo manual.

6.1.4.1.1 TESTE DE TUKEY PARA COMPARAO ENTRE AS MDIAS

O teste Tukey permite estabelecer a diferena mnima significante, ou seja, a menor diferena entre as
mdias que deve ser tomada como significativa em determinado nvel de significncia. Essa diferena
(dms) dada por:

Onde q um valor dado em tabela

QMR o quadrado mdio do residuo da ANOVA

r o nmero de repeties

assim, se consultarmos a tabela verificamos que o q para comparar quatro tratamentos com 16 gl no
residuo de 4,05. como QMR=4,25 e r=5, temos:

De acordo com o teste de Tukey, duas mdias so estatisticamente diferentes sempre que o valor
absoluto da diferena entre elas for igual ou superior ao valor da dms.

Passemos ento observao dos valores:

Tabela 14: Clculo da diferena mnima significativa - Tukey

Pares de mdias Valor absoluto da diferena dms p

A-B (8-5) 3 ns
A-C (8-5) 3 ns
A-D (8-2) 6 <0,05
3,73
B-C (5-5) 0 ns
B-D (5-2) 3 ns
C-D (5-2) 3 ns

79
Estatistica - Volume I
2009
fcil de observar que s existem diferenas entre a mdia dos tratamentos A e a mdia dos
tratamentos D, em que o tratamento D aquele com que se obtm, significativamente, menos
recidivas

6.1.4.2 ANLISE DE VARINCIA COM DIFERENTES TAMANHOS

O pesquisador, nem sempre tem amostras do mesmo tamanho, mesmo assim possivel conduzir uma
anlise da varincia (ANOVA). Alis todos os clculos, com excepo SQTr, so feitos da mesma
forma em ambas as situaes.

Assim em vez de fazer a soma dos quadrados pela frmula

Utiliza:

Para se certificar de que entendeu faa o seguinte exercicio:

Tabela 15: Clculo da ANOVA para tamanhos iguais

Tratamento A Tratamento B Tratamento C

15 23 19
10 16 15
13 19 21
18 18 14
15 16
13
84 76 85

O resultasdo do valor de F term de lhe dar 3,96. Confira e interprete

80
Estatistica - Volume I
2009

No se esquea que as diferenas foram significativas por isso tem de proceder s comparaes
posteriori (Post-Hoc) e tambm aqui a frmula mudou, por isso vamos ver como se calcula o teste de
Tukey quando temos tamanhos diderentes:

6.1.4.2.1 TESTE DE TUKEY PARA COMPARAO ENTRE AS MDIAS

O teste Tukey para amostras com tamanhos diferentes dada pela seguinte frmula:

No caso do exemplo, para comparar a mdia de A com a mdia de B tem-se:

dms (A;B) = 3,77 1 + 1 8 . dms (A;B) =4,87

6 4 2

De forma anloga faa os calculos para comparar a mdia de A com a mdia de C

e de B com a mdia de C.

Qual a sua concluso?

81
Estatistica - Volume I
2009

De acordo com o teste de Tukey, duas mdias so estatisticamente diferentes sempre que o valor
absoluto da diferena entre elas for igual ou superior ao valor da dms.

Passemos ento soluo dos exerccio proposto e observao dos valores:

Tabela 16: Teste post-hoc -Tukey

Pares de mdias Valor absoluto da diferena dms p

A-B |14-19| = 5 4,87 <0,05

A-C |14-17| = 3 4,57 ns

B-C |19-17| = 2 5,06 ns

Conclui-se que em mdia A significativamente diferente de B, ao nvel de significncia de 0,05.

82