Você está na página 1de 45

Unopar Virtual

1
ESPECIALIZAO EM ADMINISTRAO HOSPITALAR

Prof: Dr Leonardo Sturion - e-mail- sturion09@zipmail.com.br

Disciplina : BIOESTATSTICA


1 ESTAT STI CA

statstica os primeiros resultados aparecem
possivelmente contemporneas s primeiras
sociedades humanas, pois a histria nos indica, que
nos anos 3.000 a.c. J se usava fazer os censos na
Babilnia, China e Egito.
Pode-se ver na Bblia, no livro dos
nmeros do Velho Testamento, uma instruo para se fazer o levantamento
dos homens aptos a guerrear.
Um outro fato que consta da Bblia, o censo feito em todo o
imprio romano, por ocasio do nascimento de J esus Cristo, o que ocasionou a
viagem de J os e Maria a Belm.
A Estatstica era usada bem antes de ser batiza com esse
nome. A palavra Estatstica foi usada pela primeira vez no sculo XVIII, pelo
alemo Gottfued Achennall.
A palavra estatstica vem de status, que significa em latim
Estado. Com essa palavra faziam-se as descries e dados relativos aos
Estados, fazendo da Estatstica um meio de administrao para os
governantes. Mais recentemente se passou a falar em estatstica em vrias
cincias de todas as reas do conhecimento.
Onde pode-se definir a Estatstica como um conjunto de
mtodos e processos quantitativos que servem para estudar e medir os
fenmenos coletivos, segundo Bernouille.
Ao se estudar os fenmenos coletivos, o que interessa so os
fatos que envolvem os elementos desses fenmenos, como eles se relacionam
e qual o seu comportamento. Para que tal estudo possa acontecer com toda a
severidade que a cincia exige, necessrio que o levantamento seja feito
atravs de uma pesquisa cientfica, sendo ela definida como a realizao
concreta de uma investigao planejada, desenvolvida e redigida de acordo
com as normas de metodologia.

2 PESQUI SA CI ENT FI CA

Defini-se Pesquisa Cientfica como sendo um procedimento
racional que utiliza mtodos cientficos para encontrar respostas s questes
que so propostas.

E
Unopar Virtual
2
3 ROTEI RO PARA PESQUI SAS DESCRI TI VA E EXPERI MENTAL

1. Escolha o assunto: Assunto significativo e adequado ao interesse e ao
nvel de formao e s condies do pesquisador.
2. Ttulo da pesquisa: deve deixar claro o tema que est sendo trabalho.
3. Delimitao do assunto: Selecionar um tpico para ser estudado e
analisado em profundidade, tornado o assunto vivel de ser pesquisado.
Evitar temas amplos que resultem em trabalhos superficiais.
4. Objetivos: Indicao do que se pretende alcanar com a pesquisa.
5. Justificativa da escolha: Mostrar as razes da preferncia pelo assunto
escolhido e sua importncia face a outros temas.
6. Reviso da literatura: a realizao de uma pesquisa bibliogrfica do
assunto e da questo delimitada. Tal estudo preliminar tem o objetivo de
mostrar os trabalhos realizados sobre o assunto, apresentar as informaes
sobre a situao atual do problema, e as opinies existentes. Estes
conhecimentos prvios iro auxiliar o investigador nos passos seguintes.
7. Formulao do problema: Redigir de forma interrogativa, clara, precisa e
objetiva, a questo cuja soluo vivel possa ser alcanada pela pesquisa.
O problema levantado deve expressar uma relao entre duas ou mais
variveis. A elaborao clara do problema fruto da reviso da literatura e
da reflexo pessoa.
8. Enunciado da hiptese: A hiptese, como resposta e explicao
provisria, relaciona as duas ou mais variveis do problema levantado.
Deve ser colocado prova e responder o problema. Num trabalho, o
nmero de hipteses no deve ser muito grande.
As variveis so aqueles aspectos, propriedades ou fatores
reais ou potencialmente mensurveis atravs dos valores que assumem e
possveis de ser identificados em um objeto de estudo.
9. Definio operacional das variveis: A hiptese orienta a execuo da
pesquisa. Por isso os termos empregados na hiptese devem esclarecer
como o mximo de preciso, o que eles significam no contexto concreto e
objetivo da pesquisa a ser feita. A definio operacional das variveis indica
as operaes a serem realizadas e os mecanismos a serem usados para
verificar a conexo entre as variveis.
10. Amostragem: A pesquisa procura estabelecer generalizaes a partir de
observaes em grupos ou conjuntos de indivduos chamados de
populao ou universo. Populao pode referir-se a um conjunto de
pessoas, animais ou objetos que representam a totalidade de indivduos
que possuem as mesmas caractersticas definidas para um estudo.
Geralmente, a pesquisa feita com uma parte representativa da populao,
denominada amostra, e no com a totalidade dos indivduos. Portanto a
amostra uma parte da populao, selecionada segundo uma tcnica de
amostragem que garante sua representatividade.
11. Instrumentos de pesquisa: Na pesquisa descritiva relatar a tcnica a ser
usada para a coleta de dados, como por exemplo: a entrevista,
questionrio, formulrio. Quando se trata de pesquisa experimental so
descritos os instrumentos e materiais ou as tcnicas a serem usados.
Unopar Virtual
3
12. Procedimentos: Em pesquisas descritivas faz-se a descrio detalhada de
todos os passos da coleta e registro dos dados: Quem? Quando? Onde?
Como? Descrevem-se ainda as dificuldades, as precaues, a superviso e
o controle.
Na pesquisa experimental detalhada a forma usada para
fazer a observao, a manipulao da varivel independente, o tipo de
experimento, o uso ou no de grupo de controle e a maneira do registro dos
resultados.
No relatrio, os dados so apresentados depois de
classificados sob forma descritiva e, de preferncia, em tabelas, quadros ou
grficos. Os dados devem ser auto explicativos a fim de no exigir do leitor
exames exaustivos que o obrigue a um grande esforo para sua interpretao.
13. Anlise dos dados: Coletados os dados realizado uma anlise
exploratria dos mesmos e expostos em tabelas de forma sinttica, so
agora submetidos ou no, conforme o caso, ao tratamento estatstico mais
profundo, onde todas as informaes reunidas nos passos anteriores so
comparados entre si e analisadas.
A anlise, atravs da classificao ordenada dos dados, do
confronto dos resultados das tabelas e dos testes estatsticos, quando
empregados, procura verificar a comprovao ou no das hipteses de estudo.
14. Discusso dos resultados: a generalizao dos resultados obtidos pela
anlise. Na discusso, o pesquisador far as inferncias e generalizaes
cabveis, com base nos resultados alcanados. Os resultados tambm
sero discutidos e comparados com afirmaes e posies de outros
autores. Finalmente, abordar e comentar os aspectos paralelos revelados
pela pesquisa.
15. Concluso: A concluso apresentar um resumo dos resultados mais
significativos da pesquisa e sintetizar os resultados que conduziram
comprovao ou rejeio da hiptese de estudo. Far inferncias que os
dados alcanados permitem fazer e indicar aspectos que merecem mais
estudo e aprofundamento.
16. Bibliografia: So as referncias bibliogrficas que serviram de
embasamento terico.
17. Anexos: Os anexos so constitudos de elementos complementares, como
questionrios e outras fichas de observao e registro utilizadas no
trabalho, que auxiliam a anlise do leitor da pesquisa.

4 OBJ ETI VO DA ESTAT STI CA

Dependendo do objetivo da pesquisa pode-se classificar a metodologia
Estatstica em:

Descritiva ou
Indutiva
Unopar Virtual
4
4.1 Estatstica descritiva
Usualmente, a expresso Estatstica descritiva empregada
para se referir ordenao, exposio e sumarizao de registros
quantitativos, relativos aos atributos do fenmeno em estudo.

4.2 Estatstica indutiva
A estatstica indutiva objetiva a generalizao do que
estudado descritivamente, em subconjuntos, para o conjunto que as contm.

5 DESCRI O E APRESENTAO DE DADOS

Os dados obtidos em pesquisas devem ser analisados e
interpretados com o auxlio de mtodos estatsticos.
Na primeira etapa deve-se fazer uma anlise descritiva que
consiste na organizao e descrio dos dados, na identificao de valores que
representem o elemento tpico e na quantificao da variabilidade presente nos
dados.

5.1 Noes Bsicas
Na pesquisa cientfica coleta-se caracterstica de pessoas,
animais, empresas, indstrias, sistema de produo, fenmenos fsicos ou
qumicos com a finalidade de verificar hipteses lanadas sobre uma
populao.

5.1.1 Populao
um conjunto de elementos que detm pelo menos uma
caracterstica em comum.

5.1.2 Amostra
uma parte retirada da populao para estudo, segundo
tcnica adequada, ou seja, um subconjunto representativo.
5.1.3 Amostragem
o procedimento ou a tcnica de obteno de uma amostra
em uma populao.

5.1.4 Varivel
qualquer quantidade ou caracterstica que pode assumir
diferentes valores numricos. Por exemplo, um questionrio de uma pesquisa
em marketing, contm as seguintes perguntas:



Unopar Virtual
5
Qual a sua idade?
Qual o nmero de pessoas de
sua famlia?
Qual a renda familiar?
Qual o seu estado civil?
Voc tem emprego fixo?
Qual o tempo de trabalho na
empresa?

Gerem
informaes
nas variveis
- Idade

- Tamanho da famlia
- Renda familiar
- Estado civil
- Emprego

Tempo de trabalho.


5.1.4.1 Classificao das Variveis
Ao fazer um estudo estatstico de um determinado fato ou
grupo, tem-se que considerar o tipo de varivel. Pode-se ter variveis
qualitativas e variveis quantitativas.
As variveis qualitativas so aqueles que descrevem os
atributos de um indivduo, por exemplo: sexo, estado civil, grau de instruo,
etc. J as variveis quantitativas so as provenientes de uma contagem de
mensurao, por exemplo: idade, salrio, peso, etc.
As variveis qualitativas como as quantitativas dividem-se em
dois tipos:
Variveis Tipos Descrio Exemplos
Nominal
No existe nenhuma
ordenao
cor dos olhos, sexo,
estado civil
Qualitativas
ou
Categricas
Ordinal
Existe uma
ordenao I, II, III
nvel de escolaridade,
estgio da doena
Discretas
Valor pertence a um
conjunto enumervel
nmero de filhos por
casal, quantidade de
leitos


Quantitativas


Contnuas
Quando o valor
pertence a um
intervalo real
medida de altura e
peso, taxa de glicose

6 TI POS DE AMOSTRAGEM

As tcnicas de obteno de uma amostra podem ser
classificadas como amostragem probabilsticas ou no-probabilsticas.

Unopar Virtual
6
6.1 Amostragens Probabilsticas
Destacam-se as Amostragens Simples ao Acaso, Sistemtica e
Estratificada.
a) Amostragem Simples ao Acaso (ASA), tambm
conhecida como amostragem aleatria simples, quando
todos os elementos de uma populao tm a mesma
chance (probabilidade) de ser selecionada. um
procedimento que pode-se tornar trabalhosos quando a
populao muito grande. aplicado quanto a populao
considerada homognea. Para manter a propriedade deve-
se numerar todos os elementos da populao e obter-se os
elementos que comporo a amostra, atravs de um sorteio
ou do auxlio de uma tabela de nmeros aleatrios.

b) Quando a populao est organizada, em ordem alfabtica,
por exemplo, num fichrio ou uma lista telefnica, aplica-se
nestes casos a Amostragem Sistemtica, que consiste na
seguinte tcnica: divide-se o tamanho da populao pelo
tamanho da amostra, obtendo-se assim o que se chama de
Salto. Matematicamente tem-se:
n
N
S =

S =Salto
N =tamanho da populao
n =tamanho da amostra

Tendo-se o S (salto), sorteia-se um elemento que compe o
primeiro elemento, a partir da basta ir somando S a posio do elemento
retirado.

c) Quando se trabalha com uma populao heterognea, onde
se tem elementos discrepantes, h a necessidade de se
dividir a populao em grupos, com elementos
homogneos, que se chama estrato. Desses estratos so
sorteados os elementos que comporo a amostra, tendo
assim o que se chama de Amostragem Estratificada. O
nmero de elementos sorteados de cada grupo poder ser
proporcional ao tamanho do grupo, tendo dessa maneira a
Amostragem Estratificada Proporcional.

d) Amostragem por Conglomerado, a populao total
subdividida em vrios partes relativamente pequenas, e
algumas dessas subdivises, ou conglomerados, so
selecionadas aleatoriamente para integrarem a amostra
global, e finalmente, toma-se todos os elementos das
subdivises escolhidas.

Unopar Virtual
7
6.2 Amostragem No-Probabilstica
So as que no permitem a retirada de uma amostra de forma
aleatria, pois em algumas situaes a amostragem se torna obrigatria, por
exemplo: ensaios de drogas, vacinas, tcnicas cirrgicas, pesquisa de opinio.
Destacam-se as amostragens por Convenincia, por
J ulgamento e por Quota.
a) Amostra por convenincia o pesquisador seleciona os
membros da populao dos quais mais fcil obter informaes.
Esse tipo de amostragem, embora no aleatria, bastante
utilizada na rea de marketing, geralmente so amostras obtidas em teatros,
cinemas, etc. Neste caso, importante o senso crtico do pesquisador para
evitar vieses, por exemplo, no selecionar sempre pessoas de mesmo sexo, de
mesma faixa etria, etc.
b) Amostra por julgamento o pesquisador utiliza seu
julgamento para selecionar os membros da populao que apresentem boas
perspectivas de fornecerem as informaes precisas.
c) Amostragem por quotas o pesquisador encontra e
entrevista um nmero predeterminado de pessoas em cada uma das vrias
categorias.
Observao:
A amostragem no-probabilstica, geralmente influenciada
por tendncias, preferncias e fatores subjetivos pessoais
diversos.
6.3 Cuidados com a Amostragem
Para que no haja erros na amostragem convm observar o
seguintes:
1) Definio do Universo que ser amostrado, face aos
objetivos e definio do problema de pesquisa.
2) Definies das unidades amostram que ser a base do
processo de seleo. Exemplo: em uma pesquisa,
poderamos utilizar como unidade amostral o domiclio ou a
famlia, definido operacionalmente o que vem a ser a
famlia, por exemplo, s entrevistaramos aqueles que
realmente se ajuste s definies adotadas. Ex.: uma
repblica de estudantes no considerada famlia em
muitas pesquisas porque cada indivduo isoladamente
decide o que consome, no existe gerao conjunta de
recursos para ajudar no oramento de despesas e o
processo decisrio no consistente como de uma famlia,
de marido, mulher e filhos.
3) Confiabilidade. Se aplicarmos o estudo com metodologia
semelhante, deveremos conseguir resultados similares.
Unopar Virtual
8
4) Tamanho da amostra. Apesar da existncia de vrias
frmulas, a amostra varia muito de pesquisa para pesquisa.
Porm deve levar em conta o tamanho da populao.

Todavia, algumas observaes podem ser levadas em
consideraes, a saber:
a) quanto maior o nmero de elementos numa amostra, menor
os desvios dos parmetros em relao ao valor esperado da
populao;
b) quanto maior o nmero de elementos, maior a aproximao
da distribuio amostral curva normal;
c) quanto maior a homogeneidade da populao, menor a
amostra a ser pesquisada.

6.4 Tamanho da Amostra

Determinao do tamanho da amostra com nmero mnimo de elementos
AMOSTRA (n)
POPULAO
(N)
MARGEM DE ERRO
D=3%
MARGEM DE ERRO
D=5%
100 91 79
1000 516 277
5000 879 356
20000 1013 377
100000 1055 383
500000 1064 384
1000000 1067 384
Frmulas utilizadas para a colocao de n:
( )
N
n
n
n
D
p p Z
n
0
0
2
2
0
1
1 .
+
=

=

Sendo:
n
0
Nmero dimensionado
Z Distribuio normal
p probabilidade
D Margem de erro: 1% a 10%
n Tamanho da amostra
N Tamanho da populao



Unopar Virtual
9

6.5 - Representao grfica de variveis quantitativas
Resultados referentes a variveis contnuas freqentemente
so organizadas em tabelas de distribuies de freqncias por intervalos. Trs
tipos de grficos geralmente so utilizadas neste caso: histograma, polgono de
freqncia e ogivas.

Avaliao em Bioqumica de 267 alunos de odontologia - UEL

Porcentagem Notas Freqnci
a
absoluta
Simples Acumulada
P. mdio
3,0 |-- 3,5 2 0,7 0,7 3,25
3,5 |-- 4,0 15 5,6 6,3 3,75
4,0 |-- 4,5 33 12,4 18,7 4,25
4,5 |-- 5,0 40 15 33,7 4,75
5,0 |-- 5,5 54 20,2 53,9 5,25
5,5 |-- 6,0 47 17,6 71,5 5,75
6,0 |-- 6,5 38 14,2 85,7 6,25
6,5 |-- 7,0 16 6 91,7 6,75
7,0 |-- 7,5 15 5,6 97,3 7,25
7,5 |-- 8,0 3 1,1 98,4 7,75
8,0 |-- 8,5 1 0,4 98,8 8,25
8,5 |-- 9,0 3 1,1 100 8,75
Total 267 100



a) Histograma
Aval i ao em Bi oqumi ca
0
10
20
30
40
50
60
3 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8 8,5 9
Unopar Virtual
10
b) Polgono de Freqncias
c) Ogiva
Avaliao em Biopqumca
0
20
40
60
80
100
120
2,5 3 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8 8,5


8 S NTESE NUMRI CA

Alm da construo de tabelas e grficos, a anlise
exploratria de dados, consiste tambm de clculos de medidas que resumem
as informaes que possibilitam uma viso global dos dados.
Esses valores so conhecidos como medidas descritivas, que
recebem o nome genrico de estatsticas quando calculadas com dados
amostrais e de parmetros quando utilizados os dados populacionais.
Dentre as medidas descritivas a mais utilizadas so as de
tendncia central e de disperso (variabilidade).
8.1 Medidas de tendncia central
As medidas de tendncia central so aquelas que produzem
um valor em torno do qual os dados observados se distribuem, e que visam
Avaliao em Bioqumica
0
10
20
30
40
50
60
2,75 3,25 3,75 4,25 4,75 5,25 5,75 6,25 6,75 7,25 7,75 8,25 8,75 9,25
Unopar Virtual
11
sintetizar em um nico nmero o conjunto de dados. As medidas de tendncias
central so: mdias aritmtica, mediana e moda.
a) mdia aritmtica
A mdia aritmtica calculada pela soma de todos os n
valores amostrados e dividida pelo nmero de valores adicionados (n), ou seja,
n
x
n
x x x
X
i
n
i n 1 2 1
X
....
=

=
+ +
=

Exemplo: Foram levantados os dimetros de 10 peas (cm) da Empresa AA
Ltda. As mdias foram as seguintes:
13,1 13,5 13,9 13,3 13,7 13,1 13,1 13,7 13,2
13,5.
O dimetro mdio :
= X
A mdia aritmtica possui algumas propriedades desejveis e
no desejveis e so as seguintes:
i. Unicidade. Para um conjunto de dados existe somente uma mdia
aritmtica.
ii. Simplicidade. A mdia aritmtica fcil de ser interpretada e de ser
calculada.
iii. Todos os valores entram para o clculo da mdia aritmtica, porm, os
valores extremos afetam no valor calculado, e em alguns casos pode haver
uma grande distoro, tornando, neste caso, a mdia aritmtica
indesejvel como medida de tendncia central.

b) Mediana
A mediana o valor que ocupa a posio central de um
conjunto de valores ordenados, quando o conjunto possui quantidade par de
valores temos dois valores centrais, neste caso, a mediana o valor mdio dos
dois valores centrais do conjunto de dados ordenados.
Exemplo: Considere os dimetros ordenados do exemplo
anterior:
13,1 13,1 13,1 13,2 13,3 13,5 13,5 13,7 13,7
13,9
Nesta srie temos nmero par de observaes logo, temos
dois valores centrais e so 13,3 e 13,5, ento, a mediana dada por:
Md =
Suponha, neste mesmo exemplo acrescentarmos o valor 14,0
o que torna um rol de nmero mpar,
13,1 13,1 13,1 13,2 13,3 13,5 13,5 13,7 13,7 13,9 14,0
Neste caso, a srie possui apenas um valor central logo, a
mediana igual a 13,5 cm.
As propriedades da mediana incluem o seguinte:
i. Unicidade. Existe somente uma mediana para um conjunto de dados.
ii. Simplicidade. A mediana fcil de ser calculada.
Unopar Virtual
12
iii. A mediana no to afetada pelos valores extremos como a mdia
aritmtica, por isso, se diz que a mediana uma medida robusta.

c) Moda
Moda de um conjunto de valores o valor que ocorre com
maior freqncia. Se todos os valores forem diferentes no h moda, por outro
lado, um conjunto pode ter mais do que uma moda: bimodal, trimodal ou
multimodal.
Exemplo: Para os dados dos exemplos anteriores a moda
igual a 13,1 cm.
A moda pode ser utilizada para descrever dados qualitativos.
Por exemplo, suponha que as empresas compradoras em uma regio
metropolitana num determinado ano receberam uma das seguintes
classificaes: pequeno, mdio e grande. A classificao que ocorre com maior
freqncia no grupo das empresas pode ser chamada de classificao modal.
8.2 Medidas de Disperso
A disperso de conjunto de dados a variabilidade que os
dados apresentam entre si. Se todos os valores forem iguais, no h disperso;
se os dados no so iguais, existe disperso. A disperso pequena quando
os valores so prximos uns dos outros. Se os valores so muito diferentes
entre si, a disperso grande, ou seja, as medidas de disperso apresentam o
grau de agregao dos dados.
Tomemos por exemplo os valores das sries abaixo:
Repetio Srie A
Srie B Srie C
1 1 1 1
2 1 44 8
3 2 45 11
4 3 46 14
5 5 48 28
6 6 48 30
7 6 49 37
8 7 50 48
9 93 50 52
10 94 51 62
11 94 52 70
12 95 52 72
13 97 54 84
14 98 55 91
15 98 55 92
16 100 100 100
Mdia 50 50 50
Mediana 50 50 50
Valor mnimo 1 1 1
Valor mximo 100 100 100

Unopar Virtual
13
As medidas descritivas mais comuns para quantificar a
disperso so amplitude, varincia e desvio-padro.
a) Amplitude
Uma maneira de medir a variao em um conjunto de valores
calcular a amplitude. A amplitude a diferena entre o maior e o menor valor
de conjunto de observaes.
At = n
o
maior n
o
menor
A utilidade da amplitude limitada. O fato dela levar em conta
somente dois valores torna-a uma medida pobre. A maior vantagem em us-la
a simplicidade do seu clculo.
b) Varincia
Quando os valores de um conjunto de observaes so
prximos do seu valor mdio, a disperso menor do que quanto esto mais
dispersos. O grau de disperso pode ser medido pelos desvios em relao
mdia usando a varincia cuja frmula :

( )
( )
1
ou
1
2
2
2
2
2


=
n
n
X
X
s
n
X X
s


Esta estatstica isolada tem difcil interpretao por apresentar
unidade de medida igual ao quadrado da unidade de medida dos dados.

c) Desvio Padro
Devido dificuldade de interpretao da varincia, por ter
unidade de medida elevada ao quadrado, usual na prtica utilizar o desvio
padro que a raiz quadrada da varincia, ou seja:


2
s s =

d) Coeficiente de variao
Uma pergunta que pode surgir se um desvio-padro grande
ou pequeno; questo relevante, por exemplo, na avaliao da preciso de
Unopar Virtual
14
mtodos. Um desvio-padro pode ser considerado grande ou pequeno
dependendo da ordem de grandeza da varivel. Por exemplo, um desvio-
padro de 10 pode ser insignificante se a observao tpica for 10.000, mas
ser um valor bastante significativo para um conjunto de dados cuja
observao tpica 100.
Portanto, por vezes, conveniente exprimir a disperso em
termos relativos, ou seja, expressar a variabilidade dos dados tirando a
influncia da ordem de grandeza da varivel.
Pode-se obter um ndice relativo de disperso comparando-se
o desvio-padro (s) com a mdia ( X ). A medida utilizada denominada
coeficiente de variao e definida por
100 .
X
s
CV =

O coeficiente de variao (CV) adimensional, isto , um
nmero puro e usualmente expresso em porcentagem. zero quando no
houver variabilidade entre os dados, ou seja, quando s = 0, o que ocorre
quando todos os valores da amostra so iguais.
Sua utilidade fornecer uma medida para a homogeneidade do
conjunto de dados. Quanto menor o coeficiente de variao, mais homogneo
o conjunto.
Para exemplo apresentado na comparao das sries A, B e C.
CV =
O que indica um valor baixo, levando a concluir que a
disperso em relao mdia pequena, mostrando que o conjunto tem uma
composio homognea.
Se por um lado pode ser difcil classificar um coeficiente de
variao como baixo, mdio, alto ou muito alto, esta medida pode ser bastante
til na comparao de duas variveis ou dois grupos que a princpio no so
comparveis (por exemplo, com ordens de grandeza das variveis diferentes).



Unopar Virtual
15
Exemplo: Comparao do colesterol em dois grupos
Em um grupo de jovens mdicos residentes obteve-se, ao
medir o colesterol, a mdia de 205 mg/dl e um desvio-padro de 22 mg/dl. Para
um grupo de mdicos especialistas, entretanto, a mdia obtida foi de 244 mg/dl
e desvio-padro de 45 mg/dl. O grupo de mdicos mais idosos apresenta no
s uma mdia mais alta como tambm maior variabilidade em torno da mdia.
O coeficiente de variao capta esta diferena. Neste caso, o coeficiente de
variao 10,7% para os residentes e 18,4% para os especialistas.
8.3 Escore padronizado
Vimos como relacionar a mdia e o desvio-padro para
caracterizar a homogeneidade de um grupo. Pode-se tambm relacionar estas
duas estatsticas, mas para cada indivduo.
A idia que, na comparao dos resultados de dois
indivduos, importante a padronizao em relao ao grupo. A ttulo de
ilustrao, suponhamos que o exame final em curso de lnguas estrangeira
consista de duas partes, vocabulrio e gramtica, e que um estudante obtenha
66 pontos no vocabulrio e 80 pontos em gramtica. primeira vista, poderia
parecer que o estudante obteve resultado muito melhor em gramtica que em
vocabulrio, entretanto, a mdia da turma em vocabulrio foi de 51 pontos com
desvio-padro 12, e na gramtica a mdia foi de 72 pontos com desvio-padro
16.
Pode-se ento, padronizar os resultados, utilizando-se.

s
X X
Z

=

Assim, podemos argumentar que a nota do estudante na parte de vocabulrio
est a
25 , 1
12
51 66
=

= Z
desvios-padro acima da mdia da turma, enquanto que sua nota na parte de
gramtica est a apenas
50 , 0
16
72 80
=

= Z
desvios-padro acima da mdia da turma.
Unopar Virtual
16
Embora a comparao das notas originais no tenha
significao, os novos escores expressos em termos de desvios-padro,
podem ser comparados. Fica evidente que o estudante obteve classificao
muito mais alta do que o resto da turma, em vocabulrio, de que em gramtica.
O escore padronizado, ou escore Z, o nmero de desvios-
padro pelo qual um valor X desta mdia (para mais ou para menos).
Surge ento o interesse em saber quando um escore Z deve
ser considerado grande ou incomum.
Para isso deve-se recorrer ao teorema de Tchebichev, que
afirma que, para qualquer conjunto de dados, ao menos 75% dos valores
devem estar a menos de dois desvios-padro da mdia, de qualquer lado dela.
Poucas observaes esto alm de dois desvios-padro e raramente h uma
observao alm de trs desvios-padro.
Por exemplo, um grupo de 10 bebs recm nascidos, com
mdia de 3,1 Kg e desvio-padro de 0,49 Kg, para o peso ao nascer. Um beb
que nasa com peso de 4,1 Kg. Tem-se

04 , 2
49 , 0
1 , 3 1 , 4
=

= Z

O peso est praticamente dois desvios-padro acima da mdia,
o que mostra que esse acontecimento incomum acontecer.
Devem-se procurar razes substantivas para este fato.
O escore Z possibilita distinguir entre valores usuais e valores
incomuns, sendo que os que estiverem acima de dois desvios-padro distantes
da mdia so considerados incomum ou raros.


Analisemos o seguinte exemplo sobre:


-3 -2 -1 0 1 2 3
Valores
incomuns
Valore
s
Valores
incomuns
Unopar Virtual
17
Dosagens Laboratoriais
A tabela abaixo apresenta os resultados de exames
laboratoriais solicitados a duas pacientes, me (A) e filha (B), com
respectivamente 60 e 40 anos de idade. Tambm so apresentados os
resultados padronizados pelo grupo de adultos do sexo feminino.
TABELA Mdia ( X ) e desvio-padro (s) para adultos do sexo feminino e
resultados de exames laboratoriais de me (A) e filha (B).
Exame
X
s Resultado
Original
Escore
Padronizado
A B A B
Glicemia em jejum 85 12,5 90 79 0,40 -0,48
cido rico 4,2 0,9 3,5 3,1 -0,78 -1,22
Triglicrides 105 30 97 66 -0,27 -1,30
Colesterol total 200 25 251 185 2,04 -0,60

A paciente A apresentou um resultado de colesterol bastante
alto (dois desvios-padro acima da mdia). A paciente B no apresentou
nenhum resultado preocupante.
8.4 Quartis, Decis e Percentis
Dados que produzem histogramas simtricos so
adequadamente descritos e sintetizados pela mdia e pelo desvio-padro.
Neste caso, vrias perguntas sobre o comportamento dos dados podem ser
respondidas usando-se somente estes dois nmeros.
Isto no ocorre quando os dados so assimtricos. Neste caso,
a mediana identifica mais adequadamente o centro de um conjunto de dados
com distribuio assimtrica. Alm disso, para entender bem uma distribuio,
precisamos conhecer valores acima ou abaixo dos quais se encontra uma
determinada porcentagem dos dados: os percentis, que permite dividir o
conjunto de dados em 100 grupos com cerca de 1% em cada grupo.
A mediana o percentil de ordem 50. Pois, define-se a
mediana como o valor que pelo menos 50% das observaes de acima de si e
pelo menos 50% abaixo.
Unopar Virtual
18
Os percentis de ordem 25, 50 e 75 so chamados,
respectivamente primeiro, segundo e terceiro quartis porque dividem a
distribuio em 1/4, 2/4 =1/2 e 3/4 . So representados por Q
1
, Q
2
e Q
3
e,
evidentemente, Q
2
outra notao para a mediana.
Enquanto que os decis so os que coincidem com os percentis
que permitem dividir os dados em grupos com cerca de 10% deles, assim tem-
se D
1
, D
2
, ..., D
9
, que corresponde no D
1
a diviso dos dados em 10% menores
que seu valor e 90% acima.
O processo de determinao do percentil correspondente a um
valor X dado pela seguinte expresso:

100 .
valores de total nmero
X a inferiores valores de nmero
X valor Percentil =

Tendo o seguinte exemplo de coeficientes de liquidez.
O coeficiente de liquidez obtido da anlise financeira em 60
clinicas odontolgicas de So Paulo em forma ordenada abaixo.
4,44 4,47 4,48 4,51 4,54 4,54 4,61 4,64 4,66 4,68
4,68 4,69 4,71 4,73 4,76 4,78 4,79 4,81 4,86 4,86
4,87 4,88 490 4,90 4,95 4,95 4,96 4,97 4,98 4,98
4,99 5,00 5,01 5,01 5,01 5,02 5,04 5,05 5,08 5,09
5,09 5,10 5,11 5,11 5,16 5,17 5,18 5,18 5,19 5,24
5,24 5,26 5,27 5,27 5,29 5,32 5,35 5,46 5,50 5,85

Para determinar o percentil dos coeficientes, 5,08, deve-se
organizar os dados em ordem crescente, e verificar quantos valores esto
abaixo de 5,08, que so 38 valores, ento pede-se aplicar a expresso:
Percentil de 5,08 =
63 3 , 63 100 .
60
38
=

O coeficiente de liquidez 5,08 o 63 percentil, o que equivale
a dizer que aproximadamente 63% dos coeficientes tm valores menores que
5,08.
Unopar Virtual
19
Para o processo inverso, ou seja, determinar o valor
correspondente a um certo percentil, deve seguir a seguinte seqncia:
1) Ordenar os dados do menor para o maior.
2) Tabular o indicador de localizao (L), dado por:

100
.n k
L =

onde
k o percentual desejado
n o nmero de valores do conjunto de dados.
Se o valor de L for decimal, arredonda o seu valor para o maior
inteiro mais prximo.
Quando o valor de L for inteiro, deve-se somar o valor
correspondente a L ao valor de L+1 e dividir o resultado por 2.
Por exemplo, para calcular o percentil 25, que corresponde ao
primeiro quartil, que deixa pelo menos 25% dos dados abaixo e pelo menos
75% dos dados acima dele, usa-se

15
100
60 . 25
= = L

Por se tratar de um nmero inteiro, deve-se usar os valores de
15 e 16, ou seja, 4,76 e 4,78.

77 , 4
2
78 , 4 76 , 4
25
=
+
= P
, logo o primeiro quartil Q
1
4,77.
O percentil de ordem 78 (P
78
) deixa pelo menos 78% dos
dados abaixo, ou seja
8 , 46
100
60 . 78
= = L , sendo decimal
deve-se arredondar para 47, logo o valor de P
78
o que ocupa essa posio no
conjunto, 5,18, ento P
78
=5,18.
Para finalizar, sabendo que o percentil 95 do coeficiente de
liquidez igual a 7,25, isto , P
95
=7,25. Isto significa que cerca de 5% dos
coeficientes da amostra tm valores acima de 7,25.
Unopar Virtual
20
8.5 Boxplot
Um tipo de grfico muito til para a descrio de dados,
visualizao de sua variabilidade, comparao entre diferentes grupos o
grfico em caixas, boxplot, em ingls. Foi introduzido pelo estatstico americano
J ohn tukey em 1977.
Para a construo do boxplot obtm-se primeiro as seguintes
estatsticas: 1
o
quartil (Q
1
), mediana (Q
2
), 3
o
quartil (Q
3
) e a distncia
interquartlica (DQ), definida como DQ = Q
3
Q
1
. O boxplot obtido seguindo-
se os seguintes passos:
1. Numa reta so marcados o 1
o
quartil (Q
1
), a mediana (Q
2
) e o 3
o
quartil (Q
3
).
2. Acima dessa reta constri-se um retngulo com limites iguais s posies
do primeiro e terceiro quartis, cortado por um segmento de reta na posio
relativa mediana.
3. A partir dos limites do retngulo, traam-se linhas at:
a) encontrar um extremo (valor mximo ou mnimo) ou
b) um valor correspondente a 1,5 DQ, se o extremo correspondente estiver
a mais de DQ do quartil respectivo.

Os pontos que esto mais de 1,5 DQ do quartil corresponde at 3,0 DQ,
so chamados de pontos externos e os que esto a mais de 3,0 DQ, pontos
soltos. Existem smbolos especiais para representar no boxplot os pontos
externos e soltos respectivamente. Um esquema de boxplot apresentado na
Valore
Q
3 M Q
1
Ponto
0
Ponto
*
Valor
1,5 DQ
Valores
tpicos
3,0 DQ
Unopar Virtual
21
figura abaixo:
Figura 2 Esquema para construo do boxplot
O boxplot tambm fornece informaes importantes sobre o
comportamento do conjunto de dados, como simetria e variabilidade. Se a
amplitude for muito maior que a distncia interquartlica e a mediana estiver
mais prxima do 1
o
quartil do que do 3
o
quartil, h forte indicaes de
assimetria positiva e de grande disperso das observaes.
Exemplo: Tendo a seguinte amostra:

3 15 17 18 21 21 22 25 27 30
38 49 68
X
min
=3 Q
1
=18 Md =22 Q
3
=30 X
max
=68 DQ =12






Observaes atpicas (outlier)
muito comum aparecerem entre os dados coletados,
observaes atpicas (outliers), isto , valores muito grande ou muito pequeno
em relao aos demais. Um conjunto de dados pode apresentar apenas um ou
vrios outliers.
Observaes atpicas alteram enormemente as mdias e
variabilidade dos grupos a que pertencem e podem at mesmo distorcer as
concluses obtidas atravs de uma anlise estatstica padro. Portanto, de
fundamental importncia detectar e dar um tratamento adequado a elas.
sempre boa a prtica fazer-se uma inspeo dos dados no incio da anlise
estatstica. Tcnicas descritivas de dados tm um papel importante nesta fase.
Causas do aparecimento de outliers
Dentre as possveis causas do aparecimento de outliers,
podem-se citar as seguintes:
3 15 17 18 21 22 25 27 30 38 49 68
* 0
Unopar Virtual
22
Leitura, anotao ou transio incorreta dos dados.
Erro na execuo do experimento ou na tomada da medida.
Mudanas no controlveis nas condies experimentais ou dos pacientes.
Caracterstica inerente varivel estudada (por exemplo, grande
instabilidade do que est sendo medido).

Como detectar outliers
As questes bsicas so quais observaes devem ser
consideradas como outliers e como detecta-los. Existem procedimentos para
responder a essas perguntas.
Os outliers podem ser detectados simplesmente por uma
verificao lgica dos dados, atravs de grficos especficos ou ainda atravs
de teste apropriados. Uma forma grfica usual o boxplot.
Na verificao lgica dos dados, pode-se testar se as
observaes esto dentro de faixa de valores esperados, confirma-se
classificaes dos dados, entre outros procedimentos. Em conseqncia
possvel eliminar inconsistncias e erros encontrados.

Exemplo:

TABELA Distribuio do tempo de adaptao em uma atividade X
Porcentagem Tempo (meses) Freqncia
absoluta
Simples Acumulada
2 10 19,60 19,60
3 28 54,90 74,50
4 10 19,60 94,10
5 1 1,96 96,06
6 1 1,96 98,02
17 1 1,96 100,00
Total 51 100,00

O valor 17 meses est muito fora do padro (3 meses segundo
a literatura), o que confirmado no boxplot abaixo:





2 3 6 9 12 15 18
*
0
Unopar Virtual
23
Grfico 4 Boxplot da idade ao firmar a cabea (meses)

Foram identificados dois outliers: um ponto externo (o valor 6) e
um ponto solto (o valor 17). Baseado na experincia, o primeiro valor detectado
no foi tido como aberrante e assim optou-se por no retira-lo da anlise. O
funcionrio que levou 17 meses para se adaptar atividade apresentava
dificuldade motora.

Medidas a serem tomadas
Quando um outlier detectado, duas medidas podem ser
tomadas abandona-lo ou conserva-lo. Existem justificativas para cada uma
dessas medidas e o tipo de anlise pode variar, dependendo se o outlier foi ou
no eliminado.
Um outlier deve ser eliminado da anlise quando houver uma
justificativa convincente para isto, por exemplo, quando a observao
incorreta ou houve erro na execuo do experimento ou na medida tomada.
Aps a eliminao do outlier pode-se fazer a anlise estatstica usando-se
apenas as observaes restantes, ou uma anlise mais sofisticada, que foge
ao nvel deste texto.
Por outro lado, se nenhuma explicao pode ser dada
observao atpica, o outlier pode refletir uma caracterstica do que est sendo
estudado. Neste caso, tal observao deve ser includa na anlise e um
tratamento especial deve ser dado aos dados. Por exemplo, pode-se usar uma
ponderao da influncia das observaes ou alternativamente uma
transformao ( x , log, x, etc.) da varivel estudada.
8.6 Assimetria
Embora as medias de posio e de variao possibilitam
descrever estatisticamente um conjunto de dados, necessrio verificar como
est se comportando de forma geral essa distribuio, o que possvel atravs
da distribuio de freqncia e de histograma. Sendo que as distribuies
possam tomar praticamente qualquer forma, a maioria que se encontra na
prtica so discretas por alguns tipos padro.
Unopar Virtual
24
de suma importncia que a distribuio seja em forma de
sino, ou seja, uma distribuio simtrica, pois metade da esquerda do seu
histograma aproximadamente a imagem-espelho da metade direita.
As distribuies consideradas assimtricas apresentam uma
cauda em uma das extremidades, quando est direita, positivamente
assimtrica, e se est esquerda, negativamente assimtrica.
Pode-se utilizar o coeficiente de assimetria de Pearson, que
dado por:
padro desvio
mediana mdia
SK

=
) ( 3

Para uma distribuio perfeitamente simtrica, o valor de SK
zero, de modo geral, os valores SK situam-se entre 3 e 3.




Negativamente assimtrica
Simtrica em forma de Sino
Positivamente assimtrica
Unopar Virtual
25
9 CORRELAO E REGRESSO

9.1 Introduo

Em muitas situaes de negcios, razovel sugerir que existam relaes entre as
variveis. Por exemplo, seria lgico supor que as vendas de um item produzido em
massa estejam relacionadas com seu preo e despesas de propaganda.
Para propsitos de tomada de deciso, til identificar se
existe uma relao linear entre duas variveis ou entre mais de duas variveis
e, se apropriado, quantificar sua fora. Uma relao entre duas variveis pode
ser identificada por meio de um grfico chamado diagrama de disperso, e
sua fora pode ser quantificada utilizando-se uma medida estatstica chamada
de coeficiente de correlao.
Uma vez verificado que existe associao entre duas variveis,
pode ser muito til produzir um modelo de previso que possa ser utilizado
para prever uma varivel se a outra for conhecida, por exemplo, pode ser
possvel prever as vendas se as despesas com propaganda forem conhecidas.
Pode-se, tambm, uma varivel est associada com duas ou mais variveis,
como por exemplo, os gastos da famlia em funo da renda e do nmero de
dependentes.

Diagrama de disperso
Um diagrama de disperso simplesmente uma representao
de pontos de dados em um grfico X-Y.
O eixo y utilizado para representar a varivel dependente que
interessa a quem toma as decises, enquanto o eixo x para representar uma
varivel que pode ser controlada ou mediada por quem toma as decises,
chamada de varivel independente, como mostra o diagrama abaixo.




Unopar Virtual
26


0
50
100
150
200
250
300
0 5 10 15 20 25 30 35
Propaganda (R$)
V
e
n
d
a
s

(
R
$
)

Diagrama de disperso das vendas e dos gastos com propaganda


No diagrama de disperso acima, nota-se que quanto mais
dinheiro for gasto em propaganda, maior ser o valor das vendas. O padro
dos pontos forma aproximadamente uma reta, sugerindo que possvel que
exista uma associao linear entre as duas variveis (vendas e propaganda).
Dependendo das variveis consideradas, a relao entre elas
pode ser fortemente linear, no linear ou mesmo inexistente. Portanto, um
diagrama de disperso uma primeira indicao til da possvel existncia de
uma associao entre duas variveis.

Relaes causais
Antes de realizar uma anlise mais profunda, relevante
levantar hipteses sobre a possibilidade da relao de causa e efeito entre as
variveis envolvidas e identificar claramente qual a varivel dependente.
Logo muito importante ser capaz de justificar com antecedncia que a
varivel y seja o efeito resultante das mudanas em x, a varivel causa.



Unopar Virtual
27
9.2 Coeficientes de correlao

A anlise de correlao uma tcnica matemtica utilizada
para medir a fora de associao entre duas variveis. Essa medio leva em
considerao o grau de disperso entre os valores dados. Quanto menos
dispersos estiverem os dados, mais forte ser a relao, isto , a correlao
entre as variveis.
O coeficiente de correlao denotado pelo smbolo r e
somente pode assumir um valor entre 1 e +1 inclusive. Portanto;

Se r =1, a correlao positiva perfeita;
Se r =-1, a correlao negativa perfeita;
Se r =0, a correlao nula.





















0
1
0
0
2
0
0
3
0
0
4
0
0
0 10 20 30 40 50 60
X
Y
0
100
200
300
400
0 10 20 30 40 50 60
X
Y
0
100
200
300
400
0 10 20 30 40 50 60
X
Y
0
100
200
300
0 10 20 30 40 50 60
X
Y
Correlao linear positiva r = 1 Correlao linear positiva
Correlao linear negativa No h correlao r = 0
Unopar Virtual
28

Portanto, o coeficiente de correlao linear tem por objetivo
medir o grau de relao entre duas variveis (X, Y) e definido pela frmula:





=
] ) ( ].[ ) ( [
2 2 2 2
y y n x x n
y x y x n
r

onde -1 r 1


9.3 Regresso linear simples

Em pesquisas estatsticas, o objetivo principal estabelecer
relaes que possibilitem predizer uma ou mais variveis em termos de outras.
Assim que se fazem estudos para predizer as vendas futuras de um produto
em funo do seu preo, ou vendas e os gastos com
propagandas.Naturalmente, o ideal seria que pudssemos predizer uma
quantidade exatamente em termos de outra, mas isso raramente possvel.
neste caso que a anlise de regresso tem sua utilidade, j que ela tem por
objetivo descrever atravs de um modelo matemtico, a relao entre duas
variveis, partindo de n observaes. Neste caso, a equao tem o formato:

y =a +bx, onde a e b so os parmetros.
Uma vez que se trabalha com amostra, deve-se determinar os parmetros a
e b, atravs do mtodo dos mnimos quadrados, tal que;

=
2 2
) ( x x n
y x y x n
b

n
x b
n
y
a

= ou x b y a =
Unopar Virtual
29
EXEMPLO

Certa empresa, estudando a variao de vendas de seus produtos em relao
variao de despesas com propaganda, obteve a tabela:

Vendas (R$) 24 34 27 20 36 16 27 16 28 30
Despesas com propaganda (R$) 7 12 10 5 13 4 8 4 9 11

a) Estimar a equao de regresso;
b) Qual a Venda para despesas com propaganda de R$ 6;
c) Qual a Venda para despesas com propaganda de R$ 15;
d) Calcular o coeficiente de correlao.


SOLUO


a) y =8,647 +2,067 x

b) P/ x =R$ 6,00 y =R$ 21,00

c) P/ x =R$ 15,00 y =39,646

d) r =0,982


2 . - TESTES NO-PARAMTRICOS
Na rea odontolgica vimos que so muitos usados o teste t de
student, a anlise de varincia, o teste de tukey, a regresso linear,
etc.
Tais testes exigem, para sua aplicao que a varivel em
anlise seja numrica e as hipteses sejam feitas sobre os
parmetros, da o nome: testes paramtricos. Mas os testes
paramtricos tem ainda outras exigncias.
Os testes paramtricos exigem uma distribuio normal ou
aproximadamente normal, que seja simtrica, a pressuposio de
homogeneidade de varincias (homocedasticia)
O teste de Tukey e outros paramtricos exigem as mesmas
pressuposies:(t, F, Duncan, Cheff, etc.)
O problema existe quando estas exigncias no so satisfeitas e
as amostras so pequenas.
Os testes no paramtricos so menos exigentes no exigindo
normalidade e podendo trabalhar com variveis no numricas assim
como pode trabalhar com os postos ocupados pelas variveis ou com
suas freqncias.

Unopar Virtual
30
A lgica dos testes no-paramtricos

So de execuo mais simples que os paramtricos, todavia
necessrio muito cuidado pois so menos poderosos (menos
robustos) possui menor probabilidade do que os paramtricos para a
rejeio da hiptese nula quando esta falsa e muitas vezes no
permitem fazer inferncias estatsticas na populao.
Portanto quando o pesquisador optar pela utilizao de um
teste no-paramtrico porque as pressuposies para um teste
paramtrico no esto satisfeitos e o pesquisador estar limitado ao
uso de um teste com menor poder.

2- 1. 1 . Escolha do teste adequado

Quando dispomos de vrias provas estatsticas para resolver
determinado problema, ou para determinado projeto de pesquisa,
como acostuma ocorrer, necessrio termos em critrio a saber, o
critrio do poder.

Uma prova estatstica pode ser considerada boa se tem
pequena probabilidade de rejeitar H
0
quando H
0
verdadeira., porm
grande probabilidade de rejeitar H
0
quando H
0
falsa. Vale lembrar
que a hiptese a ser testada H
0
e nunca H
1
que a hiptese
alternativa.
Todavia h outros fatores, alm do poder, a serem levados em
conta na escolha de uma estatstica como por exemplo:
A maneira como a amostra de valores foi extrada.
A natureza da populao da qual se extraiu a amostra.
O tipo de mensurao ou escala empregada nas definies
operacionais das variveis envolvidas. Isto , o conjunto de
valores numricos.
Todos esses aspectos devem ser levados em conta quando da
determinao da prova tima ou mais adequada para analisar
determinado conjunto de dados de pesquisa.
Analisados os aspectos levantados anteriormente fazemos a
opo pela aplicao de testes paramtricos (mais fortes e robustos)
ou testes no paramtrico quando certas condies no so
satisfeitas tais como:
As observaes no serem independentes a escolha de
determinado elemento na incluso da amostra pode influir na escolha
de outros elementos.
A observaes forem extradas de populaes que no possuem
uma aproximao com as distribuies normais .
As populaes no possuem varincias semelhantes e no
apresentam uma relao conhecida entre elas.
Unopar Virtual
31
As variveis em estudo no apresentam medidas nem
intervalar de modo a no possibilitar o emprego de estatsticas como
o calculo de mdias e de desvios.
No possuem homocedasticidade no permitindo efetuar as
combinaes lineares dos efeitos.

2.1.1 - Vantagens e Desvantagens da aplicao de testes
no paramtricos

2.1.1.1- Vantagens:
1) As afirmaes probabilsticas decorrentes da maior parte das
provas estatsticas no-paramtricas so probabilidades exatas
(salvo no caso de grandes amostras, em que dispomos de
aproximaes excelentes) independentemente da forma da
distribuio da populao do qual se extraiu a amostra
aleatria. Em certos casos algumas provas no-paramtricas
admitem que a distribuio bsica seja contnua suposio
igualmente feita no caso de provas paramtricas;
2) Se utilizamos tamanho de amostras muito pequenas, como por
exemplo n=6, no existe alternativa para o emprego de uma
prova paramtrica a menos que conheamos exatamente a
natureza da distribuio da populao;
3) H provas estatsticas no-paramtricas adequadas para o
tratamento de amostras constitudas de observaes de vrias
populaes diferentes. Nenhuma das provas paramtricas
permite-nos tratar dados em tais condies, a no ser que
baseamos o estudo em suposies irreais;
4) As provas estatsticas no-paramtricas prestam-se no s ao
tratamento de dados apresentados em postos como tambm
queles cujos escores aparentemente numricos tm na
realidade a fora de postos.(ex. Ao estudar o nvel de
ansiedade de dois indivduos A e B, podemos concluir que A
mais ansioso que B sem entretanto saber o quanto mais?). O
que se faz efetuar uma classificao por postos, ou se podem
classificar como positivos e negativos (mais ou menos; melhor
ou pior). A aplicao de mtodos paramtricos nestes cursos
no oferece uma anlise (sustentvel, consistente) pois
teremos de fazer suposies precrias e mesma irreais, sobre
as distribuies bsicas o que levaria a um resultado totalmente
inviezado.
5) Os dados no-paramtricos aplicam-se ao tratamento
simplesmente classificatrio, sendo mensurados em escala
nominal. Nenhuma tcnica paramtrica pode aplicar-se a tais
dados;
Unopar Virtual
32
6) As provas estatsticas no-paramtricas so essencialmente
muito mais fceis de aprender e de aplicar em relao as
provas paramtricas.


2.1.2 Desvantagens.

1) Se todas as suposies associadas ao modelo estatstico
paramtrico so satisfeitas pelos dados, e se as mensuraes
tm o nvel requerido, ento o emprego de uma prova no-
paramtrica representa um desperdcio de dados. O grau de
desperdcio se exprime atravs do poder-eficincia do mtodo
no-paramtrico;

2) Ainda no existem mtodos no-paramtricos para testar
interaes no modelo de anlise de varincia, a menos que se
faam suposies especiais quanto aditividade.



3 - O Teste de
2


O teste de
2
serve para testar a hiptese de que duas variveis
categricas independentes ou, o que matematicamente o mesmo,
testar a hiptese de que duas probabilidades so iguais. Preste
ateno nas exigncias:
1. Independncia dos grupos em comparao: os dois
grupos em comparao devem ser independentes como,
por exemplo, um grupo controle e outro experimental,
ou um grupo constitudo por portadores de uma doena
e outro por no-portadores.
2. Tamanho da amostra: a amostra deve ser de tamanho
igual ou maior do que 20. Se a amostra for menor que
40, as freqncias esperadas devem ser maiores que 5.
Nenhuma freqncia esperada pode ser inferior a 1.

Exemplo: mais fcil entender como se faz o teste de
2
usando um
exemplo. Na tabela a seguir, esto apresentados os dados de um
estudo comparativo entre o tratamento no-operatrio e a cirurgia
conservadora no trauma esplnico.
Tabela-6 : Participantes da pesquisa segundo tipo de tratamento e o
fato de ocorrerem ou no complicaes



Unopar Virtual
33
Tratamento Complicaes Sem ocorrncia Total
No-operatrio 3 29 32
Cirurgia
conservadora
25 79 104
Total 28 108 136

Para fazer o teste
2
:
Primeiro passo: Estabelea o nvel de significncia. Seja =0,05. A
hiptese da nulidade a de que a probabilidade de complicaes a
mesma, quer se faa tratamento no-operatrio ou cirurgia
conservadora.
Segundo passo: Calcule os totais marginais e o total geral. Na tabela
6, os totais esto em negrito.
Terceiro passo: Calcule a proporo de participantes que tiveram
complicaes. Foram 28 casos, no total de 136 pacientes. Logo:
20588 , 0
136
28
= =

p
Quarto passo: Sob a hiptese de que o mtodo de tratamento no
tem efeito sobre a probabilidade de o paciente ter complicaes,
espera-se que 0,20588 dos pacientes tratados por qualquer dos
mtodos tenham complicaes. Calcule, ento, a freqncia esperada
de pacientes no-operados com complicaes. Mas como: Basta
multiplicar 0,20588 por 32, que o nmero de pacientes no-
operados. O resultado 6,588.
Quinto passo: Calcule a freqncia esperada de pacientes operados
com complicaes. Basta multiplicar 0,20588 por 104, que o
nmero de pacientes operados. O resultado 21,412.
Sexo passo: Calcule a proporo de participantes sem ocorrncia, no
total de participantes. So 108 casos, no total de 136 pacientes.
Ento:
79412 , 0
136
108
= =

q
Agora fcil calcular a freqncia esperada de pacientes no-
operados sem ocorrncia: basta multiplicar 0,79412 por 32. O
resultado 25,412. A freqncia esperada de pacientes operados
sem ocorrncia 0,79412 x 104 = 82,576. Escreva as freqncias
esperadas em uma tabela.
Tabela-7 : Freqncia esperada de pacientes segundo o tipo de
tratamento e o fato de ocorrerem ou no complicaes




Unopar Virtual
34
Tratamento Complicaes Sem ocorrncia Total
No-operatrio 6,588 25,412 32
Cirurgia
conservadora
21,412 82,588 104
Total 28 108 136

Stimo passo: Se os eventos so independentes, as freqncias
esperadas apresentadas na tabela 7 devem ser iguais aos valores
apresentados na tabela 6. Voc ficaria surpreso se as freqncias
observadas fossem exatamente iguais s esperadas, j que sempre
se onta com alguma diferena. Mas quanta diferena razovel
esperar:
Para responder a essa pergunta voc precisa medir a
discrepncia entre as duas tabelas e testar se essa discrepncia
maior do que a esperada por simples acaso. A medida o
2
de
Pearson, definido pela frmula:
E
E O
2
2
) (
=
que, no caso de uma tabela 2x2, est associado a (2-1)(2-1) = 1
grau de liberdade.
Para o exemplo que estamos desenvolvendo, vem:
588 , 82
) 588 , 82 79 (
412 , 21
) 412 , 21 25 (
412 , 25
) 412 , 25 29 (
588 , 6
) 5888 , 6 3 (
2 2 2 2
2

+

=
1504 , 0 6012 , 0 5066 , 0 9541 , 1
2
+ + + =
2124 , 3
2
=
Oitavo passo: Compare o valor calculado do
2
com o valor crtico,
com 1 grau de liberdade e ao nvel de significncia estabelecido. Para
o exemplo em discusso, o valor calculado de
2
3,21. O valor
crtico de
2
com 1 grau de liberdade e ao nvel de significncia de 5%
3,84. Como 3,21 < 3,84, a concluso de que os dados obtidos
nessa pesquisa no permitem rejeitar a hiptese de que tratamento
no-operatrio e cirurgia conservadora, nos casos de trauma
esplnico, tm o mesmo risco de ocorrncias.

Observao: Muitos estatsticos recomendam, nos casos de uma
tabela 2x2, calcular o valor de
2
com correo de continuidade. A
estatstica conhecida como
2
corrigido de Yates em honra ao
estatstico que a props, Frank Yates, :
E
E O
2
2
) 5 , 0 (
=
Associada a (2-1)(2-1) = 1 grau de liberdade.
A correo de continuidade produz um teste mais conservador,
isto , um teste que tem menor probabilidade de rejeitar a hiptese
de nulidade. Se a amostra pequena, o efeito da correo de
continuidade ainda maior, isto , faz o pesquisador no rejeitar a
hiptese de nulidade mais vezes.
Unopar Virtual
35
Para os dados da tabela 6, o valor de
2
com correo de
continuidade :

2
= 2,38.

3.1- Medidas de Associao nas Tabelas 2x2

Os pesquisadores em geral consideram que a anlise estatstica
est pronta logo que terminam de aplicar o teste de
2
. No deveria,
porque importante estimar o grau de associao entre duas
variveis. Afinal de contas, o teste de
2
serve para verificar a
significncia da associao, mas no para medir o grau da associao
entre duas variveis.
Por que isso acontece? simples: a significncia de todo teste
estatstico depende muito do tamanho da amostra. Com o teste de
2

no acontece diferente: a significncia depende no s das diferenas
entre as propores, mas tambm do tamanho da amostra. O grau
de associao, no entanto, independe do tamanho da amostra:
funo das propores observadas. Veja como se o grau de
associao entre duas variveis no caso de uma tabela 2x2.

3.1.1- O Coeficiente

O coeficiente (l-se fi - uma letra grega) uma medida da
associao bastante conhecida e muito usado pelos pesquisadores
das reas de psicologia e sociologia. definido por:

n
2

=



em que
2
o valor no-corrigido do teste de
2

e n o tamanho da
amostra.;
Voc interpreta o resultado do coeficiente da seguinte forma:
1. Se for igual a 1 o que, no caso de , s acontece quando as
amostras so de mesmo tamanho a associao perfeita;
2. Se for igual a zero, a associao nula;
3. Quanto mais prximo estiver de 1, maior ser o grau de
associao entre as variveis, e, quanto mais prximo de zero,
menor a associao. Como regra prtica, valores de
menores que 0,30 ou 0,35 podem ser tomados como
indicadores de pequena associao.

Unopar Virtual
36
3.1.2 - O Coeficiente

O coeficiente (l-se gama - uma letra grega)
mede o grau de associao com que duas categorias ordenadas de
variveis tendem a crescer e, portanto, decrescer juntas. O
coeficiente definido por:
( )
( ) bc ad
bc ad
+

=

Como o coeficiente varia entre 1 e +1, voc interpreta o
resultado da mesma forma que interpreta o coeficiente de correlao:
1. Se for igual a 1 ou 1, a associao perfeita, positiva ou
negativa;
2. Se for igual a zero, a associao nula;
3. Quanto mais prximo estiver de 1, maior ser o grau de
associao positiva entre as variveis, e, quanto mais prximo
de 1, maior ser o grau de associao negativa entre as
variveis.


4 ANLISE DE VARINCIA


4.1 Introduo

Este estudo constitui uma extenso da seo diferenas entre mdias,
considerando-se que as diferenas observadas de mais de duas mdias
amostrais podem ser atribudas ao acaso. Por exemplo, pode-se querer
determinar, com base em dados amostrais, se h realmente diferena na
eficcia de trs variedades de soja, ou se h diferena na quilometragem
obtida com cinco tipos de gasolina, ou se existe alguma diferena na
durabilidade de seis marcas de tinta para pintura externa.
A anlise de varincia pode ser utilizada para abordar vrias questes
simultaneamente. Quanto a variedade de soja, por exemplo, pode-se perguntar
tambm se os resultados observados so causados por tipos de sementes e
no por causa dos diferentes lotes de terra. A abordagem desses problemas
nos conduz ao Planejamento Experimental, que nos permite formular questes
de real significado e submet-las a teste.
O experimento ser designado como planejamento completamente
aleatorizado, pois a aleatorizao nos protege contra os efeitos dos fatores que
no podem ser controlados de modo perfeito. O pesquisador no est isento da
responsabilidade de planejar cuidadosamente o experimento simplesmente
porque vai utilizar a aleatorizao. Em sntese, deve-se utilizar a aleatorizao
mesmo que o pesquisador ache que todos os efeitos esto cuidadosamente
controlados.


Unopar Virtual
37
4.2 Anlise de Varincia

A anlise de varincia uma tcnica que pode ser empregada para
testar as diferenas entre k mdias. Uma suposio bsica implcita na anlise
de varincia que as diversas mdias amostrais so obtidas de populaes
normalmente distribudas e que tm a mesma varincia. O teste se baseia
numa amostra extrada de cada populao e testa as seguintes hipteses ao
nvel de significncia .
Ho: As mdias das populaes so iguais
H
1
: As mdias das populaes no so iguais.

SUPOSIES:
As amostras devem ser aleatrias independentes;
As amostras devem ser extradas de populaes normais;
As amostras devem ter varincias iguais.

4.3 Anlise de Varincia com um Fator ou Inteiramente Casualizada

O modelo da anlise de varincia de um fator se relaciona com teste de
diferenas entre as mdias amostrais, quando os sujeitos so colocados
aleatoriamente em cada um dos diversos grupos de tratamento.
A equao que representa o modelo da anlise de varincia de um fator
:
X
i j
= +t
i
+e
i j
,
onde
=mdia geral do experimento;
t
i
=efeito do tratamento do grupo especfico, do qual foi amostrado;
e
i j
=erro experimental, isto , erro aleatrio relacionado com o processo
de amostragem.

As observaes de cada grupo ou tratamento so tabeladas para facilitar
a anlise segundo as hipteses lanadas.


Tratamentos (I)
Repeties (J) 1 2 . . . I

1 x
11
x
21
. . . x
i1

2 x
12
x
22
. . . x
i2

M M M M
J x
1j
X
2j
. . . x
ij

Total T
1
T
2
. . . T
I
G (Total
geral)
Mdias
1 x 2 x
. . .
I x




Unopar Virtual
38
Onde:

=
=
J
1 j
J 1 1
X T

=
=
J
1 j
J 2 2
X T

=
=
J
j
IJ I
X T
1



=
= =
I
1 i ij
ij i
X T G

Quadro de Anlise de Varincia e Teste F.

Para testar as hipteses constri-se o seguinte quadro de anlise de
varincia:
Fontes de
Variao (FV)
Graus de
liberdade (GL)
Soma de
Quadrados (SQ)
Quadrados
Mdios (QM)

Fcal

Ftab
Tratamentos
GLT
SQT QMT QMT/QMR 5 %
Resduos GLR SQR QMR
Total GLTo SRTo

GLT =I 1 GLR =I(J -1) GLTo =IJ - 1

= =
ij
ij
J I
G
C C X SQTo
2
2

C
J
T
SQT
I
1 i
2
i
=

=
SQR =SQTo SQT

1 I
SQT
QMT

=

) 1 J ( I
SQR
QMR

=


QMR
QMT
F
cal
=
)] 1 ( ); 1 [( ; J I I F
tab



Assim se F
cal
<F
tab
Aceita-se a hiptese nula (Ho), assim conclui-se
que as mdias das populaes so iguais ao nvel de significncia . Caso
contrrio, isto , F
cal
> F
tab
Rejeita-se (Ho), logo as mdias populacionais
so diferentes.
No caso de rejeio de Ho, em nosso estudo, ser utilizado o teste de
Tukey, para verificar onde existem diferenas das mdias.

1 -

F
5%
Unopar Virtual
39
4.4 Teste de Tukey

Quando no teste F rejeitar a hiptese nula (H
0
), pode-se fazer uma
comparao entre as mdias, pois de acordo com hiptese alternativa (H
1
), as
mdias populacionais no so iguais. Assim devero ser encontradas as
diferenas consideradas significativas e, uma das maneiras atravs do teste
de Tukey, o qual consiste comparar as mdias duas as duas atravs de sua
diferena em valor absoluto:
,
i i
K
x x D = , com a diferena mnima
significativa que dada por:
J
QMR
q . = , onde q a amplitude total estudentizada, cujo valor
encontrado nas tabelas, em funo do nmero de tratamento (I) e do nmero
de graus de liberdade do resduo, geralmente ao nvel 5% de probabilidade
q [I; I(J 1)]

Se D
k
>, conclui-se que existe diferena significativa ao nvel de
probabilidade testada, indicando que as duas mdias testadas diferem entre si
a esse nvel de probabilidade.


4.5 Anlise de Varincia com dois Fatores ou Blocos Completos
Casualizados

A anlise de varincia com dois fatores est baseada em dois conjuntos
de classificaes ou tratamentos. Por exemplo, analisar o rendimento de uma
safra de soja, poderia considerar ambos os efeitos, a variedade da semente
utilizada (Tratamentos) e os diferentes lotes de terra (Blocos).
A equao que representa o modelo da anlise de varincia de dois
fatores :
X
i j
= +t
i
+ b
j
+e
i j
,
onde
=mdia geral do experimento;
t
i
=efeito do tratamento, do qual foi amostrado;
b
j
=efeito do bloco, do qual foi amostrado;
e
i j
=erro experimental, isto , erro aleatrio relacionado com o processo
de amostragem.

Neste delineamento, o controle local representado pelos blocos, onde
cada um deles inclui todos os tratamentos.
Os blocos devem ser os mais homogneos possveis, podendo haver
diferena entre eles.
Ressaltamos aqui que dentro de cada bloco, os tratamentos so
casualizados.
Neste delineamento pode-se efetuar as seguintes hipteses:
Unopar Virtual
40

a) Para o primeiro fator Tratamentos
Ho: As mdias das populaes so todas iguais
H
1
: Pelo menos duas mdias das populaes diferem entre si.

b) Para o segundo fator Blocos
Ho: As mdias das populaes so todas iguais
H
1
: Pelo menos duas mdias das populaes diferem entre si.

As observaes de cada grupo ou tratamento so tabeladas para facilitar
a anlise segundo as hipteses lanadas.
Tratamentos (I)


Blocos (J)
1 2 . . . I
Total bloco
Mdi as
1 x
11
x
21
. . . x
i1
B
1
1 x
2 x
12
x
22
. . . x
i2
B
2
2 x
M M M M M M
J x
1j
x
2j
. . . x
ij
B
j

J x
Total tratamento T
1
T
2
. . . T
I
G
Mdi as 1 x 2 x
. . .
I x



Quadro de Anlise de Varincia e Teste F.

Para testar as hipteses constri-se o seguinte quadro de anlise de
varincia:
Fontes de
Variao (FV)
Graus de
liberdade (GL)
Soma de
Quadrados (SQ)
Quadrados
Mdios (QM)

Fcal

Ftab
Tratamentos
GLT
SQT QMT QMT/QMR 5 %
Blocos
GLB
SQB QMB QMB/QMR 5 %
Resduos GLR SQR QMR
Total GLTo SRTo
GLT =I 1 GLB =J -1 GLR =(I-1)(J -1) GLTo =IJ - 1

= =
ij
ij
J I
G
C C X SQTo
2
2

Unopar Virtual
41
C
J
T
SQT
I
i
i
=

=1
2
C
I
B
SQB
J
j
j
=

=1
2
SQR =SQTo SQT SQB
1
=
I
SQT
QMT
1
=
J
SQB
QMB
) 1 )( 1 (
=
J I
SQR
QMR
QMR
QMT
F
calT
= )] 1 )( 1 ( ); 1 [( J I I F
T tab


QMR
QMB
F
calB
= )] 1 )( 1 ( ); 1 [( J I J F
B tab

Assim se F
cal
<F
tab,
aceita-se a hiptese nula (Ho), conclui-se que as
mdias das populaes so iguais. Caso contrrio, rejeita-se Ho, isto , existe
pelo menos duas mdias que diferem entre si. Neste caso deve-se aplicar o
teste de Tukey.

4.6 -Teste de Tukey
Como j visto, quando no teste F rejeitar a hiptese nula (H
0
), pode-se
fazer uma comparao entre as mdias, pois de acordo com hiptese
alternativa (H
1
), as mdias populacionais no so iguais. Assim devero ser
encontradas as diferenas consideradas significativas e, uma das maneiras
atravs do teste de Tukey, o qual consiste comparar as mdias duas as duas
atravs de sua diferena em valor absoluto:
,
i i
K
x x D = , com a diferena
mnima significativa que dada por:

a) Para os tratamentos: Aplica-se o teste de Tukey, tomando suas
mdias duas a duas para verificar se existe diferena significativa, tal que:
J
QMR
q . = , onde q [I; (I 1)(J 1)]
b) Para os blocos: Aplica-se o teste de Tukey, tomando suas mdias
duas a duas para verificar se existe diferena significativa, tal que:
I
QMR
q . = , onde q [J ; (I 1)(J 1)]

O procedimento de Tukey um complemento ANOVA e visa a
identificar quais as mdias que tomadas duas a duas, diferem
significativamente entre si O mtodo de Tukey protege os testes de um
aumento no nvel de significncia devido ao grande nmero de comparaes
efetuadas. O que ocorreria com o teste t conforme mostra tabela a seguir.



1 -

F
Tab
Unopar Virtual
42

Tabela -1 Probabilidade de se cometer ao menos um erro do tipo I, usando
testes t para comparar duas a duas todas as mdias de um
experimento com k grupos

Nvel de significncia usado no teste Nmero de
mdias (K) 0,05 0,01 0,001
2
3
4
5
6
10
0,05
0,14
0,26
0,40
0,54
0,90
0,01
0,03
0,06
0,10
0,14
0,36
0,001
0,003
0,006
0,010
0,015
0.044
Fonte: Zar,1999; p.178.

Intervalo de confiana para a mdia de um tratamento , ser dado por:

nr
sduo QM
resduo t X
Re
) , (

Exemplo: Plantam-se quatro tipos diferentes de semente de soja em cinco
lotes. A tabela abaixo indica a produo de soja em saca por alqueire. Ao nvel
de 5%, teste se a produo varia significativamente devido variedade da soja
(tratamento) e devido ao solo (bloco). Se houver variao, aplicar o teste de
Tukey.


Tratamento
Blocos I II III IV
A
B
C
D
E
150
190
180
160
170
120
150
140
110
160
100
120
150
120
110
140
110
120
160
140
Unopar Virtual
43
Exemplo: Resolvido usando o Excel:

Tabela 2 Comparao entre trs analgsicos na reduo de dor ps-
operatria controlando por classe de idade dos pacientes.

Analgsico A B C Total bloco
Classe de
idade
I
II
II
IV

0
1
2
3

5
5
7
8

1
0
3
3

6
6
12
14
Total de
Tratamento
6 25 7 38

2
x
14 163 19 196
x 1,5 6,25 1,75

Efetuar a anlise de varincia e se necessrio aplicar o
teste Tukey.

RESUMO
Grupo Contagem Soma Mdia Varincia
A 4 6 1,5 1,666667
B 4 25 6,25 2,25
C 4 7 1,75 2,25


ANOVA
Fonte da
variao SQ gl MQ F valor-P F crtico
Entre grupos 57,16667 2 28,58333 13,90541 0,001767 4,256495
Dentro dos
grupos 18,5 9 2,055556

Total 75,66667 11
Unopar Virtual
44

Tabela 3 tempo gasto por trs estagirios comparados com tempos de
profissionais com 5anos de experincia.

Tratamento
A B C CONTROLE TOTAL
25
21
29
24
31
32
25
18
19
22
20
17
23
16



Anova: fator nico

RESUMO
Grupo Contagem Soma Mdia Varincia
A 3 75 25 16
B 3 87 29 19
C 4 84 21 10
CONTROLE 4 76 19 10

ANOVA
Fonte da
variao SQ gl MQ F valor-P F crtico
Entre grupos 200 3 66,66667 5,128205 0,021032 3,708265
Dentro dos
grupos 130 10 13

Total 330 13









Unopar Virtual
45

Tabela 15 Nmero de repeties, d.m.s, de Tukey e valor absoluto da
diferena das mdias dos estagirios e do controle.

Comparao N o de
repeties
d.m.s Valor absoluto da
diferena
A B

A-C

A Controle

B-C

B Controle

C - Controle

3:3

3:4

3:4

3:4

3:4

4:4
9,01

8,43

8,43

8,43

8,43

7,83
4 29 25 =

4 21 25 =
6 19 25 =

8 21 29 =

*
10 19 29 =
2 19 21 =

Observe que apenas o tratamento B difere do controle os demais no
apresentam diferenas estatsticas significativas.
Teste de Tukey: d.m.s = q .
2
1 1 Qmr
rj ri