Você está na página 1de 60

BIOESTATSTICA

Aula 2 Anlise Estatstica Descritiva


Medidas de tendncia central: Mdia, moda e
mediana
BIOESTATSTICA
Dentre as medidas resumo
habitualmente apresentadas na
anlise estatstica descritiva, as
medidas do centro de uma
distribuio ou tendncia central distribuio ou tendncia central
so muito importantes. As mais
utilizadas so:
Mdia (aritmtica): Soma dos
valores dividida pelo nmero de
observaes.
BIOESTATSTICA
A mdia aritmtica um conceito facilmente
compreendido, como por exemplo quando um
grupo de pessoas vai a um restaurante e a conta
dividida igualmente por todos.
No entanto, se algumas pessoas comeram muito
mais que as outras (ou consumiram alimentos ou mais que as outras (ou consumiram alimentos ou
bebidas mais caros) ser justo utilizar a mdia?
E quando o empregador afirma que o salrio
mdio dos funcionrios de uma categoria em
greve alto, essa medida no pode estar sendo
distorcida pelos salrios extremamente elevados
de uma pequena porcentagem de empregados?
BIOESTATSTICA
Como pode-se perceber, a mdia
afetada por valores extremos (outliers),
s devendo ser utilizada se a
distribuio for simtrica.
impossvel calcular a mdia de
variveis categricas (mesmo que elas
impossvel calcular a mdia de
variveis categricas (mesmo que elas
sejam representadas por nmeros,
como no caso de algumas variveis
categricas ordinais, como o
estadiamento clnico do cncer de
mama, que varia de 1 a 4), pois o
resultado no teria nenhum significado.
BIOESTATSTICA
Pode-se, no entanto, calcular a mdia de
variveis numricas discretas, inclusive
com decimal (o conceito de que no se
poderia calcular mdia para variveis
discretas foi muito difundido no
passado, mas hoje considerado passado, mas hoje considerado
ultrapassado).
Assim, pode-se dizer que a mdia de
filhos por mulher no Estado de So
Paulo em 1999 era 2,38 (embora
nenhuma mulher tenha 0,38 filho).
BIOESTATSTICA
Qual a vantagem de descrever a mdia
de variveis numricas discretas com
decimais? Por exemplo, um demgrafo
pode constatar que a mdia de filhos das
famlias brasileiras caiu de 2,6 para 2,1. famlias brasileiras caiu de 2,6 para 2,1.
Se no fossem utilizadas as casas
decimais, poder-se-ia concluir que o
nmero mdio de filhos da famlia
brasileira manteve-se estvel em 2!
BIOESTATSTICA
Moda: Valor mais freqentemente
observado.
Quando algum pergunta: Qual a cor da
moda neste vero? A resposta pode ser
obtida observando-se qual a cor das obtida observando-se qual a cor das
roupas da maioria das pessoas. Uma
distribuio pode apresentar mais de uma
moda, quando existem, por exemplo,
duas categorias ou valores igualmente
mais freqentes (distribuio bimodal).
BIOESTATSTICA
Mediana: Valor que divide as
observaes, ordenadas de forma
crescente, em igual nmero acima e
abaixo.
Quando o nmero de observaes for
par, calcula-se a mdia dos dois valores
centrais. Embora seja um conceito mais
difcil de ser assimilado, fundamental
para identificar o centro de uma
distribuio assimtrica, pois pouco
afetada por valores muito discrepantes.
BIOESTATSTICA
Exemplo: na seqncia de 9 medidas de
uma varivel numrica (idade),
dispostas em ordem crescente:
20 22 22 25 28 35 37 41 65
Mdia: Mdia:
(20+22+22+25+28+35+37+41+65)/9
= 295/9 = 32,8
Moda: 22 anos
Mediana: 28 anos
BIOESTATSTICA
Mdia e mediana so
parmetros aplicveis apenas
para variveis
numricas (tanto discretas numricas (tanto discretas
como contnuas). A moda
pode ser identificada tanto
para variveis numricas
quanto para categricas.
BIOESTATSTICA
A mdia no uma medida
resistente do centro da
distribuio, sendo muito afetada
por valores discrepantes
(outliers). A mediana mais (outliers). A mediana mais
resistente.
Quando a distribuio simtrica,
mdia, moda e mediana so
equivalentes.
Quando existe assimetria, no entanto,
mdia e mediana desviam-se na direo
dos valores extremos.
BIOESTATSTICA
BIOESTATSTICA
A seguir, podemos observar histogramas de uma
distribuio simtrica e outra desviada para a
direita.
BIOESTATSTICA
BIOESTATSTICA
Quartis e percentis
Quartis so valores que dividem a amostra
em quatro partes:
- Primeiro quartil: valor abaixo do qual
encontram-se 25% das observaes. encontram-se 25% das observaes.
- Segundo quartil (mediana): valor abaixo
do qual encontram-se 50% das
observaes.
- Terceiro quartil: valor abaixo do qual
encontram-se 75% das observaes.
BIOESTATSTICA
Os percentis dividem a amostra em
100 partes.
O percentil 95, por exemplo, o valor
abaixo do qual encontram-se 95% das abaixo do qual encontram-se 95% das
observaes.
BIOESTATSTICA
Medidas de variabilidade: amplitude, varincia,
desvio padro e coeficiente de variao.
BIOESTATSTICA
Podemos ter duas amostras com
distribuio simtrica, mdias
iguais porm variabilidade
diferente.
Por exemplo, ao se afirmar que a Por exemplo, ao se afirmar que a
idade mdia 40 anos, podemos
ter uma amostra contendo
indivduos com idades de 35 a 45
anos e outra com pessoas de 10 a
70 anos.
BIOESTATSTICA
Amplitude: a medida de
variabilidade mais simples,
descrevendo a diferena entre o
menor e o maior valor.
Na primeira amostra do exemplo Na primeira amostra do exemplo
anterior, a amplitude de 10
anos, e na segunda de 60 anos.
Como pode-se perceber, uma
medida pouco resistente, pois
baseia-se apenas nos valores de
duas observaes.
BIOESTATSTICA
Varincia e Desvio Padro:
So medidas de variabilidade
individual, ou seja, indicam individual, ou seja, indicam
como os valores variam de um
indivduo para outro, atravs
do afastamento dos valores
em relao mdia.
BIOESTATSTICA
A seguir temos as frmulas da
varincia e do desvio padro:
BIOESTATSTICA
Vamos agora procurar entender estas frmulas, que
podem parecer assustadoras a princpio. Primeiro
vamos identificar cada um dos smbolos:
: somatria
X: o valor de cada uma das observaes
_
X : a mdia da amostra
n: o nmero de observaes (tamanho da amostra)
BIOESTATSTICA
Para o clculo do desvio padro, inicialmente
temos que calcular as diferenas entre cada um
dos valores e a mdia.
Se simplesmente somssemos todas as
diferenas, o total seria zero, pois alguns
valores so maiores do que a mdia (diferena valores so maiores do que a mdia (diferena
positiva) e outros menores (diferena negativa).
Utiliza-se ento um artifcio comum em
estatstica, que consiste em elevar os valores ao
quadrado, tornando-os assim todos positivos (-2
ao quadrado quatro, assim como 2 ao
quadrado).
BIOESTATSTICA
O passo seguinte calcular o valor
mdio, dividindo pelo nmero de
observaes; no entanto, ao invs
de se utilizar n (tamanho da
amostra) utiliza-se n-1 devido ao amostra) utiliza-se n-1 devido ao
conceito de graus de liberdade (se
soubermos a mdia e todos os
valores menos um, podemos
calcular o ltimo valor).
A medida obtida denominada
varincia.
BIOESTATSTICA
Finalmente, extramos a raiz
quadrada para voltar escala
original (pois havamos
elevado as diferenas ao elevado as diferenas ao
quadrado).
BIOESTATSTICA
Coeficiente de Variao: Medida de variabilidade
dos valores individuais em torno da mdia
amostral, calculada dividindo-se o desvio padro
pela mdia.
BIOESTATSTICA
Erro padro e erro amostral.
BIOESTATSTICA
Erro Padro: Medida de variabilidade da
mdia amostral (como a mdia varia de
uma amostra para outra).
Como j foi citado anteriormente, a
mdia da populao estimada atravs de
uma amostra apresenta sempre uma
mdia da populao estimada atravs de
uma amostra apresenta sempre uma
margem de erro, que estimada pelo
erro padro.
No se trata de uma medida de
variabilidade individual (como o desvio
padro), mas sim de uma estimativa da
variabilidade da mdia obtida, em
funo do tamanho da amostra.
BIOESTATSTICA
BIOESTATSTICA
Pode-se perceber que quanto
maior a amostra, menor o erro
padro.
Erro Amostral: Medida de
afastamento da mdia amostral afastamento da mdia amostral
em relao mdia real da
populao, associada sempre a
uma confiana (O conceito de
confiana ser discutido mais
adiante).
BIOESTATSTICA
BIOESTATSTICA
Vamos ver um exemplo: Foram
medidos os pesos de 1200 recm-
nascidos em uma maternidade.
Os dados foram analisados em um Os dados foram analisados em um
programa de computador (vide a
seguir representao impressa),
que apresentou os seguintes
resultados:
BIOESTATSTICA
BIOESTATSTICA
BIOESTATSTICA
Foi referido o intervalo de confiana de 95 %
para a mdia, que calculado a partir do erro
amostral, representando tambm uma medida
de afastamento da mdia amostral em relao
mdia real da populao, associada sempre a
uma confiana.
A interpretao que temos confiana de 95% A interpretao que temos confiana de 95%
de que a mdia real da populao encontra-se
dentro dos limites do intervalo, ou seja, a
probabilidade da mdia real ser menor que
3276,0 gramas ou maior que 3342,6 gramas
de apenas 5%.
O limite inferior do intervalo de confiana para a
mdia calculado atravs da mdia menos o
erro amostral e o limite superior pela mdia
somada ao erro amostral.
BIOESTATSTICA
Intervalo de confiana de
95% para a mdia = mdia
erro amostral
BIOESTATSTICA
Podemos concluir a partir destas medidas-
resumo que:
- a distribuio simtrica (pois a mdia e a
mediana so praticamente iguais);
- a variabilidade pequena (pois o desvio
padro 18% do valor da mdia); padro 18% do valor da mdia);
- 75% dos bebs pesam mais de 2.908,0 g
(primeiro quartil).
- 75% dos bebs pesam menos de 3.704,5 g
(terceiro quartil).
- a margem de erro da mdia calculada
pequena (pois a amostra grande);
- o intervalo de confiana de 95% para a mdia
pequeno (pois a amostra grande).
BIOESTATSTICA
Tabelas
BIOESTATSTICA
Os resultados devem ser
apresentados sob a forma de
tabelas e grficos, que resumem
os dados obtidos, devendo ser
auto-explicativos, ou seja, deve auto-explicativos, ou seja, deve
ser possvel entender o grfico ou
a tabela sem ler o restante do
texto.
Todos os itens devem constar na
mesma pgina.
BIOESTATSTICA
- As tabelas so compostas de linha
e colunas, incluindo sempre uma
barra de ttulo e a descrio dos
resultados.
- Ao final, podem conter uma barra - Ao final, podem conter uma barra
com o total ou a mdia.
- As bordas das tabelas devem
conter apenas traos horizontais
acima e abaixo da primeira linha e
da ltima, quando esta contiver
total ou mdia.
BIOESTATSTICA
- Quando a ltima linha no
contiver total ou mdia,
dever ter apenas uma linha
horizontal ao final. horizontal ao final.
- Nunca incluir traos verticais.
BIOESTATSTICA
Exemplos de Tabelas:
BIOESTATSTICA
BIOESTATSTICA
Tabelas de contingncia so
tambm compostas de linhas e
colunas, e apresentam os dados
de uma associao que se deseje
pesquisar, confrontando os pesquisar, confrontando os
resultados.
Consideram-se o nmero de linhas
e colunas que contm resultados,
no computando as linhas e
colunas com o ttulo e os totais.
BIOESTATSTICA
BIOESTATSTICA
Grficos
BIOESTATSTICA
Os grficos facilitam muito a
compreenso dos resultados.
Os principais grficos
utilizados para variveis utilizados para variveis
numricas so os histogramas
e grficos do tipo boxplot
(tambm chamados de box-
and-whisker plots).
BIOESTATSTICA
Para variveis categricas
podemos construir grficos do tipo
pizza, indicando a participao
porcentual de cada categoria.
Os grficos de barras podem ser Os grficos de barras podem ser
utilizados tanto para representar
variveis categricas (indicando a
contagem ou porcentual de cada
categoria) como para comparar
mdias de grupos (ou tempos
diferentes para o mesmo grupo).
BIOESTATSTICA
Vejamos um histograma ou grfico de
freqncia. No eixo x consta o peso em gramas e
no eixo y o nmero de bebs para cada faixa de
peso.
BIOESTATSTICA
Analisando o histograma,
podemos confirmar que a
distribuio simtrica (a
maioria dos valores maioria dos valores
encontram -se no centro).
BIOESTATSTICA
Foi construdo tambm um grfico do
tipo boxplot.
Este segundo grfico tambm mostra
que a distribuio simtrica, pois a
"caixa" do grfico formada pelo primeiro "caixa" do grfico formada pelo primeiro
quartil, mediana e terceiro quartil
simtrica.
O asterisco dentro da caixa identifica a
mdia. Os asteriscos nas extremidades
representam os valores que so muito
discrepantes (outliers), como podemos
ver no modelo a seguir:
BIOESTATSTICA
BIOESTATSTICA
BIOESTATSTICA
O que "outlier"?
Procuramos no utilizar termos
em Ingls, mas este inevitvel,
pois no tem traduo adequada.
Outlier significa "aquele que est Outlier significa "aquele que est
fora", podendo ser traduzido
como "valor discrepante".
A maioria dos programas de
anlise estatstica define os
outliers da seguinte forma:
BIOESTATSTICA
1. Calcula a amplitude interquartis (terceiro
quartil - primeiro quartil)
2. Calcula o limite inferior do boxplot atravs da
frmula:
[primeiro quartil - (1,5 X amplitude
interquartis)] interquartis)]
3. Calcula o limite superior do boxplot atravs
da frmula:
[terceiro quartil + (1,5 X amplitude
interquartis)]
4. Os valores abaixo do limite inferior ou acima
do limite superior so considerados outliers.
BIOESTATSTICA
O que fazer com outliers?
A primeira reao de muitos pesquisadores
desprezar os valores discrepantes. No entanto,
isto no correto. Inicialmente, deve-se
verificar se no houve erro de digitao. verificar se no houve erro de digitao.
Em segundo lugar, analisar se no ocorreu erro
na mensurao da varivel.
Finalmente, se o valor extremo est correto,
deve-se avaliar se aquele indivduo apresenta
alguma condio que o caracterize como os
diferentes dos demais. Caso contrrio, o valor
no deve ser desprezado.
BIOESTATSTICA
Se quisermos apresentar os
resultados da varivel sexo
dos recm-nascidos
(categrica nominal), (categrica nominal),
podemos fazer um grfico
de pizza:
BIOESTATSTICA
BIOESTATSTICA
Finalmente, um exemplo de grfico de barras,
publicado no jornal O Estado de So Paulo em 28
de Julho de 2003.
BIOESTATSTICA
Observando apenas o grfico
podemos compreender o
assunto sem ter que ler o
texto da matria. texto da matria.