Você está na página 1de 6

22

Conceitos Básicos de Estatística


Estatística e Experimentação Zootécnica
Prof. Eduardo Shiguero Sakaguti

1. Introdução

Este capítulo contém alguns conceitos de estatística, os quais serão apresentados


de forma breve e superficial, apenas para relembrar alguns tópicos e definições de
assuntos e para apresentar notações e terminologias adotadas nos assuntos posteriores.
Para maior aprofundamento dos conceitos, recomenda-se consultar literaturas
específicas da área de estatística. Assume-se, portanto, que alguns conceitos básicos de
estatística já são conhecidos.

2. Parâmetro e Estimativa

Um parâmetro é uma medida populacional, isto é, um valor que representa a


população total. O valor paramétrico, quase sempre, não é conhecido, pois, dificilmente, é
possível se fazer medidas em todos os indivíduos da população. Porém, pode-se ter
estimativas (ou valores estimados) dos parâmetros, fazendo-se medidas em amostras
da população.
Por exemplo, não se conhece a média de peso ao nascimento de todos os animais
da raça Nelore (parâmetro), contudo, por meio de uma amostragem, pode-se chegar a uma
estimativa desse valor.
Mesmo quando o valor paramétrico não é conhecido, o parâmetro pode ser
representado por algum símbolo. Em geral, o parâmetro é representado por uma letra
grega ou letra romana. O símbolo empregado para representar uma fórmula empregada
para se obter uma estimativa é chamada de estimador, o qual pode ser identificado pela
presença de um chapéu (^ ou ~)
Considerando que as que se tenha uma amostra com n observações (xi), para i = 1,
2,  n, pode-se ter:

Parâmetro Estimador
n

Média  ou m ̂ ou m̂ ou x i
x i 1

n
n

 x  x
2
i
Variância 2 ou s2 ˆ 2 ou
sˆ 2  i 1

n 1

3. Variáveis Aleatórias e Distribuições de Probabilidade

Quando um experimento é realizado, existe um interesse em se avaliar certos


resultados ou funções desses resultados. Por exemplo, num experimento de lançamento
de dados, o interesse pode residir em saber quantas vezes aparece a face 3 ou saber
quantas fezes o total será igual a 8.
23
O conjunto de resultados possíveis de um experimento é chamado de espaço
amostral ( ). No caso do lançamento de um dado, o espaço amostral é dado por:
 = {1, 2, 3, 4, 5, 6}.
As quantidades ou funções, obtidas dos resultados de um experimento, são
conhecidas como variáveis aleatórias, uma vez que se pode atribuir probabilidades aos
seus possíveis valores.
A probabilidade de que a variável aleatória tenha um determinado valor é definido
por sua distribuição de probabilidade. Por exemplo, em um experimento de lançamento
de dois dados, a distribuição de probabilidade da variável aleatória, que representa a soma,
pode ser apresentado pelo gráfico abaixo.

6
Probabilidade (x/36)

5
4
3
2
1
0
1 2 3 4 5 6 7 8 9 10 11 12
Soma dos dois dados

Figura 1. Representação gráfica de uma distribuição de probabilidade dos possíveis


valores da soma do lançamento de dois dados.

As distribuições de probabilidade mais utilizadas nas análises estatísticas de


experimentos agrícolas são a Bernoulli, Binomial e Poisson, para as variáveis discretas e a
Normal, Qui-quadrado, t de Student e F de Snedecor, para as variáveis contínuas.
A maioria das variáveis biológicas (peso, altura, consumo de ração, taxa de
colesterol, etc.) tem distribuição populacional próxima da distribuição normal, a qual tem a
os valores concentrados em torno da média e concentrações menores a medida que se
distancia da média, conforme mostra a figura abaixo.
Freqüência

m-s m m+s

Figura 2. Representação gráfica de uma distribuição normal com média m e


variância s2.

A Distribuição Normal é a distribuição contínua mais importante, pois ela serve de


base para os principais testes estatísticos.
24

3. Medidas de Tendência Central

As medidas de tendência central estabelecem o valor em torno do qual os dados se


distribuem. A média (ou média aritmética), a moda e mediana são as principais medidas
de tendência central. A média é a mais utilizada por ser mais facilmente calculada e por
apresentar propriedades mais interessantes. Além disso, em muitas distribuições, como a
normal, média, moda e mediana são coincidentes.
A presença de dados excessivamente altos (ou baixos) pode provocar assimetria na
distribuição de freqüências e a média se desloca na direção dos valores aberrantes,
podendo fazer com que ela deixe de ser a medida de tendência central preferível, posição
que pode ser assumida pela moda ou mediana.

4. Medidas de Dispersão

Apenas com as medidas de tendência central, não se consegue descrever bem uma
população ou um conjunto de dados. Duas populações com a mesma média (m) podem ser
bastante distintas, conforme mostra a figura abaixo.

População 1
População 2
Freqüência

Figura 3. Representação gráfica de duas populações que têm distribuição normal


com média m e variâncias diferentes.

Pela Figura 3, observa-se que a População 1 é bem menos uniforme (ou mais
heterogênea) que a População 2 que apresenta uma proporção bem maior de indivíduos
nas proximidades da média.
O grau de uniformidade ou o seu inverso, o grau de variação, de um conjunto de
variáveis aleatórias é indicado pelo desvio padrão que é a raiz quadrada da variância.
Assim, para uma amostra com n observações (xi), o desvio padrão pode ser calculado pela
fórmula:

 x i  x
2

sˆ  sˆ 2  i 1

n 1
25
Enquanto o desvio padrão indica o grau de dispersão das observações em relação à
média, outra medida de variabilidade, o erro padrão da média indica a variabilidade da
distribuição das médias.
Para se entender o que é a distribuição das médias, deve-se imaginar que, de uma
população, seja possível ter várias amostras n, o que permitiria a obtenção de várias
médias. A distribuição de possíveis valores que essas médias podem assumir é a
distribuição de probabilidade das médias, a qual não necessariamente é a mesma
distribuição dos dados. Na verdade, se espera que a distribuição das médias seja menos
dispersa de a distribuição dos dados. Assim, considerando uma amostra de tamanho n, o
erro padrão da média ( m̂ ), ou simplesmente erro padrão, pode ser estimado pela seguinte
fórmula:


sˆmˆ 
n

O desvio padrão tem a mesma unidade que a variável medida (por exemplo: g, kg, l,
ml ou m2) e,portanto, não permite a comparação da variabilidade de variáveis que são
medidas em unidades diferentes. Para contornar esse problema, pode-se utilizar uma
medida de variabilidade que é adimensional, o coeficiente de variação, o qual pode ser
calculado pela seguinte fórmula:


CV   100

6. Precisão e Acurácia

Na estatística, o termo precisão é empregado como o antônimo de variabilidade das


estimativas, enquanto que o termo acurácia significa exatidão.
Considerando que a “mosca” é o valor paramétrico e as fechas são as medidas
utilizadas para se fazer uma estimativa, a figura abaixo representa a precisão e a acurácia
dos atiradores:

XX
XXX
XX X
X XX
X X XXX
X XX
X
X

Atirador A Atirador B Atirador C

Figura 4. Representação da precisão e da acurácia


26
Observa-se que o atirador A é preciso, mas pouco acurado, ao contrário do atirador
B que é acurado, mas pouco preciso. Uma boa estimativa deve ser como o pesquisador C
que é preciso e acurado.
A precisão das respostas experimentais é dada pelas medidas de variação entre as
repetições. Assim, pela fórmula da variância:
n

 x  x
2
i
Var ( x)  i 1

n 1

observa-se que, além das diferenças inerentes às observações, consideradas no


numerador, o número de repetições (n) tem influência na precisão de uma estimativa.
Para se ter estimativas mais precisas oriundas de medições que apresentam uma
considerável variabilidade, deve-se ter um grande número de repetições.
Uma maior acurácia é obtida com melhor calibragem dos equipamentos de medição
e no refinamento das metodologias de estimação dos parâmetros. Quando a estimativa é
igual ao parâmetro diz-se que o estimador é não-tendencioso ou não-viesado.

7. Testes Estatísticos

Uma hipótese estatística consiste da atribuição de um determinado valor para um


parâmetro da população ou para uma função de parâmetros, sendo que duas
possibilidades são admitidas: a hipótese de nulidade (H0), que afirma que o parâmetro ou a
função é tal como especificado, e a hipótese alternativa (H1), que afirma que o parâmetro
difere do valor alegado.
Para se avaliar uma hipótese, usa-se o teste de hipótese que é uma simples regra
pela qual a hipótese é aceita ou rejeitada. Quando este teste é baseado em estatísticas
amostrais, como usualmente ocorre, ele é chamado de teste estatístico. Assim, ao atribuir
um determinado valor numérico 0 para o parâmetro , pode-se fazer três tipos de teste:
H 0 :    0
a) Teste bilateral:  ;
H 1 :    0
H 0 :    0
b) Teste unilateral à direita:  ;e
H 1 :    0
H 0 :    0
c) Teste unilateral à esquerda:  .
H 1 :    0

Estatisticamente, dois tipos de erros são possíveis quando uma hipótese é testada:
a) Erro tipo I: que é rejeitar H0, quando ela é verdadeira; e

b) Erro tipo II: que é aceitar H0, quando ela é falsa.

A probabilidade de se cometer o erro tipo I é chamada de nível de significância ( )


e a probabilidade de se cometer o erro tipo II é chamada de poder do teste ( ).
27
A região de rejeição de H0, isto é, a região que abrange todos os valores do teste
estatístico que determinam a rejeição de H0, é chamada de região crítica. A disposição da
região crítica na distribuição de probabilidade do teste depende do tipo de teste. Assim,
pode se ter:

Teste bilateral Teste unilateral à direita Teste unilateral à esquerda

1-
/2 /2 1- 1-
 

Figura 5. Regiões críticas de acordo com o tipo de teste

Você também pode gostar