Você está na página 1de 18

Estatística descritiva e

Estatística inferencial
Física
Universidade Estadual do Pará (UEPA)
17 pag.

Document shared on www.docsity.com


Downloaded by: magno-junior-11 (magnoshowboy@hotmail.com)
SERVIÇO PÚBLICO FEDERAL
UNIVERSIDADE FEDERAL DO PARÁ
CAMPUS UNIVERSITÁRIO DE SALINÓPOLIS
FACULDADE DE FÍSICA
CURSO DE LICENCIATURA EM FÍSICA

HELDEN BARROS DA SILVA


JOSEANE TAVARES DA SILVA
LUIS MARIA COSTA RIBEIRO
NARA NÚBIA DA SILVA ALVES

ESTATISTICA: Estatística descritiva e Estatística inferencial

SALINÓPOLIS – PA
2019

Document shared on www.docsity.com


Downloaded by: magno-junior-11 (magnoshowboy@hotmail.com)
HELDEN BARROS DA SILVA
JOSEANE TAVARES DA SILVA
LUIS MARIA COSTA RIBEIRO
NARA NÚBIA DA SILVA ALVES

ESTATISTICA: Estatística descritiva e Estatística inferencial

Trabalho apresentado a Universidade Federal


do Pará, como requisito para obtenção de nota
da disciplina de Introdução a Probabilidade e
Estatística

Orientador: Prof. Msc Domingos Alves.

SALINÓPOLIS – PA
2019

Document shared on www.docsity.com


Downloaded by: magno-junior-11 (magnoshowboy@hotmail.com)
INTRODUÇÃO

A Estatística está presente em todas as áreas da ciência que envolvam o planejamento


do experimento, a construção de modelos, a coleta, o processamento e a análise de dados e sua
consequente transformação em informação, para postular, refutar ou validar hipóteses
científicas sobre um fenômeno observável. Desta forma, a Estatística pode ser pensada como a
ciência de aprendizagem a partir de dados. No mundo moderno, a alta competitividade na busca
de tecnologias e de mercados tem provocado uma constante corrida pela informação. Essa é
uma tendência crescente e irreversível.
O aprendizado a partir de dados é um dos desafios mais relevantes da era da
informação em que vivemos. Em linhas gerais, podemos dizer que a Estatística, com base na
Teoria das Probabilidades, fornece técnicas e métodos de análise de dados que auxiliam o
processo de tomada de decisão nos mais variados problemas onde existe incerteza.
Em estatística, uma população é um conjunto de itens ou eventos semelhantes que
interessa para alguma questão ou experimento. Uma população estatística pode ser um grupo
de objetos realmente existentes (por exemplo, o conjunto de todas as estrelas na galáxia da Via
Láctea) ou um grupo hipotético e potencialmente infinito de objetos concebido como uma
generalização a partir da experiência (por exemplo, o conjunto de todas as mãos possíveis em
um jogo de pôquer). Um objetivo comum da análise estatística é produzir informação sobre
alguma população escolhida.
Em estatística e metodologia da pesquisa quantitativa, uma amostra é um conjunto
de dados coletados e/ou selecionados de uma população estatística por um procedimento
definido. Os elementos de uma amostra são conhecidos como pontos amostrais, unidades
amostrais ou observações.
Tipicamente, a população é muito grande, portanto fazer um censo ou
uma enumeração completa de todos os valores na população é pouco prático ou impossível. A
amostra geralmente representa um subconjunto de tamanho manejável. Amostras são coletadas
e estatísticas são calculadas a partir das amostras, de modo que se possam
fazer inferências ou extrapolações da amostra à população.

Document shared on www.docsity.com


Downloaded by: magno-junior-11 (magnoshowboy@hotmail.com)
A amostra de dados pode ser retirada de uma população "sem reposição" (nenhum
elemento pode ser selecionado mais de uma vez na mesma amostra), no caso em que a amostra
é um subconjunto de uma população, ou "com reposição" (um elemento pode aparecer múltiplas
vezes em uma amostra), no caso em que a amostra é um multi subconjunto.

1. Estatística Descritiva
Estatística descritiva é o ramo da estatística que visa sumarizar e descrever
qualquer conjunto de dados. Em outras palavras, é aquela estatística que está preocupada em
sintetizar os dados de maneira direta, se preocupando menos com variações e intervalos de
confiança dos dados. Exemplos de estatísticas descritivas são a média, o desvio padrão, a
mediana, etc.
Agora, você domina os conceitos de estatística descritivas simples que estamos tão
acostumados a ver no dia a dia? Média, mediana, desvio padrão, variância e etc? Domina
mesmo? Em nossos cursos de Green Belt e Black Belt, abordamos esse assunto, e nem sempre
as pessoas estão de fato cientes das estatísticas descritivas mais importantes. São conceitos
fundamentais para o Seis Sigma e para o Lean.

1.1 Medidas de Tendência Central


Em estatística, uma tendência central (ou, normalmente, uma medida de tendência
central) é um valor central ou valor típico para uma distribuição de probabilidade.[1] É chamada
ocasionalmente como média ou apenas centro da distribuição. As medidas de tendência central
mais comuns são a média aritmética, a mediana e moda.
Tendências centrais podem ser calculadas tanto para um número finito de valores
quanto para uma distribuição teórica, a exemplo da distribuição normal. Ocasionalmente
autores usam tendência central (ou centralidade), significando "a tendência de dados
quantitativos de se agruparem ao redor de um valor central." Tal significado pode ser esperado
da definição usual das palavras tendência e centralidade no dicionário.
Autores podem julgar se dados têm tendência central forte ou fraca se baseando
na dispersão estatística, medida pelo desvio padrão ou algo similar.

1.2 Média Aritmética

A Média Aritmética de um conjunto de dados é obtida somando todos os valores e


dividindo o valor encontrado pelo número de dados desse conjunto. É muito utilizada em
estatística como uma medida de tendência central.

Document shared on www.docsity.com


Downloaded by: magno-junior-11 (magnoshowboy@hotmail.com)
Pode ser simples, onde todos os valores possuem a mesma importância, ou ponderada,
quando considera pesos diferentes aos dados.
Como por exemplo a idade de 5 pessoas onde a primeira tem 25, a segunda 30, na
terceira 32, a quarta 28 e a quinta 27 anos, portanto para calcular média da idade dessas pessoas
basta somar e dividir por cinco

25 + 30 + 32 + 28 + 27 142
𝑀= = = 28, 4
5 5

Assim, dizemos que a média de idade dessas cincos pessoas é de 28,4 anos ou
aproximadamente 28 anos. Portanto, generalizando, podemos afirmar matematicamente que,
dados 𝑛 valores 𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑛 de uma variável, a média aritmética é o número obtido da
seguinte forma:

𝑥1 + 𝑥2 + 𝑥3 + ⋯ + 𝑥𝑛 ∑𝑛𝑖=1 𝑥𝑖
𝑀= =
𝑛 𝑛

1.3 Mediana (𝑴𝒆)

É o valor que separa a metade maior e a metade menor de uma amostra,


uma população ou uma distribuição de probabilidade. Em termos mais simples, mediana pode
ser o valor do meio de um conjunto de dados. No conjunto de dados {1, 3, 3, 6, 7, 8, 9}, por
exemplo, a mediana é 6. Se houver um número par de observações, não há um único valor do
meio. Então, a mediana é definida como a média dos dois valores do meio. No conjunto de
5+7 12
dados {3, 5, 7, 9}, a mediana é 2
= 2
=6

A mediana é uma medida comum das propriedades de conjuntos de dados


em estatística e em teoria das probabilidades, com importância central na estatística robusta. A
estatística robusta é mais resistente, com ponto de ruptura de 50%. A mediana não fornece
resultados arbitrariamente grandes desde que mais da metade dos dados não esteja contaminada.

 O número que ocupar a posição central se 𝑛 for ímpar;


 A média aritmética dos números que estiverem no centro se 𝑛 for par.

Document shared on www.docsity.com


Downloaded by: magno-junior-11 (magnoshowboy@hotmail.com)
1.4 Moda (𝑴𝒐)
Define-se moda como sendo: o valor que surge com mais frequência se os dados são
discretos, ou, o intervalo de classe com maior frequência se os dados são contínuos. Assim, da
representação gráfica dos dados, obtém-se imediatamente o valor que representa a moda ou a
classe modal.
Esta medida é especialmente útil para reduzir a informação de um conjunto de dados
qualitativos, apresentados sob a forma de nomes ou categorias, para os quais não se pode
calcular a média e por vezes a mediana.

1.5 Aplicações de estatística descritiva


Exemplo 01
Os dados a seguir foram obtidos em indivíduos contaminados pelo veneno de um certo
tipo de inseto e submetidos a tratamento. A variável de interesse Recup é definida como o tempo
(em horas) entre a administração do tratamento e a recuperação do indivíduo. Os valores de
Recup são os seguintes: 3, 90, 23, 46, 2, 42, 47, 37, 12, 51, 11, 1, 3, 3, 45, 3, 4, 11, 2, 8, 56, 39,
22, 16, 5 e 52.

(a) Determine a média, mediana, intervalo inter-quartil e desvio padrão.


26

X 1  X 2   X 26 
Xi
Media = X   i 1  (3 + 90 + ... + 52)/26 = 24,38
26 26

Mediana: valor que deixa 50% das observações ordenadas à sua esquerda.
Com os dados ordenados, a observação que ocupa a “posição” (26+1)/2=13,5 será a
mediana. Portanto será a média entre os elementos que ocupam as posições 13 e 14.

Posições 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
Valores ordenados 1 2 2 3 3 3 3 4 5 8 11 11 12 16 22 23 37 39 42 45 46 47 51 52 56 90

Mediana= (12+16)/2=14

Intervalo Inter-quartil:
Q1: valor que deixa 25% das observações ordenadas à sua esquerda.
Com os dados ordenados, é o elemento que ocupa a “posição” 0,25 (26+1)=6,75 sendo
portanto a média entre a 6ª e a 7ª observação.
1º quartil=(3+3)/2=3

Document shared on www.docsity.com


Downloaded by: magno-junior-11 (magnoshowboy@hotmail.com)
Q3: valor que deixa 75% das observações ordenadas à sua esquerda.
Com os dados ordenados, é o elemento que ocupa a “posição” 0,75(26+1)=20,25. Portanto
é a média entre o 20º e o 21º elemento.
3º quartil= (45+46)/2=45,5
Portanto, intervalo inter-quartil = Q1 – Q3 = 45,5 – 3 = 42,5 (Para estes cálculos podem usar a
formula exata dada em sala)
Desvio padrão:
Temos que a variância pode ser obtida pela seguinte fórmula:
n

X i
2
 n( X ) 2
(32  ....  522 )  26(24,38) 2
Var  S2  i 1
 =555,61
n 1 25

Assim, desvio padrão = S = S2 = 555,61 =23,57

(b) Separe o conjunto de dados em três grupos denominados cura rápida, com valor de Recup
menor ou igual a 12, cura normal, se o valor de Recup for maior do que 12 e menor ou igual
a 45, e cura lenta, se o valor de Recup estiver acima de 45. Compare a variabilidade desses
três grupos através de seus coeficientes de variação.

Média DP CV (%)
Cura rápida 5,23 3,88 74,19
Cura normal 32,00 11,40 35,62
Cura lenta 57,00 16,56 29,05

Os cálculos foram obtidos da seguinte maneira:


Médias:
Media da Cura rápida = (1+2+2+3+3+3+3+4+5+8+11+11+12)/13 = 5,23
Média da Cura normal = (16+22+23+37+39+42+45)/7 = 32
Média da Cura lenta = (46+47+51+52+56+90)/6 = 57

Desvio Padrão (s)


n

X i
2
 n( X ) 2
(12  ....  122 )  13(5, 23) 2
Desvio Padrão da Cura rápida = i 1
 =3,88
n 1 12

Document shared on www.docsity.com


Downloaded by: magno-junior-11 (magnoshowboy@hotmail.com)
n

X i
2
 n( X ) 2
(162  ....  452 )  7(32) 2
Desvio Padrão da Cura normal = i 1
 =11,40
n 1 6

X i
2
 n( X ) 2
(462  ....  902 )  6(57) 2
Desvio Padrão da Cura leta = i 1
 =16,56
n 1 5

Coeficiente de Variação (CV)


s 3,88
CV da cura rápida = *100 = *100 =74,19%
X 5, 23

s 11,40
CV da cura normal = *100 = *100 =35,62%
X 32
s 16,56
CV da cura lenta = *100 = *100 =29,05%
X 57
Em relação às médias, a variabilidade do grupo cura rápida é maior que a dos demais
grupos. O grupo cura lenta apresentou a menor variabilidade.

Exemplo 02

Um órgão do governo do estado está interessado em determinar padrões sobre o


investimento em educação, por habitante, realizado pelas prefeituras. De um levantamento de
dez cidades, foram obtidos os valores (codificados) da tabela abaixo:
Cidade A B C D E F G H I J
Investimento 25 16 14 10 19 15 19 16 19 18
(a) Calcule a média das observações. (1,0)
10

X1  X 2   X 10 X i
25  ...  18
Média = X   i 1
 X  17,1
10 10 10
(b) Receberão um programa especial as cidades com valores de investimento inferiores à
média menos duas vezes o desvio padrão. Alguma cidade receberá o programa? (1,5)

Média DP 2DP Média - 2DP Média + 2DP


17,1 3,96 7,92 9,18 25,02

Document shared on www.docsity.com


Downloaded by: magno-junior-11 (magnoshowboy@hotmail.com)
Nenhuma cidade receberá o programa especial, pois nenhuma cidade apresentou valor
de investimento inferior a 9, 18.
O desvio padrão foi calculado da seguinte maneira:
n

X i
2
 n( X ) 2
(252  ....  182 )  10(17,1) 2
s= s2  i 1

n 1 9

(c) Será considerado como investimento básico a média das observações compreendidas entre
a média original menos dois desvios padrão e a média original mais dois desvios padrão.
Calcule o investimento básico e compare com a média obtida no item a). Justifique a
diferença encontrada.
Investimento básico=(25+16+14+10+19+15+19+16+19+18)/10=17,1
O investimento básico é igual à média obtida no item (a).

Exemplo 03

As concentrações de óxido de nitrogênio e hidrocarbono (em g/m3) foram


determinadas em uma área urbana, em locais e horários específicos. Os dados são mostrados a
seguir.
Dia Óxido de Hidrocarbon DIF= O – H
Nitrogênio (O) o
(H)

1 104 108 -4
2 116 118 -2
3 84 89 -5
4 77 71 6
5 61 66 -5
6 84 83 1
7 81 88 -7
8 72 76 -4
9 61 68 -7
10 97 96 1
11 84 81 3

Document shared on www.docsity.com


Downloaded by: magno-junior-11 (magnoshowboy@hotmail.com)
(a) Classifique as variáveis em estudo.
Óxido de Nitrogênio: quantitativa contínua
Hidrocarbono de Nitrogênio: quantitativa contínua

(b) Realize uma análise descritiva dos dados. Calcule média e desvio padrão para cada variável
e para a variável DIF = O - H (diferença entre as concentrações dos poluentes).

Variável Média ( X ) Desvio Padrão (s)

O 83,73 16,89
H 85,82 16,44
DIF = O - H -2,09 4,28

Os cálculos das médias e dos desvios padrões estão apresentados a seguir.


Médias:
Media de O = (104+...+84)/11 = 83,73
Média de H = (108+...+81)/11 = 85,82
Média de DIF=O-H = (-4+...+3)/11 = -2,09

Desvio Padrão (s)


n

X i
2
 n( X ) 2
(1042  ....  842 )  11(83,73) 2
Desvio Padrão de O = i 1
 =16,89
n 1 10

X i
2
 n( X ) 2
(1082  ....  812 )  11(85,82)2
Desvio Padrão de H = i 1
 =16,44
n 1 10

X i
2
 n( X ) 2
((4) 2  ....  32 )  11(2,09) 2
Desvio Padrão de DIF = i 1
 =4,28
n 1 10

(c) Considerando a variável DIF, pode-se dizer que as duas classes de poluentes estão
presentes nas mesmas concentrações?

Considerando a variável DIF, pode-se dizer que a variável O apresenta uma concentração média
menor que a variável H.

Document shared on www.docsity.com


Downloaded by: magno-junior-11 (magnoshowboy@hotmail.com)
2. Estatística Inferencial
Inferência estatística é um ramo da Estatística cujo objetivo é fazer afirmações a partir
de um conjunto de valores representativo (amostra) sobre um universo (população), assume-se
que a população é muito maior do que o conjunto de dados observados, a amostra. Tal tipo de
afirmação deve sempre vir acompanhada de uma medida de precisão sobre sua veracidade. Para
realizar este trabalho o estatístico coleta informações de dois tipos, experimentais (as amostras)
e aquelas que obtém na literatura. As duas principais escolas de inferência são a inferência
frequencista (ou clássica) e a inferência bayesiana.
A inferência estatística é geralmente distinta da estatística descritiva. A descrição
estatística pode ser vista como a simples apresentação dos fatos, nos quais o modelo de decisões
feito pelo analista tem pouca influência. É natural que análises estatísticas avancem, indo
da descrição para a inferência de padrões. Essa última tarefa depende do modelo usado e/ou
criado pelo analista dos dados.

2.1 População e amostra - Parâmetros;

Os parâmetros são medidas descritivas de toda uma população que podem ser usadas
como entradas para uma função de distribuição de probabilidade (FDP) para gerar curvas de
distribuição. Os parâmetros são normalmente representados por letras gregas para distingui-los
de estatísticas amostrais. Por exemplo, a média populacional é representada pela letra grega mu
(μ) e o desvio padrão da população pela letra grega sigma (σ). Os parâmetros são constantes
fixas, isto é, eles não variam como as variáveis. Contudo, seus valores são normalmente
desconhecidos, porque é inviável medir uma população inteira.
Cada distribuição é inteiramente definida por diversos parâmetros específicos,
normalmente entre um e três. A tabela a seguir fornece exemplos dos parâmetros necessários
para três distribuições. Os valores de parâmetro determinam o local e a forma da curva da
distribuição do gráfico, e cada combinação exclusiva de valores de parâmetro produzem uma
curva de distribuição exclusiva.

2.2 Distribuição Amostral

Em Estatística, uma distribuição amostral é a distribuição de probabilidades de uma


medida estatística baseada em uma amostra aleatória. Distribuições amostrais são importantes
porque fornecem uma grande simplificação, usada para inferência estatística. Mais

Document shared on www.docsity.com


Downloaded by: magno-junior-11 (magnoshowboy@hotmail.com)
especificamente, elas permitem considerações analíticas serem baseadas na distribuição
amostral de uma estatística, em vez de na distribuição conjunta.
O conceito de distribuição de probabilidade de uma variável aleatória será agora
utilizado para caracterizar a distribuição dos diversos valores de uma variável em uma
população.
Ao retirar uma amostra aleatória de uma população estaremos considerando cada valor
da amostra como um valor de uma variável aleatória cuja distribuição de probabilidade é a
mesma da população no instante da retirada desse elemento para a amostra.
Em consequência do fato de os valores de amostra serem aleatórios, decorre que qualquer
quantidade calculada em função dos elementos da amostra também será uma variável aleatória.
∑𝑥
Sabe-se que 𝑥′
𝑛
(média aritmética) é um estimador da média populacional μ.
O estimador x’ é uma variável aleatória; portanto, busca-se conhecer sua distribuição
de probabilidade.
Se tivermos um número infinito de tais amostras, a distribuição resultante será
chamada de distribuição amostral. Consideremos, por exemplo, o problema de estimar a renda
média familiar do Brasil em determinado mês, com base em uma amostra de 100 famílias. Uma
possibilidade seria calcular a renda média familiar de nossa amostra e usá-la como estimativa
da média populacional.
Naturalmente, poderíamos usar a moda ou a mediana ou alguma outra medida como
nosso estimador. Suponhamos que estimamos a média populacional usando a média amostral.
Desejamos então saber o grau de segurança deste estimador. Um modo de descobrir isto seria
retirar um número infinito de tais amostras, calculando o valor da média amostral de cada
amostra e dispondo estes valores em forma de distribuição.
Observe que, embora a população de todas as famílias do Brasil seja finita, o número
de amostras que podemos retirar desta população é infinito, enquanto permitirmos que cada
família seja incluída em cada uma das amostras. Tal amostragem chama-se amostragem com
repetição.

2.3 Distribuição Amostral da Média


Suponha uma população identificada pela variável aleatória Y, cujos parâmetros média
populacional µ=E(Y) e variância σ² = Var(Y) são supostamente conhecidos. Vamos retirar
todas as amostras possíveis de tamanho n dessa população e para cada uma delas, calcular a
média Ῡ.

Document shared on www.docsity.com


Downloaded by: magno-junior-11 (magnoshowboy@hotmail.com)
Vamos supor a seguinte população {2,3,4,5} com média µ=3,5 e variância σ² = 1,25.
Vamos relacionar todas as amostras possíveis de tamanho 2, com reposição, desta população.
Da análise combinatória verificamos 16 possíveis combinações:
16 = 4x4
(2,2) (2,3) (2,4) (2,5)
(3,2) (3,3) (3,4) (3,5)
(4,2) (4,3) (4,4) (4,5)
(5,2) (5,3) (5,4) (5,5)

Agora, vamos calcular a média de cada amostra.


Teremos:
2,0 2,5 3,0 3,5
2,5 3,0 3,5 4,0
3,0 3,5 4,0 4,5
3,5 4,0 4,5 5,0
Por fim, vamos calcular a média das médias, ou seja,
E(Ȳ) = (2,0 + 2,5 + ...+ 5,0)/16 = 3,5 = µ

Agora, vamos calcular a variância:


VAR (Ῡ) = [(2,0 - 3,5)² + (2,5 - 3,5)² + ... + (5,0 - 3,5)²]/16 VAR(Ȳ) = 0,625

Agora vamos relacionar todas as amostras possíveis de tamanho 3, com reposição, desta
população. Nesse caso, existem 64 possíveis combinações:
64 = 4x4x4
(2,2,2) (2,2,3) (2,2,4) (2,2,5) (2,3,2) (2,3,3) (2,3,4) (2,3,5)
(2,4,2) (2,4,3) (2,4,4) (2,4,5) (2,5,2) (2,5,3) (2,5,4) (2,5,5)
(3,2,2) (3,2,3) (3,2,4) (3,2,5) (3,3,2) (3,3,3) (3,3,4) (3,3,5)
(3,4,2) (3,4,3) (3,4,4) (3,4,5) (3,5,2) (3,5,3) (3,5,4) (3,5,5)
(4,2,2) (4,2,3) (4,2,4) (4,2,5) (4,3,2) (4,3,3) (4,3,4) (4,3,5)
(4,4,2) (4,4,3) (4,4,4) (4,4,5) (4,5,2) (4,5,3) (4,5,4) (4,5,5)
(5,2,2) (5,2,3) (5,2,4) (5,2,5) (5,3,2) (5,3,3) (5,3,4) (5,3,5)
(5,4,2) (5,4,3) (5,4,4) (5,4,5) (5,5,2) (5,5,3) (5,5,4) (5,5,5)

Similarmente, calculando a média de cada amostra e a média das médias obteremos:

Document shared on www.docsity.com


Downloaded by: magno-junior-11 (magnoshowboy@hotmail.com)
E(Ȳ) = 3,5 e 36 VAR(Ȳ) = 0,417
Seja VAR(Ȳ) = VAR(Y)/n , em que n é o tamanho das amostras retiradas da população:
Para n=2 temos:
VAR(Ȳ) = (1,25)/2 = 0,625
Para n=3 temos:
VAR(Ȳ) = (1,25)/3 = 0,417
Podemos verificar que, a distribuição das médias destas amostras tende para uma distribuição
com média µ (igual à média da população) e com desvio padrão.

2.4 Teorema Central do Limite


O Teorema Central do Limite afirma que quando o tamanho da amostra aumenta a
distribuição amostral da sua média aproxima-se cada vez mais de uma distribuição normal. Este
resultado é fundamental na teoria da inferência estatística, e sua utilidade vai desde estimar os
parâmetros como a média populacional ou o desvio padrão da média populacional a partir de
uma amostra aleatória dessa população, ou seja, da média amostral e do desvio padrão da média
amostral, até calcular a probabilidade de um parâmetro ocorrer dado um intervalo, sua média
amostral e o desvio padrão da média amostral.

2.5 Amostragem
Amostragem é o processo de obtenção de amostras. Ele é considerado parte
fundamental no estudo da inferência estatística. Nessa parte do trabalho apresentaremos
algumas noções sobre esse assunto visto que a Teoria das Amostragens constitui hoje um campo
bastante desenvolvido e amplo da Estatística.
Um processo de amostragem diz-se enviesado quando tende sistematicamente a
selecionar elementos de alguns segmentos da população, e a não selecionar sistematicamente
elementos de outros segmentos da população. 39 Surge assim a necessidade de fazer um
planejamento da amostragem que consiste, entre outras coisas, estabelecer quais elementos da
população deverão compor a amostra assim como o método de seleção desses elementos.

Exemplo 04
Em uma população de 1000 pessoas, há 600 homens e 400 mulheres. Extraia uma
amostra representativa, de 10%, dessa população. Nesse exemplo, há uma característica que

Document shared on www.docsity.com


Downloaded by: magno-junior-11 (magnoshowboy@hotmail.com)
permite identificar 2 subconjuntos, a característica sexo. Considerando essa divisão, a amostra
será constituída da seguinte forma:
SEXO POPULAÇÃO AMOSTRA (10%)
Masculino 600 60
Feminino 400 40
Total 1000 100

Portanto, a amostra deve conter 60 pessoas do sexo masculino e 40 do sexo feminino,


totalizando 100 pessoas, que correspondem a 10% da população.
Para selecionar os elementos da população para formar a amostra, podemos executar os
seguintes passos:
1º) Numerar as pessoas de 1 a 1000, sendo os homens numerados de 1 a 600 e as mulheres, de
601 a 1000; 42
2º) Escrever os números de 1 a 600 em pedaços de papel e colocá-los em uma urna A;
3º) Escrever os números de 601 a 1000 em pedaços de papel e colocá-los em uma urna B;
4º) Retirar 60 pedaços de papel, um a um, da urna A, e 40 da urna B, formando a amostra da
população

2.6 Estimação
No processo de estimação, diferentemente do que ocorre no teste de hipóteses, não
fazemos asserções apriorísticas cuja credibilidade deva ser disputada. No processo de estimação
fazemos perguntas sobre o valor de um parâmetro particular, e mediante o uso de um estimador
calculamos uma estimativa para aquele parâmetro.
A estimação pode ser dividida em duas partes, estimação por pontos e estimação por
intervalos.
Na estimação por ponto o objetivo é usar a informação amostral e apriorística para se
calcular um valor que seria, em certo sentido, nossa melhor avaliação quanto ao valor de fato
do parâmetro em questão.
Na estimativa por intervalo usa-se a mesma informação com o propósito de se produzir
um intervalo que contenha o valor verdadeiro do parâmetro com algum nível de probabilidade.
Como um intervalo está plenamente caracterizado por seus limites, a estimação de um
intervalo equivale à estimação de seus limites. Para que o estimador atenda os objetivos do
estatístico/pesquisador, ou seja, para que se alcance boas estimativas de um determinado
parâmetro populacional, ele deverá apresentar as seguintes propriedades:

Document shared on www.docsity.com


Downloaded by: magno-junior-11 (magnoshowboy@hotmail.com)
1. Consistência Consistência é uma propriedade por meio da qual a acurácia de uma
estimativa aumenta quando o tamanho da amostra aumenta.
2. Não tendenciosidade Em uma particular amostra, o valor calculado pelo estimador pode
desviar para mais ou para menos do valor do parâmetro, mas espera-se que, em média,
ele determine o verdadeiro valor do parâmetro populacional. Não tendenciosidade é
uma propriedade que assegura que, em média, o estimador é adequado.
3. Erro quadrático médio É um conceito relacionado ao conceito de variância. A diferença
entre a variância de um estimador e o erro quadrático médio é que, enquanto a variância
mede a dispersão da distribuição em torno da media, o erro quadrático médio mede a
dispersão em torno do verdadeiro valor do parâmetro. Quanto menor o seu valor, melhor
é o estimador.

2.7 Testes de Hipótese


Nos testes de hipótese, faz-se uma afirmação referente à população, e o intuito é saber
se a proposição é verdadeira ou falsa. Geralmente fazemos mais de uma afirmação, mas nem
todas elas devem ser testadas. Aquelas informações que não se pretende que sejam expostas a
testes chamam-se hipóteses subjacentes.
Compõem-se de todos os pressupostos sobre os quais nos apoiamos e nos quais
acreditamos. Naturalmente, nunca estamos totalmente certos de que tais pressupostos sejam
válidos, caso contrário não seriam pressupostos. Acreditamos que eles possuem validade
provável, de modo que as hipóteses subjacentes se encontram muito próximas das corretas.
As suposições remanescentes que devem ser testadas chamam-se hipóteses testáveis.
Como afirmações específicas são mais fáceis de serem rejeitadas do que afirmações vagas, é
desejável formular problemas de testes de hipótese de modo a fazer com que a hipótese nula
seja a mais específica possível. Isso significa que frequentemente utilizamos como hipótese
nula a proposição que de fato queremos rejeitar.

REFERENCIAS
CORDEIRO, G.M.. O Amadurecimento da Pesquisa e Ensino de Estatística no
Brasil. arScientia, 2006.
SANTOS, Carla. Estatística descritiva. Manual de auto-aprendizagem, v. 2, 2007.

REIS, Elizabeth et al. Estatística aplicada. Lisboa: Edições Sílabo, 1999.

Document shared on www.docsity.com


Downloaded by: magno-junior-11 (magnoshowboy@hotmail.com)
GAMERMAN, Dani; DOS SANTOS MIGON, Helio. Inferência estatística: uma
abordagem integrada. Instituto de Matemática, Universidade Federal do Rio de Janeiro,
1993.

Document shared on www.docsity.com


Downloaded by: magno-junior-11 (magnoshowboy@hotmail.com)

Você também pode gostar