Você está na página 1de 26

Apontamentos de Estatística | MBA 2019/20

APONTAMENTOS DE ESTATÍSTICA
MBA- FEUC

1. CONCEITOS BASE ................................................................................................................................ 2

1.1. O que é Estatística ........................................................................................................................... 2

1.2. população e amostra ..................................................................................................................... 2

1.3. Estatística descritiva e inferencial .................................................................................................. 5

1.4. Amostra aleatória ............................................................................................................................ 6

1.5. Tipos de variáveis ............................................................................................................................. 7

1.6. Análise estatística de dados........................................................................................................... 8

2. ESTIMAÇÃO INTERVALAR COM UMA AMOSTRA ............................................................................ 10

2.1. Estimador pontual e estimador de intervalo .............................................................................. 10

2.2. Propriedades dos estimadores ..................................................................................................... 11

2.3. Intervalos de confiança: definição ............................................................................................. 15

2.4. Intervalos de confiança para a média....................................................................................... 16

2.4.1. Intervalos de confiança para amostras grandes................................................................ 16

2.4.2. Intervalos de confiança para amostras pequenas ............................................................ 18

2.5. intervalo de confiança para a proporção ................................................................................ 20

2.6. A escolha do tamanho da amostra............................................................................................ 23

RODRIGO MARTINS 1
Apontamentos de Estatística | MBA 2019/20

1. CONCEITOS BASE

1.1. O QUE É ESTATÍSTICA

Geralmente, considera-se a Estatística como o conjunto de metodologias de recolha,


análise e interpretação dos dados numéricos. Noutras palavras, trata-se da ciência que
ensina como extrair informação útil dos dados. Útil no sentido de permitir descrever,
prever e quantificar fenómenos.

DEFINIÇÃO 1.1. (Estatística).


Estatística consiste no conjunto de métodos para recolher e analisar dados.

É seguro afirmar que a Estatística, atualmente, é utilizada em quase todos os campos


da ciência. A sociedade global da informação gerou, e continua a gerar, uma
quantidade impressionante de dados sobre tudo e mais alguma coisa, muitos desses
dados acessíveis ao comum dos mortais. Com tanta informação disponível, a Estatística
tem vindo a ganhar uma importância crescente, isto porque apresenta um conjunto de
métodos que ajudam na compreensão e previsão dos fenómenos. Que gestor não
gostaria de compreender melhor o mercado onde opera e ter a capacidade de prever
com elevado grau de exatidão o que o futuro reserva. Na realidade, a estatística é,
também, a ciência que que se dedica a lidar e analisar fenómenos e eventos incertos.

1.2. POPULAÇÃO E AMOSTRA

População e amostra são dois conceitos chave, na medida em que é impossível


entender e utilizar eficazmente os métodos estatísticos sem os ter sempre presente. A
população, ou universo, é entendida como o conjunto de indivíduos ou objetos sobre

RODRIGO MARTINS 2
Apontamentos de Estatística | MBA 2019/20

os quais incide a investigação. No geral, definimos a população respondendo à


seguinte questão: quem (ou o quê) é que pretendemos estudar? Assim, por exemplo,
podemos querer estudar a população portuguesa, ou as empresas de um qualquer
distrito, sector ou dimensão, ou os consumidores de determinado produto, etc…

DEFINIÇÃO 1.2.(População).
Conjunto de todos os indivíduos ou objetos tidos em consideração num
estudo estatístico.

O ideal, quando se pretende examinar uma qualquer população, é ter à disposição


dados para todas as unidades estatísticas desse universo. No entanto, muito
frequentemente, só dispomos de observações para um subconjunto da população. A
esta porção da população para os quais temos informação chamamos amostra.

DEFINIÇÃO 1.3.(Amostra).
Parte da população para a qual se dispõe de informação.

Quando definimos a população temos que estabelecer, igualmente, qual a


característica dessa população que vai interessar (variável) para o estudo. Supondo
que queremos examinar os consumidores de café (universo) poderemos estar
interessados em conhecer a sua média de idade e não outra qualquer característica.
Assim, atributos da população de interesse podem ser sumariados por aquilo que
chamamos de parâmetros numéricos. Tipicamente, o estudo estatístico traduz-se na
tentativa de conhecer os valores dos parâmetros de interesse. De notar que estes
parâmetros são, normalmente, desconhecidos recorrendo-se às estatísticas da amostra
para estimá-los.

RODRIGO MARTINS 3
Apontamentos de Estatística | MBA 2019/20

Enquanto que os parâmetros são as medidas numéricas da população as estatísticas


são as medidas numéricas da amostra. O processo é simples. Uma estatística, digamos
a média aritmética da idade dos consumidores de café, descreve uma característica
da amostra (de consumidores) que depois pode ser usada para fazer inferência sobre
parâmetros populacionais desconhecidos, digamos a média de idade de TODOS os
consumidores de café.

DEFINIÇÃO 1.4. (Parâmetro e estatística).


Um parâmetro é uma medida numérica desconhecida referente à
população. Uma estatística é uma medida numérica conhecida obtida da
amostra que pode ser usada para fazer inferência sobre um parâmetro.

Para que nos possamos entender mais facilmente quando falamos de Estatística,
adotou-se um conjunto de convenções quanto à nomenclatura das coisas. Por
exemplo, denominamos a média populacional pela letra grega 𝝁 e a média aritmética
amostral por uma letra com uma barra por cima (𝒙 ou 𝒚, ou qualquer outra letra). Estas
convenções expandem-se a outras características de interesse. O quadro seguinte
apresenta alguns dos parâmetros de interessa tipicamente analisados em Estatística,
bem como a denominação das respetivas estatísticas amostrais usadas
frequentemente para os estimar.

Estimar o parâmetro …com a estatística


da população….. da amostra
Média 𝜇 𝑋

Proporção 𝑝 𝑝̂

Variância 𝜎 𝑆

Diferenças 𝜇 −𝜇 𝑋 −𝑋

RODRIGO MARTINS 4
Apontamentos de Estatística | MBA 2019/20

1.3. ESTATÍSTICA DESCRITIVA E INFERENCIAL

Existem dois grandes ramos da Estatística. O ramo que se dedica à mera descrição e
caracterização dos dados recolhidos, conhecido como Estatística descritiva, e o ramo
da Estatística inferencial que recorre à amostragem para conhecer algo sobre uma
determinada população.

DEFINIÇÃO 1.5. (Estatística descritiva).


Consiste no conjunto de métodos para organizar, descrever e sumariar a
informação.

DEFINIÇÃO 1.6. (Estatística inferencial).


Conjunto de métodos que permitem, a partir de informação amostral, estimar
e medir a fiabilidade das conclusões sobre as características de uma
população.

Fazem parte da Estatística descritiva a construção de gráficos, quadro e tabelas que


sumariam os dados e o cálculo de medidas descritivas como, por exemplo, medidas de
localização central (média, mediana e moda) e não central (percentis, quantis…) e
medidas de dispersão dos dados (desvio médio, variância…). Essencialmente, neste
domínio, a população e a amostra são uma e a mesma coisa, portanto quando
calculamos uma qualquer medida descritiva estamos a relatar algo e não a estimar ou
inferir, não existindo, assim, qualquer grau de incerteza na análise.
Com a Estatística inferencial pretende-se extrair informação sobre uma população a
partir de um subconjunto da mesma (amostra). Desta forma, incluem-se aqui métodos
como a estimativa pontual, a estimativa intervalar e os testes de hipóteses, todos
baseados na teoria da probabilidade. Assim, a informação que extraímos da amostra
tem a única função de nos permitir conhecer um pouco melhor algo sobre a
população.

RODRIGO MARTINS 5
Apontamentos de Estatística | MBA 2019/20

A escolha entre utilizar um conjunto ou outro de técnicas depende criticamente da


definição ex ante de amostra e população para cada caso. No entanto, os dois tipos
de Estatística estão intimamente ligados. Muito frequentemente, é necessário sumariar,
descrever e organizar a amostra antes da aplicação dos métodos inferenciais. Esta
análise descritiva preliminar por vezes revela características que permitem melhor
direcionar a investigação inferencial.

1.4. AMOSTRA ALEATÓRIA

A escolha aleatória da amostra tem sido uma das pedras basilares da Estatística
inferencial. Consiste em dar a todos os indivíduos de uma população estatística
probabilidade idêntica de serem escolhidos para integrar a amostra. Desta forma,
eliminam-se potenciais enviesamentos amostrais e este procedimento é geralmente
considerado como uma forma “justa” e correta de seleção. Este processo ajuda a
assegurar que a amostra é representativa da população e, desta forma, melhorar a
credibilidade dos resultados encontrados.

DEFINIÇÃO 1.7. (Amostra aleatória).


Um método de amostragem em que é dada igual e independente
probabilidade de seleção a todos os membros de um grupo (população).

Suponha, que se pretende conhecer os hábitos tabagísticos dos Portugueses e, para


esse efeito, entrevista-se um conjunto 𝑛 de alunos universitários. Intuitivamente, sabemos
que conhecer os hábitos tabagísticos dos estudantes universitários não é
particularmente informativo para compreender os mesmos hábitos na população
portuguesa. Chegamos a esta conclusão pela simples observação de que um conjunto
de alunos não é representativo da população Portuguesa, logo o que aprendemos
sobre este subgrupo particular, muito provavelmente, não irá refletir o padrão de
comportamento do grupo maior. Muitos outros exemplos poderiam ser fornecidos para

RODRIGO MARTINS 6
Apontamentos de Estatística | MBA 2019/20

frisar a importância crítica do pressuposto da aleatoriedade amostral para a inferência


estatística.

1.5. TIPOS DE VARIÁVEIS

Para começar, é importante definir o conceito de variável. Uma característica que varia
de unidade estatística em unidade estatística (pessoa, ou coisa) dentro de uma
população é considerado uma variável. A essa variável damos uma etiqueta (nome),
tradicionalmente, uma letra.

EXEMPLO 1.1. Duração de anúncios publicitários.

Seja a variável 𝒙 a duração dos anúncios publicitários na televisão. Com esta definição, então,
𝒙 representará a média aritmética amostral da duração dos anúncios; 𝜇 (ou 𝜇) o parâmetro
populacional da duração média dos anúncios e, por exemplo, 𝑆 será o desvio-padrão amostral
da duração dos anúncios. Alternativamente à letra 𝒙 poder-se-ia ter usado outra qualquer letra.

Exemplos de variáveis no ser humano são a altura, peso, sexo, cor dos olhos etc…. As
primeiras duas consistem em valores numéricos, sendo exemplos de variáveis
quantitativas. As duas últimas referem-se a qualidades, não exibindo valor numérico
intrínseco, sendo exemplos de variáveis qualitativas ou categóricas.
As variáveis quantitativas dividem-se em dois grupos: varáveis contínuas e variáveis
discretas. As variáveis discretas caracterizam-se por ter um número contável de valores
possíveis, tipicamente, valores inteiros (0, 1, 2,3,….), como, por exemplo, o quantidade
de quartos de uma habitação, o número de filhos, a quantidade de defeitos num
produto ou o número de funcionários em cada posto de venda. Por seu lado, as
variáveis contínuas são aquelas que intrinsecamente podem tomar qualquer valor entre
o seu máximo e mínimo. São exemplos o salário, a altura, o valor das vendas ou a taxa
de desemprego.
De notar que, por exemplo, a idade é tradicionalmente medida em anos, no entanto é
considerada uma variável continua, pelo facto de se poder fazer a sua medição de

RODRIGO MARTINS 7
Apontamentos de Estatística | MBA 2019/20

forma mais exata especificando não só o número de anos como os meses, dias, horas,
minutos etc.
As variáveis qualitativas exibem, também, características distintas dependendo se a
ordenação considerada é natural ou não. Por exemplo, o estado civil dos indivíduos não
tem ordenação natural, ou seja, algo que nos dê um sinal de mais ou menos ao
percorrermos num mesmo sentido todas as categorias. Sendo assim, variáveis
qualitativas não ordenadas naturalmente dizem-se definidas numa escala nominal. Pelo
contrário, se faz sentido pôr as categorias numa determinada ordem, então a variável
qualitativa diz-se definida numa escala ordinal. Exemplos são a instrução académica,
ou uma qualquer questão que implique que as pessoas declarem algo em dimensões
do estilo: nada, pouco,…,muito ou então mau, médio,….,muito bom.

1.6. ANÁLISE ESTATÍSITCA DE DADOS

O objetivo da utilização de métodos estatísticos é melhorar o conhecimento sobre algo


recorrendo a dados. A investigação científica socorrer-se, muito frequentemente, dos
métodos estatísticos para tentar compreender ou prever determinado fenómeno, testar
determinadas teorias, ou, simplesmente, caracterizar uma qualquer realidade física,
social ou comportamental. Qualquer análise estatística deve conter os seguintes passos:

RODRIGO MARTINS 8
Apontamentos de Estatística | MBA 2019/20

• Formular o problema a investigar.

• Estabelecer um enquadramento teórico.

• Definir a população e a amostra.

• Recolher os dados.

• Descrever os dados (Estatística descritiva).

• Usar os procedimentos estatísticos adequados para


responder ao problema de investigação.

• Apresentar os resultados.

Neste conjunto de etapas, a partir do terceiro ponto é necessário entender o processo


estatístico, como este funciona, quais as suas limitações, como se interpretam resultados
etc…. Portanto, é imprescindível aprender Estatística, o que é substancialmente
diferente de aprender a “clicar” num qualquer software estatístico. A única função
deste é efetuar os cálculos matemáticos inerentes à execução das ordens dadas pelo
utilizador. Ao utilizador é exigido que emita as ordens adequadas e saiba interpretar
corretamente os resultados encontrados.

RODRIGO MARTINS 9
Apontamentos de Estatística | MBA 2019/20

2. ESTIMAÇÃO INTERVALAR COM UMA AMOSTRA

É importante começar por salientar que, do ponto anterior até este, há um salto
relativamente grande de informação Estatística relevante. Omitem-se significativos
tópicos da Estatística, particularmente, probabilidades, variáveis aleatórias e
distribuições de probabilidades. O conhecimento destas temáticas é importante e
facilita a compreensão do que se segue.

2.1. ESTIMADOR PONTUAL E ESTIMADOR DE INTERVALO

Não esquecer que, como visto anteriormente, o objetivo da estimação é, a partir da


amostra, obter um palpite credível sobre o valor de um parâmetro populacional. A
informação disponível assume-se que está na forma de uma amostra aleatória
𝑋 , 𝑋 , … 𝑋 de tamanho 𝑛 retirada da população. O objectivo é estabelecer uma
estatística (i.e. um número) que reflita o valor populacional o mais fidedignamente
possível.

DEFINIÇÃO 2.1. (Estimador pontual).


Consiste na regra ou fórmula que nos diz como usar os dados da amostra para
calcular um único número que pode ser usado como estimativa do parâmetro
populacional.

Na realidade, a definição de estimador não é mais do que a resposta à pergunta: O


que faço eu aos dados para obter uma estimativa do que quero conhecer? Por
exemplo, para estimar a média populacional, que etiquetámos como 𝜇, o estimador,
ou regra, mais intuitiva é a média aritmética amostral, ou seja:

𝑋 + 𝑋 + ⋯ +𝑋
𝑋=
𝑛

RODRIGO MARTINS 10
Apontamentos de Estatística | MBA 2019/20

Obtidos os valores 𝑥 , 𝑥 … 𝑥 para as variáveis aleatórias 𝑋 podemos calcular o valor


observado da média aritmética amostral 𝑥̅ , e assim estabelecer 𝑥̅ como uma estimativa
pontual de 𝜇. Igualmente, para obter uma estimativa da variância populacional, 𝜎 ,
recorremos, tipicamente, à variância amostral, ou seja, ao estimador:

∑ (𝑋 − 𝑋)
𝑠 =
𝑛−1

O raciocínio que se aplicou na definição de estimador pontual é essencialmente o


mesmo quando o interesse reside em conhecer um intervalo onde poderá estar o
parâmetro, e não apenas uma única estimativa do mesmo.

DEFINIÇÃO 2.2. (Estimador de intervalo).


Consiste na regra ou fórmula que nos diz como usar os dados da amostra para
calcular um intervalo permita estimar um parâmetro populacional.

Sobre a construção de estimadores intervalares e sua interpretação falar-se-á com mais


detalhe a seguir.

2.2. PROPRIEDADES DOS ESTIMADORES

Se um estimador é uma regra que nos diz como usar os dados, faz sentido que existam
muitas regras possíveis e que umas regras sejam melhores que outras. Constatamos,
então, que, para resolver um qualquer problema estatístico, podemos recorrer a
estimadores alternativos. No entanto, com certeza que estaremos interessados em usar
a melhor fórmula possível, ou seja, aquela que nos aproxime mais do nosso objetivo que
é conhecer o parâmetro populacional. Neste particular, é importante tomar atenção
ao que a Estatística nos transmite, pois é ela que vai dizer qual o estimador a utilizar
dadas as circunstâncias e objetivos particulares de cada investigação.
Neste momento, ficamos a pensar: então, afinal, o que é um bom estimador? Como em
muita coisa da vida, algo é bom quando apresenta boas qualidades. No caso dos

RODRIGO MARTINS 11
Apontamentos de Estatística | MBA 2019/20

estimadores, estas qualidades, ou melhor, estas propriedades são apresentadas a seguir


de uma forma muito sumária.

Centricidade ou não enviesamento

Um bom estimador de um parâmetro é aquele com distribuição amostral em volta do


parâmetro, apresentando como média da distribuição o próprio parâmetro.

DEFINIÇÃO 2.3. (centricidade)


Um estimador 𝒁 de um parâmetro 𝜽 diz-se cêntrico ou não enviesado se
𝑬(𝒛) = 𝜽.

O operador 𝑬(. ) denota a esperança matemática ou valor esperado1. Evidentemente


que o uso das letras 𝐳 e 𝜽 na definição anterior serve apenas para generalizar a nossa
propriedade para qualquer relação estimador-parâmetro. Um exemplo particular onde
a Estatística nos demonstra que que esta propriedade se verifica é no caso da ligação
entre o estimador da média aritmética (𝑥̅ ) e o parâmetro média populacional (𝜇).
Podemos afirmar que a média aritmética é um estimador cêntrico do parâmetro 𝜇, ou
seja verifica-se a igualdade 𝑬(𝑥̅ ) = 𝜇.

EXEMPLO 2.1. Idade dos alunos dos MBAs.

Considerem dois candidatos a estimador do parâmetro 𝜇 que representa a média de idade dos

alunos dos MBAs: a fórmula 𝑥̅ = ∑ 𝑥 , mais conhecida como média aritmética, e o estimador
̅
𝑤 cuja fórmula é 𝑤 = . A utilização do estimador 𝑤 seria um grande equívoco, pois não é de

todo cêntrico, ao contrário da média arimética, como vimos. A sua aplicação implica calcular
a média de idades, suponhamos 26 anos, e depois dividir por 2, ou seja, afirmar que a média de
idades dos alunos dos MBAs é de 13 anos. É por demais evidente que esta fórmula não funciona.

1Esperança matemática de uma variável aleatória é a soma do produto de cada probabilidade


de saída de uma experiência pelo seu respetivo valor. Isto é, representa o valor médio "esperado"
de uma experiência se ela for repetida muitas vezes. Para uma variável aleatória discreta 𝑋 com
valores possíveis 𝑥 , 𝑥 ,… e respetivas probabilidades representadas pela função 𝑝(𝑥 ) o valor
esperado calcula-se pela série 𝐸(𝑋) = ∑ 𝑥 𝑝(𝑥 ). No caso contínuo, o valor esperado calcula-
se mediante o integral 𝐸(𝑋) = ∫ 𝑥𝑓(𝑥), com 𝑓(𝑥) a respetiva função densidade.

RODRIGO MARTINS 12
Apontamentos de Estatística | MBA 2019/20

para descobrir 𝜇, qualquer que seja a amostra retirada da população. Ao utilizar esta fórmula
estamos a cometer um erro sistemático, a distribuição amostral não se encontra em torno do
parâmetro, logo 𝑤 não pode ser um estimador cêntrico.

Eficiência relativa

A centricidade por si só não é suficiente para assegurar que estamos a utilizar o


estimador mais adequado. Podemos ter mais do que um estimador cêntrico candidato
à estimativa do parâmetro. Nestes casos, a escolha recai sobre aquele que exibe menor
variância. A variância é uma medida de dispersão e, intuitivamente, quanto maior a
dispersão maior a incerteza. Desta forma, é razoável admitir que um investigador prefere
utilizar o estimador que exiba menor variância.

DEFINIÇÃO 2.4. (Eficiência relativa).


Se 𝒁𝟏 e 𝒁𝟐 são dois estimadores cêntricos de 𝜽, 𝒁𝟏 é eficiente relativamente a
𝒁𝟐 se 𝑽𝒂𝒓(𝒁𝟏 ) ≤ 𝑽𝒂𝒓(𝒁𝟐 ) para todo 𝜽.

O operador 𝑉𝑎𝑟(. ) representa a variância populacional. Assim, a Estatística recomenda


que, entre dois estimadores cêntricos se deve preferir sempre aquele que exibe
variância mínima. Relativamente a este assunto, o que dizer sobre o estimador mais
popular, a média aritmética, 𝑥̅ ? Da Estatística sabemos que 𝑉𝑎𝑟(𝑥̅ ) = 𝜎 ⁄𝑛 . Se a
distribuição geradora da amostra for Normal, geralmente a média aritmética é um
estimador eficiente de 𝜇 (média populacional) para populações Normais2.

Propriedades assintóticas

Vamos apenas fazer uma referência breve a estas propriedades. Propriedades


assintóticas são aquelas válidas apenas para amostras grandes, ou amostras com

2𝜎 representa a variância da população. Demonstra-se que 𝜎2 ⁄𝑛 é o limite inferior de Cramer-


Rao. Assim, de acordo com o teorema com o mesmo nome, garantimos que nenhum estimador
cêntrico apresenta variância menor.

RODRIGO MARTINS 13
Apontamentos de Estatística | MBA 2019/20

tamanho 𝑛 que se aproximam do infinito. Como ponto de partida, é de salientar que a


distribuição amostral de um estimador é diferente para diferentes tamanhos de
amostras.
Muitas vezes estamos interessados em saber o comportamento de um estimador à
medida que a amostra aumenta. Vamos começar com uma intuição. É elementar
esperar que quando se aumenta a amostra até ao infinito (ou ao máximo), a aplicação
do estimador em questão aos dados amostrais, que agora incluem todos os elementos
da população, gere o valor populacional pretendido. Daqui deriva a propriedade da
consistência dos estimadores.

DEFINIÇÃO 2.5. (Consistência).


Seja 𝒁 um estimador de 𝜽, então 𝒁 é um estimador consistente de 𝜽 se, para
qualquer 𝜀 > 0, 𝑃(|𝑍 − 𝜃| > 𝜀) → 0 𝑐𝑜𝑚 𝑛 → ∞.

Quando 𝒁 é um estimador consistente dizemos que 𝛉 é o limite de probabilidade (𝑝𝑙𝑖𝑚)


de 𝒁 e escrevemos 𝑝𝒍𝒊𝒎(𝒁) = 𝛉. A consistência é o requerimento mínimo de qualidade
para qualquer estimador, expressando a ideia intuitiva de que ao aumentarmos o
tamanho da amostra estamos a melhorar a estimativa produzida pelo estimador em
questão. Relativamente ao estimador da média aritmética, 𝑥̅ , podemos afirmar que, de
acordo com a lei dos grandes números, trata-se de um estimador consistente ou seja
𝒑𝒍𝒊𝒎(𝒙) = 𝝁.

FACTO ESTATÍSTICO 2.1. (Distribuição da média amostral).


Seja 𝑿 uma variável de uma população normal com média 𝜇 e variância 𝜎 .
Assim, para amostras de tamanho 𝑛 a média amostral 𝑿 também é
normalmente distribuída e tem média 𝜇 e variância 𝜎 ⁄𝑛. Ou seja, se 𝑿~𝑵(𝜇, 𝜎 )
então 𝑿~𝑵(𝜇, 𝜎 ⁄𝑛 ).

Para ajudar na construção de intervalos de confiança e em testes de hipóteses é


importante assegurar a normalidade assintótica. A distribuição da média amostral para
amostras de qualquer população é definida pelo Teorema do Limite Central.

RODRIGO MARTINS 14
Apontamentos de Estatística | MBA 2019/20

Portanto, a distribuição de 𝑿, em amostras grandes, aproxima-se da 𝑁(𝝁, 𝜎 ⁄𝑛 ). Assim,


qualquer que seja a distribuição que tenha gerado os dados amostrais sabemos que,
tratando-se de uma qualquer média, em amostras grandes podemos utilizar a lei normal
no processo de inferência estatística. Na prática, pretendendo-se estimar 𝝁 , a
distribuição normal é considerada adequada quando a amostra 𝑛 é maior que 30.

DEFINIÇÃO 2.6. (Teorema do limite central).


̅
Qualquer que seja a distribuição de 𝑋 , com média 𝜇 e variância 𝜎 , 𝑍 = ⁄√
converge para a distribuição Normal (0,1).

2.3. INTERVALOS DE CONFIANÇA: DEFINIÇÃO

A estimativa pontual, ou um único número, que sirva de referência para o valor


desconhecido da população, pode não ser conveniente. Apesar de ter associado um
desvio padrão, a estimativa pontual nada nos diz sobre quão próximo está o valor
encontrado do parâmetro desconhecido da população. Muitas vezes é mais desejável
produzir um intervalo de valores que poderá conter o parâmetro em questão ao qual
podemos atribuir um grau de confiança.

DEFINIÇÃO 2.7. (Intervalo de confiança).


Consiste no intervalo de valores em que se acredita que o parâmetro possa estar.
A probabilidade do intervalo conter o parâmetro chama-se nível de confiança e,
tradicionalmente, é um número escolhido pelo investigador próximo de 1, como
0,9, 0,95 ou 0,99.

A construção de intervalos de confiança (IC) é um processo relativamente mecânico


de aplicação de fórmulas, não sendo particularmente desafiante. É, no entanto,
importante estar confiante no uso das tabelas estatísticas que lhes são necessárias,
saber exatamente quando é que a estimativa intervalar em uso é estatisticamente
válida ou não, e interpretar adequadamente os resultados.

RODRIGO MARTINS 15
Apontamentos de Estatística | MBA 2019/20

Na sua essência, todos os intervalos de confiança são construídos da mesma forma:

𝑃𝑎𝑟â𝑚𝑒𝑡𝑟𝑜 = 𝐸𝑠𝑡𝑎𝑡í𝑠𝑡𝑖𝑐𝑎 ∓ 𝑒𝑟𝑟𝑜

Sendo o 𝑒𝑟𝑟𝑜 constituído pelo produto entre o valor critico a retirar da tabela estatística
adequada, e que definirá o grau de “certeza” com que queremos fazer as nossas
afirmações, e o desvio padrão da estatística (estimador pontual) utilizada na
construção do IC.

2.4. INTERVALOS DE CONFIANÇA PARA A MÉDIA

De acordo com o que foi dito anteriormente, os IC para a média irão ter como
parâmetro-alvo 𝜇, servindo-se da média aritmética da amostra, 𝑥̅ , e do respetivo desvio

padrão da média, que a Estatística demonstra ser igual a 𝜎 ̅ = 𝑠 ̅= .


√ √

2.4.1. INTERVALOS DE CONFIANÇA PARA AMOSTRAS GRANDES

Comecemos por recordar o FACTO ESTATÍSTICO 2.1 onde se refere que 𝑿~𝑵(𝜇, 𝜎 ⁄𝑛 ).
Vamos considera (1 − 𝛼) como o nível de confiança referido na DEFINIÇÃO 2.7, sendo
que 𝛼 é o nível de significância do intervalo. Assim, com amostras grandes o teorema
do limite central diz-nos que a seguinte afirmação probabilística é aproximadamente
válida qualquer que seja a distribuição populacional de 𝑿.

𝜎 𝜎
𝑃(𝑋 − 𝑍 × ≤ 𝜇 ≤ 𝑋+𝑍 × ) = (1 − 𝛼)
√𝑛 √𝑛

Onde 𝑍 representa um valor a encontrar na tabela Normal (0,1), e dependente do

𝛼 considerado pelo investigador. Muito frequentemente não conhecemos o desvio


padrão da população, 𝜎. No entanto, como 𝑛 é grande (𝑛 ≥ 30), o desvio padrão da

RODRIGO MARTINS 16
Apontamentos de Estatística | MBA 2019/20

amostra, 𝑠, constitui uma boa estimativa para 𝜎, podendo ser utilizado sem alteração
da afirmação probabilística anterior, ou seja:

𝑠 𝑠
𝑃(𝑋 − 𝑍 × ≤ 𝜇 ≤ 𝑋+𝑍 × ) = (1 − 𝛼)
√𝑛 √𝑛

De notar que, se a população for normalmente distribuída e 𝜎 for conhecido, o intervalo


de confiança (IC) anterior pode ser utilizado mesmo que a amostra 𝑛 seja menor que
30.

FACTO ESTATÍSTICO 2.2. (Intervalo de confiança, amostra grande).


Quando a população 𝑿 é normalmente distribuída, 𝜎 é conhecido, ou, então, a
amostra 𝑛 é maior ou igual a 30, o intervalo de confiança a 100(1 − 𝛼)% é dado
por:

𝑋−𝑍 × ;𝑋 + 𝑍 × ou 𝑋−𝑍 × ;𝑋 + 𝑍 ×
√ √ √ √

A primeira tarefa do investigador é definir o nível de confiança que pretende para o IC.
Assim, considerando, por exemplo, um 𝛼 = 0,05 (ou 5%) teremos um nível de confiança
de 95% (100% − 5%). A este nível de significância corresponde, na tabela 𝑁(0,1), um
𝑍 = 1,96. Quanto menor o 𝛼 escolhido mais confiança estamos a atribuir ao intervalo

a construir. O intervalo com 𝛼 = 0,05 expressa a confiança que temos relativamente à


presença do parâmetro 𝜇 no seu interior, na medida em que que se retirarmos
repetidamente 100 medidas da população em questão e construirmos 100 intervalos de
confiança, 95 (95%) conterão 𝜇, 5 (5%) não.
A tabela seguinte apresenta os valores críticos da tabela 𝑁(0,1) mais frequentemente
usados para construir um IC.
Tabela 2.1.
𝛼 = 0,10 𝛼 = 0,05 𝛼 = 0,01
𝑍 1,645 1,96 2,576

EXEMPLO 2.2. Evitar processos judiciais.

A empresa BTS comercializa batatas em embalagens de 4𝐾𝑔 e não quer ser processada por
vender muito menos do que essa quantidade. O departamento de controlo de qualidade da

RODRIGO MARTINS 17
Apontamentos de Estatística | MBA 2019/20

empresa recolheu uma amostra aleatória do peso de 𝑛 = 60 embalagens. O peso médio, 𝑥̅ ,


encontrado foi de 4,16 𝐾𝑔 com um desvio padrão, 𝑠, de 0,31𝐾𝑔. Pretende-se construir um
intervalo de confiança a 95% para o parâmetro, 𝜇, peso médio das embalagens de batatas.

Sabe-se que 𝑛 = 60, 𝑥̅ = 4,16, 𝑠 = 0,31, e com 𝛼 = 0,05 tem-se 𝑍 = 1,96. Recorrendo à fórmula

apresentada no FACTO ESTATÍSTICO 2.1 obtemos por substituição:

0,31 0,31
4,16 − 1,96 ≤ 𝜇 ≤ 4,16 + 1,96
√60 √60

4,082 ≤ 𝜇 ≤ 4,238

Estima-se que o peso médio das embalagens de batatas cai dentro do intervalo 4,082𝐾𝑔 e
4,238𝐾𝑔, com um nível de confiança de 95%. Assim, retirando 100 medidas da população de
sacos de batatas e construindo 100 intervalos de confiança, 95% conterão o peso médio das
batatas, 5% não.

Observando o EXEMPLO 2.2, será que podemos estar seguros de que a verdadeira
média está no intervalo (4,082; 4,238)? Não temos a certeza, mas temos uma confiança
razoável (95%) de que está. Na realidade, não possuímos meios para saber se o intervalo
que construímos cai dentro dos 95% que contêm 𝜇 ou dos outros 5%.

2.4.2. INTERVALOS DE CONFIANÇA PARA AMOSTRAS PEQUENAS

Recuperando o que foi dito anteriormente, considera-se uma amostra pequena aquela
que exibe um 𝑛 < 30. Quando isto acontece o desvio padrão da amostra, 𝑠, fornece
apenas uma aproximação muito grosseira do desvio padrão da população, 𝜎 . A
solução para este problema é usar a estatística t que tem uma distribuição amostral
muito parecida com a conhecida estatística z, derivada da distribuição normal (0,1). No
entanto, a estatística t é mais variável e o aumento da variabilidade depende do

RODRIGO MARTINS 18
Apontamentos de Estatística | MBA 2019/20

tamanho da amostra 𝑛. Uma forma conveniente de expressar essa dependência é dizer


que a estatística t exibe (𝑛 − 1) graus de liberdade (g.l.)3.

FACTO ESTATÍSTICO 2.3. (Distribuição Normal e distribuição t-student).


Ambas as distribuições exibem a forma de sino, situando-se a distribuição t-student
abaixo da normal. Á medida que amostra vai aumentando a distribuição t
converge para a distribuição normal. Sendo assim, a última linha da tabela t, com
graus de liberdade infinito (∞), contém os valores da distribuição Normal (0,1).

Na prática, com amostras pequenas, vamos, essencialmente, manter o intervalo de


confiança apresentado na secção anterior, substituindo o uso da distribuição Normal
pelo da distribuição t-student.

FACTO ESTATÍSTICO 2.4. (Intervalo de confiança, amostra pequena).


Quando a população 𝑿 é normalmente distribuída, 𝜎 é desconhecido, ou, então,
amostra 𝑛 é menor que 30, o intervalo de confiança a 100(1 − 𝛼)% é dado por:

𝑋−𝑡 × ;𝑋 + 𝑡 × com (𝑛 − 1) graus de liberdade


√ √

De realçar que, o uso deste IC para amostras pequenas implica assegurar, ou assumir,
que a população subjacente tem uma distribuição de frequência relativa
aproximadamente normal.

EXEMPLO 2.3. Evitar processos judiciais.

Considere-se, na mesma, a empresa BTS que comercializa batatas em embalagens de 4𝐾𝑔, mas
agora a amostra aleatória recolhida é de 𝑛 = 24 embalagens. O peso médio, 𝑥̅ , encontrado foi
de 4,09 𝐾𝑔 com um desvio padrão, 𝑠, de 0,38𝐾𝑔. Pretende-se construir um intervalo de confiança
a 95% para o parâmetro, 𝜇, peso médio das embalagens de batatas.

𝑋−𝜇 𝑋−𝜇
3 Estatísitca z: 𝑍 = 𝜎 ; Estatísitca t: 𝑡 = 𝒔 . Relativamente à definição dos graus de liberdade,
√𝑛 √𝑛
de notar que (𝑛 − 1) é o denominador da fórmula de 𝑆 , apresentada na secção 2.1.

RODRIGO MARTINS 19
Apontamentos de Estatística | MBA 2019/20

A amostra é pequena com 𝑛 = 24, e sabe-se que 𝑥̅ = 4,09 e 𝑠 = 0,38. Com 𝛼 = 0,05 tem-se (24 −
1) graus de liberdade, logo, consultando a tabela t-student, temos 𝑡 = 2,069. Recorrendo à

fórmula apresentada no FACTO ESTATÍSTICO 2.3 obtemos por substituição:

0,38 0,38
4,09 − 2,069 ≤ 𝜇 ≤ 4,09 + 2,069
√24 √24

3,927 ≤ 𝜇 ≤ 4,252

Estima-se que o peso médio das embalagens de batatas cai dentro do intervalo 3,927𝐾𝑔 e
4,252𝐾𝑔, com um nível de confiança de 95%. Assim, retirando 100 medidas da população de
sacos de batatas e construindo 100 intervalos de confiança, 95% conterão o peso médio das
batatas, 5% não.

2.5. INTERVALO DE CONFIANÇA PARA A PROPORÇÃO

A média não é o único parâmetro de interesse na investigação científica.


Particularmente, a quantidade de sondagens e pesquisas de opinião tem crescido nos
últimos anos e muitas vezes o interesse não reside na característica central da
população. Veja-se, por exemplo, o caso das audiências televisivas, das sondagens
eleitorais que determinam regularmente a fração de eleitores que apoia determinado
partido/candidato, ou, então, dos estudos de comportamento do consumidor que
visam analisar a fração de pessoas que preferem determinando produto/serviço.
Nestes, e noutros casos, o parâmetro-alvo não é a média, mas sim a proporção, que
denominamos 𝑝. Designa-se a respetiva estatística da amostra por 𝑝̂ .

FACTO ESTATÍSTICO 2.5. (Proporção).


Seja a proporções populacional representada por 𝑝, com dimensão
populacional 𝑁 e com 𝑥 o número de elementos da população que possuem
a característica em análise. Seja a sua contraparte amostral 𝑝̂ com tamanho 𝑛
e número de sucessos 𝑥 , então:

𝑝= e 𝑝̂ =

RODRIGO MARTINS 20
Apontamentos de Estatística | MBA 2019/20

EXEMPLO 2.4. Estudo de mercado

Uma empresa de produtos de beleza realizou um estudo de mercado entrevistando


aleatoriamente 500 consumidores. Apurou que 220 utilizam os seus artigos regularmente.
Pretende-se uma estimativa pontual para a verdadeira proporção de consumidores que utilizam
os produtos da empresa.

𝑛𝑟. 𝑑𝑒 𝑐𝑜𝑛𝑠𝑢𝑚𝑖𝑑𝑜𝑟𝑒𝑠 𝑞𝑢𝑒 𝑢𝑡𝑖𝑙𝑖𝑧𝑎𝑚 𝑝𝑟𝑜𝑑𝑢𝑡𝑜𝑠 𝑑𝑎 𝑒𝑚𝑝𝑟𝑒𝑠𝑎 220


𝑝̂ = = = 0,44
𝑛𝑟. 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑐𝑜𝑛𝑠𝑢𝑚𝑖𝑑𝑜𝑟𝑒𝑠 𝑒𝑛𝑡𝑟𝑒𝑣𝑖𝑠𝑡𝑎𝑑𝑜𝑠 500

De acordo com o que é dito na secção 2.3, os IC para a proporção irão ter como
parâmetro-alvo 𝑝, servindo-se, na sua construção, da proporção observada na
amostra, 𝑝̂ , e do respetivo desvio padrão amostral de 𝑝̂ , que a Estatística demonstra ser
×( ) ×
igual a 𝜎 = , ou 𝜎 = , com 𝑞 = (1 − 𝑝).

FACTO ESTATÍSTICO 2.6. (Distribuição amostral da proporção).


A média da distribuição amostral de 𝑝 é 𝑝̂ , ou seja, 𝑝̂ é um estimador cêntrico
de 𝑝. Para amostras grandes, a distribuição amostral de 𝑝̂ é aproximadamente
×( )
normal com média 𝑝 e desvio padrão 𝜎 = .

É importante notar que uma amostra grande, nos termos em que foi definida para a
média, não é suficiente para assegurar que a distribuição de 𝑝̂ é aproximadamente
normal. Para a proporção, o tamanho da amostra considera-se grande se as condições
𝒏 × 𝒑 ≥ 𝟏𝟓 e 𝒏 × 𝒒 ≥ 𝟏𝟓 se verificarem simultaneamente. Na prática, quando isto
acontece, pode-se utilizar a distribuição normal padrão na construção de intervalos de
confiança para proporções. Assim, com amostra grande a seguinte afirmação
probabilística é aproximadamente válida,

𝑝̂ × 𝑞 𝑝̂ × 𝑞
𝑃 𝑝̂ − 𝑍 × ≤ 𝑝 ≤ 𝑝̂ + 𝑍 × = (1 − 𝛼)
𝑛 𝑛

RODRIGO MARTINS 21
Apontamentos de Estatística | MBA 2019/20

O processo de cálculo e interpretação de intervalos de confiança para proporções é


de todo semelhante ao empregue no caso da média, diferenciando-se, apenas, por ter
uma fórmula (estimador) a utilizar diferente.

FACTO ESTATÍSTICO 2.7. (IC para proporção: amostra grande).


Quando as condições 𝒏 × 𝒑 ≥ 𝟏𝟓 e 𝒏 × 𝒒 ≥ 𝟏𝟓 se verificam simultaneamente, o
intervalo de confiança a 100(1 − 𝛼)% é dado por:

𝑝̂ × 𝑞 𝑝̂ × 𝑞
𝑝̂ − 𝑍 × ; 𝑝̂ + 𝑍 ×
𝑛 𝑛

EXEMPLO 2.5. Compras online em Portugal.

Um estudo levado a cabo pela DBDgroup em Junho de 2019 revelou que 191 de 1009
consumidores inquiridos afirmam fazer as suas compras online sempre nos mesmos “sites”.
Pretende-se estimar um intervalo de confiança a 90% para a verdadeira proporção de
consumidores que compram online sempre nos mesmos “sites”.

Calculando a proporção observada: 𝑝̂ = = 0,189 ; 𝑞 = (1 − 0,189) = 0,8107

Verificando a normalidade: 1009 × 0,189 = 190 ≥ 15 e 1009 × 0,8107 = 817,9 ≥ 15

Da tabela 2.1. sabe-se que, com 𝛼 = 0,10, tem-se 𝑍 = 1,645. Substituindo, obtemos

0,189 × 0,8107 0,189 × 0,8107


0,189 − 1,645 × ≤ 𝑝 ≤ 0,189 + 1,645 ×
1009 1009

0,169 ≤ 𝑝 ≤ 0,209

Estima-se que o a proporção de consumidores que compram online sempre nos mesmos “sites”
se situa entre 16,9% (0,169) e 20,9% (0,209), com um nível de confiança de 90%. Assim, retirando
100 medidas da população de consumidores online e construindo 100 intervalos de confiança,
90% conterão a proporção de interesse, 5% não.

RODRIGO MARTINS 22
Apontamentos de Estatística | MBA 2019/20

De notar que no EXEMPLO 2.5, por conveniência, a interpretação dos resultados é feita
recorrendo a percentagens, que não é mais do que a proporção multiplicada por 100.
Desde que todas as proporções usadas sejam convertidas em percentagens é possível
construir diretamente o IC em percentagem.
Nesta fase, convém deixar um alerta. Os moldes em que se está a calcular intervalos de
confiança para a proporção não funcionam muito bem quando 𝑝 é próximo de zero
ou de 1, a não ser que a amostra seja realmente muito grande4. Para constatar este
facto basta pensar que, com um 𝑝̂ = 0,01, para assegurar a normalidade (𝑛 × 𝑝̂ ≥ 15)
seria necessária uma amostra, no mínimo, de 1500.

2.6. A ESCOLHA DO TAMANHO DA AMOSTRA

Quando pretendemos recolher dados para fazer inferência intervalar a respeito da


média ou proporção de determinada população, uma das decisões mais importantes
é selecionar o tamanho adequado da amostra. O ideal será sempre ter uma amostra o
maior possível, pois mais informação amostral melhora a inferência que se pretende
fazer. No entanto, a recolha e organização de dados implica custos de vária ordem,
logo, no mínimo, é importante assegurar um tamanho apropriado da amostra que
assegure o grau de exatidão desejado na investigação.

Estimando o tamanho para a média de uma população

Considere-se um dos extremos do intervalo de confiança definido no FACTO ESTATÍSTICO


2.2, por exemplo: 𝜇 = 𝑋 − 𝑍 × .

Rearranjando a expressão obtemos, 𝑋 − 𝜇 = 𝑍 × .


4Para estes casos ver Agresti e Coull (1989) e Mclave et. al. (2009) pp.291 para um exemplo
prático do estimador intervalar ajustado.

RODRIGO MARTINS 23
Apontamentos de Estatística | MBA 2019/20

Ora, (𝑋 − 𝜇) representa a diferença entre a estimativa pontual e o parâmetro-alvo, ou


seja, o erro de amostragem que vamos chamar 𝑺𝑬. De notar que 𝑆𝐸 representa metade
da largura do IC a calcular.
Assim, pode-se considerar que:
𝑆𝐸 = 𝑍 × .

Como o objetivo é encontrar uma forma de determinar o tamanho da amostra 𝑛 ,


resolve-se a equação anterior em ordem a 𝑛. A expressão final é apresentada no FACTO
ESTATÍSTICO 2.8.

FACTO ESTATÍSTICO 2.8.(Tamanho da amostra: IC para 𝜇)


Para estimar 𝜇 com um erro de amostragem 𝑆𝐸 e nível de confiança
100(1 − 𝛼)%, o tamanho requerido para a amostra é dado pela expressão:
(𝑍 ) 𝜎
𝑛=
(𝑆𝐸)

Cabe ao investigador fornecer o nível de significância pretendido, 𝑍 , bem como o

erro tolerado, 𝑆𝐸. Mas, para utilizar a expressão anterior, precisa-se, adicionalmente, de
uma aproximação para 𝜎 . Esta aproximação pode-se obter de duas formas. Ou o
investigador avança com um palpite razoável para o seu valor, ou, então, de uma
forma mais credível, realiza um estudo piloto de dimensão comedida, utilizando o
respetivo desvio padrão amostral, 𝑠, como estimativa para 𝜎.

EXEMPLO 2.6. Compras no supermercado.

Uma cadeia de supermercados quer averiguar quanto gasta, em média, um cliente no


supermercado. Pretende, para esse efeito, calcular um IC a 95% com um erro de amostragem,
no máximo, de ± 10€. De uma amostra anterior sabe-se que a variância é aproximadamente
8100. Quantas observações teriam de ser incluídas na amostra?

Sabemos que 𝑆𝐸 = 10 , 𝜎 = 8100 e 𝑍 = 1,96 . Substituindo de acordo com a fórmula

apresentada no FACTO ESTATÍSTICO 2.8. obtemos,

(1,96) × 8100
𝑛= = 311,1 ≈ 312
(10)

RODRIGO MARTINS 24
Apontamentos de Estatística | MBA 2019/20

Seria necessário inquirir, no mínimo, 312 clientes para se obter um IC nas condições requeridas
pela cadeia de supermercados.

Estimando o tamanho para a proporção de uma população

O método delineado para a média é facilmente aplicável ao caso em que se pretende


estimar um IC para uma proporção 𝑝 da população. Começamos por um dos extremos
×
do intervalo de confiança definido no FACTO ESTATÍSTICO 2.7, seja 𝑝 = 𝑝̂ − 𝑍 ×

×
Rearranjando a expressão obtemos 𝑝 − 𝑝̂ = 𝑍 × .

Assim, (𝑝 − 𝑝̂ ) representa a diferença entre a estimativa pontual e o parâmetro-alvo, ou


seja, o erro de amostragem que vamos continuar a chamar 𝑺𝑬 . De notar que 𝑆𝐸
continua a representa metade da largura do IC a calcular.
×
Assim, pode-se considerar que 𝑆𝐸 = 𝑍 × .

De forma análoga à média, resolve-se a equação anterior em ordem a 𝑛. A expressão


final é apresentada no FACTO ESTATÍSTICO 2.9.

FACTO ESTATÍSTICO 2.9.(Tamanho da amostra: IC para 𝑝).


Para estimar 𝑝 com um erro de amostragem 𝑆𝐸 e nível de confiança
100(1 − 𝛼)%, o tamanho requerido da amostra é dado pela expressão:
(𝑍 ) × 𝑝̂ × 𝑞
𝑛=
(𝑆𝐸)

Igualmente neste caso, cabe ao investigador fornecer o nível de significância


pretendido, 𝑍 , bem como o erro tolerado, 𝑆𝐸. 𝑝̂ é obtido por amostragem, em estudo

piloto, ou noutro qualquer estudo de referência. Quando não se dispõe de estimador


para 𝑝 é costume considerar 𝑝̂ = 𝑞 = 0,5.

RODRIGO MARTINS 25
Apontamentos de Estatística | MBA 2019/20

EXEMPLO 2.7. A marca “Made in Portugal”.

Uma empresa de Marketing pretende conduzir um estudo para saber qual a proporção de
consumidores a acreditar que “Made in Portugal” significa 100% de materiais e trabalho
provenientes de Portugal. Num estudo preliminar 64 de 106 consumidores inquiridos acreditaram
que sim. A empresa pretende saber quantas entrevistas devem ser efetuadas para construir um
intervalo de confiança a 95% com largura de 0,06 para esta proporção.

,
Sabemos que 𝑝̂ = ≈ 0,6 , 𝑆𝐸 = = 0,03 e 𝑍 = 1,96. Substituindo de acordo com a fórmula

apresentada no FACTO ESTATÍSTICO 2.9. obtemos,

(1,96) × 0,6 × 0,4


𝑛= ≈ 1024
(0,03)

Seria necessário inquirir, no mínimo, 1024 consumidores para se obter um IC nas condições
requeridas pela empresa.

Bibliografia:

Agresti Alan; Coull, Brent A. (1998) Approximate Is Better than "Exact" for Interval
Estimation of Binomial Proportions, The American Statistician, Vol. 52, No. 2., pp. 119-
126.

McClave, J., Benson, P., Sincich, T. (2008) Estatística para Administração e Economia, 10ª
Edição, Prentice-Hall.

RODRIGO MARTINS 26

Você também pode gostar