Escolar Documentos
Profissional Documentos
Cultura Documentos
APONTAMENTOS DE ESTATÍSTICA
MBA- FEUC
RODRIGO MARTINS 1
Apontamentos de Estatística | MBA 2019/20
1. CONCEITOS BASE
RODRIGO MARTINS 2
Apontamentos de Estatística | MBA 2019/20
DEFINIÇÃO 1.2.(População).
Conjunto de todos os indivíduos ou objetos tidos em consideração num
estudo estatístico.
DEFINIÇÃO 1.3.(Amostra).
Parte da população para a qual se dispõe de informação.
RODRIGO MARTINS 3
Apontamentos de Estatística | MBA 2019/20
Para que nos possamos entender mais facilmente quando falamos de Estatística,
adotou-se um conjunto de convenções quanto à nomenclatura das coisas. Por
exemplo, denominamos a média populacional pela letra grega 𝝁 e a média aritmética
amostral por uma letra com uma barra por cima (𝒙 ou 𝒚, ou qualquer outra letra). Estas
convenções expandem-se a outras características de interesse. O quadro seguinte
apresenta alguns dos parâmetros de interessa tipicamente analisados em Estatística,
bem como a denominação das respetivas estatísticas amostrais usadas
frequentemente para os estimar.
Proporção 𝑝 𝑝̂
Variância 𝜎 𝑆
Diferenças 𝜇 −𝜇 𝑋 −𝑋
RODRIGO MARTINS 4
Apontamentos de Estatística | MBA 2019/20
Existem dois grandes ramos da Estatística. O ramo que se dedica à mera descrição e
caracterização dos dados recolhidos, conhecido como Estatística descritiva, e o ramo
da Estatística inferencial que recorre à amostragem para conhecer algo sobre uma
determinada população.
RODRIGO MARTINS 5
Apontamentos de Estatística | MBA 2019/20
A escolha aleatória da amostra tem sido uma das pedras basilares da Estatística
inferencial. Consiste em dar a todos os indivíduos de uma população estatística
probabilidade idêntica de serem escolhidos para integrar a amostra. Desta forma,
eliminam-se potenciais enviesamentos amostrais e este procedimento é geralmente
considerado como uma forma “justa” e correta de seleção. Este processo ajuda a
assegurar que a amostra é representativa da população e, desta forma, melhorar a
credibilidade dos resultados encontrados.
RODRIGO MARTINS 6
Apontamentos de Estatística | MBA 2019/20
Para começar, é importante definir o conceito de variável. Uma característica que varia
de unidade estatística em unidade estatística (pessoa, ou coisa) dentro de uma
população é considerado uma variável. A essa variável damos uma etiqueta (nome),
tradicionalmente, uma letra.
Seja a variável 𝒙 a duração dos anúncios publicitários na televisão. Com esta definição, então,
𝒙 representará a média aritmética amostral da duração dos anúncios; 𝜇 (ou 𝜇) o parâmetro
populacional da duração média dos anúncios e, por exemplo, 𝑆 será o desvio-padrão amostral
da duração dos anúncios. Alternativamente à letra 𝒙 poder-se-ia ter usado outra qualquer letra.
Exemplos de variáveis no ser humano são a altura, peso, sexo, cor dos olhos etc…. As
primeiras duas consistem em valores numéricos, sendo exemplos de variáveis
quantitativas. As duas últimas referem-se a qualidades, não exibindo valor numérico
intrínseco, sendo exemplos de variáveis qualitativas ou categóricas.
As variáveis quantitativas dividem-se em dois grupos: varáveis contínuas e variáveis
discretas. As variáveis discretas caracterizam-se por ter um número contável de valores
possíveis, tipicamente, valores inteiros (0, 1, 2,3,….), como, por exemplo, o quantidade
de quartos de uma habitação, o número de filhos, a quantidade de defeitos num
produto ou o número de funcionários em cada posto de venda. Por seu lado, as
variáveis contínuas são aquelas que intrinsecamente podem tomar qualquer valor entre
o seu máximo e mínimo. São exemplos o salário, a altura, o valor das vendas ou a taxa
de desemprego.
De notar que, por exemplo, a idade é tradicionalmente medida em anos, no entanto é
considerada uma variável continua, pelo facto de se poder fazer a sua medição de
RODRIGO MARTINS 7
Apontamentos de Estatística | MBA 2019/20
forma mais exata especificando não só o número de anos como os meses, dias, horas,
minutos etc.
As variáveis qualitativas exibem, também, características distintas dependendo se a
ordenação considerada é natural ou não. Por exemplo, o estado civil dos indivíduos não
tem ordenação natural, ou seja, algo que nos dê um sinal de mais ou menos ao
percorrermos num mesmo sentido todas as categorias. Sendo assim, variáveis
qualitativas não ordenadas naturalmente dizem-se definidas numa escala nominal. Pelo
contrário, se faz sentido pôr as categorias numa determinada ordem, então a variável
qualitativa diz-se definida numa escala ordinal. Exemplos são a instrução académica,
ou uma qualquer questão que implique que as pessoas declarem algo em dimensões
do estilo: nada, pouco,…,muito ou então mau, médio,….,muito bom.
RODRIGO MARTINS 8
Apontamentos de Estatística | MBA 2019/20
• Recolher os dados.
• Apresentar os resultados.
RODRIGO MARTINS 9
Apontamentos de Estatística | MBA 2019/20
É importante começar por salientar que, do ponto anterior até este, há um salto
relativamente grande de informação Estatística relevante. Omitem-se significativos
tópicos da Estatística, particularmente, probabilidades, variáveis aleatórias e
distribuições de probabilidades. O conhecimento destas temáticas é importante e
facilita a compreensão do que se segue.
𝑋 + 𝑋 + ⋯ +𝑋
𝑋=
𝑛
RODRIGO MARTINS 10
Apontamentos de Estatística | MBA 2019/20
∑ (𝑋 − 𝑋)
𝑠 =
𝑛−1
Se um estimador é uma regra que nos diz como usar os dados, faz sentido que existam
muitas regras possíveis e que umas regras sejam melhores que outras. Constatamos,
então, que, para resolver um qualquer problema estatístico, podemos recorrer a
estimadores alternativos. No entanto, com certeza que estaremos interessados em usar
a melhor fórmula possível, ou seja, aquela que nos aproxime mais do nosso objetivo que
é conhecer o parâmetro populacional. Neste particular, é importante tomar atenção
ao que a Estatística nos transmite, pois é ela que vai dizer qual o estimador a utilizar
dadas as circunstâncias e objetivos particulares de cada investigação.
Neste momento, ficamos a pensar: então, afinal, o que é um bom estimador? Como em
muita coisa da vida, algo é bom quando apresenta boas qualidades. No caso dos
RODRIGO MARTINS 11
Apontamentos de Estatística | MBA 2019/20
Considerem dois candidatos a estimador do parâmetro 𝜇 que representa a média de idade dos
alunos dos MBAs: a fórmula 𝑥̅ = ∑ 𝑥 , mais conhecida como média aritmética, e o estimador
̅
𝑤 cuja fórmula é 𝑤 = . A utilização do estimador 𝑤 seria um grande equívoco, pois não é de
todo cêntrico, ao contrário da média arimética, como vimos. A sua aplicação implica calcular
a média de idades, suponhamos 26 anos, e depois dividir por 2, ou seja, afirmar que a média de
idades dos alunos dos MBAs é de 13 anos. É por demais evidente que esta fórmula não funciona.
RODRIGO MARTINS 12
Apontamentos de Estatística | MBA 2019/20
para descobrir 𝜇, qualquer que seja a amostra retirada da população. Ao utilizar esta fórmula
estamos a cometer um erro sistemático, a distribuição amostral não se encontra em torno do
parâmetro, logo 𝑤 não pode ser um estimador cêntrico.
Eficiência relativa
Propriedades assintóticas
RODRIGO MARTINS 13
Apontamentos de Estatística | MBA 2019/20
RODRIGO MARTINS 14
Apontamentos de Estatística | MBA 2019/20
RODRIGO MARTINS 15
Apontamentos de Estatística | MBA 2019/20
Sendo o 𝑒𝑟𝑟𝑜 constituído pelo produto entre o valor critico a retirar da tabela estatística
adequada, e que definirá o grau de “certeza” com que queremos fazer as nossas
afirmações, e o desvio padrão da estatística (estimador pontual) utilizada na
construção do IC.
De acordo com o que foi dito anteriormente, os IC para a média irão ter como
parâmetro-alvo 𝜇, servindo-se da média aritmética da amostra, 𝑥̅ , e do respetivo desvio
Comecemos por recordar o FACTO ESTATÍSTICO 2.1 onde se refere que 𝑿~𝑵(𝜇, 𝜎 ⁄𝑛 ).
Vamos considera (1 − 𝛼) como o nível de confiança referido na DEFINIÇÃO 2.7, sendo
que 𝛼 é o nível de significância do intervalo. Assim, com amostras grandes o teorema
do limite central diz-nos que a seguinte afirmação probabilística é aproximadamente
válida qualquer que seja a distribuição populacional de 𝑿.
𝜎 𝜎
𝑃(𝑋 − 𝑍 × ≤ 𝜇 ≤ 𝑋+𝑍 × ) = (1 − 𝛼)
√𝑛 √𝑛
RODRIGO MARTINS 16
Apontamentos de Estatística | MBA 2019/20
amostra, 𝑠, constitui uma boa estimativa para 𝜎, podendo ser utilizado sem alteração
da afirmação probabilística anterior, ou seja:
𝑠 𝑠
𝑃(𝑋 − 𝑍 × ≤ 𝜇 ≤ 𝑋+𝑍 × ) = (1 − 𝛼)
√𝑛 √𝑛
𝑋−𝑍 × ;𝑋 + 𝑍 × ou 𝑋−𝑍 × ;𝑋 + 𝑍 ×
√ √ √ √
A primeira tarefa do investigador é definir o nível de confiança que pretende para o IC.
Assim, considerando, por exemplo, um 𝛼 = 0,05 (ou 5%) teremos um nível de confiança
de 95% (100% − 5%). A este nível de significância corresponde, na tabela 𝑁(0,1), um
𝑍 = 1,96. Quanto menor o 𝛼 escolhido mais confiança estamos a atribuir ao intervalo
A empresa BTS comercializa batatas em embalagens de 4𝐾𝑔 e não quer ser processada por
vender muito menos do que essa quantidade. O departamento de controlo de qualidade da
RODRIGO MARTINS 17
Apontamentos de Estatística | MBA 2019/20
Sabe-se que 𝑛 = 60, 𝑥̅ = 4,16, 𝑠 = 0,31, e com 𝛼 = 0,05 tem-se 𝑍 = 1,96. Recorrendo à fórmula
0,31 0,31
4,16 − 1,96 ≤ 𝜇 ≤ 4,16 + 1,96
√60 √60
4,082 ≤ 𝜇 ≤ 4,238
Estima-se que o peso médio das embalagens de batatas cai dentro do intervalo 4,082𝐾𝑔 e
4,238𝐾𝑔, com um nível de confiança de 95%. Assim, retirando 100 medidas da população de
sacos de batatas e construindo 100 intervalos de confiança, 95% conterão o peso médio das
batatas, 5% não.
Observando o EXEMPLO 2.2, será que podemos estar seguros de que a verdadeira
média está no intervalo (4,082; 4,238)? Não temos a certeza, mas temos uma confiança
razoável (95%) de que está. Na realidade, não possuímos meios para saber se o intervalo
que construímos cai dentro dos 95% que contêm 𝜇 ou dos outros 5%.
Recuperando o que foi dito anteriormente, considera-se uma amostra pequena aquela
que exibe um 𝑛 < 30. Quando isto acontece o desvio padrão da amostra, 𝑠, fornece
apenas uma aproximação muito grosseira do desvio padrão da população, 𝜎 . A
solução para este problema é usar a estatística t que tem uma distribuição amostral
muito parecida com a conhecida estatística z, derivada da distribuição normal (0,1). No
entanto, a estatística t é mais variável e o aumento da variabilidade depende do
RODRIGO MARTINS 18
Apontamentos de Estatística | MBA 2019/20
De realçar que, o uso deste IC para amostras pequenas implica assegurar, ou assumir,
que a população subjacente tem uma distribuição de frequência relativa
aproximadamente normal.
Considere-se, na mesma, a empresa BTS que comercializa batatas em embalagens de 4𝐾𝑔, mas
agora a amostra aleatória recolhida é de 𝑛 = 24 embalagens. O peso médio, 𝑥̅ , encontrado foi
de 4,09 𝐾𝑔 com um desvio padrão, 𝑠, de 0,38𝐾𝑔. Pretende-se construir um intervalo de confiança
a 95% para o parâmetro, 𝜇, peso médio das embalagens de batatas.
𝑋−𝜇 𝑋−𝜇
3 Estatísitca z: 𝑍 = 𝜎 ; Estatísitca t: 𝑡 = 𝒔 . Relativamente à definição dos graus de liberdade,
√𝑛 √𝑛
de notar que (𝑛 − 1) é o denominador da fórmula de 𝑆 , apresentada na secção 2.1.
RODRIGO MARTINS 19
Apontamentos de Estatística | MBA 2019/20
A amostra é pequena com 𝑛 = 24, e sabe-se que 𝑥̅ = 4,09 e 𝑠 = 0,38. Com 𝛼 = 0,05 tem-se (24 −
1) graus de liberdade, logo, consultando a tabela t-student, temos 𝑡 = 2,069. Recorrendo à
0,38 0,38
4,09 − 2,069 ≤ 𝜇 ≤ 4,09 + 2,069
√24 √24
3,927 ≤ 𝜇 ≤ 4,252
Estima-se que o peso médio das embalagens de batatas cai dentro do intervalo 3,927𝐾𝑔 e
4,252𝐾𝑔, com um nível de confiança de 95%. Assim, retirando 100 medidas da população de
sacos de batatas e construindo 100 intervalos de confiança, 95% conterão o peso médio das
batatas, 5% não.
𝑝= e 𝑝̂ =
RODRIGO MARTINS 20
Apontamentos de Estatística | MBA 2019/20
De acordo com o que é dito na secção 2.3, os IC para a proporção irão ter como
parâmetro-alvo 𝑝, servindo-se, na sua construção, da proporção observada na
amostra, 𝑝̂ , e do respetivo desvio padrão amostral de 𝑝̂ , que a Estatística demonstra ser
×( ) ×
igual a 𝜎 = , ou 𝜎 = , com 𝑞 = (1 − 𝑝).
É importante notar que uma amostra grande, nos termos em que foi definida para a
média, não é suficiente para assegurar que a distribuição de 𝑝̂ é aproximadamente
normal. Para a proporção, o tamanho da amostra considera-se grande se as condições
𝒏 × 𝒑 ≥ 𝟏𝟓 e 𝒏 × 𝒒 ≥ 𝟏𝟓 se verificarem simultaneamente. Na prática, quando isto
acontece, pode-se utilizar a distribuição normal padrão na construção de intervalos de
confiança para proporções. Assim, com amostra grande a seguinte afirmação
probabilística é aproximadamente válida,
𝑝̂ × 𝑞 𝑝̂ × 𝑞
𝑃 𝑝̂ − 𝑍 × ≤ 𝑝 ≤ 𝑝̂ + 𝑍 × = (1 − 𝛼)
𝑛 𝑛
RODRIGO MARTINS 21
Apontamentos de Estatística | MBA 2019/20
𝑝̂ × 𝑞 𝑝̂ × 𝑞
𝑝̂ − 𝑍 × ; 𝑝̂ + 𝑍 ×
𝑛 𝑛
Um estudo levado a cabo pela DBDgroup em Junho de 2019 revelou que 191 de 1009
consumidores inquiridos afirmam fazer as suas compras online sempre nos mesmos “sites”.
Pretende-se estimar um intervalo de confiança a 90% para a verdadeira proporção de
consumidores que compram online sempre nos mesmos “sites”.
Da tabela 2.1. sabe-se que, com 𝛼 = 0,10, tem-se 𝑍 = 1,645. Substituindo, obtemos
0,169 ≤ 𝑝 ≤ 0,209
Estima-se que o a proporção de consumidores que compram online sempre nos mesmos “sites”
se situa entre 16,9% (0,169) e 20,9% (0,209), com um nível de confiança de 90%. Assim, retirando
100 medidas da população de consumidores online e construindo 100 intervalos de confiança,
90% conterão a proporção de interesse, 5% não.
RODRIGO MARTINS 22
Apontamentos de Estatística | MBA 2019/20
De notar que no EXEMPLO 2.5, por conveniência, a interpretação dos resultados é feita
recorrendo a percentagens, que não é mais do que a proporção multiplicada por 100.
Desde que todas as proporções usadas sejam convertidas em percentagens é possível
construir diretamente o IC em percentagem.
Nesta fase, convém deixar um alerta. Os moldes em que se está a calcular intervalos de
confiança para a proporção não funcionam muito bem quando 𝑝 é próximo de zero
ou de 1, a não ser que a amostra seja realmente muito grande4. Para constatar este
facto basta pensar que, com um 𝑝̂ = 0,01, para assegurar a normalidade (𝑛 × 𝑝̂ ≥ 15)
seria necessária uma amostra, no mínimo, de 1500.
4Para estes casos ver Agresti e Coull (1989) e Mclave et. al. (2009) pp.291 para um exemplo
prático do estimador intervalar ajustado.
RODRIGO MARTINS 23
Apontamentos de Estatística | MBA 2019/20
erro tolerado, 𝑆𝐸. Mas, para utilizar a expressão anterior, precisa-se, adicionalmente, de
uma aproximação para 𝜎 . Esta aproximação pode-se obter de duas formas. Ou o
investigador avança com um palpite razoável para o seu valor, ou, então, de uma
forma mais credível, realiza um estudo piloto de dimensão comedida, utilizando o
respetivo desvio padrão amostral, 𝑠, como estimativa para 𝜎.
(1,96) × 8100
𝑛= = 311,1 ≈ 312
(10)
RODRIGO MARTINS 24
Apontamentos de Estatística | MBA 2019/20
Seria necessário inquirir, no mínimo, 312 clientes para se obter um IC nas condições requeridas
pela cadeia de supermercados.
×
Rearranjando a expressão obtemos 𝑝 − 𝑝̂ = 𝑍 × .
RODRIGO MARTINS 25
Apontamentos de Estatística | MBA 2019/20
Uma empresa de Marketing pretende conduzir um estudo para saber qual a proporção de
consumidores a acreditar que “Made in Portugal” significa 100% de materiais e trabalho
provenientes de Portugal. Num estudo preliminar 64 de 106 consumidores inquiridos acreditaram
que sim. A empresa pretende saber quantas entrevistas devem ser efetuadas para construir um
intervalo de confiança a 95% com largura de 0,06 para esta proporção.
,
Sabemos que 𝑝̂ = ≈ 0,6 , 𝑆𝐸 = = 0,03 e 𝑍 = 1,96. Substituindo de acordo com a fórmula
Seria necessário inquirir, no mínimo, 1024 consumidores para se obter um IC nas condições
requeridas pela empresa.
Bibliografia:
Agresti Alan; Coull, Brent A. (1998) Approximate Is Better than "Exact" for Interval
Estimation of Binomial Proportions, The American Statistician, Vol. 52, No. 2., pp. 119-
126.
McClave, J., Benson, P., Sincich, T. (2008) Estatística para Administração e Economia, 10ª
Edição, Prentice-Hall.
RODRIGO MARTINS 26