Escolar Documentos
Profissional Documentos
Cultura Documentos
CONCEITOS BÁSICOS DE
ESTATÍSTICA
A u t o r ( a ) : D r. G u i l h e r m e A u g u s t o P i a n e z z e r
Introdução
Caro(a) estudante, seja muito bem-vindo(a) aos nossos estudos sobre análise estatística! Neste
material, discutiremos os conceitos básicos de estatística e compreender quais são os fenômenos
de análise dentro dessa área. Aqui, seremos convidados(as) a conhecer os tipos de variáveis
aleatórias para, então, conhecer as distribuições de variáveis que costumam ocorrer na análise
estatística.
Você também perceberá de que modo a estatística deve ser utilizada como uma ferramenta aliada e
poderosa na tomada de decisões; compreenderá, inclusive, o que realmente acontece com o
tratamento de grandes informações.
Conceitos Fundamentais
Para iniciar nossa análise, vamos supor que desejamos verificar se existe diferença significativa
entre a massa de certos adultos de uma determinada academia. Como termos essenciais, perceba
que temos como interesse medir uma característica que denominamos dados. Como tais massas
são medidas por números, podendo assumir certos valores como 65 kg, 67 kg, 78 kg, 83 kg e, assim,
podemos afirmar que se trata de dados numéricos.
Ao ter em vista que a pesquisa se refere apenas a uma determinada academia, podemos afirmar
que todos seus alunos representam a população analisada, de forma que qualquer subconjunto
selecionado é considerado uma amostra. Se tal academia possui 350 alunos, todos eles
representam a sua população, enquanto qualquer grupo de alunos representa uma amostra de tal
população.
Assim, formalmente, podemos definir a população como um conjunto que contém todos os
elementos que possuem uma característica de interesse (característica de investigação ou
características de estudo) e determinar a amostra como qualquer subconjunto da população.
Um traço específico da estatística é que nem sempre temos
capacidade de levantar as características de interesse de toda
a população, de forma que escolhemos uma determinada
amostra. Quando realizamos, porém, uma pesquisa estatística
com toda a população, o que está sendo realizado é um censo.
A propósito, esse termo é bem conhecido por “censo
demográfico” ou “censo populacional”.
O conceito de população pode ser um pouco confuso, visto que um recorte de outra população
também pode ser considerado uma população, dado um projeto de pesquisa. Então, ao supor que,
na academia, existam 150 homens adultos dentre os 300 alunos matriculados, caso tenhamos
interesse em investigar um levantamento sobre o estado civil dos homens dessa academia, a
população dessa pesquisa corresponde aos 150 homens e a amostra qualquer é o subconjunto
desses homens.
Trabalhos específicos sobre o estudo de técnicas de amostragem são conhecidos. Isso porque,
para que a amostra selecionada represente a população, não podemos realizá-la de qualquer
maneira. Vamos supor que queiramos investigar o problema da diabetes na população brasileira.
Como não temos condição de medir o nível de insulina de todos os habitantes, podemos selecionar
um determinado número de indivíduos, a partir do processo de amostragem, de forma que essa
representação descreva como essa característica de interesse se distribui entre os elementos da
população. Se selecionassem indivíduos da academia já mencionada, teríamos viés, talvez
concluindo nenhum problema significativo de diabetes. Agora, se selecionassem tais
representantes a partir de uma fila de uma rede de fast-food, poderíamos concluir o inverso.
Chegamos ao término da primeira seção e vimos os principais conceitos. Vamos praticar um
pouco? Faça a atividade na sequência e teste seus conhecimentos.
Conhecimento
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
Discutiu-se a diferença entre população e amostra. Basicamente, trata-se a população como todos
os elementos de um determinado conjunto, enquanto a amostra é um subconjunto da população.
No que concerne ao exposto, considere os itens apresentados na sequência.
Assinale a alternativa que apresenta a sequência correta dos eventos descritos, considerando P
(população) e A (amostra).
a) A-P-P-A.
b) P-P-A-P.
c) P-A-P-A.
d) P-A-A-P.
e) P-P-P-P.
Processos Estatísticos
Vamos conhecer um pouco mais sobre os processos estatísticos? Ao longo dos diversos
processos, lidamos com várias características de interesse. Essas características podem ser de
variados tipos, como: idade, salário, marca, peso, altura, estado civil, dimensões e tantas outras.
Mas percebemos, aqui, que temos uma diferença significativa entre cada uma dessas variáveis. Até
porque, as formas de medir idade, salário ou mesmo estado civil são completamente diferentes. Na
estatística, cada tipo de variável exige um tratamento estatístico diferenciado.
Variável Qualitativa
Perceba que já definimos variável como uma característica de uma população ou de uma amostra.
Além disso, já adiantamos que as formas de medir idade ou estado civil são diferentes entre si.
Aqui, podemos perceber que a primeira é uma variável quantitativa (um número), enquanto a
segunda é uma variável qualitativa (solteiro, divorciado, casado etc.).
Note que a variável qualitativa pode ser classificada como uma categoria, um rótulo ou uma classe.
Assim, a cor de pele, a marca de roupa e o estado civil são dados qualitativos. Outro tipo de variável
qualitativa corresponde às características que podem ser representadas por sim ou não, conhecidas
como binomiais, podendo salientar quem é doador de sangue ou quem já visitou o Japão.
Aqui, tais dados possuem propriedades ordinais ou nominais. Se existir uma relação de ordem entre
si, consideramos variáveis ordinais: primeiro lugar, segundo lugar etc.; perfeito, ótimo, bom e
regular. Se não existe nenhuma ordem evidente, trata-se de uma variável nominal: cor da pele ou
marca de uma roupa.
Variável Quantitativa
No caso das variáveis quantitativas, compreendamos como aquelas que podem ser mensuradas
por números: peso, altura, número de lesões de um jogador. Todos esses aspectos são
considerados dados quantitativos. Aqui, você precisa perceber que existe uma diferença crucial
entre medir idade e peso. Isso porque, a idade é medida em números inteiros, i.e., 1, 2, 3, ..., 40, 41,
..., enquanto o peso pode ser medido por um número racional. Verifique na sequência como
definimos as variáveis discretas e as variáveis contínuas.
1. Administração de empresas: Eu mi bibendum neque egestas congue quisque egestas diam in.
2. Juros compostos: Eu mi bibendum neque egestas congue quisque egestas diam in.
3. Impostos: Eu mi bibendum neque egestas congue quisque egestas diam in.
4. Recursos Humanos: Eu mi bibendum neque egestas congue quisque egestas diam in.
Nesse segundo caso, geralmente, trata-se de variáveis que podem estar associadas a intervalos e
não podem ser enumeradas, i.e., listadas. Perceba que, mesmo podendo criar uma lista com todas
as quantidades de peças de roupas vendidas, nunca será possível escrever todos os pesos de
bebês recém-nascidos. Isso porque, entre 1 kg e 2 kg, existem infinitos valores.
Além dessas diferenças, alguns dados quantitativos e categóricos fazem uma distinção sobre os
diferentes tipos de números que podem surgir. Triola (2013, p. 10) expõe que “alguns números,
como os que aparecem nas camisetas de jogadores de basquete, não são quantidades, porque não
medem ou contam qualquer coisa, e não faria sentido fazermos qualquer cálculo com eles”.
SAIBA MAIS
ACESSAR
Aqui, nossa temática tem sido discutir a frequência de dados que, segundo Silva et al. (2010, p. 18),
“é o número de vezes que um elemento figura no conjunto de dados”. Para compreendermos um
pouco sobre a distribuição de frequência, assunto da próxima seção, podemos adiantar a
construção da tabela de frequência. Afinal, definimos frequência como o número de ocorrências ou
repetições de um determinado dado. Podemos imaginar uma pesquisa realizada com dados
qualitativos sobre a opinião pública de determinado candidato à presidência. Pergunta-se: como
avalia a proposta do governo desse candidato? Dentre as respostas possíveis, identifica-se: ótima,
boa, regular, ruim. Trata-se de uma coleta de dados qualitativos.
ÓTIMA, RUIM, RUIM, RUIM, BOA, BOA, BOA, ÓTIMA, RUIM, ÓTIMA, REGULAR, RUIM, ÓTIMA, BOA,
ÓTIMA, ÓTIMA, BOA, ÓTIMA, RUIM, RUIM.
Você deve perceber que olhar os dados na forma como são apresentados não nos traz, diretamente,
uma boa impressão sobre esse conjunto de dados. Então, podemos organizá-los agrupando os
dados semelhantes, a fim de obter o seguinte:
ÓTIMA, ÓTIMA, ÓTIMA, ÓTIMA, ÓTIMA, ÓTIMA, ÓTIMA, BOA, BOA, BOA, BOA, BOA, REGULAR, RUIM,
RUIM, RUIM, RUIM, RUIM, RUIM, RUIM.
Aqui, já podemos visualizar, de forma mais adequada, tais dados. A visualização, entretanto, fica
ainda melhor, principalmente para uma quantidade grande de dados, caso tenhamos uma
visualização ainda mais apropriada. Por esse motivo, podemos contar as frequências, i.e., contar o
número de ocorrência de cada classe verificada. Dessa maneira, chegamos ao seguinte cenário:
f
´ = 7
O T IMA
f = 5
BOA
f = 1
REGULAR
f = 7
RUIM
Os dados representam uma tabela de frequência, como mostra a Tabela 1.1:
Conceito Frequência
Ótima 7
Boa 5
Regular 1
Ruim 7
Tabela 1.1 - Tabela de frequência para pesquisa eleitoral realizada com 20 entrevistados
Fonte: Elaborada pelo autor.
#PraCegoVer: a tabela apresenta duas colunas e cinco linhas. Na primeira linha, temos, na
primeira coluna, “conceito” e, na segunda, “frequência”. Na segunda linha, temos “ótima” na
primeira coluna e “7” na segunda coluna. Na terceira linha, temos “boa” na primeira coluna e “5”
na segunda coluna. Na quarta linha, temos “regular” na primeira coluna e “1” na segunda
coluna. Na quinta linha, temos “ruim” na primeira coluna e “7” na segunda coluna.
A fim de evitar isso, normalizamos as frequências para gerar as frequências relativas, dadas,
matematicamente, por:
^
Frequ
e
ncia
do
Dado
^
Frequ
e
ncia
Relativa =
~
N
ú
mero
Total
de
Observa o
es ç
f
A
f =
rA
n
No caso do problema analisado, podemos reescrever os dados na sua versão relativa, de forma que:
7
fr ´ = = 0, 35 = 35
O T IMA
20
5
f rBOA = = 0, 25 = 25
20
1
f rREGULAR = = 0, 05 = 5
20
7
f rRUIM = = 0, 35 = 35
20
Dessa maneira, podemos ampliar a Tabela 1.1, para gerar a Tabela 1.2, também apresentando os
dados de frequência relativa. Observemos na sequência.
ÓTIMA 7 0,35 35
BOA 5 0,25 25
REGULAR 1 0,05 5
RUIM 7 0,35 35
Tabela 1.2 - Tabela de frequência relativa para pesquisa eleitoral realizada com 20 entrevistados
Fonte: Elaborada pelo autor.
#PraCegoVer: a tabela apresenta quatro colunas e cinco linhas. Nas colunas, estão
apresentados, em ordem, o conceito, a frequência, a frequência relativa e a porcentagem. A
primeira linha mostra que o conceito ‘ótima’ teve uma frequência de 7, frequência relativa de
0,35, equivalente a uma porcentagem de 35%. A segunda linha mostra que o conceito ‘boa’ teve
uma frequência de 5, frequência relativa de 0,25, equivalente a uma porcentagem de 25%. A
terceira linha mostra que o conceito ‘regular’ teve uma frequência de 1, frequência relativa de
0,05, equivalente a uma porcentagem de 5%. A última linha mostra que o conceito ‘ruim’ teve
uma frequência de 7, frequência relativa de 0,35, equivalente a uma porcentagem de 35%.
Note que o cálculo de frequência relativa nos permite inferir, com rapidez, se uma dada categoria
acontece frequentemente ou não. Isso não era possível de afirmar previamente sem o tamanho da
amostra. Para verificar que aprendemos essa dinâmica, vejamos a próxima atividade.
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
Considere uma turma de Educação Física composta por 36 alunos. Nesse grupo, um questionário
investigou o esporte preferido de cada um deles. Para facilitar a representação, um código de
tabulação foi criado, conforme apresentado a seguir:
F – Futebol
V – Vôlei
A – Atletismo
B – Basquete
N – Natação
T – Tênis
NVNFATNVVBFFFVVNTT
NVVNATTNNBTFVNFTVN
Com base nos conteúdos discutidos no decorrer desta seção, assinale a alternativa que apresenta
corretamente a frequência relativa dos alunos que gostam de atletismo.
a) 17%.
b) 28%.
c) 19%.
d) 5%.
e) 25%.
Distribuição Amostral da
Média
O nosso assunto agora será a distribuição amostral da média. O que você já conhece sobre esse
tema? Para compreendermos o conceito de distribuição amostral e como essa informação aparece
em fenômenos comuns, precisamos analisar o comportamento da média de um sorteio de 4 bolas.
Assim, devemos imaginar uma urna com 4 bolas numeradas de 1 a 4, de forma que X é a variável
aleatória, a qual registra o sorteio de uma dada bola tirada ao acaso. Como denotaremos Xm sendo
a média, podemos afirmar que:
Afirmamos isso por considerar que o sorteio não é viciado e que todas as bolas têm a mesma
chance de ocorrência.
Figura 1.1 - Distribuição amostral da média para um único sorteio entre 4 bolas
Fonte: Elaborada pelo autor.
#PraCegoVer: na figura, podemos observar um gráfico de barras. No eixo das abscissas, estão as colunas
marcadas por 1, 2, 3 e 4, respectivamente. No eixo vertical, temos as medidas marcadas de 0,05 em 0,05,
iniciando em 0 até 0,3. Percebe-se que todas as colunas possuem a mesma altura de 0,25 indicando a
distribuição amostral da média para um único evento.
Note que a Figura 1.1 representa a distribuição amostral da média, considerando essa única
ocorrência. Perceba, portanto, que a distribuição mostra quais eventos têm mais probabilidade de
ocorrer. Para percebermos sua utilidade, devemos imaginar o mesmo cenário de sorteio, mas com
retiradas múltiplas, independentes e com reposição. Para simplificar, vamos supor duas retiradas:
X1 e X2. Assim, as médias seriam dadas por:
X1 = 1, X2 = 1, X̄ = 1 X1 = 3, X2 = 1, X̄ = 2
X1 = 1, X2 = 2, X̄ = 1, 5 X1 = 3, X2 = 2, X̄ = 2, 5
X1 = 1, X2 = 3, X̄ = 2 X1 = 3, X2 = 3, X̄ = 3
X1 = 1, X2 = 4, X̄ = 2, 5 X1 = 3, X2 = 4, X̄ = 3, 5
X1 = 2, X1 = 1, X̄ = 1, 5 X1 = 4, X2 = 1, X̄ = 2, 5
X1 = 2, X2 = 2, X̄ = 2 X1 = 4, X2 = 2, X̄ = 3
X1 = 2, X3 = 3 = X̄ = 2, 5 X1 = 4, X2 = 3, X̄ = 3, 5
X1 = 2, X3 = 4, X̄ = 3 X1 = 4, X2 = 4, X̄ = 4
Aqui, podemos observar tanto cada ocorrência quanto as respectivas médias. Também podemos
notar que existem médias com uma probabilidade de ocorrência maior, o que pode ser verificado
pelo seguinte cálculo:
1
P (X̄ = 1) = = 0, 0625
16
2
P (X̄ = 1, 5) = = 0, 125
16
3
P (X̄ = 2) = = 0, 1875
16
4
P (X̄ = 2, 5) = = 0, 25
16
3
P (X̄ = 3) = = 0, 1875
16
2
P (X̄ = 3, 5) = = 0, 125
16
1
P (X̄ = 4) = = 0, 0625
16
Agora, sim! Podemos atualizar a distribuição de frequência, considerando esses dois sorteios. Isso,
aliás, pode ser observado na Figura 1.2.
Figura 1.2 - Distribuição amostral da média para dois sorteios entre 4 bolas (independentes e com
reposição)
Fonte: Elaborada pelo autor.
#PraCegoVer: na figura, podemos observar um gráfico de barras. No eixo das abscissas, estão as colunas
marcadas por 1, 1.5, 2, 2.5, 3, 3.5 e 4, respectivamente. No eixo vertical, temos as medidas marcadas de
0,05 em 0,05, iniciando em 0 até 0,3. Percebe-se que a primeira coluna possui uma altura de 0,06; a
segunda de 0,12; a terceira de 0,18; a quarta de 0,25; a quinta de 0,18; a sexta de 0,12, e a última de 0,06
indicando a distribuição amostral da média para dois eventos.
Talvez, com esses exemplos, você já tenha sido capaz de perceber que o comportamento desse
fenômeno tende a um comportamento específico. Nesse caso, embora existam ocorrências em
todo o espectro de frequência, podemos perceber que a maior parte dos dados se concentra perto
da média, i.e., perto, nessa circunstância, do valor 2.5! Vamos aproveitar a próxima seção para
compreender um pouco mais o porquê de isso ocorrer.
Assim como realizamos dois sorteios, podemos encontrar a distribuição amostral da média para n
sorteios. Nesse caso, podemos observar que, à medida que fazemos a quantidade de sorteios
tender a infinito, percebemos que o gráfico vai se aproximando de um conhecido gráfico
denominado distribuição normal. Como postula Triola (2013, p. 206): “a distribuição normal padrão
é uma distribuição de probabilidade normal com médio 0 e desvio-padrão 1, e a área total sob a
curva de densidade é 1”.
Evidenciamos, na Figura 1.3, alguns exemplos de gráficos de distribuição normal, os quais poderiam
representar fenômenos diferenciados pelos seus valores de média e desvio-padrão.
#PraCegoVer: na figura, observamos um gráfico. No eixo horizontal, as medidas com passo 2, começando
de -6 até 8. No eixo vertical, as medidas com passo 0,2, começando em 0 até 0,8. São apresentadas três
curvas distintas de distribuição normal. A primeira com média 0 e desvio-padrão de 1, conhecida como
distribuição normal padrão. A segunda com média 0 e desvio-padrão de 0,447214; a última com média 1 e
desvio-padrão de 2,23607.
Embora fuja do escopo deste material, podemos mostrar esse comportamento a partir de um
importante teorema denominado Teorema Central do Limite, o qual afirma que, dada uma função de
densidade de probabilidade, sempre que temos n tendendo a infinito, a distribuição tende a se tornar
uma distribuição normal e padrão.
Tal resultado nos ajuda a investigar o motivo de as pesquisas eleitorais e os processos de coleta de
dados em pesquisas estatísticas serem realizados mesmo sem consulta a toda a população. Agora
que você já aprendeu sobre a distribuição amostral da média, vamos praticar um pouco? Faça a
atividade na sequência para exercitar seus aprendizados.
praticar
Vamos Praticar
Verificamos a probabilidade de ocorrência da média para o sorteio de 2 bolas, independentes e
com reposição. Agora, é a sua vez! Faremos algo similar, mas considerando o sorteio de 3 bolas.
Distribuição Amostral de
uma Variável Aleatória
Binomial
Outra distribuição de variável que acaba seguindo uma distribuição normal consiste na variável
aleatória binomial. Você sabe quais são essas variáveis? São aquelas variáveis que só podem
assumir entre dois possíveis valores. Nesse caso, poderia ser uma variável sim ou não, desligado ou
ligado, forte ou fraco, 0 ou 1, ou tantas outras opções. Triola (2013, p. 180) define eficazmente essa
distribuição:
Como exemplo dessa situação, vamos supor que você colete o dado de 10 adultos selecionados de
forma aleatória e chegue às seguintes observações:
X1 = 1 X6 = 0
X2 = 0 X7 = 0
X3 = 0 X8 = 0
X4 = 0 X9 = 0
X5 = 1 X1 0 = 1
Nesse exemplo, fica fácil observar que, dentre os adultos analisados, os únicos que possuem
menos de 30 anos e casa própria foram os da primeira, da quinta e da décima observação. Também
perceba que a quantidade de casos desse tipo pode ser calculada a partir de:
∑ Xi = 1 + 0 + 0 + 0 + 1 + 0 + 0 + 0 + 0 + 1 = 3
i=1
Logo, a probabilidade estimada de que um adulto desse grupo tenha casa própria é dada por:
3
^ =
p = 0, 3.
10
Observe que a notação aqui para a probabilidade de ocorrência é denotada dessa forma, visto que
essa não é, necessariamente, a probabilidade real, i.e., ou seja, não é a probabilidade encontrada na
população geral (todos os adultos com menos de 30 anos). Essa probabilidade se refere à chance
de, selecionando ao acaso um adulto dentro do grupo pesquisado, este tenha casa própria. Todavia,
caso conhecêssemos, a priori, a probabilidade real de ter uma casa antes dos 30, poderíamos
calcular a probabilidade de encontrar o grupo de 0,3 para uma amostra de tamanho 10. Nesse caso,
teríamos:
10 3 7
p (3) = ( ) p (1 − p) .
3
Essa expressão, advinda das teorias de probabilidade básica, indica que, por exemplo, caso a
probabilidade real seja de 40%, existe uma chance de 21,5% da amostra coletada apresentar uma
probabilidade estimada de 30%! Porém, para compreender o que está acontecendo nesse resultado,
suponha 1.000 pesquisas independentes com o mesmo propósito. Suponha, ademais, que a
probabilidade real seja de 30%. Agora, cada pesquisador observará, em sua amostra de 10 adultos,
um resultado diferente: o primeiro pesquisador poderá observar 50%, o segundo 20%, e assim por
diante. Obviamente, isso ocorre devido ao efeito de aleatoriedade que surge ao extrair um
determinado grupo ao acaso. A Tabela 1.3, entretanto, apresenta a distribuição de probabilidade
encontrada por cada pesquisador.
Tabela 1.3 - Proporção de adultos com casa própria antes dos 30 anos encontrada por diversos pesquisadores
Fonte: Elaborada pelo autor.
#PraCegoVer: a tabela apresenta as diferentes proporções de adultos com casa própria antes
dos 30 anos investigados pelos diversos pesquisadores. No caso, 29 pesquisadores
encontraram 0 adultos; 122 pesquisadores encontraram 10% de adultos; e assim,
respectivamente, encontrando 240, 20%; 253, 30%; 200, 40%; 107, 50%; 41, 60%; 7, 70%; 1, 80%;
0, 90% e 0, 100%.
Com essas informações, foi possível compreender os tipos de variáveis e como é necessário
diferenciá-las para entender o tipo de método que deve ser utilizado. Para ter conhecimento de
algumas diferenciações que foram discutidas, veja o resumo elaborado no infográfico a seguir:
TIPOS DE VARIÁVEIS
#PraCegoVer: o infográfico interativo apresenta o seguinte título “Tipos de variáveis”. Logo abaixo, há 4
itens, na cor vermelha, disponibilizados em linha vertical e com as seguintes denominações: Qualitativo,
Quantitativo, Discreto e Contínuo. Ao clicar no primeiro item, “Qualitativo”, apresenta-se o seguinte
conceito: “são características definidas por categorias, representando uma classificação dos indivíduos.
Exemplo: marca de um carro.” Ao clicar no segundo item, “Quantitativo”, apresenta-se o seguinte conceito:
“são características que podem ser medidas por valores numéricos que façam sentido, podendo ser
contínuas ou discretas. Exemplo: idade.” Ao clicar no terceiro item, “Discreto”, apresenta-se o seguinte
conceito: “são características quantitativas que podem ser medidas por um número finito de
possibilidades ou por uma quantidade infinita enumerável. Exemplo: quantidade de ovos comprados no
supermercado.” Ao clicar no quarto item, “Contínuo”, apresenta-se o seguinte conceito: “são características
quantitativas que podem ser medidas por qualquer valor dentro de um intervalo, mesmo números
racionais ou irracionais. Exemplo: comprimento de uma barra”.
O interessante dessa análise é que, caso desenhemos o gráfico dessa distribuição, encontramos,
novamente, uma distribuição aproximadamente normal, validando o resultado do Teorema Central
do Limite. Isso pode ser observado na Figura 1.4, a qual apresenta a proporção de adultos com casa
própria antes dos 30 anos contra a quantidade de pesquisadores que encontraram cada uma
dessas proporções.
Figura 1.4 - Gráfico apresentando a quantidade de adultos com casa própria antes dos 30 anos contra
a quantidade de pesquisadores que encontraram cada uma dessas proporções
Fonte: Elaborada pelo autor.
Aqui, deve ficar evidente que se trata de uma distribuição aproximadamente normal em torno da
média real de 30%. Para finalizarmos a seção com um grande aprendizado, convidamos você a
realizar a atividade na sequência. Vamos lá?
praticar
Vamos Praticar
Considere um problema de um cientista interessado em determinar o tempo para que alguns
indivíduos atinjam o nível de corpos cetônicos aceitável. Suponha que esse teste seja repetido 15
vezes para 20 indivíduos, de forma que os dados são apresentados a seguir:
1 2 3 4 5 6 7 8
9 10 11 12 13 14 15
Tabela - Dados sobre a quantidade de horas para os 20 indivíduos de cada 15 amostras atingirem o
nível de corpos cetônicos aceitável
Fonte: Elaborada pelo autor.
Com base nos dados fornecidos, apresente o histograma com a distribuição das médias amostrais
para as 15 amostras.
Material
Complementar
FILME
TRAILER
LIVRO
Ano: 2009
ISBN: 978-85-378-0155-0
Esperamos, entretanto, que tenha saído deste estudo sabendo que a análise da coleta de dados pode
representar padrões que, em um primeiro momento, passam despercebidos. Enfatizamos que o
aprendizado sobre a temática deste material será efetivo ao se atentar a certos erros que surgem nas
análises estatísticas, ao ter em vista a leitura dos materiais recomendados.
Referências
BENJAMIN, A. Ensinem estatística antes de cálculo. TED, 2009.
Disponível em:
https://www.ted.com/talks/arthur_benjamin_teach_statistics_before_calcu
language=pt-br. Acesso em: 13 set. 2021.
MLODINOW, L. O andar do bêbado: como o acaso determina nossas vidas. Tradução de Diego Alfaro. Rio
de Janeiro: Zahar, 2009.
PETER Donnelly mostra como as estatísticas enganam os juris. [S. I.: s. n.], 2007. 1 vídeo (22 min.).
Publicado pelo canal TED. Disponível em: https://www.youtube.com/watch?v=kLmzxmRcUTo. Acesso em:
13 set. 2021.
SILVA, E. M. et al. Estatística para os cursos de Economia, Administração e Ciências Contábeis. 4. ed. São
Paulo: Atlas, 2010.
TRIOLA, M. F. Introdução à estatística: atualização da tecnologia. 11. ed. Rio de Janeiro: LTC, 2013.
ANÁLISE ESTATÍSTICA
MEDIDAS DE TENDÊNCIA
CENTRAL
A u t o r ( a ) : D r. G u i l h e r m e A u g u s t o P i a n e z z e r
Introdução
Caro(a) estudante, seja muito bem-vindo(a) ao estudo de “Análise estatística”. Nele, aprenderemos
sobre as principais medidas de tendência central, que nos permitem descrever a distribuição de
certo conjunto de dados. Como sabemos, a extração da amostra a partir da população segue
certas regras que precisam ser respeitadas para que a amostra selecionada, realmente, represente
a população escolhida. Aqui, a diferença aparece quando tratamos as diversas medidas de
tendência central, seja para a amostra, seja para a população. Ao compreender esses diversos
tipos de cálculos e expressões, conseguimos formalizar o que faz a estatística.
Medidas de Tendência
Central – Médias
Somatório
A representação de uma variável de interesse pode ser utilizada usando um símbolo, digamos, x.
Então, essa variável poderá representar cada um dos valores que a variável de interesse pode
admitir. Vamos imaginar uma sequência, por exemplo:
Nesse caso, podemos utilizar um índice para indicar o ordenamento dos dados. Dessa forma,
teríamos:
4, 3, 5, 4, 3, 2, 2, 3, 2, 3, 3, 4, 3, 5, 4, 3
Nela, temos a ocorrência de 4 dados. Aqui, devemos tomar cuidado ao observar que as ocorrências
possíveis são denotadas por:
x1 = 2, x2 = 3, x3 = 4, x4 = 5
Assim, a quantidade de vezes em que o dado aparece poderá ser resumida ao se usar a função
frequência. Nesse caso, realizando o processo de contagem, verificamos que:
Perceba, neste exemplo, que todos os dados podem ser apresentados a partir da tabela de
frequência, conforme disposto na Tabela 2.1.
k xk f (xk )
1 2 3
2 3 7
3 4 4
4 5 2
Tabela 2.1 - Tabela de frequência para os dados exemplificados a partir da notação indicial
Fonte: Elaborada pelo autor.
Uma das etapas essenciais para o tratamento de dados estatísticos é a ordenação ou organização
dos dados. Com isso, vejamos como fazer essa disposição de forma interativa.
S = x1 + x2 + x3 + x4 + x5 .
Embora essa operação tenha sido apresentada de forma adequada para esse conjunto, quando
tratamos de uma quantidade maior de dados, é necessário utilizar a simplificação simbólica. Nesse
caso, usamos o símbolo de somatório, denotado por:
∑ xi
i=1
Nesse cenário, i é conhecida como a variável de controle, em que i=1 é o primeiro termo a ser
somado e i=n o último. Note que a expressão dada anteriormente pode ser simplificada e
representada por:
∑ xi = 68
i=1
n n
∑ c. xi = c. ∑ xi , c ∈ R
i=1 i=1
Em outras expressões, seremos convidados a somar uma sequência de termos constantes, i.e., de
termos iguais. Nesse caso, teremos que:
n n
∑ xi = ∑ c = n. c, c ∈ R
i=1 i=1
Também deverá ser simplificada a soma ou a diferença entre duas variáveis. Assim, é válido que:
n n n
∑ (xi + yi ) = ∑ xi + ∑ yi
Média Aritmética
Definimos a média aritmética como a soma de todos os dados dividida pelo número de dados. Isso
pode ser simplificado pela notação de somatório, de forma que:
n
∑ xi
i=1
m
é
dia =
n
Aqui, você deve tomar cuidado em relação ao tipo de dado com que está lidando. Isso porque
existem, pelo menos, duas médias: uma referente à média populacional e outra, à média amostral.
Assim, considerando n como o tamanho da amostra e N como o tamanho da população, podemos
estabelecer duas médias distintas:
n
∑ xi
i=1
x̄ =
n
N
∑ xi
i=1
μ =
N
Agora que você foi capaz de determinar a média populacional e a média amostral, e diferenciá-las,
vejamos, a partir da próxima atividade, como organizar dados para extrair tais informações.
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
0 5 6 0 2 0 8 0 15 0 0 0 0 8 0 0 6 0 5 5 4 0 0 5 0 0 6
Tais dados indicavam a quantidade diária de faltas para os 27 dias do mês analisado.
a) 5,25.
b) 2,77.
c) 5,5.
d) 6,25.
e) 75.
Moda e Mediana
Além da média, podemos levantar outras medidas de tendência central, como é o caso da moda e
da mediana.
Mediana
Definimos a mediana como um valor que divide o conjunto de dados, quando ordenados, ao meio.
Triola (2013, p. 72) define “mediana de um conjunto de dados como a medida de centro que é o
valor do meio quando os dados originais estão arranjados em ordem crescente (ou decrescente) de
magnitude”, enquanto isso, Morettin (2010, p. 35) define “mediana como a realização que ocupa a
posição central da série de observações, quando estão ordenadas em ordem crescente”. Então,
considere os dados referentes à quantidade de ganhadores da Mega-Sena nos últimos 13 sorteios
realizados:
3 1 3 2 0 2 5 0 1 2 3 4 3 1
0, 0, 1, 1, 1, 2, 2, 3, 3, 3, 3, 4, 5
Perceba que, por se tratar de 13 dados, a mediana será o valor que está na posição central, ou seja,
na sétima posição. Até aqui, acredito que não há nenhum grande problema. Entretanto, quando a
quantidade de dados é par, devemos notar que a mediana será definida como a média entre os dois
valores centrais. Para verificar como se calcula a mediana nesse caso, observe o exemplo:
0, 0, 1, 1, 1, 2, 2, 3, 3, 3, 3, 4
Nele, a mediana será dada pela média entre os dois valores centrais. Assim, será calculada como:
2 + 3
= 2, 5
2
Moda
Definimos a moda, em estatística, como o valor que mais aparece em um conjunto de dados. Triola
(2013, p. 72) define “moda de um conjunto de dados como o valor que ocorre com maior
frequência”. Então, pode ser entendida como o valor que apresenta a maior frequência.
Para exemplificar, vamos considerar uma pesquisa de satisfação sobre o serviço oferecido pela
internet de seu bairro por diversas operadoras. Nesse caso, os entrevistados foram solicitados a
responder entre E – Excelente, O – Ótimo, B – Bom, R – Regular e P – Péssimo. Assim, a operadora
A teve as seguintes respostas:
A operadora B:
E a operadora C:
Perceba que a moda para a operadora A é O; para a operadora B, a moda é B e O (ou seja, é
bimodal); enquanto a operadora C não tem moda, uma vez que todos os dados aparecem na
mesma frequência.
SAIBA MAIS
Os dados, quando lidos de forma bruta, não são capazes de nos fornecer interpretações adequadas sobre
os fenômenos que estão ocorrendo. Dessa forma, o simples ato de organizar os dados já é essencial para
extrair significado daquilo que estamos lendo. Perceba que a organização e a leitura correta deles
permitem tomar decisões de forma razoável, calcular riscos e otimizar processos.
Para saber mais sobre a importância de acessar dados, confira o link a seguir:
http://blog.coletum.com/organizar-dados-de-forma-estrategica/.
Aqui, é interessante perceber que alguns dados estarão distribuídos em tabela de frequência, e,
devido a isso, haverá procedimentos específicos para o cálculo de média, moda e mediana.
Vejamos, em detalhes, esse quesito.
1 11 2 2
2 12 5 7
3 13 8 15
4 14 6 21
5 15 5 26
6 16 4 30
Σ 30
Para iniciarmos com o cálculo da mediana, perceba que ela tem a função de separar os dados em
dois grupos de mesmo tamanho, de forma que a posição dela será dada por:
1 + 30
i = = 15, 5
2
Assim, a tabela de frequência acumulada nos permite extrair, rapidamente, que a 15ª observação é
de 13, enquanto a 16ª é 14. Desse modo, a mediana é dada por 13,5, isso porque:
13 + 14
= 13, 5
2
Em relação à moda, como se refere ao dado que mais aparece, será, então, o de maior frequência.
Assim, a moda é 13. Em relação à média, quando temos um conjunto de dados distribuídos em
uma tabela de frequência, realizamos o cálculo de forma equivalente, mas com uma pequena
alteração. Nesse caso,
m
∑ xk . f (xk )
k=1
x̄ =
n
Veja que m representa a quantidade de observações semelhantes, a qual, nesse exemplo, é 6. Nos
dados da Tabela 2.2, concluímos que:
m
∑ xk . f (xk ) 409
k=1
x̄ = = = 13, 6
n 30
Perceba que, mesmo com dados distribuídos de acordo com a frequência, ainda podemos extrair
medidas de tendência central significativas que indicam a forma e as características da
distribuição. Agora, vejamos, em uma atividade, como fazer os cálculos aprendidos nesta seção.
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
1 10
2 19
3 5
4 2
Para calcular a média do conjunto de dados fornecidos, com base nos conceitos de média com o
uso da tabela de frequência, utilize a expressão dada por:
m
∑ x k . f (x k )
k=1
x̄ =
n
a) 1,94.
b) 1,95.
c) 1,96.
d) 1,97.
e) 1,98.
Medidas de Dispersão –
Variância e Desvio
Padrão
desvio = xi − x̄
REFLITA
Uma estratégia é calcular o módulo de cada um dos desvios antes do somatório para definirmos o
desvio médio absoluto:
n
∑ |xi − x̄|
i=1
DM =
n
Todavia, na dificuldade em usar um termo com módulo no cálculo de desvio, costumamos usar o
desvio padrão e a variância para, de forma mais adequada, descrever essa dispersão. Entretanto
esse indicativo é considerado forte para indicar a dispersão de um conjunto de dados.
Fonte: VG Educacional
A estratégia mais comum para contornar o fato de que a soma dos desvios é igual a zero é, em vez de utilizar o módulo,
elevar cada um dos desvios ao quadrado.
Para o cálculo da variância populacional ou para o cálculo da variância amostral, devemos somar
os quadrados de cada um dos desvios e dividir pelo tamanho da população, N, ou pelo tamanho da
amostra, n, respectivamente, isto é:
N 2
∑ (xi − μ)
2 i=1
σ =
N
n 2
∑ (xi − x̄)
2 i=1
s =
n − 1
Como exemplo, podemos ver o cálculo da variância amostral para a amostra dada por:
11 16 12 14 13.
11 + 16 + 12 + 14 + 13
x̄ = = 11, 2
5
2 2 2 2 2
(11 − 11, 2) + (16 − 11, 2) + (12 − 11, 2) + (14 − 11, 2) + (13 − 11, 2)
2
s =
5 − 1
2
s = 8, 7
Em estatística, a variância é considerada uma ótima medida de dispersão, mas, geralmente, não é
escolhida para descrever certas dispersões. Isso porque a maior parte dos dados costuma vir
acompanhada de uma unidade de medida (metro, quilograma, reais, alunos etc.). Quando
realizamos o cálculo da variância, elevamos os desvios ao quadrado, de forma que a unidade de
medida da variância carece da mesma interpretação dos dados originais (nesse caso, são dados
em metro ao quadrado, quilograma ao quadrado, reais ao quadrado e assim por diante).
Então, para contornar essa dificuldade de unidade de medida, calculamos a raiz quadrada da
variância, definida como o desvio padrão. Para isso, vamos pensar em um fabricante de bolos que
pesou 7 deles e obteve as seguintes medidas, todas em quilogramas:
1, 2 + 1, 3 + 1, 4 + 1, 2 + 1, 3 + 1, 5 + 1, 3
x̄ = = 1, 3 kg
7
2 2 2
(1, 2 − 1, 3) + (1, 3 − 1, 3) + … + (1, 3 − 1, 3)
2 2
s = = 0, 01 kg
7 − 1
−− −−− −
2
s = √s = √0, 01 = 0, 1 kg
praticar
Vamos Praticar
Considere três candidatos a uma vaga para executar determinado serviço. Para a escolha, o
critério é a rapidez do candidato. Para isso, extraíram-se amostras de 7 tempos, em minutos,
correspondendo ao que cada candidato levou para realizar certa atividade, conforme a tabela a
seguir.
Candidato Tempo (min)
Com base nos conteúdos referentes à média, à variância e ao desvio padrão, calcule esses três
parâmetros para os candidatos dados e apresente qual deveria ser contratado.
Medidas de Assimetria e
Medidas de Curtose
Vejamos, nesta seção, como descrever os conceitos de assimetria e de curtose, necessários para,
de forma mais adequada, descrever cada distribuição de dados.
Assimetria
Consideramos a assimetria como um grau de desvio da simetria de uma certa distribuição. Triola
(2013, p. 77) indica que “uma distribuição de dados é assimétrica quando se estende mais para um
lado do que para o outro. Uma distribuição de dados é simétrica se a metade esquerda do
histograma for praticamente uma imagem espelhada da metade direita”. De forma geral, quando a
curva é simétrica, a média, a mediana e a moda coincidem num mesmo ponto! Nesse caso,
consideramos que existe um equilíbrio perfeito na distribuição: ela se aproxima do formato da
distribuição normal padrão. Vamos entender isso melhor analisando a figura a seguir?
#PraCegoVer: na figura, observamos uma distribuição simétrica na forma de sino, em que a média, a
mediana e a moda são iguais. No histograma, a metade esquerda e a metade direita são espelhadas.
Entretanto, nos casos em que a média, a mediana e a moda recaem em pontos diferentes da
distribuição, teremos uma distribuição assimétrica, podendo ser um dos dois casos: enviesada à
direita ou à esquerda.
#PraCegoVer: na figura, observamos uma distribuição em que a média é menor que a mediana, que, por
sua vez, é menor que a moda. Observamos, dessa forma, uma distribuição assimétrica negativamente
com formato deformado de sino, com a cauda maior do lado esquerdo.
#PraCegoVer: na figura, observamos uma distribuição em que a média é maior que a mediana, que, por
sua vez, é maior que a moda. Observamos, dessa forma, uma distribuição assimétrica positivamente com
formato deformado de sino, com a cauda maior do lado direito.
Apenas com conhecimento da média, da mediana e da moda, perceba que podemos ter uma boa
noção sobre a assimetria da curva e o formato de distribuição.
Assim como a assimetria indica o grau de desvio de uma distribuição, outra característica que
apresenta a forma da distribuição é a curtose, a qual será discutida na seção posterior.
Curtose
Definimos a curtose como o grau de achatamento de uma distribuição em relação à distribuição
normal. Note que a distribuição normal é o padrão de curtose, considerado, aqui, como a curtose
do tipo mesocúrtica. Nesse caso, podemos observar esse conceito sendo exemplificado na Figura
2.4, a seguir:
Figura 2.4 - Curva de distribuição mesocúrtica, apresentando uma distribuição normal devido ao
formato
Fonte: Triola (2013, p. 204).
Os outros casos de curtose são curvas mais pontiagudas em relação a essa referência ou mais
achatadas. Perceba que a curtose será do tipo leptocúrtica quando a distribuição for mais
pontiaguda que a normal, conforme Figura 2.5, a seguir:
Figura 2.5 - Curva de distribuição leptocúrtica, com distribuição mais pontiaguda que a normal
Fonte: Triola (2013, p. 237).
#PraCegoVer: na figura, observamos uma distribuição em forma de sino, considerada leptocúrtica. Assim,
os dados são distribuídos com desvio padrão maior em relação à curva de referência, que é a normal
padrão.
A curtose será do tipo platicúrtica quando a distribuição for mais achatada que a normal, como
podemos analisar na Figura 2.6.
Figura 2.6 - Curva de distribuição platicúrtica, com distribuição mais achatada que a normal
Fonte: Triola (2013, p. 237).
#PraCegoVer: na figura, observamos uma distribuição em forma de sino, considerada platicúrtica. Assim,
os dados são distribuídos com desvio padrão maior em relação à curva de referência, que é a normal
padrão.
Agora que você aprendeu sobre os diversos tipos de distribuição e os formatos dela, vejamos como
realizar um critério para a classificação da curva.
praticar
Vamos Praticar
Em vez de analisar o formato da curva visualmente, o cálculo da curtose nos permite inferir o
formato dela sem precisar da representação gráfica. Para isso, um dos cálculos é definido pelo
coeficiente percentílico de curtose, que é calculado deste modo:
D
C =
C90 − C10
Aqui, o autor considera que, para C = 0,263, a distribuição é mesocúrtica. Para C < 0,263, a
distribuição é leptocúrtica, enquanto, para C > 0,263, a distribuição é platicúrtica.
Idade (anos) Número de alunos
7–9 197
9–11 372
11–13 527
13–15 114
15–17 49
17–19 25
19–21 3
Total 1.287
Com base nos dados coletados de estrutura etária dos alunos de certa unidade escolar, encontre
a curtose por meio do coeficiente percentílico de curtose.
Material
Complementar
FILME
TRAILER
LIVRO
ISBN: 978-8537801161
Referências
MORETTIN, P. A. Estatística básica. 6. ed. São Paulo: Saraiva,
2010.
QUAL a importância de organizar dados de forma estratégica? Coletum, 2018. Disponível em:
http://blog.coletum.com/organizar-dados-de-forma-estrategica/. Acesso em: 18 set. 2021.
SALSBURG, D. Uma senhora toma chá...: como a Estatística revolucionou a ciência do século XX. Rio de
Janeiro: Zahar, 2009.
TRIOLA, M. F. Introdução à estatística: atualização da tecnologia. 11. ed. Rio de Janeiro: LTC, 2013.
ANÁLISE ESTATÍSTICA
ANÁLISE DE VARIÂNCIA
A u t o r ( a ) : P r o f . D r. G u i l h e r m e A u g u s t o P i a n e z z e r
Introdução
Suponha que você seja o gestor de uma instituição de ensino reconhecida e esteja preocupado em
saber se o trabalho desenvolvido pelos seus professores afeta, de fato, o desempenho obtido pelos
discentes. Assim, resolve extrair as médias dos alunos de cada turma e obtém valores diferentes.
Então, fica a pergunta: até que ponto esses dados são suficientes para afirmar que existe relação
entre o desempenho dos professores e dos alunos?
No exemplo que discutiremos ao longo de todo este material, cada professor tem uma amostra
diferente de alunos. Se cada uma dessas amostras saiu de uma mesma população, podemos
afirmar que o trabalho do professor afeta o desempenho de cada um dos discentes. Entretanto, se
cada professor tem uma amostra de alunos oriunda de populações diferentes, nada podemos
afirmar sobre o impacto investigado.
Aqui, você já deve perceber que vários fatores afetam esse modelo: podemos imaginar que uma das
turmas realmente tem alunos melhores que as outras, devido a uma seleção prévia; que, em uma
das turmas, a condição de estudo é melhor em relação às demais, o que poderia ser representado
por uma ventilação adequada ou controle de iluminação correto; que uma das turmas estuda
Matemática antes de Educação Física e vice-versa. Todos esses fatores, que não estamos
controlando no cálculo das médias, também afetam o desempenho dos alunos.
#PraCegoVer: na figura, observamos duas telas. Na primeira, uma curva em forma de sino indicando que
não há diferença na distribuição das notas dos alunos entre as turmas T1, T2 e T3. Dessa forma, as três
curvas são coincidentes. Na segunda tela, as três distribuições das notas têm diferença, de forma que
suas médias são diferentes, e a posição de cada uma é distinta.
Note que você pode observar quando há ou não diferença entre cada uma das turmas. Perceba
também que, devido à distribuição de probabilidade de cada turma, ao determinar a média de uma
amostra extraída aleatoriamente, poderemos extrair qualquer medida dentro da curva representativa
da turma. Isso porque, como afirma Triola (2013, p. 266), “uma estimativa pontual é um único valor
(ou ponto) usado para aproximar um parâmetro populacional”.
Como nosso objetivo é determinar se as amostras foram obtidas de uma única população ou de populações distintas,
podemos verificar nosso objetivo em determinar a resposta para yi j de uma observação j para o nível i do fator A. Assim,
esperamos concluir que:
y = μ + αi + ϵij
ij
j = 1, 2, … , n i
i = 1, 2, … , k,
Perceba que estamos analisando um fator que tem k níveis e n observações para cada nível. Note
também que a resposta yij depende do efeito que o nível i do fator provoca; isso é considerado pela
variável alphai , mas também depende de um erro aleatório experimental, definido por eij para cada
observação. O eij é gerado devido à variabilidade de outros fatores, que não são considerados no
planejamento deste experimento.
No caso que estamos tratando, sobre o desempenho dos professores, consideramos mi como a
média das notas da população de alunos; alphai representa o efeito causado nas notas dos alunos
pelo professor i; enquanto eij representa o efeito causado na nota dos alunos por outros fatores
que não a influência do professor.
n = n1 + n2 + … + ni
Definimos a soma das observações do nível i do fator A e a média das observações do nível i do
fator A como, respectivamente:
ni
y = ∑y
i. ij
j=1
ni
∑ y
j=1 ij
ȳ =
i.
ni
n ni
y = ∑∑y
.. ij
i=1 j=1
n ni
∑ ∑ y
i=1 j=1 ij
ȳ .. =
n
Assim, considerando o caso que estamos discutindo, yi representa a soma das notas dos alunos do
professor i, enquanto y" representa a soma das notas de todos os alunos investigados. Assim, no
caso de um professor ter como média de seus alunos as notas 73, 91, 82, 85, 82 e 67, saberemos
que o y deste professor será a soma desses valores, ou seja, 480.
Com base no que vimos até agora, vamos efetivar esse conhecimento com a atividade a seguir.
Vamos lá?!
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
Considere três professores que apresentaram as notas de suas turmas na mesma avaliação
simuladas da seguinte forma.
Prof. 1 82 64 64 79 64 76 52 61 85
Prof. 2 64 88 79 67 85 100 82
Prof. 3 73 91 82 85 82 67
Com base nas fórmulas discutidas, marque a alternativa correta, que apresenta a soma de
observações do nível i do fator A de cada um dos professores envolvidos.
a) y
1 = 565, y
2 = 480, y
3 = 627.
b) y 1 = 480, y 2 = 627, y 3 = 565.
c) y
1 = 627, y
2 = 480, y
3 = 565.
d) y 1 = 627, y 2 = 565, y 3 = 480.
e) y
1 = 480, y
2 = 565, y
3 = 627.
Distribuição
Alguns requisitos são necessários para a utilização da ANOVA: consideramos o erro experimental
como uma variável independente, que tem distribuição
2
N (0, σ )
2
N (μ + αi , σ )
Veja que nosso objetivo é verificar que as médias de cada população são diferentes. Neste caso,
escrevemos o seguinte teste de hipótese:
H0 : μ = μ = … = μ
1 2 i
{
H1 : μ ≠ μ , (m ≠ n)
m n
Perceba, no exemplo, que considerar uma distribuição normal para o erro significa que, mesmo
existindo outros fatores que afetam o modelo (como o ar-condicionado, a iluminação, o horário da
aula e assim por diante), ainda assim esses fatores não geram viés para o problema quando
combinados entre si.
Veja também que aceitar H0 , no exemplo dado, significa que não podemos afirmar se há influência
do trabalho desenvolvido pelos professores individualmente, visto que não garantimos uma
diferença significativa na média encontrada. Entretanto aceitar H1 indica que as diferenças de, pelo
menos, algumas dessas médias são estatisticamente significativas. Em outras palavras, a
variabilidade dos dados é explicada pelo trabalho desenvolvido pelos professores.
Aqui, antes de realizar os testes de hipótese adequados, precisamos ainda compreender quais são
as medidas de variabilidade e os fatores causadores de variabilidade, para adequarmos o método
da ANOVA. Isso será feito a partir da seção a seguir. Vem comigo!
k ni
2
SQT = ∑ ∑ (y − ȳ )
ij ..
i=1 j=1
Note que, ao somar e subtrair, não alteramos o resultado final e podemos utilizar a propriedade
algébrica para expandir esse termo, obtendo:
k ni
2
SQT = ∑ ∑ [(y − ȳ ) + (ȳ − ȳ )]
ij i. i. ..
i=1 j=1
k ni k ni k ni
2
2 2
SQT = ∑ ∑ (y − ȳ ) + 2. ∑ ∑(y − ȳ ). (ȳ − ȳ ) + ∑ ∑ (ȳ − ȳ )
ij i. ij i. i. .. i. ..
k ni
2. ∑ ∑(y − ȳ ). (ȳ − ȳ ) = 0
ij i. i. ..
i=1 j=1
ni k ni
k
2
mathop∑ ∑(y − ȳ ). (ȳ − ȳ ) = ∑ ∑(y . ȳ − y . ȳ − ȳ + ȳ . ȳ ) =
ij i. i. .. ij i. ij .. i. i. ..
i=1
j=1 i=1 j=1
k ni k ni k ni k ni
2
∑∑y . ȳ − ∑∑y . ȳ − ∑ ∑ ȳ + ∑ ∑ ȳ . ȳ =
ij i. ij .. i. i. ..
k k k k
2 2
∑ ni ȳ − ȳ ∑ ni ȳ − ∑ ni ȳ + ȳ ∑ ni ȳ = 0
i. .. i. i. .. i.
k ni k ni
2
2 2
SQT = ∑ ∑ (y − ȳ ) + ∑ ∑ (ȳ − ȳ )
ij i. i. ..
Você que está se interessando por ANOVA, saiba que o método discutido aqui é conhecido como análise
de variância com um fator. Nesse cenário, investigamos um único fator, como temos feito com os diversos
professores, para verificar se ele é a razão da variabilidade das notas. Mas existem técnicas para ANOVA
com mais de um fator, que geralmente são usadas quando sabemos que existem outros elementos, como
o uso do ar-condicionado ou da iluminação da sala, que devem ser levados em consideração no modelo. A
seguir, temos uma abordagem com dois fatores para análise de certos dados.
Vejamos agora a decomposição da Soma dos Quadrados Totais. Ela será uma ferramenta poderosa
para conhecermos quais são os desvios totais, isto é, aqueles decorrentes de todos os fatores: os
que foram considerados no problema e os que não foram – aqui chamados de erro.
k ni
2
SQA = ∑ ∑ (ȳ − ȳ )
i. ..
i=1 j=1
é chamado de Soma de Quadrados do Fator A (SQA). Este representa o desvio das médias
estimadas em cada um dos níveis do fator A em torno da média geral dos dados. Assim, representa
uma variabilidade, devido aos diferentes níveis que o fator pode assumir.
No exemplo que permeia esta aula, SQA representa a variabilidade que o trabalho de cada docente
provoca no rendimento dos discentes. Como sabemos, este não é o único fator que afeta essa
variável; existem fatores, não considerados no estudo, que também são influentes na análise. Estes
são descritos pela variável SQE, chamada de Soma de Quadrados do Erro, representada no outro
termo de SQT:
k ni
2
2
SQE = ∑ ∑ (y − ȳ )
ij i.
i=1 j=1
Vale reforçar que esse termo representa o que deixou de ser explicado pelo fator A. Assim,
verificamos que:
k 2 2
y y..
i.
SQA = ∑ −
ni n
i=1
k ni 2
y..
2
SQT = ∑ ∑ y −
ij
n
i=1 j=1
Aqui você deve perceber que se trata de um somatório de termos envolvendo o quadrado de cada
observação e do total de observações. Como, no exemplo dado, n1 é 9, n2 é 7, e n3 é 6, então n é
22. Como os valores de cada nível de observação foram previamente desenvolvidos, sendo y1 , 627;
y2 , 565; e y3 , 480, podemos operar as equações para chegar aos valores de SQA, SQE e SQT.
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
Considere três professores que apresentaram as notas de suas turmas na mesma avaliação
simuladas da seguinte forma.
Tabela - Notas de alunos para três professores distintos
Fonte: Elaborada pelo autor.
Com base nas fórmulas discutidas, marque a alternativa que apresenta a soma dos quadrados
do erro deste modelo.
a) SQE = 2.898.
b) SQE = 613.
c) SQE = 38,772.
d) SQE = 2.285.
e) SQE = 120,3.
Distribuição Normal
Para o teste de hipótese realizado na ANOVA, é necessário conhecer o grau de liberdade de cada
uma das parcelas, SQT, SQA e SQE.
SQA
M QA =
k − 1
SQE
M QE =
n − k
SQT
2
M QT = = Sy
n − 1
2
E (QM E) = σ
k
1
2 2
E (QM A) = σ + ∑ ni α
1
k − 1
i=1
Entretanto note que aí está uma das principais análises feitas pela ANOVA. Isso porque, não
existindo diferença nos níveis do fator A, temos que αi = 0, e QMA também estima a variância. No
caso em que essa diferença é significativa, o valor esperado de QMA é maior do que a variância.
REFLITA
Para organizar os dados necessários à análise da ANOVA, costumamos utilizar a tabela da ANOVA,
apresentada a seguir.
Variação SQ gl MQ
O uso da tabela é uma forma efetiva de organizar os dados que já temos, entretanto, para
compreender de onde vem cada uma dessas informações, é interessante utilizarmos o exemplo do
qual estamos tratando para criar sua própria tabela da ANOVA. Vamos verificar como ficará neste
caso.
praticar
Vamos Praticar
Considere três professores que apresentaram as notas de suas turmas na mesma avaliação,
simuladas da seguinte forma.
Prof. 1 82 64 64 79 64 76 52 61 85
Prof. 2 64 88 79 67 85 100 82
Prof. 3 73 91 82 85 82 67
Com base na estrutura proposta nesta aula, construa a tabela da ANOVA para a média dos
professores dados.
Aplicações da
Distribuição Normal
O uso da ANOVA ressalta uma das principais aplicações da distribuição normal na análise
estatística. Agora, verificaremos o teste de hipótese, que deve ser aplicado para poder concluir se
os professores afetam o rendimento dos discentes. Assim, o teste de hipótese que devemos
verificar é sobre o efeito do fator A:
H0 : α1 = α2 = … = αk = 0
{
H1 : αi ≠ 0 (para
algum i = 1, 2, … , k)
Podemos mostrar qual é a distribuição de SQT, SQA e SQE. Discutimos que os erros eij no modelo y
ou =mi+alphai+eij têm, por suposição, distribuição N (0, σ )
2
. Portanto, podemos mostrar que yij
tem distribuição N (μ + αi , σ )
2
.
SQT
Sendo independentes, também mostramos que 2
tem distribuição χ2n−1 (qui-quadrado com n-1
σ
SQE SQA
graus de liberdade). E, de forma equivalente, 2
e 2
tem distribuição χ
2
n−k
e χ
2
k−1
. Assim,
σ σ
SQA
k−1 M QA
F0 = =
SQE
M QE
n−k
Com a necessidade de calcularmos F0 , podemos ampliar a tabela da ANOVA. Para entender isso
melhor, veja, a seguir, a apresentação desta tabela:
Variação SQ gl MQ F0
com a análise de variância de um fator (ou de fator único), usamos um fator como base
para separar os dados em diferentes categorias. Se concluímos que as diferenças entre
as médias são significativas, não podemos estar absolutamente certos de que algum
outro fator desconhecido seja o responsável. Uma maneira de se reduzir o efeito de um
fator estranho é planejar-se o experimento de modo que ele seja um planejamento
completamente aleatorizado, no qual cada elemento tem a mesma chance de pertencer
às diferentes categorias, ou tratamentos (TRIOLA, 2013, p. 514).
Tendo em vista a relevância deste estudo, verifique o infográfico, a seguir, para somar ainda mais
conhecimento ao campo de estudos sobre o qual estamos nos debruçando.
Porque devemos utilizar a
ANOVA?
Comparação de médias
Vantagem da técnica
Casos famosos
#PraCegoVer: o infográfico interativo, que tem o título “Porque devemos utilizar a ANOVA?”, apresenta três
botões. Ao fundo, há a ilustração de três monitores, os quais apresentam gráficos e tabelas. Na frente dos
monitores, há três mãos: duas apontando para as telas e a outra segurando uma lupa. O primeiro botão,
intitulado “Comparação de médias”, ao ser clicado, apresenta o texto “o uso da ANOVA é realizado sempre
que precisamos comparar as médias de diferentes populações”. O segundo botão, intitulado “Vantagem
da técnica”, ao ser clicado, apresenta o texto “uma das principais vantagens é comparar vários grupos
distintos em uma só metodologia”. O terceiro botão, intitulado “Casos famosos”, ao ser clicado, apresenta
o texto “a análise da diferença de notas é uma das suas principais aplicações, sendo que é utilizada para
tratar os dados do Exame Nacional do Ensino Médio (ENEM) e comparar a média dos 27 estados
brasileiros”.
No caso do exemplo que discutimos ao longo desta aula, podemos completar a tabela da ANOVA
calculando F0 . Você pode conferir o resultado na tabela a seguir.
Tabela 3.3 - Tabela da ANOVA ampliada para o resultado do grupo de discentes de cada professor
Fonte: Elaborada pelo autor.
F(95%,2,19) = 3, 52
Note que, como F(95%,2,19) > F0 (I. E. 3, 25 > 2, 547) , não podemos rejeitar a hipótese de que
as médias das turmas desses professores sejam iguais.
O método da ANOVA permite estimar os parâmetros analisados, isto é, as médias para cada grupo
de observações.
Pode-se mostrar, mas foge ao escopo desta disciplina, como se obtém o intervalo de confiança para
cada uma das médias analisadas. O resultado é obtido a partir de:
−−−−−− −−−−−−
α M QE α M QE
¯
¯¯¯¯ ¯
¯¯¯¯
y − t (1 − , n − k) . √ ≤ μ ≤ y + t (1 − , n − k) . √
i. i i.
2 ni 2 ni
Neste caso, t (1 − α
2
, n − k) se refere à distribuição t de student, que pode ser obtido a partir da
consulta em sua tabela específica.
No exemplo que estamos discutindo, podemos encontrar o intervalo de confiança para a média de
cada um dos professores a partir da equação anterior. Neste caso, ao consultar a tabela de student,
obtemos, para os dados do problema: t (0, 025; 19) = 2, 09302 , em que esperamos uma
confiança de 95%, isto é, alpha de 0,05.
Note que:
y 627
1.
ȳ = = = 69, 667
1.
n1 9
y 565
2.
ȳ = = = 80, 714
2.
n2 7
y 480
3.
ȳ = = = 80
3.
n3 6
−−−−− −−−−−
120, 3 120, 3
69, 667 − 2, 09302.√ ≤ μ ≤ 69, 667 + 2, 09302.√
1
9 9
No fim, a figura apresenta os intervalos de confiança para as médias de cada um dos três
professores. Ela foi elaborada com o uso do software Excel.
Aqui, percebemos que o diretor da escola não pode afirmar nada sobre o impacto que cada
professor tem sobre a turma. Embora as médias coletadas sejam diferentes, o gráfico mostra que
ainda existe a possibilidade de a média real não ser exatamente essa. Inclusive, não podemos
descartar a possibilidade de que a média de cada professor seja igual! Esse resultado pode ser
reforçado na atividade a seguir.
praticar
praticar
Vamos Praticar
Discutimos que obtemos o intervalo de confiança para a média de cada professor a partir da
expressão:
−−−−−− −−−−−−
α M QE α M QE
ȳ i . −t (1 − , n − k) . √ ≤ μ ≤ ȳ i . +t (1 − , n − k) . √
i
2 ni 2 ni
Com base no exemplo anterior, determine o intervalo de confiança para a média dos outros dois
professores.
Material
Complementar
WEB
ACESSAR
LIVRO
ISBN: 978-8537815120
Perceba, para finalizar este problema, que o diretor da escola não pode afirmar nada sobre o impacto que
cada professor tem sobre a turma. Embora as médias coletadas sejam diferentes, o gráfico mostra que
ainda existe a possibilidade de a média real não ser exatamente essa. Inclusive, não podemos descartar a
possibilidade de que a média de cada professor seja igual!
Referências
HANS Rosling mostra as melhores estatísticas que você já
viu - Legendado [S. l.: s. n.], 2021. 1 vídeo (20 min.). Publicado
pelo canal TED Brasil. Disponível em:
https://www.youtube.com/watch?v=upA-Jsg4CWs. Acesso
em: 30 set. 2021.
SOUSA, N. Planejamento experimental usando ANOVA de 1 e 2 fatores com R – uma breve abordagem
prática. Lisboa: UAB, 2017. Disponível em:
https://repositorioaberto.uab.pt/bitstream/10400.2/6389/1/R_textAnova12_v5_ReposAb.pdf. Acesso em:
30 set. 2021.
TRIOLA, M. F. Introdução à Estatística: atualização da tecnologia. 11. ed. Rio de Janeiro: LTC, 2013.
WHEELAN, C. Estatística: o que é, para que serve, como funciona. Rio de Janeiro: Zahar, 2016.
ANÁLISE ESTATÍSTICA
REGRESSÃO LINEAR
Autor(a): Guilherme Augusto Pianezzer
Teste de Hipótese
A Figura 4.1 apresenta o tipo de modelo investigado. Aqui, gostaríamos de
encontrar como a variável independente está associada aos possíveis valores
que a variável dependente assume.
F = −k. Δ
X,
Essas medidas podem ser descritas a partir de uma tabela. No exemplo que
discutiremos neste estudo, consideramos os dados descritos na Tabela 4.1.
Deslocamento versus força Força versus deslocamento
Observação F (N ) Observação
Δ
x (cm) Δ
x (cm) F (N )
y = α + β. x + ϵi , i = 1, … , n
y = α + β. x.
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
Um recorte da tabela 4.1 analisada nos mostra que várias medidas foram
realizadas para o deslocamento da mola, resultando em diversas forças
diferentes.
Deslocamento versus força
F (N )
Observação Δ
x (cm)
1 220 122
2 220 119
3 220 122
4 220 122
5 220 122
a) 119 N.
b) 120 N.
c) 120,5 N.
d) 121,4 N.
e) 122 N.
Estimação dos
Parâmetros do
Modelo
Perceba que o nosso objetivo é determinar a melhor reta para esse conjunto de
pontos. Para isso, os parâmetros dele envolvidos são o coeficiente angular e o
coeficiente linear dele. Assim, vejamos com cuidado como selecionar os
devidos valores dele dentre as infinitas possibilidades. Segundo Morettin (2010,
p. 452), encontramos os “estimadores de mínimos quadrados para os
parâmetros do modelo linear, mas o mesmo desenvolvimento pode ser
aplicado em modelos mais complexos”.
ϵi = y − (α + β. xi ) .
i
Como y
i
representa o valor observado e α + β. xi representa o valor
estimado pela regressão, verificamos que ei representa o quão afastada a
estimativa está do valor observado (i.e. medido).
2 2
SQE = ∑ ϵ = ∑ [y − (α + β. xi ]
i i
i=1 i=1
∂
SQE = 0
∂α
{
∂
SQE = 0
∂β
n n
∑ y = ∑ [α + β. xi ]
i=1 i i=1
{
n n
∑ y xi = ∑ [(α + β. xi ) . xi ]
i=1 i i=1
Mesmo com tanta equação para ser analisada, você deve se atentar à
importância dela e aos pré-requisitos necessários à análise correta desse
material. Vejamos, na seção Saiba Mais, uma sugestão de estudo para essa
temática.
SAIBA MAIS
n n
1 1
x̄ = ∑ xi , ȳ = ∑y
i
n n
i=1 i=1
Assim, reescrevemos:
n n
∑ y = nα + β. ∑ xi
i=1 i i=1
{
n n n 2
∑ xi y = α. ∑ xi + β. ∑ x
i=1 i i=1 i=1 i
n n
1
α = [∑ y − β. ∑ xi ]
i
n
i=1 i=1
n n n n n
1
2
∑ xi y = [∑ y − β. ∑ xi ] . ∑ xi + β. ∑ x
i i i
n
i=1 i=1 i=1 i=1 i=1
Multiplicando por n:
n n n n n
2
n. ∑ xi y = [∑ y − β. ∑ xi ] . ∑ xi + βn. ∑ x
i i i
Assim,
n n n
n. ∑ xi y − ∑ xi . ∑ y
i=1 i i=1 i=1 i
β =
n 2 n 2
n. ∑ x − (∑ xi )
i=1 i i=1
Substituindo o termo β na expressão de α , podemos encontrar:
n n
1
α = [∑ y − β. ∑ xi ] =
i
n
i=1 i=1
n n n n n
1 n. ∑ xi y − ∑ xi . ∑ y
i=1 i i=1 i=1 i
[∑ y − [ ] . ∑ xi ]
i 2
n n
n 2
i=1 n. ∑ x − (∑ xi ) i=1
i=1 i i=1
y
^ = α + βx
^
α = ȳ − βx̄
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
Observação Observação
Δ
x (cm) F (N ) Δ
x (cm)
F (N )
Com base nas equações desenvolvidas nessa seção, marque a alternativa que
apresenta o valor correto de α e β.
a) α = 1, 032; β = 105, 38
b) α = 227, 5; β = 129, 4
c) α = 129, 4; β = 227, 5
e) α = 1, 032; β = 0
Correlação
Embora tenhamos encontrado uma reta que descreve, de certa forma, esse
conjunto de dados, você deve perceber que esse método não tem nenhuma
restrição significativa, de forma que pode ser aplicado em, praticamente,
qualquer conjunto de dados numéricos. Entretanto nem todos os fenômenos se
comportam de forma linear, de maneira que o uso desse método de forma
irrestrita pode nos levar a erros sérios. Quando os dados estão fortemente
ajustados pela reta, o índice de correlação linear nos indica esse resultado
mostrando que o método está adequado para esse caso. E aí, nesse caso,
podemos seguir a instrução de Morettin (2010, p. 465), “o modelo linear,
estudado até agora, será utilizado frequentemente para fazer previsões da
variável resposta, y, para algum nível da variável de controle, x.”
F = α + β. Δ
x
Como temos a suposição de que tal experimento atende à Lei de Hooke (i.e.,
F = −k. Δ
x), caso os dados do experimento se comportem como uma reta,
poderemos afirmar que o coeficiente de elasticidade, k, será determinado por
β .
1 x1 y1 x1 y 1 x21
2 x2 y2 x2 y 2 x22
n X xn yn xn y n x2n
n n n n 2
∑ ∑ xi ∑ yi ∑ xi y i ∑ x .
i=1 i=1 i=1 i=1 i
ni xi yi x i . yi Xi2
2
ni xi yi xi . y i x
i
Tabela 4.4 — Tabela com auxílio para cálculos manuais para os dados do exemplo
Fonte: Elaborada pelo autor.
Como
∑ xi 4.550
x̄ = = = 227, 5
n 20
∑y 2588
i
ȳ = = = 129, 4
n 20
Então,
ȳ = α + βx̄
α = βx̄ − ȳ = 105, 38
Perceba que essa técnica permitirá que você determine relações lineares entre
duas variáveis, mas essa operação poderá ser realizada na maior parte dos
dados numéricos. Agora, para verificar que o método pode ser usado e que nos
dará um bom resultado, verificaremos o coeficiente de correlação. Antes disso,
discutiremos o intervalo de confiança na atividade prática.
praticar
Vamos Praticar
Sempre que tratamos de dados estatísticos, seja encontrando um certo
parâmetro, como acabamos de fazer com o coeficiente de elasticidade, ou
seja aplicando uma variedade de métodos, devemos ter em mente que o
valor real pertence a um determinado intervalo de confiança. Nunca será um
número absoluto. Podemos provar que o intervalo de confiança para esse
parâmetro é dado por:
−−−−−−−−−−−− −−−−−−−−−−−−
QM E QM E
β − t α √ ≤ β ≤ β + t α √
(1− ,n−2) n 2 (1− ,n−2) n 2
2
∑ (x i − x̄ ) 2
∑ (x i − x̄ )
i=1 i=1
Com base no problema discutido ao longo deste estudo, consulte uma tabela
de distribuição para encontrar o intervalo de confiança para o coeficiente de
elasticidade e determine o intervalo de confiança para o coeficiente de
elasticidade extraído do modelo.
Regressão Linear
Com o método de regressão linear simples, você sempre será capaz de traçar
uma reta que minimize o quadrado dos erros. Entretanto alguns dados não se
comportam como uma reta, de forma que o modelo desenvolvido não é
adequado para a descrição dela. Avaliamos a qualidade do modelo a partir da
análise do coeficiente de determinação.
n 2
(∑ (xi − x̄)y )
2 i=1 i
R =
n 2 n 2
∑ (xi − x̄) ∑ (y − ȳ )
i=1 i=1 i
Pode-se provar que seu valor está contido entre 0 e 1. Alguns livros chamam de
coeficiente de determinação o termo R, tal que −1 ≤ R ≤ 1; entretanto
utilizar , tal que , facilita a análise, ao evitar operar com
2 2
R 0 ≤ R ≤ 1
(vide Figura 4.3), mais forte é o poder explicativo do modelo linear. Quanto
mais R
2
→ 0 (vide Figura 4.4), menos podemos confiar no modelo, visto que
os dados não se aproximam de uma reta.
Figura 4.3 — Dados dispersos, mas, aproximadamente, lineares
Fonte: Morettin (2010, p. 472).
praticar
Vamos Praticar
Para os dados do exemplo, representados pela tabela inicial e discutido ao
longo deste estudo, deslocamento versus força, podemos determinar o
coeficiente de determinação deles. A partir do que foi apresentado, use a
n 2
determinação.
Material
Complementar
WEB
ACESSAR
LIVRO
ISBN: 978-85-752-2168-6
Você deve dominar essa técnica básica com cuidado e lembrar-se, principalmente,
de que a utilização dela quase sempre traz um resultado, mas interpretação,
previamente a partir do coeficiente de correlação, é essencial para garantir a
confiabilidade do resultado.
Referências
3 ways to spot a bad statistic | Mona
Chalabi. [S. l.: s. n.], 2017. 1 vídeo (11
min). Publicado pelo canal Ted.
Disponível em:
https://www.youtube.com/watch?
v=Zwwanld4T1w. Acesso em: 19 out.
2021.
Regra da Cadeia - Parte 1 (Aula 9). [S. l.: s. n.], 2016. 1 vídeo (32 min). Publicado
pelo canal Ferreto Matemática. Disponível em: https://www.youtube.com/watch?
v=p9xjPa1EVrw. Acesso em: 19 out. 2021.