Escolar Documentos
Profissional Documentos
Cultura Documentos
MEDIDAS DE TENDÊNCIA
CENTRAL
A u t o r ( a ) : D r. G u i l h e r m e A u g u s t o P i a n e z z e r
Introdução
Caro(a) estudante, seja muito bem-vindo(a) ao estudo de “Análise estatística”. Nele, aprenderemos
sobre as principais medidas de tendência central, que nos permitem descrever a distribuição de
certo conjunto de dados. Como sabemos, a extração da amostra a partir da população segue
certas regras que precisam ser respeitadas para que a amostra selecionada, realmente, represente
a população escolhida. Aqui, a diferença aparece quando tratamos as diversas medidas de
tendência central, seja para a amostra, seja para a população. Ao compreender esses diversos
tipos de cálculos e expressões, conseguimos formalizar o que faz a estatística.
Medidas de Tendência
Central – Médias
Somatório
A representação de uma variável de interesse pode ser utilizada usando um símbolo, digamos, x.
Então, essa variável poderá representar cada um dos valores que a variável de interesse pode
admitir. Vamos imaginar uma sequência, por exemplo:
Nesse caso, podemos utilizar um índice para indicar o ordenamento dos dados. Dessa forma,
teríamos:
4, 3, 5, 4, 3, 2, 2, 3, 2, 3, 3, 4, 3, 5, 4, 3
Nela, temos a ocorrência de 4 dados. Aqui, devemos tomar cuidado ao observar que as ocorrências
possíveis são denotadas por:
x1 = 2, x2 = 3, x3 = 4, x4 = 5
Assim, a quantidade de vezes em que o dado aparece poderá ser resumida ao se usar a função
frequência. Nesse caso, realizando o processo de contagem, verificamos que:
Perceba, neste exemplo, que todos os dados podem ser apresentados a partir da tabela de
frequência, conforme disposto na Tabela 2.1.
k xk f (xk )
1 2 3
2 3 7
3 4 4
4 5 2
Tabela 2.1 - Tabela de frequência para os dados exemplificados a partir da notação indicial
Fonte: Elaborada pelo autor.
Uma das etapas essenciais para o tratamento de dados estatísticos é a ordenação ou organização
dos dados. Com isso, vejamos como fazer essa disposição de forma interativa.
S = x1 + x2 + x3 + x4 + x5 .
Embora essa operação tenha sido apresentada de forma adequada para esse conjunto, quando
tratamos de uma quantidade maior de dados, é necessário utilizar a simplificação simbólica. Nesse
caso, usamos o símbolo de somatório, denotado por:
∑ xi
i=1
Nesse cenário, i é conhecida como a variável de controle, em que i=1 é o primeiro termo a ser
somado e i=n o último. Note que a expressão dada anteriormente pode ser simplificada e
representada por:
∑ xi = 68
i=1
n n
∑ c. xi = c. ∑ xi , c ∈ R
i=1 i=1
Em outras expressões, seremos convidados a somar uma sequência de termos constantes, i.e., de
termos iguais. Nesse caso, teremos que:
n n
∑ xi = ∑ c = n. c, c ∈ R
i=1 i=1
Também deverá ser simplificada a soma ou a diferença entre duas variáveis. Assim, é válido que:
n n n
∑ (xi + yi ) = ∑ xi + ∑ yi
Média Aritmética
Definimos a média aritmética como a soma de todos os dados dividida pelo número de dados. Isso
pode ser simplificado pela notação de somatório, de forma que:
n
∑ xi
i=1
m
é
dia =
n
Aqui, você deve tomar cuidado em relação ao tipo de dado com que está lidando. Isso porque
existem, pelo menos, duas médias: uma referente à média populacional e outra, à média amostral.
Assim, considerando n como o tamanho da amostra e N como o tamanho da população, podemos
estabelecer duas médias distintas:
n
∑ xi
i=1
x̄ =
n
N
∑ xi
i=1
μ =
N
Agora que você foi capaz de determinar a média populacional e a média amostral, e diferenciá-las,
vejamos, a partir da próxima atividade, como organizar dados para extrair tais informações.
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
0 5 6 0 2 0 8 0 15 0 0 0 0 8 0 0 6 0 5 5 4 0 0 5 0 0 6
Tais dados indicavam a quantidade diária de faltas para os 27 dias do mês analisado.
a) 5,25.
b) 2,77.
c) 5,5.
d) 6,25.
e) 75.
Moda e Mediana
Além da média, podemos levantar outras medidas de tendência central, como é o caso da moda e
da mediana.
Mediana
Definimos a mediana como um valor que divide o conjunto de dados, quando ordenados, ao meio.
Triola (2013, p. 72) define “mediana de um conjunto de dados como a medida de centro que é o
valor do meio quando os dados originais estão arranjados em ordem crescente (ou decrescente) de
magnitude”, enquanto isso, Morettin (2010, p. 35) define “mediana como a realização que ocupa a
posição central da série de observações, quando estão ordenadas em ordem crescente”. Então,
considere os dados referentes à quantidade de ganhadores da Mega-Sena nos últimos 13 sorteios
realizados:
3 1 3 2 0 2 5 0 1 2 3 4 3 1
0, 0, 1, 1, 1, 2, 2, 3, 3, 3, 3, 4, 5
Perceba que, por se tratar de 13 dados, a mediana será o valor que está na posição central, ou seja,
na sétima posição. Até aqui, acredito que não há nenhum grande problema. Entretanto, quando a
quantidade de dados é par, devemos notar que a mediana será definida como a média entre os dois
valores centrais. Para verificar como se calcula a mediana nesse caso, observe o exemplo:
0, 0, 1, 1, 1, 2, 2, 3, 3, 3, 3, 4
Nele, a mediana será dada pela média entre os dois valores centrais. Assim, será calculada como:
2 + 3
= 2, 5
2
Moda
Definimos a moda, em estatística, como o valor que mais aparece em um conjunto de dados. Triola
(2013, p. 72) define “moda de um conjunto de dados como o valor que ocorre com maior
frequência”. Então, pode ser entendida como o valor que apresenta a maior frequência.
Para exemplificar, vamos considerar uma pesquisa de satisfação sobre o serviço oferecido pela
internet de seu bairro por diversas operadoras. Nesse caso, os entrevistados foram solicitados a
responder entre E – Excelente, O – Ótimo, B – Bom, R – Regular e P – Péssimo. Assim, a operadora
A teve as seguintes respostas:
A operadora B:
E a operadora C:
Perceba que a moda para a operadora A é O; para a operadora B, a moda é B e O (ou seja, é
bimodal); enquanto a operadora C não tem moda, uma vez que todos os dados aparecem na
mesma frequência.
SAIBA MAIS
Os dados, quando lidos de forma bruta, não são capazes de nos fornecer interpretações adequadas sobre
os fenômenos que estão ocorrendo. Dessa forma, o simples ato de organizar os dados já é essencial para
extrair significado daquilo que estamos lendo. Perceba que a organização e a leitura correta deles
permitem tomar decisões de forma razoável, calcular riscos e otimizar processos.
Para saber mais sobre a importância de acessar dados, confira o link a seguir:
http://blog.coletum.com/organizar-dados-de-forma-estrategica/.
Aqui, é interessante perceber que alguns dados estarão distribuídos em tabela de frequência, e,
devido a isso, haverá procedimentos específicos para o cálculo de média, moda e mediana.
Vejamos, em detalhes, esse quesito.
1 11 2 2
2 12 5 7
3 13 8 15
4 14 6 21
5 15 5 26
6 16 4 30
Σ 30
Para iniciarmos com o cálculo da mediana, perceba que ela tem a função de separar os dados em
dois grupos de mesmo tamanho, de forma que a posição dela será dada por:
1 + 30
i = = 15, 5
2
Assim, a tabela de frequência acumulada nos permite extrair, rapidamente, que a 15ª observação é
de 13, enquanto a 16ª é 14. Desse modo, a mediana é dada por 13,5, isso porque:
13 + 14
= 13, 5
2
Em relação à moda, como se refere ao dado que mais aparece, será, então, o de maior frequência.
Assim, a moda é 13. Em relação à média, quando temos um conjunto de dados distribuídos em
uma tabela de frequência, realizamos o cálculo de forma equivalente, mas com uma pequena
alteração. Nesse caso,
m
∑ xk . f (xk )
k=1
x̄ =
n
Veja que m representa a quantidade de observações semelhantes, a qual, nesse exemplo, é 6. Nos
dados da Tabela 2.2, concluímos que:
m
∑ xk . f (xk ) 409
k=1
x̄ = = = 13, 6
n 30
Perceba que, mesmo com dados distribuídos de acordo com a frequência, ainda podemos extrair
medidas de tendência central significativas que indicam a forma e as características da
distribuição. Agora, vejamos, em uma atividade, como fazer os cálculos aprendidos nesta seção.
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
1 10
2 19
3 5
4 2
Para calcular a média do conjunto de dados fornecidos, com base nos conceitos de média com o
uso da tabela de frequência, utilize a expressão dada por:
m
∑ x k . f (x k )
k=1
x̄ =
n
a) 1,94.
b) 1,95.
c) 1,96.
d) 1,97.
e) 1,98.
Medidas de Dispersão –
Variância e Desvio
Padrão
desvio = xi − x̄
REFLITA
Uma estratégia é calcular o módulo de cada um dos desvios antes do somatório para definirmos o
desvio médio absoluto:
n
∑ |xi − x̄|
i=1
DM =
n
Todavia, na dificuldade em usar um termo com módulo no cálculo de desvio, costumamos usar o
desvio padrão e a variância para, de forma mais adequada, descrever essa dispersão. Entretanto
esse indicativo é considerado forte para indicar a dispersão de um conjunto de dados.
Fonte: VG Educacional
A estratégia mais comum para contornar o fato de que a soma dos desvios é igual a zero é, em vez de utilizar o módulo,
elevar cada um dos desvios ao quadrado.
Para o cálculo da variância populacional ou para o cálculo da variância amostral, devemos somar
os quadrados de cada um dos desvios e dividir pelo tamanho da população, N, ou pelo tamanho da
amostra, n, respectivamente, isto é:
N 2
∑ (xi − μ)
2 i=1
σ =
N
n 2
∑ (xi − x̄)
2 i=1
s =
n − 1
Como exemplo, podemos ver o cálculo da variância amostral para a amostra dada por:
11 16 12 14 13.
11 + 16 + 12 + 14 + 13
x̄ = = 11, 2
5
2 2 2 2 2
(11 − 11, 2) + (16 − 11, 2) + (12 − 11, 2) + (14 − 11, 2) + (13 − 11, 2)
2
s =
5 − 1
2
s = 8, 7
Em estatística, a variância é considerada uma ótima medida de dispersão, mas, geralmente, não é
escolhida para descrever certas dispersões. Isso porque a maior parte dos dados costuma vir
acompanhada de uma unidade de medida (metro, quilograma, reais, alunos etc.). Quando
realizamos o cálculo da variância, elevamos os desvios ao quadrado, de forma que a unidade de
medida da variância carece da mesma interpretação dos dados originais (nesse caso, são dados
em metro ao quadrado, quilograma ao quadrado, reais ao quadrado e assim por diante).
Então, para contornar essa dificuldade de unidade de medida, calculamos a raiz quadrada da
variância, definida como o desvio padrão. Para isso, vamos pensar em um fabricante de bolos que
pesou 7 deles e obteve as seguintes medidas, todas em quilogramas:
1, 2 + 1, 3 + 1, 4 + 1, 2 + 1, 3 + 1, 5 + 1, 3
x̄ = = 1, 3 kg
7
2 2 2
(1, 2 − 1, 3) + (1, 3 − 1, 3) + … + (1, 3 − 1, 3)
2 2
s = = 0, 01 kg
7 − 1
−− −−− −
2
s = √s = √0, 01 = 0, 1 kg
praticar
Vamos Praticar
Considere três candidatos a uma vaga para executar determinado serviço. Para a escolha, o
critério é a rapidez do candidato. Para isso, extraíram-se amostras de 7 tempos, em minutos,
correspondendo ao que cada candidato levou para realizar certa atividade, conforme a tabela a
seguir.
Candidato Tempo (min)
Com base nos conteúdos referentes à média, à variância e ao desvio padrão, calcule esses três
parâmetros para os candidatos dados e apresente qual deveria ser contratado.
Medidas de Assimetria e
Medidas de Curtose
Vejamos, nesta seção, como descrever os conceitos de assimetria e de curtose, necessários para,
de forma mais adequada, descrever cada distribuição de dados.
Assimetria
Consideramos a assimetria como um grau de desvio da simetria de uma certa distribuição. Triola
(2013, p. 77) indica que “uma distribuição de dados é assimétrica quando se estende mais para um
lado do que para o outro. Uma distribuição de dados é simétrica se a metade esquerda do
histograma for praticamente uma imagem espelhada da metade direita”. De forma geral, quando a
curva é simétrica, a média, a mediana e a moda coincidem num mesmo ponto! Nesse caso,
consideramos que existe um equilíbrio perfeito na distribuição: ela se aproxima do formato da
distribuição normal padrão. Vamos entender isso melhor analisando a figura a seguir?
#PraCegoVer: na figura, observamos uma distribuição simétrica na forma de sino, em que a média, a
mediana e a moda são iguais. No histograma, a metade esquerda e a metade direita são espelhadas.
Entretanto, nos casos em que a média, a mediana e a moda recaem em pontos diferentes da
distribuição, teremos uma distribuição assimétrica, podendo ser um dos dois casos: enviesada à
direita ou à esquerda.
#PraCegoVer: na figura, observamos uma distribuição em que a média é menor que a mediana, que, por
sua vez, é menor que a moda. Observamos, dessa forma, uma distribuição assimétrica negativamente
com formato deformado de sino, com a cauda maior do lado esquerdo.
#PraCegoVer: na figura, observamos uma distribuição em que a média é maior que a mediana, que, por
sua vez, é maior que a moda. Observamos, dessa forma, uma distribuição assimétrica positivamente com
formato deformado de sino, com a cauda maior do lado direito.
Apenas com conhecimento da média, da mediana e da moda, perceba que podemos ter uma boa
noção sobre a assimetria da curva e o formato de distribuição.
Assim como a assimetria indica o grau de desvio de uma distribuição, outra característica que
apresenta a forma da distribuição é a curtose, a qual será discutida na seção posterior.
Curtose
Definimos a curtose como o grau de achatamento de uma distribuição em relação à distribuição
normal. Note que a distribuição normal é o padrão de curtose, considerado, aqui, como a curtose
do tipo mesocúrtica. Nesse caso, podemos observar esse conceito sendo exemplificado na Figura
2.4, a seguir:
Figura 2.4 - Curva de distribuição mesocúrtica, apresentando uma distribuição normal devido ao
formato
Fonte: Triola (2013, p. 204).
Os outros casos de curtose são curvas mais pontiagudas em relação a essa referência ou mais
achatadas. Perceba que a curtose será do tipo leptocúrtica quando a distribuição for mais
pontiaguda que a normal, conforme Figura 2.5, a seguir:
Figura 2.5 - Curva de distribuição leptocúrtica, com distribuição mais pontiaguda que a normal
Fonte: Triola (2013, p. 237).
#PraCegoVer: na figura, observamos uma distribuição em forma de sino, considerada leptocúrtica. Assim,
os dados são distribuídos com desvio padrão maior em relação à curva de referência, que é a normal
padrão.
A curtose será do tipo platicúrtica quando a distribuição for mais achatada que a normal, como
podemos analisar na Figura 2.6.
Figura 2.6 - Curva de distribuição platicúrtica, com distribuição mais achatada que a normal
Fonte: Triola (2013, p. 237).
#PraCegoVer: na figura, observamos uma distribuição em forma de sino, considerada platicúrtica. Assim,
os dados são distribuídos com desvio padrão maior em relação à curva de referência, que é a normal
padrão.
Agora que você aprendeu sobre os diversos tipos de distribuição e os formatos dela, vejamos como
realizar um critério para a classificação da curva.
praticar
Vamos Praticar
Em vez de analisar o formato da curva visualmente, o cálculo da curtose nos permite inferir o
formato dela sem precisar da representação gráfica. Para isso, um dos cálculos é definido pelo
coeficiente percentílico de curtose, que é calculado deste modo:
D
C =
C90 − C10
Aqui, o autor considera que, para C = 0,263, a distribuição é mesocúrtica. Para C < 0,263, a
distribuição é leptocúrtica, enquanto, para C > 0,263, a distribuição é platicúrtica.
Idade (anos) Número de alunos
7–9 197
9–11 372
11–13 527
13–15 114
15–17 49
17–19 25
19–21 3
Total 1.287
Com base nos dados coletados de estrutura etária dos alunos de certa unidade escolar, encontre
a curtose por meio do coeficiente percentílico de curtose.
Material
Complementar
FILME
TRAILER
LIVRO
ISBN: 978-8537801161
Referências
MORETTIN, P. A. Estatística básica. 6. ed. São Paulo: Saraiva,
2010.
QUAL a importância de organizar dados de forma estratégica? Coletum, 2018. Disponível em:
http://blog.coletum.com/organizar-dados-de-forma-estrategica/. Acesso em: 18 set. 2021.
SALSBURG, D. Uma senhora toma chá...: como a Estatística revolucionou a ciência do século XX. Rio de
Janeiro: Zahar, 2009.
TRIOLA, M. F. Introdução à estatística: atualização da tecnologia. 11. ed. Rio de Janeiro: LTC, 2013.