Você está na página 1de 12

INSTRODUÇÃO À ESTATÍSTICA APLICADA

| 21068

Período de Realização
Decorre de 15 a 21 de novembro de 2022
Conteúdos
 Apresentação dos Dados: Quadros e Gráficos
 Distribuição de Frequências
 Medidas de Estatística Descritiva: Medidas de Localização, Medidas de Dispersão
Competências Deve demonstrar capacidades para:
1. Organizar e analisar dados estatísticos, calcular e interpretar índices estatísticos.
2. Usar e aplicar corretamente as fórmulas abordadas a problemas concretos.

Exercício 1

Num exame de Estatística cotado de 0-100, os 5 números seguintes sumarizam os resultados


obtidos para o Min, Q1, Mediana, Q3 e Máximo, respetivamente.
35, 68, 77, 83, 97
Justifique, apresentando todos os cálculos necessários, cada uma das alíneas abaixo (nota:
considere uma classe de 196 alunos):
a) Quantos alunos tiveram classificação entre 77 e 83? (Justifique, apresentando todos os
cálculos necessários).
b) Qual o número de alunos representado no intervalo inter-quartílico?

Resolução
a)
Pela definição os quartis são os valores da variável que dividem a distribuição de frequências
em quatro partes iguais (livro adotado, pág. 86). Assim:
Q1, o primeiro quartil – Valor da variável tal que o número de observações para valores
inferiores será 25% e superiores 75%. Portanto 25% dos alunos (ou 0,25 x 196 = 49 alunos)
obtiveram classificação de 35 até 68 e 75% dos alunos (0,75 x 196 = 147 alunos) obtiveram
classificação de 68 a 97.
Proposta de Resolução do e-Fólio A INSTRODUÇÃO À ESTATÍSTICA APLICADA
| 21068

Mediana – Valor que terá metade das observações à sua direita e outra metade à sua
esquerda. Portanto 50% dos alunos (ou 0,5 x 196 = 98 alunos) obtiveram classificação de 35 a
77 e 50% dos alunos (ou 0,5 x 196 = 98 alunos) obtiveram classificação de 77 a 97.
Q3, o terceiro quartil – Valor da variável tal que à sua esquerda concentrar-se-ão ¾ das
observações e à sua direita as restantes 25%. Portanto 75% dos alunos (ou 0,75 x 196 = 147
alunos) obtiveram classificação de 35 a 83 e 25% dos alunos (ou 0,25 x 196 = 49 alunos)
obtiveram classificação entre 83 e 97.

Com classificação entre 77 e 83 houve assim 147 – 98 = 49 alunos.


Na ausência de número total de alunos, poderíamos explicitar a resposta percentualmente,
isto é, 75% - 50% = 25% dos alunos obtiveram classificação entre 83 e 77.
b)
O intervalo inter-quartílico engloba 50% das observações (livro adotado, pág. 99). Assim, estão
representados no intervalo inter-quartílico 0,5 x 196 = 98 alunos.
Recorrendo ao número de alunos afetos ao terceiro e primeiro quartis, conforme obtido na
alínea anterior teríamos 147 – 49 = 98 alunos.
Na ausência de número total de alunos, poderíamos explicitar a resposta percentualmente,
isto é 75% - 25% = 50% dos alunos estão representados no intervalo inter-quartílico.

Exercício 2

Considere o histograma seguinte:

2.1 Construa o histograma de frequências relativas acumuladas.


2.2 Identifique o 3º Quartil no histograma adequado.
2.3 Em que intervalo de valores se situa a moda?
2.4 Das caixas-de-bigodes (boxplots) abaixo averigue e justifique:
a) se alguma delas corresponde aos mesmos dados do histograma ilustrado na questão 2;
b) se as caixas-de-bigodes com a maior e com a menor amplitude diferem quanto ao valor
mínimo.

Página 2 de 12
Proposta de Resolução do e-Fólio A INSTRODUÇÃO À ESTATÍSTICA APLICADA
| 21068

Resolução
2.1
Lendo diretamente nos eixos do histograma, podem obter-se os limites das classes e as
respetivas frequências absolutas. O histograma tem 11 classes a que, de acordo com a figura,
correspondem os seguintes limites:

i Linf Lsup i Linf Lsup i Linf Lsup


1 0 10 5 40 50 9 80 90
2 10 20 6 50 60 10 90 100
3 20 30 7 60 70 11 100 110
4 30 40 8 70 80

As frequências são as seguintes;

i Fs i Fs i Fs
1 5 5 0 9 1
2 11 6 2 10 0
3 9 7 1 11 1
4 9 8 1

É importante referir que todas as classes têm a mesma amplitude (= 10). Assim, podem
representar-se diretamente as frequências no histograma, o que está de acordo com o título
do eixo das ordenadas. Caso tal não acontecesse, o eixo representaria as densidades
(frequências normalizadas) sendo então necessário multiplicar cada densidade (frequência
normalizada) pela amplitude da classe para obter a respetiva frequência simples.

Página 3 de 12
Proposta de Resolução do e-Fólio A INSTRODUÇÃO À ESTATÍSTICA APLICADA
| 21068

Estamos agora em condições de calcular as frequências relativas simples e depois calcular e


representar as frequências relativas acumuladas.
Começamos por obter o número total de observações somando as frequências absolutas
simples:

Seguidamente obtemos as frequências relativas dividindo cada frequência absoluta por :

Sistematizando numa tabela:

O histograma de frequências relativas acumuladas será assim:

Página 4 de 12
Proposta de Resolução do e-Fólio A INSTRODUÇÃO À ESTATÍSTICA APLICADA
| 21068

2.2
Para identificar o 3º Quartil pode utilizar-se o histograma de frequências relativas, procurar a
classe que contém a frequência relativa acumulada 0,75 e obter o valor do quartil por
interpolação.
A classe que contém o 3º Quartil é a classe 30 – 40 que eleva a frequência relativa acumulada
de 0,625 para 0,85:
A interpolação cuja construção gráfica se apresenta, corresponde à expressão do terceiro
quartil para dados agrupados em classes.

Numericamente:

Recolhendo os dados da classe 30 – 40 e aplicando na expressão obtém-se o valor para o 3.º


quartil (já representado no diagrama) :

2.3
Como todas as classes têm a mesma amplitude (= 10), o intervalo onde se situa a moda (ou
classe modal) será a classe que tiver maior frequência. Por inspeção do histograma dado no
enunciado, conclui-se que será a classe 10 – 20 com frequência absoluta simples = 11.
Se as classes não tivessem todas a mesma amplitude, para obter a classe modal seria
necessário procurar a classe com maior densidade (frequência normalizada).

Página 5 de 12
Proposta de Resolução do e-Fólio A INSTRODUÇÃO À ESTATÍSTICA APLICADA
| 21068

2.4 a)
Obtivemos na alínea anterior para o 3.º quartil o valor 35,56. Das quatro box plots
apresentadas, apenas a representada pela letra D tem um 3.º quartil compatível com 35,56.
Vejamos se o 1.º quartil e a mediana da distribuição dada também são compatíveis com a box
plot representada pela letra D.
1.º quartil está na classe 10 – 20 pois eleva a frequência relativa acumulada de 0,125 para 0,4
incluindo assim a frequência relativa acumulada 0,25.
A mediana está na classe 20 – 30 pois eleva a frequência relativa acumulada de 0,4 para 0,625
incluindo assim a frequência relativa acumulada 0,5.
Aparentemente 1.º quartil e mediana são também coerentes com a box plot representada pela
letra D.
Para investigar a presença de ouliers é necessário obter o valor do 1.º quartil
Recolhendo os dados da classe 10 – 20 e aplicando na expressão obtém-se o valor para o 1.º
quartil

Donde
Consideram-se potenciais outliers os valores abaixo da barreira inferior e os
valores acima da barreira superior .
Serão assim potenciais outliers os valores e os valores

Não existem valores inferiores a o que está coerente com a box plot D (não apresenta
outliers à esquerda, sendo o mínimo o valor 0).
Estão acima de 67,07 os valores das classes 8, 9, 10 e 11. De acordo com a tabela de
frequências existem 3 valores nestas condições. A box plot D apresenta de facto oultiers à
direita (embora apenas dois e não três, mas a figura não está particularmente nítida).
A box plot D tem alguma aderência aos dados do histograma ilustrado na questão 2.

2.4b)
Lendo diretamente nas box plots A, B, C e D, as medidas serão aproximadamente as seguintes
Box plot A
 Mínimo dos dados
 1.º Quartil
 Mediana
 3.º Quartil
 Máximo dos dados

Página 6 de 12
Proposta de Resolução do e-Fólio A INSTRODUÇÃO À ESTATÍSTICA APLICADA
| 21068

Donde se calculam
 Amplitude do intervalo de variação
 Amplitude do intervalo interquartis
Box plot B
 Mínimo dos dados
 1.º Quartil
 Mediana
 3.º Quartil
 Máximo dos dados

Donde se calculam
 Amplitude do intervalo de variação
 Amplitude do intervalo interquartis
Box plot C
 Mínimo dos dados
 1.º Quartil
 Mediana
 3.º Quartil
 Máximo dos dados

Donde se calculam
 Amplitude do intervalo de variação
 Amplitude do intervalo interquartis
Box plot D
 Mínimo dos dados
 1.º Quartil
 Mediana
 3.º Quartil
 Máximo dos dados

Donde se calculam
 Amplitude do intervalo de variação
 Amplitude do intervalo interquartis
Estes dados permitem-nos concluir o seguinte
Referindo-nos à amplitude do intervalo de variação e ao mínimo dos dados :
 Box plot com menor é a box plot D ( ) cujo é0
 Box plot com maior são as box plots A, B e C ( ) cujo é0
As box plots não diferem quanto ao valor mínimo.
Referindo-nos à amplitude do intervalo interquartis e ao mínimo da box :
 Box plot com menor é a box plot D ( ) cujo é 15
 Box plot com maior é a box plot C ( ) cujo é 20
As box plots diferem quanto ao valor mínimo.

Página 7 de 12
Proposta de Resolução do e-Fólio A INSTRODUÇÃO À ESTATÍSTICA APLICADA
| 21068

Exercício 3
Considere a seguinte tabela representativa do número de unidades de certo produto vendidas
(em milhões) pelas sucursais A,…,J da empresa XPTO:

a) Determine a percentagem de sucursais, cujo número de unidades vendidas se encontra no


intervalo [μ-2σ; μ+2σ].
b) Qual é a moda desta distribuição? Justifique.
c) Construa e interprete a respetiva curva de Lorentz.
d) Determine o índice de concentração de Gini. Interprete o resultado obtido.

Resolução
a)
Começamos por calcular a média . Existem 10 sucursais de A a J pelo que . Como os
dados não estão agregados, a expressão a utilizar será

Seguidamente, para obter o desvio padrão há que começar por calcular a variância .
Optando pela expressão da definição obtém-se

O intervalo será então

Sendo o mínimo do conjunto de dados 3 e o máximo 30 todos os valores se encontram no


intervalo indicado. A percentagem será assim 100%.
b)
Por definição a moda é o valor que mais observações apresenta no conjunto de dados.
Analisando os dados vemos que 2 sucursais venderam 12 unidades (as sucursais D e I) e que
também 2 sucursais venderam 17 unidades (as sucursais E e H). As restantes unidades
vendidas foram únicas nas sucursais, isto é, não se repetiram. Assim, poderíamos dizer que a
distribuição é bimodal, sendo as modas 12 e 17.

Página 8 de 12
Proposta de Resolução do e-Fólio A INSTRODUÇÃO À ESTATÍSTICA APLICADA
| 21068

Tratando-se de dados quantitativos discretos, pode construir-se o diagrama diferencial e


identificar graficamente a moda:

O diagrama revela que os dados se distribuem esparsamente pelo intervalo de variação, o que
compromete de alguma forma a utilização das medidas de localização. No limite poder-se-ia
dizer que praticamente todos os valores são modas locais.
c)
Obtém-se a curva de Lorenz (livro adotado, pág. 111) unindo num referencial cartesiano, as
frequências acumuladas relativamente ao total , com as frequências do
atributo em estudo também relativamente ao total .
Nesta questão será o número de sucursais e o atributo será o número de unidades
vendidas pelas sucursais.
Ordenando as sucursais pelo número de unidades vendidas e sistematizando num quadro, os
valores a considerar são os seguintes:

Página 9 de 12
Proposta de Resolução do e-Fólio A INSTRODUÇÃO À ESTATÍSTICA APLICADA
| 21068

A curva de Lorenz será então a seguinte:

Lendo diretamente no gráfico podemos por exemplo ver que 50% das sucursais apenas
venderam 27,33% das unidades, ou que para conseguir 50% das unidades vendidas foram
necessárias 70% das sucursais. Isto configura uma concentração moderada.
Juntou-se também a reta de igual distribuição. A área entre a reta de igual distribuição e a
curva de Lorenz é a área de concentração. Quanto maior a concentração, mais a curva de
Lorenz se afastará da reta de igual distribuição. Na situação de máxima concentração a área de
concentração é o triângulo (0% ; 0%), (100% ; 0%), (100% ; 100%)
d)
O índice de Gini calcula-se pela expressão seguinte, onde e (livro
adotado pág. 115).

Aplicando aos dados da tabela da alínea anterior obtém-se

Donde

Sabendo que o índice de Gini varia entre 0 (quando o atributo se reparte equitativamente por
todos os elementos do conjunto de dados) e 1 (quando todo o atributo é realizado por um
único elemento do conjunto de dados), o valor 0,3407 obtido configura uma concentração
moderada, justificando o que se referiu na alínea anterior.

Página 10 de 12
Proposta de Resolução do e-Fólio A INSTRODUÇÃO À ESTATÍSTICA APLICADA
| 21068

Exercício 4
Comente a veracidade de cada uma das alíneas abaixo e em cada caso, sempre que possível,
apresente um exemplo/contra-exemplo:
i) A mediana pode tomar um valor diferente de qualquer dos valores observados.
ii) A moda não é afetada por valores extremos a não ser quando a amplitude é pequena.
iii) Um coeficiente de Gini com valor 0 para um País é indicativo de que este não tem um
determinado sector de serviços.
iv) Duplicar o valor máximo em qualquer conjunto de dados, faz com que o intervalo inter-
quartílico se altere.

Resolução

i) A mediana pode tomar um valor diferente de qualquer dos valores observados.


Verdadeiro
Para dados quantitativos discretos, caso N seja par, a mediana será a média entre os
elementos centrais (de ordem e  livro adotado pág. 78). Assim, em amostras com
número par de dados, sempre que os elementos centrais sejam diferentes, a mediana toma
um valor diferente de qualquer dos valores observados.
Exemplo

ii) A moda não é afetada por valores extremos a não ser quando a amplitude é pequena.
Falso
A moda será afetada por valores extremos se a moda for um dos extremos
Exemplo
O conjunto tem moda 10.000.000 e
amplitude 2. Posso fazer aproximar os extremos para 10.000.000 diminuindo arbitrariamente
a amplitude (de forma a tender para zero) que a moda não se altera, permanece 10.000.000.

iii) Um coeficiente de Gini com valor 0 para um País é indicativo de que este não tem um
determinado sector de serviços.
Falso
O índice de Gini é nulo quando houver igual distribuição do atributo pelos elementos em
estudo.
Exemplo
Um hipotético país que tivesse toda a população com a vacinação COVID19 completa e
equitativamente distribuída, teria o correspondente índice de Gini nulo, e não haveria falta do
serviço.

iv) Duplicar o valor máximo em qualquer conjunto de dados, faz com que o intervalo inter-
quartílico se altere.
Falso
O intervalo inter-quartílico é definido como a diferença entre o terceiro e o primeiro quartis e
corresponde ao intervalo que engloba 50% das observações centrais (livro adotado pág. 99).

Página 11 de 12
Proposta de Resolução do e-Fólio A INSTRODUÇÃO À ESTATÍSTICA APLICADA
| 21068

Assim, desde que o valor máximo não pertença aos 50% das observações centrais, a sua
duplicação não tem impacto no intervalo inter-quartílico.
Exemplo
Os conjuntos X e Y seguintes

têm o mesmo intervalo inter-quartílico e o máximo de Y é o dobro do máximo de X.

Página 12 de 12

Você também pode gostar