Você está na página 1de 16

INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE

SANTA CATARINA CAMPUS FLORIANÓPOLIS – DACC –


BACHARELADO EM ENGENHARIA CIVIL
UNIDADE CURRICULAR: ESTATÍSTICA E PROBABILIDADE – ETP 22202
PROFESSOR: Adriano Vitor
Aluno (a): Yasmin Alflen Bello da Silva Data: 21/10/2022

1ª Avaliação de Estatística

1. (Valor 1,5 - Descritiva/Inferencial)

a) É bem conhecido que a estatística divide-se em duas grandes áreas: Descritiva e


Inferencial. Apresente uma discussão acerca da ocupação principal de cada uma delas,
mencionando os termos: coleta de dados, apresentação dos dados, inferência sobre os dados,
testes de hipóteses, planejamento de experimentos.

A finalidade de todo estudo estatístico consiste na coleta de dados para a tomada de


uma decisão, e tanto a estatística descritiva quanto a inferencial são utilizadas neste processo.
A estatística descritiva é o ramo da estatística focado em descrever os dados através do
resumo, organização e representação por meio de gráficos, tabelas e medidas de variação e
tendência central. Já a estatística inferencial, por sua vez, tem como objetivo criar
conhecimento a partir de uma amostra e extrapolar as conclusões obtidas na amostra para a
população.
Ainda, é fundamental que haja cuidado no processo de obtenção dos dados para que o
resultado do estudo seja confiável e se tome uma boa decisão, e para isso, é necessário o
planejamento do estudo, conforme descrito abaixo.
Inicialmente, após a identificação das variáveis de interesse e população do estudo,
deve-se desenvolver um plano para a coleta de dados, de modo que a amostra selecionada
seja representativa para a população e o resultado seja significativo e não tendencioso.
Dependendo do foco do estudo, há diferentes maneiras de se coletar os dados, sejam por meio
do planejamento de experimentos, observações, levantamentos ou simulações.
Após a coleta, a apresentação dos dados é feita utilizando técnicas da estatística
descritiva como gráficos, tabelas, etc. Em seguida, a partir da análise e interpretação dos
resultados obtidos, é realizada uma inferência sobre os dados utilizando técnicas da
estatística inferencial, como os testes de hipótese, por exemplo, e assim, é tomada a decisão
que se buscava inicialmente.
b) Apresente exemplos práticos em que deve-se usar técnicas da estatística Inferencial e
outros exemplos em que recomenda-se conhecer ferramentas da Descritiva.

Há diversas aplicações para a estatística em nosso cotidiano. Nos casos em que há


uma grande base de dados a ser analisada, é recomendado conhecer ferramentas da estatística
descritiva para a melhor interpretação das informações obtidas. Um exemplo que pode ser
citado é o censo populacional realizado a cada 10 anos pelo Instituto Brasileiro de Geografia
e Estatística (IBGE). Além disso, outro exemplo prático de aplicação da estatística descritiva
é obtido ao analisar os números do trânsito, como pode ser observado nos gráficos abaixo
montados pela Confederação Nacional do Transporte (CNT) e Agência Brasil, que trazem
informações a respeito do número de acidentes por ano nas estradas do país.

Figura 1 – Histograma e gráfico de série temporal

Fonte: Confederação Nacional do Transporte (CNT) e Agência Brasil.


Disponível em: https://estradas.com.br/mudanca-de-metodologia-nas-
estatisticas-da-prf-fez-acidentes-leves-serem-menores-do-que-os-graves/.
Ainda, um exemplo recente de aplicação da estatística descritiva consistiu na utiliza-
ção de médias móveis para apresentar a variação dos casos e mortes por Covid-19 durante a
pandemia e criar um mapa da evolução do vírus em território nacional.
Já nos casos em que não é possível ou prático analisar cada integrante da população, é
útil fazer uso da estatística inferencial. Um exemplo clássico são as pesquisas de intensão de
voto da população durante os períodos eleitorais. Além disso, analisar a aceitação de um pro-
duto novo no mercado por meio da aceitação de uma amostra da população, ou realizar o
controle de qualidade de produção em uma fábrica ao analisar amostras da produção periodi-
camente e ver se estão dentro dos padrões são alguns dos diversos exemplos nos quais se faz
uso da estatística inferencial.

c) Descreva detalhadamente técnicas que são da Estatística Inferencial e outras que são da
Descritiva.

Dentre as diversas técnicas da Estatística Descritiva, pode-se destacar a distribuição


de frequência, que condensa/agrupa os dados para melhor apresentação e avaliação dos
resultados. Assim, apesar de diminuir a precisão do resultado, o resumo feito melhora a
visualização de grandes conjuntos de dados. Dentro dessa seção, há algumas técnicas de
apresentação dos resultados que merecem destaque. São elas:

 Tabela de distribuição de frequência: consiste em uma tabela com classes/


intervalos de dados e o número de entradas em cada classe, ou seja, a frequência com
que ocorre. Ainda, pode-se acrescentar nesta tabela o ponto médio (média dos limites
da classe), a frequência relativa (porção/porcentagem dos dados contidos em cada
classe) e a frequência relativa acumulada (soma de todas as frequências até aquela
classe).

 Histograma: muito semelhante a um gráfico de barras, porém no histograma não se


costuma deixar espaço entre barras consecutivas. A escala horizontal do gráfico
apresenta os valores das entradas e a escala vertical apresenta a frequência das classes,
sendo muito utilizado para fazer uma análise inicial dos dados.
 Polígono de frequência: utiliza as mesmas escalas do histograma, e na escala
horizontal utiliza os pontos médios de cada classe. No gráfico são representados e
ligados os pontos correspondentes à frequência de cada classe, enfatizando mudanças
na frequência.

 Gráfico de frequência acumulada (ogiva): mostra as frequências acumuladas até a


fronteira superior de cada classe. Os pontos são conectados em ordem, começando do
limite inferior da primeira classe (cuja frequência acumulada é 0%) até o limite
superior da última classe (cuja frequência acumulada é de 100%).

 Gráfico setorial (gráfico de pizza): este tipo de gráfico facilita a comparação de


setores/categorias. Nele, a frequência relativa (%) de cada classe é apresentada dentro
de um setor circular, em que 100% dos dados equivalem a 360°, e assim, a frequência
relativa de cada classe será representada com um ângulo e o conjunto total dos dados
formará uma circunferência.

 Gráfico de Pareto: gráfico de barras verticais posicionadas em ordem decrescente,


em que a altura de cada barra representa a sua frequência relativa. Assim, as classes
com as maiores frequências são posicionadas mais a esquerda, o que permite enfatizar
o que é mais importante/prioridade.

 Gráfico de série temporal: representa os valores observados ao longo do tempo em


intervalos regulares. No eixo horizontal é representado o intervalo de tempo analisado
e no eixo vertical a entrada correspondente a cada período.

Além da distribuição de frequência, há também as medidas de tendência central, como


média, moda e mediana, as quais serão apresentadas mais adiante, e as medidas de
variação/dispersão, podendo-se mencionar:

 Amplitude: é a diferença entre o maior e o menor valor do conjunto. Mostra a faixa


na qual os dados estão contidos.
 Desvio padrão: representa o desvio médio da amostra, auxiliando na compreensão da
dispersão dos dados. Seu cálculo consiste na raiz quadrada do somatório dos desvios
ao quadrado (também chamado de variância), dividido pelo número de elementos do
conjunto (no caso do desvio populacional), ou pelo número de elementos menos um
(quando se trata de um desvio amostral), conforme apresentado abaixo:

Desvio padrão populacional:

∑(𝑥−𝜇)2
𝜎=√
𝑁

Desvio padrão amostral:

∑(𝑥−𝑥̅ )2
𝜎=√
𝑛−1

Por fim, em relação às técnicas da Estatística Inferencial, pode-se destacar:

 Testes de hipótese: são utilizados para validar a intuição sobre os dados. Inicialmente
é feita uma suposição sobre a população, chamada de hipótese nula. Em seguida, é
retirada uma amostra aleatória da população, e avaliada a chance de aquela amostra
ser obtida dentro de uma população com a característica inicialmente sugerida.
Caso a chance de aquela amostra ter sido selecionada ser muito baixa, ou seja,
tratar-se de um evento raro, pode-se desconfiar que haja um problema com a hipótese
originalmente estabelecida. Este teste dá como resposta um valor p que varia de 0 a 1,
e que se torna menor quanto menor a chance de o evento acontecer, e serve para
avaliar se a hipótese nula deve ser rejeitada ou não.

 Distribuição de probabilidade: forma um gráfico que relaciona a probabilidade de


ocorrência de todos os valores de uma variável aleatória. Dependendo do fenômeno
analisado, podem ocorrer distribuições diversas, como a distribuição normal (em
forma de sino), exponencial, binomial, de Poisson, etc; porém, independente do tipo
de distribuição da amostra, a soma de todos os valores da distribuição de
probabilidade é sempre igual a um, e a probabilidade de uma faixa de valores
acontecerem é obtida pelo cálculo da área abaixo da curva.
 Nível e intervalo de confiança: consiste em uma ferramenta muito importante da
Estatística Inferencial, pois associa a probabilidade de um parâmetro real estar contido
dentro de um intervalo amostral (intervalo de confiança), o qual é calculado com base
na margem de erro, que varia de acordo com a distribuição dos dados.
Por exemplo, caso se desejasse encontrar a média populacional em um estudo
com nível de confiança de 90%; teríamos 90% de confiança de que a amostra
estudada conteria a média populacional dentro do intervalo de confiança. E ainda,
tomando-se 100 amostras aleatórias, seria esperado que em 90%, ou seja, 90 amostras,
o parâmetro real (média populacional) estivesse contido dentro do intervalo de
confiança de cada amostra. Assim, essas ferramentas são muito importantes para
avaliar a precisão dos dados obtidos e o quanto podemos confiar no resultado do
estudo.

2. (Valor 1,5 - Amostragem)

a) Apresente ao menos três técnicas de amostragem e exemplos reais para os quais estas
técnicas são adequadas.

Entre as principais técnicas de amostragem, podemos destacar a amostragem aleatória


simples, a amostragem estratificada e a amostragem sistemática, as quais serão mais bem
detalhadas a seguir:

 Amostragem aleatória simples: nesta técnica, uma amostra de elementos é retirada


da população aleatoriamente e todos os membros da população tem a mesma chance
de serem incluídos na amostra. Por exemplo, ao realizar um estudo dentro de uma
empresa para avaliar a satisfação dos funcionários de determinado setor no trabalho,
pode-se fazer um sorteio de alguns funcionários para responder a pesquisa.

 Amostragem estratificada: leva em consideração que parcelas da população


apresentam comportamentos distintos, e por isso são divididas em estratos ou
camadas, nas quais os indivíduos que pertencem ao mesmo grupo apresentam
comportamentos/características semelhantes entre si, e após a divisão em estratos, é
selecionada uma amostra aleatória de cada grupo para fazer o estudo estatístico. Um
exemplo clássico de utilização desta técnica de amostragem são as pesquisas de
intenção de voto durante as eleições para presidente. Como o país é muito grande e
diversificado, a população pode ser estratificada por estado, faixa etária, renda,
escolaridade, cor, gênero, etc. para representar os diferentes segmentos da população.

 Amostragem sistemática: consiste na seleção aleatória do primeiro elemento da


amostra, e seleção dos elementos consecutivos em intervalos regulares a partir do
primeiro. Este tipo de amostragem é muito comum no setor industrial, como por
exemplo, para avaliar a qualidade de produção em uma fábrica e a cada x itens
produzidos, um é selecionado para avaliar se está enquadrado nos parâmetros
estabelecidos para o produto.

b) Para os exemplos citados na alternativa a) discuta os problemas que podem ocorrer caso
seja adotada uma técnica de coleta de dados inadequada, ou seja, distinta da que se
recomendou na alternativa anterior.

No primeiro exemplo, que consistia em avaliar a satisfação dos funcionários de uma


empresa, a adoção de uma amostragem estratificada seria muito mais trabalhosa, pois
necessitaria identificar todos os membros do setor da empresa e classificá-los em subgrupos
para que a avaliação fosse feita corretamente . Já se fosse utilizada uma técnica de
amostragem sistemática, após a escolha aleatória da primeira amostra, alguns indivíduos
seriam automaticamente excluídos da seleção de dados, de modo que alguns funcionários
sempre ficariam de fora da pesquisa e não se teria a chance de avaliar suas opiniões.
No segundo exemplo, referente às pesquisas de intenção de voto, se fosse utilizar uma
amostragem aleatória simples ou uma amostragem sistemática em que a população não
estivesse estratificada, haveria o risco de ser selecionada uma amostra que excluísse algumas
parcelas da população ou que fosse constituída majoritariamente por grupos de determinada
região ou estrato social, o que levaria a um resultado final da pesquisa tendencioso e que não
teria validade ao projetar conclusões para a população.
Por fim, no terceiro caso, em que se buscava avaliar a qualidade de produção em uma
indústria, ao retirar amostras para análise em intervalos fixos de produção, tem-se uma
avaliação mais uniforme a respeito do que está sendo produzido. Porém, se fosse utilizada
uma amostragem aleatória simples, por exemplo, poderia haver o caso em que uma longa
sequência de amostras não fosse selecionada, e se houvesse algum problema de produção
naquele intervalo de tempo em que não foi coletado nenhum item, o erro poderia não ser
percebido, e ser produzido um lote inteiro defeituoso ou fora do padrão. Também, não faria
sentido estratificar a população neste caso, pois a ideia é que todos os dados de uma produção
industrial em série sejam semelhantes, então não haveria diferenças a serem consideradas.

c) Relacione a confiabilidade de estudos estatísticos, que projetam conclusões da amostra


para a população, com a técnica de amostragem escolhida.

Em estudos estatísticos é muito comum a utilização de uma amostragem para fazer


inferências sobre a população, e para garantir que a amostra selecionada represente o
conjunto, deve-se utilizar a técnica de amostragem correta na coleta de dados. Portanto, pode-
se afirmar que a confiança dos resultados é a mesma da coleta de dados, pois se for escolhida
a técnica errada e obtida uma amostra tendenciosa, não será possível assegurar que as
inferências sobre a população sejam válidas, e o resultado do estudo será questionável.

3. (Valor 2,0 - Tendência Central e Dispersão)

a) Descreva as medidas de tendência central estudadas em sala. Na sequência apresente


argumentos para o uso das mesmas em estudos estatísticos.

Dentro da estatística descritiva, podem-se destacar três medidas de tendência central,


as quais serão descritas abaixo:

 Média: consiste em um número que representa o conjunto e pode ser dividida em


média aritmética simples e média ponderada. A média aritmética simples é obtida
através da soma das entradas divido pelo número de entradas. Já a média ponderada
dá maior valor para o que é considerado mais importante, como se estivesse em maior
quantidade, e consiste na soma das entradas com seus respectivos pesos dividido pela
soma dos pesos utilizados. As fórmulas para obtenção de ambas as médias podem ser
observadas abaixo, conforme descritas anteriormente:
Média aritmética simples:
𝑥1 +𝑥2 +⋯+𝑥𝑛 1
𝑥̅ = = ∑𝑛𝑖=1 𝑥𝑖
𝑛 𝑛

Média ponderada:
𝑥1 𝑤1 +𝑥2 𝑤2+⋯+𝑥𝑛 𝑤𝑛 ∑𝑛
𝑖=1 𝑥𝑖 𝑤𝑖
𝑥𝑝 =
̅̅̅ = ∑𝑛
𝑤1 +𝑤2 +⋯+𝑤𝑛 𝑖=1 𝑤𝑖

 Moda: é o valor que mais se repete no conjunto. Caso não haja dados repetidos, o
conjunto não tem moda; caso haja uma entrada que se repete com maior frequência. O
conjunto é modal; se forem duas entradas que mais se repetem com a mesma
frequência, o conjunto é chamado de bimodal, e se forem três entradas ou mais, o
conjunto é denominado multimodal.

 Mediana: é o elemento central do conjunto, e divide a amostra ordenada em dois


grupos com a mesma quantidade de itens. Se o número de entradas for ímpar, a
mediana é o próprio elemento central do conjunto; se for par, é a média das duas
entradas centrais.

O uso dessas três medidas em estudos estatísticos se faz muito importante para conhecer
as características de um conjunto de dados e representá-los como um todo. Além disso, essas
medidas permitem a comparação dos valores obtidos com um valor central, o que auxilia na
compreensão da dispersão ou agrupamento da amostra.

b) Qual a diferença entre medidas de tendência central e medidas de dispersão?

As medidas de tendência central e dispersão são complementares para caracterizar a


amostra, mas utilizadas de maneiras distintas. As medidas de tendência central, como o
próprio nome já indica, são utilizadas para agrupar os dados obtidos em torno de uma medida
central que representa todo o conjunto. Já as medidas de dispersão são utilizadas para analisar
a distribuição dos dados e ver se os mesmos estão mais próximos e agrupados em torno de
um valor central; se estão mais afastados uns dos outros; ou se estão muito próximos e há
outliers no conjunto, por exemplo.
c) Por que não se pode usar somente a média ou valor médio para caracterizar a faixa de
valores que uma variável aleatória pode assumir? De exemplos para contextualizar e
reforçar sua argumentação.

Porque a média isolada não representa muita coisa e há diversas amostras que podem
apresentar a mesma média e ainda assim apresentarem configurações distintas. Observe, por
exemplo, os três conjuntos na tabela abaixo:

Tabela 1

Conjunto Valores Média


5 + 6 + 7 + 8 + 50
A 5, 6, 7, 8, 50 𝑥̅ = = 15,2
5
14,8 + 15 + 15 + 15,2 + 16
B 14.8, 15, 15, 15.2, 16 𝑥̅ = = 15,2
5
5 + 10 + 16 + 20 + 25
C 5,10,16,20,25 𝑥̅ = = 15,2
5
Fonte: autoria própria

É possível observar que os três conjuntos são muito diferentes entre si. Apesar disso, a
média isolada não apresenta essa informação, visto que é a mesma nos três casos. Assim,
caso não se conheça outras medidas de tendência central e variação, pode-se ter uma
interpretação equivocada da distribuição dos valores da amostra.
No primeiro caso, os valores se concentram em torno de 6.5, mas há um outlier no
conjunto, o que afeta a média e a afasta dos dados que estão concentrados. No segundo caso,
trata-se de um conjunto mais homogêneo, em que os dados estão concentrados em uma faixa
pequena de valores que se aproxima de 15. Já no terceiro caso, a amostra está razoavelmente
dispersa e uma faixa maior de valores.
Nota-se que não é possível chegar a essas conclusões dispondo-se apenas da média.
Agora, se outras medidas de tendência central e dispersão fossem fornecidas, como desvio
padrão, mediana e amplitude, percebe-se que as amostras ficam mais bem definidas:
Tabela 2

Conjunto Média Mediana Amplitude Desvio padrão

A 𝑥̅ = 15,2 7 45 𝜎 = 17,42871194

B 𝑥̅ = 15,2 15 1,2 𝜎 = 0,419523539

C 𝑥̅ = 15,2 16 20 𝜎 = 7,082372484
Fonte: autoria própria

No primeiro caso, em que a amostra está concentrada em torno de 6.5 com mais um
valor discrepante, a mediana é 7 (próxima dos outros valores) e tanto o desvio padrão quanto
a amplitude apresentam valores muito altos. No segundo caso, em que todos os valores são
próximos entre si, a mediana se aproxima da média e tanto o desvio padrão quanto a
amplitude são muito baixos. E por fim, em relação ao terceiro conjunto, em que os valores
estão razoavelmente dispersos, a mediana se aproxima da média, o desvio padrão também é
alto e a amplitude é média. Assim, percebe-se que tendo em mãos todas essas informações, a
caracterização da faixa de valores da variável aleatória se torna muito mais confiável.

d) Demonstre que o somatório dos desvios é nulo. Relacione o fato demonstrado com a
necessidade de usar o quadrado dos desvios para medir a dispersão dos dados (dando
origem ao conceito do desvio padrão).

Seja a média de uma amostra contendo ℎ𝑛 elementos calculados da seguinte forma:

ℎ1 + ℎ2 + ⋯ + ℎ𝑛
ℎ̅ =
𝑛

A soma dos desvios 𝑑1 + 𝑑2 + ⋯ + 𝑑𝑛 é obtida por:

ℎ1 − ℎ̅ + ℎ2 − ℎ̅ + ⋯ + ℎ𝑛 − ℎ̅
ℎ1 + ℎ2 + ⋯ + ℎ𝑛 − 𝑛. ℎ̅
∑ℎ
∑ℎ − 𝑛 ∙
𝑛

∑ℎ −∑ℎ

0
Conforme demonstrado, a somatória dos desvios em relação à média sempre será
nula, o que acaba não tendo muita utilidade para analisar a dispersão dos dados, visto que os
valores acima da média sempre irão cancelar os que estão abaixo da média. Para solucionar
este problema e obter um valor que represente a média dos desvios, eleva-se cada diferença
ao quadrado, calcula-se a média dessas diferenças ao quadrado e por fim extrai-se a raiz,
dando origem ao que é conhecido como desvio padrão.

4. (Valor 2,5 - Miscelânea) Faça um resumo dos teoremas/conceitos abaixo, contendo: seu
enunciado e a descrição do quão é importante conhecê-lo ao se realizar um estudo estatístico:

a) Teorema Central do Limite

O Teorema Central do Limite é a base da Estatística Inferencial. Ele diz que, não
importa o fenômeno analisado, ao tomar amostras de mesmo tamanho e calcular as médias
amostrais, a distribuição amostral de médias das amostras sempre se aproxima de uma
distribuição normal, e se torna mais próxima de uma curva em forma de sino quanto maior o
tamanho das amostras. Ainda, este Teorema permite afirmar, em todos os casos, que a média
da distribuição amostral de média das amostras é igual à média da população estudada. Sendo
assim, este Teorema é fundamental em estudos estatísticos, pois permite fazer inferências
sobre parâmetros da população por meio de estatísticas de amostras sem nem sequer precisar
conhecer a distribuição dessas amostras.

b) Desigualdade de Chebyshev

A desigualdade de Chebyshev estima a porção mínima de dados que está dentro de k


desvios padrão (𝑘 > 1) em qualquer conjunto de dados, a qual corresponde a:
1
𝑝(𝑥̅ − 𝑘𝜎 ≤ 𝑥 ≤ 𝑥̅ + 𝑘𝜎) ≥ 1 −
𝑘2
É importante destacar que esta desigualdade é válida para todos os tipos de
distribuição, não somente a distribuição normal, e por isso é tão importante conhecê-la.
Assim, em qualquer conjunto de dados, pelo menos 75% dos dados está contido dentro de
dois desvios padrão (𝑘 = 2), e pelo menos 88,9% dos dados encontra-se dentro de três
desvios (𝑘 = 3). Note que se a distribuição for normal, sabe-se que a porcentagem da amostra
contida dentro de dois e três desvios aumenta, mas continua sendo de pelo menos 75% e
88,9%, respectivamente, de modo que a desigualdade mantém-se válida.

c) Regra das probabilidades para curvas em forma de sino

A regra das probabilidades para curvas em forma de sino relaciona o desvio padrão à
probabilidade de ocorrência dos dados, e diz que se o fenômeno estudado for normalmente
distribuído (simétrico em relação a media), ao aumentar três vezes o desvio padrão da
amostra para mais e para menos da média, obtêm-se uma faixa de valores que contempla
99,7% dos casos. O fenômeno descrito pode também ser observado na imagem abaixo:

Figura 2 – Regra das probabilidades para curvas de Gauss

Disponível em:
https://upload.wikimedia.org/wikipedia/commons/3/3f/Curva_Gaussiana.png

Esta regra é importante porque a distribuição normal se aplica a uma infinidade de


fenômenos que podem ser estudados, e a partir dela é possível fazer inferências a respeito do
intervalo de valores no qual a população está contida e a probabilidade de encontrar
determinados valores dentro daquela distribuição.

d) Lei dos Grandes Números

De acordo com a Lei dos Grandes Números, quanto mais vezes um experimento é
repetido, maior a aproximação entre a probabilidade empírica do evento e a probabilidade
real. É baseado nesta lei, por exemplo, que os cassinos são ilegais, visto que mesmo que
algumas pessoas saiam vitoriosas, a tendência em longo prazo é que os resultados sejam
favoráveis para a casa de jogos, a qual sempre terá maior lucro.
Assim, esta Lei é importante porque também auxilia na realização de inferências
sobre a população, visto que as características observadas na amostra se tornam mais
coincidentes com as características da população quanto maior o tamanho da amostra; além
de auxiliar na projeção da probabilidade de ocorrência de um evento baseado em um número
suficientemente grande de repetições.

e) Explique porque, ao contrário da média, a mediana não é sensível à presença de outliers


nos dados. Na sequência argumente sobre qual impacto desta sensibilidade sobre conclusões
extraídas de uma amostra em que os outliers estão presentes e foi calculada uma média
amostral.

A mediana não é sensível à presença de outliers porque consiste no elemento central


do conjunto de dados, que divide a amostra ordenada em dois conjuntos iguais. Assim, ao
listar os dados em ordem, os valores discrepantes sempre estarão nos extremos, afastados da
mediana, a qual acaba não sendo influenciada por esses absurdos.
A média, por outro lado, é muito sensível a valores extremos, pois vai tentar
representar todo o conjunto, então se houver um valor muito grande ou muito pequeno
(diferente do restante do conjunto), a média vai tender para o lado do deste valor discrepante.
Neste caso, que ocorre é que a média não irá representar o conjunto, e as conclusões extraídas
dessa informação estarão equivocadas. Isso reforça ainda mais a importância de se conhecer
outras medidas de tendência central e variação e não se basear apenas na média para
caracterizar a amostra.

5. (Valor 2,0 - Box Plot e Histograma)

a) Descreva como construir um boxplot para um conjunto de dados qualquer. Na sequência,


discuta quais informações ficam visualmente mais fáceis de serem obtidas dos dados ao
avaliar o boxplot.

Para a construção de um boxplot deve-se primeiramente organizar os dados em rol e


calcular o primeiro quartil (Q1), o segundo quartil (mediana) e o terceiro quartil (Q3). Em
seguida, deve-se traçar uma linha de referência na qual serão marcados os valores calculados,
e montar uma espécie de caixa delimitada pelas medidas de posição. Uma observação
importante é que o intervalo de dados contido dentro da caixa é chamado de intervalo
interquartil, e contém 50% dos dados da amostra.
Para calcular este intervalo, deve-se calcular a diferença entre o primeiro e o terceiro
quartil, ou seja: 𝐼 = 𝑄3 − 𝑄1. Em seguida, deve-se calcular o intervalo aceitável no qual os
valores devem estar contidos, e os valores máximo e mínimo que aquela amostra pode gerar,
sendo 𝑄3 + 1,5 ∙ 𝐼 o valor máximo e 𝑄1 − 1,5 ∙ 𝐼 o valor mínimo. Ainda, caso haja dados na
mostra fora desse intervalo estabelecido, os mesmos serão considerados outliers, e o valor
máximo/mínimo da amostra será o limite do intervalo.
Por último, para finalizar a montagem do boxplot, basta marcar no gráfico o valor
mínimo e máximo da amostra, os quais serão ligados à caixa por uma linha, e os outliers,
caso haja valores discrepantes, que serão marcados com um asterisco ou um circulo fora da
linha do gráfico. O resultado final consiste na obtenção de um gráfico como o mostrado na
figura abaixo:

Figura 3 – Exemplo de um boxplot

Disponível em: https://www.escolaedti.com.br/o-que-e-um-box-plot.


Através da análise deste tipo de gráfico fica mais fácil avaliar a distribuição dos
dados, como o valor central (mediana), os valores de máximo e mínimo (amplitude), se o
conjunto de dados é simétrico ou assimétrico e se há outliers na amostra.

b) Qual a relação entre boxplot, medidas de tendência central e medidas separatrizes?


Detalhe.

O boxplot é um resumo gráfico contendo cinco informações principais a respeito do


conjunto: a mediana, que consiste em uma medida de tendência central; valor máximo e
mínimo, os quais são medidas de dispersão; além de três medidas separatrizes, os quartis,
dentre os quais a mediana também se inclui.

c) Em qual situação o boxplot pode ser tranquilamente substituído pela média e o desvio
padrão sem prejuízo para análises e/ou conclusões sobre os dados?

O boxplot pode ser substituído nos casos em que a amostra é normalmente distribuída
e com baixo desvio padrão, pois nessa situação os valores serão simetricamente distribuídos
ao redor da média e há diversas conclusões que podem ser obtidas a partir daí para
caracterizar a população.

d) Em um estudo real, onde se pretende aplicar estatística inferencial para projetar as


conclusões amostrais para a população, qual o papel do histograma nas análises
preliminares? Detalhe.

A construção de um histograma é um dos primeiros passos que se deve tomar ao


realizar as análises de um estudo, pois faz uma apresentação gráfica da distribuição de
frequência dos dados e ajuda a intuir se são normalmente distribuídos ou não, visto que caso
isso ocorra, as barras de frequência se aproximarão de uma curva em forma de sino. Também,
dependendo da primeira impressão sobre os dados, os caminhos e técnicas utilizados para
avaliar os resultados serão diferentes. Ainda, é evidente que precisam ser realizados testes
estatísticos para confirmar estas suposições iniciais e projetá-las para a população; mas visto
a facilidade e rapidez de elaboração de um histograma, o mesmo se torna-se uma peça chave
para compreender inicialmente em torno de quais valores a média das amostras se concentra,
se a distribuição dos dados é simétrica, em que faixa de valores se encontra, etc.

Você também pode gostar