Escolar Documentos
Profissional Documentos
Cultura Documentos
1ª Avaliação de Estatística
c) Descreva detalhadamente técnicas que são da Estatística Inferencial e outras que são da
Descritiva.
∑(𝑥−𝜇)2
𝜎=√
𝑁
∑(𝑥−𝑥̅ )2
𝜎=√
𝑛−1
Testes de hipótese: são utilizados para validar a intuição sobre os dados. Inicialmente
é feita uma suposição sobre a população, chamada de hipótese nula. Em seguida, é
retirada uma amostra aleatória da população, e avaliada a chance de aquela amostra
ser obtida dentro de uma população com a característica inicialmente sugerida.
Caso a chance de aquela amostra ter sido selecionada ser muito baixa, ou seja,
tratar-se de um evento raro, pode-se desconfiar que haja um problema com a hipótese
originalmente estabelecida. Este teste dá como resposta um valor p que varia de 0 a 1,
e que se torna menor quanto menor a chance de o evento acontecer, e serve para
avaliar se a hipótese nula deve ser rejeitada ou não.
a) Apresente ao menos três técnicas de amostragem e exemplos reais para os quais estas
técnicas são adequadas.
b) Para os exemplos citados na alternativa a) discuta os problemas que podem ocorrer caso
seja adotada uma técnica de coleta de dados inadequada, ou seja, distinta da que se
recomendou na alternativa anterior.
Média ponderada:
𝑥1 𝑤1 +𝑥2 𝑤2+⋯+𝑥𝑛 𝑤𝑛 ∑𝑛
𝑖=1 𝑥𝑖 𝑤𝑖
𝑥𝑝 =
̅̅̅ = ∑𝑛
𝑤1 +𝑤2 +⋯+𝑤𝑛 𝑖=1 𝑤𝑖
Moda: é o valor que mais se repete no conjunto. Caso não haja dados repetidos, o
conjunto não tem moda; caso haja uma entrada que se repete com maior frequência. O
conjunto é modal; se forem duas entradas que mais se repetem com a mesma
frequência, o conjunto é chamado de bimodal, e se forem três entradas ou mais, o
conjunto é denominado multimodal.
O uso dessas três medidas em estudos estatísticos se faz muito importante para conhecer
as características de um conjunto de dados e representá-los como um todo. Além disso, essas
medidas permitem a comparação dos valores obtidos com um valor central, o que auxilia na
compreensão da dispersão ou agrupamento da amostra.
Porque a média isolada não representa muita coisa e há diversas amostras que podem
apresentar a mesma média e ainda assim apresentarem configurações distintas. Observe, por
exemplo, os três conjuntos na tabela abaixo:
Tabela 1
É possível observar que os três conjuntos são muito diferentes entre si. Apesar disso, a
média isolada não apresenta essa informação, visto que é a mesma nos três casos. Assim,
caso não se conheça outras medidas de tendência central e variação, pode-se ter uma
interpretação equivocada da distribuição dos valores da amostra.
No primeiro caso, os valores se concentram em torno de 6.5, mas há um outlier no
conjunto, o que afeta a média e a afasta dos dados que estão concentrados. No segundo caso,
trata-se de um conjunto mais homogêneo, em que os dados estão concentrados em uma faixa
pequena de valores que se aproxima de 15. Já no terceiro caso, a amostra está razoavelmente
dispersa e uma faixa maior de valores.
Nota-se que não é possível chegar a essas conclusões dispondo-se apenas da média.
Agora, se outras medidas de tendência central e dispersão fossem fornecidas, como desvio
padrão, mediana e amplitude, percebe-se que as amostras ficam mais bem definidas:
Tabela 2
A 𝑥̅ = 15,2 7 45 𝜎 = 17,42871194
C 𝑥̅ = 15,2 16 20 𝜎 = 7,082372484
Fonte: autoria própria
No primeiro caso, em que a amostra está concentrada em torno de 6.5 com mais um
valor discrepante, a mediana é 7 (próxima dos outros valores) e tanto o desvio padrão quanto
a amplitude apresentam valores muito altos. No segundo caso, em que todos os valores são
próximos entre si, a mediana se aproxima da média e tanto o desvio padrão quanto a
amplitude são muito baixos. E por fim, em relação ao terceiro conjunto, em que os valores
estão razoavelmente dispersos, a mediana se aproxima da média, o desvio padrão também é
alto e a amplitude é média. Assim, percebe-se que tendo em mãos todas essas informações, a
caracterização da faixa de valores da variável aleatória se torna muito mais confiável.
d) Demonstre que o somatório dos desvios é nulo. Relacione o fato demonstrado com a
necessidade de usar o quadrado dos desvios para medir a dispersão dos dados (dando
origem ao conceito do desvio padrão).
ℎ1 + ℎ2 + ⋯ + ℎ𝑛
ℎ̅ =
𝑛
ℎ1 − ℎ̅ + ℎ2 − ℎ̅ + ⋯ + ℎ𝑛 − ℎ̅
ℎ1 + ℎ2 + ⋯ + ℎ𝑛 − 𝑛. ℎ̅
∑ℎ
∑ℎ − 𝑛 ∙
𝑛
∑ℎ −∑ℎ
0
Conforme demonstrado, a somatória dos desvios em relação à média sempre será
nula, o que acaba não tendo muita utilidade para analisar a dispersão dos dados, visto que os
valores acima da média sempre irão cancelar os que estão abaixo da média. Para solucionar
este problema e obter um valor que represente a média dos desvios, eleva-se cada diferença
ao quadrado, calcula-se a média dessas diferenças ao quadrado e por fim extrai-se a raiz,
dando origem ao que é conhecido como desvio padrão.
4. (Valor 2,5 - Miscelânea) Faça um resumo dos teoremas/conceitos abaixo, contendo: seu
enunciado e a descrição do quão é importante conhecê-lo ao se realizar um estudo estatístico:
O Teorema Central do Limite é a base da Estatística Inferencial. Ele diz que, não
importa o fenômeno analisado, ao tomar amostras de mesmo tamanho e calcular as médias
amostrais, a distribuição amostral de médias das amostras sempre se aproxima de uma
distribuição normal, e se torna mais próxima de uma curva em forma de sino quanto maior o
tamanho das amostras. Ainda, este Teorema permite afirmar, em todos os casos, que a média
da distribuição amostral de média das amostras é igual à média da população estudada. Sendo
assim, este Teorema é fundamental em estudos estatísticos, pois permite fazer inferências
sobre parâmetros da população por meio de estatísticas de amostras sem nem sequer precisar
conhecer a distribuição dessas amostras.
b) Desigualdade de Chebyshev
A regra das probabilidades para curvas em forma de sino relaciona o desvio padrão à
probabilidade de ocorrência dos dados, e diz que se o fenômeno estudado for normalmente
distribuído (simétrico em relação a media), ao aumentar três vezes o desvio padrão da
amostra para mais e para menos da média, obtêm-se uma faixa de valores que contempla
99,7% dos casos. O fenômeno descrito pode também ser observado na imagem abaixo:
Disponível em:
https://upload.wikimedia.org/wikipedia/commons/3/3f/Curva_Gaussiana.png
De acordo com a Lei dos Grandes Números, quanto mais vezes um experimento é
repetido, maior a aproximação entre a probabilidade empírica do evento e a probabilidade
real. É baseado nesta lei, por exemplo, que os cassinos são ilegais, visto que mesmo que
algumas pessoas saiam vitoriosas, a tendência em longo prazo é que os resultados sejam
favoráveis para a casa de jogos, a qual sempre terá maior lucro.
Assim, esta Lei é importante porque também auxilia na realização de inferências
sobre a população, visto que as características observadas na amostra se tornam mais
coincidentes com as características da população quanto maior o tamanho da amostra; além
de auxiliar na projeção da probabilidade de ocorrência de um evento baseado em um número
suficientemente grande de repetições.
c) Em qual situação o boxplot pode ser tranquilamente substituído pela média e o desvio
padrão sem prejuízo para análises e/ou conclusões sobre os dados?
O boxplot pode ser substituído nos casos em que a amostra é normalmente distribuída
e com baixo desvio padrão, pois nessa situação os valores serão simetricamente distribuídos
ao redor da média e há diversas conclusões que podem ser obtidas a partir daí para
caracterizar a população.