Escolar Documentos
Profissional Documentos
Cultura Documentos
Henrique Braga
Follow
Sep 16, 2018 · 18 min read
Este post focará na parte teórica da estatística descritiva. Isso inclui o entendimento dos
Tipos de variáveis;
inferências estatísticas?
Informação é um dos maiores valores que uma empresa ou indivíduo pode ter para
conseguir decidir alguma coisa. Porém, são várias etapas percorridas até que se chegue a
esse ponto.
First things first. É pré-requisito termos dados (ou amostras) para uma análise. Sem
dados, não conseguimos sequer iniciar o entendimento do que está ocorrendo. Porém, em
um primeiro momento, os dados brutos não nos dizem muita coisa. As ideias e insights
alguma conclusão.
Então, a partir destes dados, precisamos de ferramentas que nos ajudem a chegar ao
dos dados por meio de análises humanas, conseguimos chegar finalmente chegar a etapa
de conhecimento.
dados.
Por exemplo, conseguimos ao final de todas essas fases prever dado algumas
características que identificamos relevantes que uma pessoa possui: classificá-lo com
Mas vamos focar na transição entre dados e informação. Como podemos dar este passo?
Essas amostras também precisam ser confiáveis, ou seja, precisam representar bem a
população alvo, caso contrário, nossa análise acabará não tendo utilidade futuramente.
eleitoral (pessoas que são entrevistadas para verificar em qual candidato votarão) só
(todos os eleitores). Por exemplo, a pesquisa pode ter sido feita com pessoas de uma
determinada faixa etária em sua maioria. Por isso geralmente dados como: faixa etária,
renda, grau de instrução são perguntados nestas pesquisas. Assim ao elaborar uma
toda a população.
Por fim, vamos começar a entender os conceitos e termos básicos utilizado na estatística
descritiva.
Tipos de Variáveis
Quantitativas: discretas e contínuas;
Qualitativas: nominal e ordinal;
Qualitativas (Categórica)
Nominal
Não há nenhum valor que diga qual a ordenação da classificação ou categoria em si.
Ordinal
É a mesma ideia da nominal, com exceção de que existe uma ordenação para
classificação.
Quantitativas
Discretas
São exemplos:
Contínuas
um data) que pode ser medido por meio de algum instrumento. Geralmente agrupamos
estes dados em classes, pois divergem muito dentro de uma população. São exemplos:
Peso (IMC);
Reflexão: Uma variável pode ser quantitativa e ser utilizada como qualitativa?
TL;DR
Tabela IMC
Podemos utilizar algumas medidas que nos ajudam entender a tendência central e
Média
A média é uma das medidas que podem nos mostrar em relação à posição central da
Muitos não sabem (eu não sabia até estudar sobre), mas existem vários tipos de médias.
Quando falamos de uma média aritmética, basta somar todos os valores e dividir pela
aritmética:
Fórmula de cálculo para a média: O mesmo conceito da fórmula acima porém utilizando
“sigma” para representar a soma dos valores das observações.
Porém, temos outros exemplos como a média aritmética ponderada , o qual podemos
dar pesos para algumas variáveis, bastando multiplicar pelos pesos e divididos pela soma
de pesos.
Por exemplo, imagine que a média de um aluno é composta por duas notas (c
chamaremos de B1 e B2), porém a segunda nota tem um peso duas vezes maior. Na B1,
Vamos aplicar estes valores nas fórmulas acima. Primeiramente, precisamos descobrir a
Logo, o valor da média neste caso é 6. Note que é muito similar à uma média aritmética,
porém sempre temos que considerar o valor do peso em relação ao divisor (soma dos
Existem outros tipos de médias, tais como: média quadrática, média geométrica, média
harmônica dentre outros. Cada uma tem um aplicação para um nicho de problemas
Note também que na média são considerados os valores de todas as observações para o
cálculo. Então, caso um grande número de valores fora do padrão, a média se deixará ser
Moda
Quando pensamos em algo que está “na moda”, sabemos que é algo que muitas pessoas
estão usando. Fazendo uma analogia com a estatística descritiva, o conceito é o mesmo:
é o valor que mais se repete em um conjunto de dados. Imagine que temo um conjunto
de dados com a idade de clientes: 21,21 17, 32, 45, 44, 29, 21, 41, 44,
A moda neste caso é o 21, pois podemos observar que aparece três vezes no conjunto.
dizemos que é amodal. Caso tenha duas modas, podemos chamá-lo de bimodal,
Mediana
A mediana é basicamente o valor central de nossos dados, ou seja, aquele valor que fatia
Caso o número de amostras seja ímpar, basta pegar o elemento que divide o conjunto de
dados em duas partes iguais. Já se for par, deve-se somar os dois elementos centrais e
Representação gráfica com os cortes da mediana para cada caso descrito anteriormente.
Note que diferentemente da média, nao são levados em consideraçao todos os valores do
conjunto de dados, somente os valores centrais após a ordenação. Isso implica que o
dados.
Também nos permite visualizar a dispersão dos valores em caso de ter um dataset
desequilibrado.
TL;DR
valore(s) centrais;
Existem diversos tipos de média e o uso de cada uma implica no contexto em que
se está aplicando.
A média aritmética simples é a somar todos os números e dividir por quantos
deles aparecem;
Já sabemos conforme acima que a mediana divide nossas amostras em dois conjuntos de
dados.
Mas podemos dividir nosso dados em N partes para entender a distribuição dos dados.
Por exemplo, se queremos cortar nossa amostra em duas partes, qual valor seria a
Se você entender a ideia do quartis, basta apenas aplicar os conceitos e fórmulas para
decis, percentis ou qualquer quantidade de separatrizes que deseje utilizar em seus dados.
Quartis
Os quartis dividem nosso conjunto de dados em quatro partes iguais, ou, quatro
quadrantes.
respectivamente):
Vamos agora fazer um exemplo na prática para encontrar os valores aproximados dos
vamos utilizar a fórmula formal inicialmente para encontrar o valor aproximado do ponto
Assim, por meio dessa fórmula conseguimos calcular decis, percentis dentre quaisquer
outros, pois a ideia vale é válida para quantos pontos de corte se desejar.
Os passos que temos seguir para calcular os valores aproximados de cada quartis são
basicamente (parece muita coisa, mas a seguir veremos que é relativamente simples e
ímpares:
2. Aplique a fórmula para obter a posição de Q1 (aprox. 25% dos nossos dados) e
3. Aplique a fórmula para obter a posição de Q2 (aprox. 50% dos nossos dados) e
4. Aplique a fórmula para obter a posição de Q3 (aprox. 75% dos nossos dados)e
Abaixo vamos representar os nossos dados graficamente em uma reta (Lembrando que
O que sabemos até agora é que temos sete elementos em nosso conjunto, ou seja, o
quadrante Q1;
A fórmula para obter qual a posição que queremos encontrar dado pela porcentagem
Bingo! Sabemos que o corte de Q1 está no segundo elemento de nossos dados. Qual o
Representação Gráfica de Q1: Aproximadamente 25% dos nossos dados vão até 2.
Vamos usar a mesma ideia do passo dois, porém com uma diferença: o Q2 (mediana)
Bingo! Sabemos que o corte de Q2 está no quarto elemento de nossos dados. Qual o
Representação Gráfica de Q2: Aproximadamente 50% dos nossos dados vão até 5.
Vamos usar a mesma ideia dos passo dois e três, porém com uma diferença: o Q2
Bingo! Sabemos que o corte de Q3 está no sexto elemento de nossos dados. Qual o valor
Representação Gráfica de Q3: Aproximadamente 75% dos nossos dados vão até 7.
Vamos agora entender como calcular os quartis quando o n° de elementos for par.
Exemplo de cálculo de quartis para n° de elementos par
Os passos que temos seguir para calcular os valores aproximados de cada quartis são
Porém, vamos relembrar como calculamos a mediana para números pares. Lembre-se
que não iremos obter um valor inteiro para a posição da mediana, porque não há um
valor no conjunto de dados que corte os dados do meio. Tente se lembrar o que fizemos
Caso não lembre: utilizamos uma simples média aritmética com os dois elementos
centrais em nosso dataset (somá-los e então dividir por dois) e assim conseguir o valor da
mediana.
Abaixo vamos representar os nossos dados graficamente em uma reta (Lembrando que
Vamos utilizar os passos que usamos quando o n° de elementos foi ímpar (novamente
quadrante Q1;
Abaixo segue a fórmula base já explicada no exemplo anterior:
Posição do Quartil(porcentagem) = porcentagem x (n° total de dados da amostra + 1)
Note que conforme vemos, agora não temos uma posição com valor absoluto.
Portanto temos que pegar os dois valores inteiros entre este (1, 75). Sabemos que é um
número que entre a posição 1 e 2, que são os valores respectivamente 1 e 2. Vamos então
Representação Gráfica de Q1: Aproximadamente 25% dos nossos dados vão até 1,5.
Vamos usar a mesma ideia do passo dois, porém com uma diferença: o Q2 (mediana)
Portanto temos que pegar os dois valores inteiros entre este (3,5). Sabemos que é um
número que entre a posição 3 e 4, que são os valores respectivamente 2 e e. Vamos então
Representação Gráfica de Q2: Aproximadamente 50% dos nossos dados vão até 2,5.
Vamos usar a mesma ideia do passo dois, porém com uma diferença: o Q3 deve
Portanto temos que pegar os dois valores inteiros entre este (3,5). Sabemos que é um
número que entre a posição 3 e 4, que são os valores respectivamente 2 e e. Vamos então
Representação Gráfica de Q3: Aproximadamente 75% dos nossos dados vão até 6
medianas!
dados.
Como você poderá observar abaixo, os valores de corte ficaram diferentes para o
exemplo com n° de elementos par, pois foram arrendodados de acordo com a mediana de
inclusive nos diz que o valor do corte está muito mais perto de 1 do que 2. Em outras
quando aplicamos uma média aritmética na fórmula formal, também perdemos um certo
Q2 = Md
Q2 =~ 2,52. Calcule a mediana do subconjunto inferior para obter Q1Subconjunto Inferior
= {1, 2, 2}Q1 =~ Mediana Subconjunto InferiorMediana Subconjunto Inferior = 2Q1
=~ 23. Calcule a mediana do subconjunto superiorSubconjunto Superior = {3, 4, 8}Q3 =~
Mediana Subconjunto Superior
Mediana Subconjunto Superior = 4Q3 =~ 4
TL;DR
existem outros muito utilizado: decil (dez partes) e percentil (cem partes)
A ideia para calcular o valor aproximado de cada corte segue a mesma ideia do
Caso 2: A mediana ser maior que a média e a mediana ser menor que a moda;
Caso 3: A mediana ser menor que a média e a mediana ser maior que a moda;
Com isso, encerramos alguns conceitos básicos para realizar a estatística descritiva em
um conjunto de dados.