Você está na página 1de 5

Variáveis

Quantitativas - Variáveis em que eu consigo somar

- Discreto: Valores que dá para contabilizar, valores precisos.

- Continuo: Valores infinitos

Qualitativa - Variáveis em que eu consigo categorizar por classes, ou que representa um


atributo

Escalas Nominais
Nominais – São variáveis utilizadas para categorizar dados de um agrupamento. Estes dados
não servem para soma, média ou outra forma de medida. Ex: média da cor dos olhos.

Escalas Ordinais
Ordinais – São dados em que você consegue ordenar, ou ranquear do pior ao melhor, do
menor ao maior. 5 entrelas no uber é melhor que 4. Não consegue saber a diferença no valor
entre um e outro, o peso da estrela 4 para 5.

Escalas de intervalo
São numéricas e determinam o intervalo entre os dados. Não tem um zero absoluto. Consigo
saber a diferença do de uma temperatura para a outra.

Escalas de Razão
São dados numéricos em que conseguimos realizar qualquer cálculo matemático e o zero
significa a falta de algo.

Exemplos:

Escala da razão: Uma renda de R$ 1.000 é o dobro de uma renda de R$ 500 e uma renda de R$
0,00 significa uma ausência desta renda.

Escala de intervalo: temperatura está a 40 graus, mas não significa que o calor está 2x maior
do que uma temperatura a 20 graus e uma temperatura de 0 graus não significa a ausência da
temperatura.
Medidas de Tendência Central

Média é a medida primária é a soma de todas as observações dividido pelo número de


observações.

- A média sofre um problema que seria a sensibilidade à oultiers

- outiliers são observações mais extremas que outros e acaba afetando

significativamente o resultado

Mediana é outra medida de tendência central, mas não é afetada por outliers. Não existe
formula matemática para ela, mas para chegar no valor deve colocar as variáveis em forma
decrescente e selecionar o que está no meio e se tiver dois valores iguais no meio, deve-se
fazer a média.

Moda é o valor mais frequente de um conjunto de dados. Geralmente é usado em dados


qualitativo. Um conjunto de dados pode ter uma moda(unimodal), ou muitas
modas(multimodal).

Detectando outliers

- Calcule a amplitude interquartil IQR = Q3-Q1

- Calcule 1,5*IQR
- Compute o limite inferior: Q1 -1,5*IQR
- Calcule o limite superior: Q3+1,5*IQR
- Qualquer valor maior que o limite superior ou maior que o limite inferior
é um outlier
Covariância

A covariância é uma medida numérica que descreve a direção da relação


linear entre duas variáveis.

Correlação positiva é quando uma variável cresce a outra cresce e vice-


versa
Correlação negativa é quando uma variável cresce e a outra é o oposta
Correlação não relacional é quando não tem correlação.

A correlação é entre -1 a 1. Quanto mais próximo de 1, mais forte é a


correlação e quanto menor, mais fraco.
Correlações espúrias são correlações que ocorrem por coincidência

Probabilidade

É um valor numérico que mede a probabilidade de um resultado ocorrer


no longo prazo.

Espaço amostral: é todos os resultados possíveis de um experimento.

Evento é todo um subconjunto de um espaço amostral.


- Exaustivos: Se todos os resultados possíveis de um
experimento estão incluídos nos eventos
- Mutuamente exclusivos: Se eles não têm nenhum resultado
em comum
União: É a união dos resultados de dois ou mais eventos.
Interseção: Consiste em todos os resultados de ambos A e B. O que é
comum.
Complemento: É um evento que consiste todos os resultados, menos os
que estão em A

Inferência estatística

- População é um grupo de itens de interesse


- Uma amostra é um subconjunto da população, seria uma parte desta
população

Para saber a média de peso de uma cidade fica inviável sair em


porta-em-porta perguntando o peso, pois seria muito custoso. Então para
sanar pegamos uma amostra populacional, dela tiramos a média amostral
e realizamos a inferência para acharmos a média populacional.

Parâmetros e Estatísticas:

Tipos de distribuições:
Teoria da Amostragem
- A teoria de distribuição amostral assume que as amostras são aleatórias
e representativas da população.

Distribuição Amostral
- A estatística da amostra é uma variável aleatória já que o valor da
estatística da amostra varia de amostra para amostra.

Eu junto um conjunto de variáveis com mesmo tamanhos e a média


amostral seria x

Você também pode gostar