Você está na página 1de 23

Estatística

Variabilidade
Aula 2
ESTATÍSTICA

Área do conhecimento que congrega


um conjunto de métodos
especialmente dedicados à coleta,
apresentação (organização, resumo
e descrição), análise e
interpretação de dados, tendo como
objetivo a compreensão de uma
realidade específica.

Ciência que nos ajuda a tomar


decisões e tirar conclusões na
presença de variabilidade.
ESTATÍSTICA

Variabilidade
As sucessivas observações de um mesmo fenômeno
não produzem exatamente o mesmo resultado.
Fontes potenciais de
variabilidade

𝑋 - tipo estrada usada (cidade/autoestrada)


𝜀 - desgaste/calibragem dos pneus

𝜇 𝑋 =𝜇+𝜀 - desgaste peças do motor (compressão)

- marca da gasolina/posto em que


abastece

- condições climáticas

- maneira de dirigir

- ...
ESTATÍSTICA

Trabalha com dois tipos de conjuntos de dados: a


população (ou universo) e a amostra. A população é o
População maior conjunto de entidades sobre o qual se deseja
realizar uma investigação. A amostra é uma fração, ou
parte, dessa população.

Amostra
ESTATÍSTICA

Variável, dado e informação

Variável é um atributo mensurável que pode mudar


(ou variar) conforme mudam, por exemplo, o tempo,
a localização geográfica, o grupo de pessoas em
que está sendo realizada uma medida etc.

Dado é o valor resultante da mensuração de uma


variável em um indivíduo ou em um caso particular.

Informação é resultante do processamento,


manipulação e organização de dados, de tal forma
que represente uma modificação no conhecimento
do sistema que a recebe.
ESTATÍSTICA

Dado bruto é o oriundo diretamente da fonte de


que se origina, sem quaisquer modificações feitas
pelo analista. Exige pré-processamento, cujos
passos devem ser documentados.

Dado processado ou tratado, por outro lado, é o


dado pronto para a análise (tidy data).
Quantidade de Eleitores
UF
Feminino Masculino Não Informado Total
AC 253.853 249.733 16 503.602
AL 1.013.007 865.676 1 1.878.684
AM 1.104.814 1.081.939 308 2.187.061
AP 227.680 223.835 92 451.607
BA 5.260.736 4.878.808 7564 10.147.108
CE 3.244.114 2.952.802 7912 6.204.828
DF 1.006.079 869.715 542 1.876.336
ES 1.361.066 1.277.673 2337 2.641.076
ESTATÍSTICA

Variáveis quanto à medição


Variável Escala Descrição Exemplos

Baseada na classificação de
elementos, conforme um ou
Nominal Estado civil, religião
mais atributos, para a
formação de grupos distintos

Categórica
(qualitativa)
Binária ou As características em estudo
Eleito (sim, não)
dicotômica têm apenas duas categorias

Permite ordenar as
1 – discordo totalmente
categorias de acordo com
2 – discordo parcialmente
uma sequência com
3 – indiferente
Ordinal significado sem quantificar a
4 – concordo parcialmente
magnitude da diferença
5 – concordo totalmente
entre indivíduos
ESTATÍSTICA

Variáveis quanto à medição


Variável Escala Descrição Exemplos
Intervalar distâncias iguais entre Temperatura
pontos da escala
correspondem a
Numérica quantidades iguais da
(quantitativa) propriedade sendo
medida
Razão zero absoluto como Idade, altura, peso
valor mínimo

Variáveis quantitativas são ainda: (1) contínuas, quando puderem assumir qualquer
valor numérico dentro do intervalo definido para a escala (p.e. altura, peso...); (2)
discretas, quando forem expressas por um conjunto limitado de valores, em geral
inteiros, mesmo que o intervalo definido para a escala compreenda um continuum
de valores (p.e. número de votos, número de filhos...).
ESTATÍSTICA

Princípio da coleta de dados


Método Descrição

O pesquisador não interfere nos


fenômenos em estudo, apenas os
Observacional
observa de maneira sistemática e
padronizada
Algumas variáveis ou aspectos do
ambiente são manipulados de forma
Experimental
planejada e os respectivos efeitos,
observados.
ESTATÍSTICA

Método experimental
Projeto Descrição
A variável independente é manipulada em grupos distintos de
participantes de modo que um grupo participa de uma
Medidas
condição experimental, enquanto o outro grupo participa de
independentes
condição diferente. Os resultados são comparados ao final do
experimento.

A variável independente é manipulada sobre o mesmo grupo


Medidas repetidas ou
de participantes, em condições distintas: experimental e de
relacionadas
controle.
CIÊNCIA DE DADOS

Com o advento do Big Data, o termo


Ciência de Dados ganha espaço.
CIÊNCIA DE
DADOS Ciência que visa estudar as informações, seu
processo de captura, transformação, geração e,
posteriormente, análise de dados. Envolve
diversas disciplinas:

• Estatística
• Computação
• Conhecimento do negócio
• Matemática
CIÊNCIA DE DADOS

Big Data

HD da IBM (1956). Capacidade 5 Mb


CIÊNCIA DE DADOS

Big Data

8 pol (80 KB) – 5 ¼ pol (1978: 360 KB, 1984: 1,2 MB) – 3 ½ pol (1988: 1,44 MB, 1988: 2,88 MB)
CIÊNCIA DE DADOS

Big Data

1 zettabyte = 1.000.000.000.000.000.000.000 = 1021 bytes


CIÊNCIA DE DADOS
Big Data
CIÊNCIA DE DADOS

MÉTODO OBJETIVO CARACTERÍSTICAS

É a primeira forma de análise.


Geralmente aplicada em censo.
Descrever um
Descrições não podem ser generalizadas sem
Descritivo conjunto de modelagem estatística adicional.
dados.
IBGE
CIÊNCIA DE DADOS

MÉTODO OBJETIVO CARACTERÍSTICAS

Útil na descoberta de novas conexões


de dados e na definição de estudos
futuros.
Encontrar relações
Exploratório Não pode ser usado para generalização
desconhecidas.
ou predição.

Correlação não implica causa.

Condições causais:

• existe correlação
• existe precedência temporal
• existe causa concorrente
CIÊNCIA DE DADOS

MÉTODO OBJETIVO CARACTERÍSTICAS

Envolve estimativas tanto da


Dizer algo sobre uma quantidade em estudo como da
incerteza da medida.
grande população a
Inferencial partir de uma
População
Depende fortemente do esquema de 𝜇
amostra relativamente amostragem. 𝜎
pequena.
Utilizado para generalização.

Amostra
𝑥ҧ
𝑠
CIÊNCIA DE DADOS

MÉTODO OBJETIVO CARACTERÍSTICAS

Mais desafiador que o método


inferencial.

Utilizar dados sobre A predição acurada depende fortemente


da medição das variáveis corretas.
alguns objetos para
Preditivo
predizer os valores de Modelos simples e grande quantidade
outros objetos. de dados são desejados.

Se X prediz Y não significa dizer que X


causa Y.

“Predições são muito difíceis, especialmente


as sobre o futuro” (Niels Bohr)
CIÊNCIA DE DADOS

MÉTODO OBJETIVO CARACTERÍSTICAS


Lei de Ohm
Construído a partir de nosso
conhecimento de um mecanismo físico. 𝐼 = 𝑉/𝑅 + 𝜀
Entender o efeito de Geralmente modelado por um conjunto
de equações determinísticas
todas as fontes de
(física/engenharia).
Mecanicista variabilidade não
modeladas que afetam O componente aleatório é o erro (𝜀).

um sistema.
Conhecidas as equações, mas não os
parâmetros, estes podem ser inferidos
Mecanicistas Empíricos
por análise de dados. Mn – peso molecular médio de um polímero
V – viscosidade do material
T – temperatura

Mn = β0+ β1V+ β2T+ε


CIÊNCIA DE DADOS

Descritivo

Exploratório

Inferencial

Você também pode gostar