Você está na página 1de 28

Estatística

Widemberg S. Nobre
Professor Adjunto

UFRJ

20 de outubro de 2023

1/20
Estatística

▶ O uso de dados como forma de apresentar e tirar conclusões sobre


problemas de interesse

⇒ Estatística descritiva: se preocupa com a organização e apresentação


dos dados observados (tabelas, gráficos, medidas descritivas como
média e variância...)

⇒ Inferência estatística: se preocupa de como dar informação sobre um


universo (população) a partir de um conjunto de dados observados
(amostra)

2/20
Conceitos básicos
▶ População: conjunto de todos os elementos sob investigação.
Usaremos a letra N o número total de elementos populacionais.

▶ Amostra: qualquer subconjunto da população. O número de elementos


da amostra será denotado pela letra n

▶ Parâmetro: qualquer característica numérica de uma da população de


interesse.

Exemplo: Mercado de trabalho


▶ População: Pessoas com 14 anos ou mais aptas a trabalhar

▶ Amostra: conjunto de 1000 pessoas entrevistadas

▶ Parâmetro: Número de pessoas entrevistadas Trabalhando


3/20
Conceitos Básicos
Às características populacionais de interesse daremos o nome de variáveis.
Existem 4 tipos gerais de variáveis:
▶ Quantitativa: as características de interesse possuem natureza
numérica
▶ Discreta: característica enumerável (número de reações químicas num intervalo
de tempo)
▶ Contínua: característica não-enumerável (tempo até a primeira reação química)

▶ Qualitativa: as características de interesse são divididas em categorias


▶ Nominal: categorias não ordenadas (gênero, etnia, etc)
▶ Ordinal: categorias ordenadas (grau de instrução)

4/20
Conceitos Básicos
Às características populacionais de interesse daremos o nome de variáveis.
Existem 4 tipos gerais de variáveis:
▶ Quantitativa: as características de interesse possuem natureza
numérica
▶ Discreta: característica enumerável (número de reações químicas num intervalo
de tempo)
▶ Contínua: característica não-enumerável (tempo até a primeira reação química)

▶ Qualitativa: as características de interesse são divididas em categorias


▶ Nominal: categorias não ordenadas (gênero, etnia, etc)
▶ Ordinal: categorias ordenadas (grau de instrução)

▶ É natural imaginar que o tratamento de dados deve depender do tipo


de variável em estudo.
Análise exploratória de dados
Dados brutos são inerentes a ambiguidades. Logo, faz-se necessário
resumir a informação presente nos dados. Podemos sumarizar informação
através de estruturas visuais e de medidas resumo.
As formas básicas de visualização são:
▶ Visualização tabelar
▶ Visualização gráfica

As medidas resumo são separadas em:


▶ Medidas de tendência central/pontual (média, mediana, moda,
quantis)
▶ Medidas de dispersão (variância, desvio padrão, distância
interquartílica)
5/20
Análise exploratória de dados

Algumas medidas importantes para a nossa discussão.


▶ Frequência absoluta: número de vezes que cada valor é observado
▶ Frequência relativa: numero de vezes que cada valor é observado
dividido pelo tamanho da amostra
▶ Frequência acumulada: soma das frequências absolutas dos valores
inferiores ou iguais ao valor dado

6/20
Exemplo: dados quantitativos

Pesquisa realizada em 20 domicílios do RJ, com o objetivo de contabilizar


o número de filhos por família
dados observados: 0, 1, 0, 1, 2, 1, 0, 0, 1, 0, 1, 4, 2, 1, 3, 1, 2, 1, 1, 1
n° de filhos Frequência absoluta Freq. relativa Freq. acumulada
0 5 5/20 5
1 10 10/20 15
2 3 3/20 18
3 1 1/20 19
4 1 1/20 20

7/20
Medidas de Tendência Central
Como o próprio nome sugere, as medidas de tendência central/pontual são
aquelas que resumem dados através de pontos.
▶ Média Aritmética: dados os valores x1 , x2 , · · · , xn , definimos

1 n
X̄ = ∑ xi
n i=1

▶ Mediana: dados os valores x1 , x2 , · · · , xn , sejam x(1) , x(2) , · · · , x(n) os


mesmos valores ordenados de forma não-crescente. Definimos a
mediana Q2 como crescente

x([n+1]/2) , se n é ímpar
Q2 = x(n/2) + x(n/2+1)
2 , se n é par

▶ Moda: é o valor que ocorre com maior frequência


8/20
Medidas de Dispersão
As medidas de centralidades podem ser insuficientes para caracterizar
e/ou comparar bases de dados. Neste contexto, introduzimos as medidas
de dispersão, as quais indicam o grau de espalhamento dos dados.
Suponha os valores observados x1 , x2 , · · · , xn .
▶ Variância amostral:
1 n
s2 = ∑ (xi − x̄)2
n i=1
▶ Desvio padrão amostral:
s
p 1 n
s = s2 = ∑ (xi − x̄)2
n i=1
▶ Coeficiente de variação amostral:
s
cv =
x̄ 9/20
Quartis
Os quartis são valores que dividem os dados em 4 partes com a mesma
certas proporções de
proporção de dados.
Sejam x(1) , x(2) , · · · , x(n) os ordenados em ordem crescente. Define-se:
▶ Primeiro quartil Q1 : valor que possui 25% dos dados observados
menores ou iguais a ele, e 75% dos dados observados maiores ou iguais
a ele
▶ Segundo quartil Q2 (mediana): valor que possui 50% dos dados
observados menores ou iguais a ele, e 50% dos dados observados
maiores ou iguais a ele
▶ Terceiro quartil Q3 : valor que possui 75% dos dados observados
menores ou iguais a ele, e 25% dos dados observados maiores ou iguais
a ele
A distância interquartílica (DIQ) é definida como: DIQ= Q3 − Q1 .
10/20
Exemplo
dados observados: 0, 1, 0, 1, 2, 1, 0, 0, 1, 0, 1, 4, 2, 1, 3, 1, 2, 1, 1, 1
▶ Calcule média, mediana, moda, variância amostral, desvio padrão
amostral, o coeficiente de variação amostral e a distância interquatílica
dos dados acima

11/20
Exemplo
dados observados: 0, 1, 0, 1, 2, 1, 0, 0, 1, 0, 1, 4, 2, 1, 3, 1, 2, 1, 1, 1
▶ Calcule média, mediana, moda, variância amostral, desvio padrão
amostral, o coeficiente de variação amostral e a distância interquatílica
dos dados acima
▶ Como ficaria o cálculo se usamos a tabela de frequência abaixo?

n° de filhos Frequência absoluta Freq. relativa Freq. acumulada


0 5 5/20 5
1 10 10/20 15
2 3 3/20 18
3 1 1/20 19
4 1 1/20 20

11/20
Relação entre variáveis

Na grande maioria dos problemas, desejamos investigar relações entre duas


ou mais variáveis.
Essas relações podem ser de dois tipos:

▶ Relação de Associação

▶ Relação de Causalidade

12/20
Relação entre variáveis

Exemplo: Paradoxo de Simpson


▶ Suponha a existência de uma nova doença para a qual existem dois
possíveis tratamentos: A e B. Suponha que seu trabalho seja decidir
qual tratamento utilizar. Assuma ainda que a métrica para tomada de
decisão é a minimização do número de mortes. Uma problemática
presente nos dados é que o tratamento B é mais escasso que o
tratamento A.
Relação entre variáveis

Exemplo: Paradoxo de Simpson


Considere que as informações disponíveis, são:
▶ O que acontece com o individuo que segue um dos tratamentos
▶ Condição da doença: grave ou leve
▶ O tratamento que foi atribuído
Relação entre variáveis

Exemplo: Paradoxo de Sympson


Em um levantamento inicial, obteve-se os seguintes resultados
Taxa de mortalidade
Tratamento A 16% (240/1500)
Tratamento B 19% (105/550)

▶ Com base nesses resultados iniciais, qual o melhor tratamento?


Relação entre variáveis

Exemplo: Paradoxo de Sympson


Em um levantamento inicial, obteve-se os seguintes resultados
Taxa de mortalidade
Tratamento A 16% (240/1500)
Tratamento B 19% (105/550)

▶ Com base nesses resultados iniciais, qual o melhor tratamento?


▶ Tratamento A? Precisamos de novas informações?
Relação entre variáveis

Exemplo: Paradoxo de Simpson


Adicionando a informação sobre a condição da doença, temos
Taxa de mortalidade Total
Leve Grave
Tratamento A 15% (210/1400) 30% (30/100) 16% (240/1500)
Tratamento B 10% (5/50) 20% (100/500) 19% (105/550)

▶ E agora, qual o melhor tratamento?

16/20
Relação entre variáveis

Exemplo: Paradoxo de Simpson


Adicionando a informação sobre a condição da doença, temos
Taxa de mortalidade Total
Leve Grave
Tratamento A 15% (210/1400) 30% (30/100) 16% (240/1500)
Tratamento B 10% (5/50) 20% (100/500) 19% (105/550)

▶ E agora, qual o melhor tratamento?


▶ Seria o Tratamento B?
Relação entre variáveis

Exemplo: Paradoxo de Simpson


Adicionando a informação sobre a condição da doença, temos
Taxa de mortalidade Total
Leve Grave
Tratamento A 15% (210/1400) 30% (30/100) 16% (240/1500)
Tratamento B 10% (5/50) 20% (100/500) 19% (105/550)

▶ E agora, qual o melhor tratamento?


▶ Seria o Tratamento B? Ainda precisamos de mais informações?
Relação entre variáveis

Exemplo: Paradoxo de Simpson


Vamos analisar os dados com calma. Pelo que discutimos dos dados,
podemos tirar duas informações:
▶ O tratamento parece ter impacto na taxa de mortalidade
▶ A condição da doença também parece ter impacto na taxa de
mortalidade

17/20
Relação entre variáveis

Exemplo: Paradoxo de Sympson


O ponto chave dessa análise é que não temos informação quanto a relação
entre as variáveis tratamento e condição da doença

18/20
Relação entre variáveis

Exemplo: Paradoxo de Sympson


O ponto chave dessa análise é que não temos informação quanto a relação
entre as variáveis tratamento e condição da doença
Caso 1 Se a condição da doença impactasse a atribuição do tratamento, qual
seria a melhor escolha?

18/20
Relação entre variáveis

Exemplo: Paradoxo de Sympson


O ponto chave dessa análise é que não temos informação quanto a relação
entre as variáveis tratamento e condição da doença
Caso 1 Se a condição da doença impactasse a atribuição do tratamento, qual
seria a melhor escolha?
Caso 2 Se a condição da doença for impactada pela atribuição do tratamento,
qual seria a melhor escolha?

18/20
Relação entre variáveis

Exemplo: Paradoxo de Sympson


O ponto chave dessa análise é que não temos informação quanto a relação
entre as variáveis tratamento e condição da doença
Caso 1 Se a condição da doença impactasse a atribuição do tratamento, qual
seria a melhor escolha?
Caso 2 Se a condição da doença for impactada pela atribuição do tratamento,
qual seria a melhor escolha?
Caso 3 Se a condição da doença não tivesse qualquer relação com a atribuição
do tratamento, qual seria a melhor escolha?

18/20
Coeficiente de Correlação amostral (variáveis
quantitativas)
Sejam X e Y duas variáveis que desejamos estudar as relações entre elas.
Assim, introduzimos o coeficiente de correlação amostral
Definição
Sejam x1 , x2 , · · · , xn uma amostra aleatória. O coeficiente de correlação
amostral é definido como:
sxy
Cor(X , Y ) = ,
sx sy
em que
1 n
sxy = ∑ xi yi − x̄ ȳ .
n − 1 i=1
Observação: sxy é denominado coeficiente de covariância amostral. As
quantidades s e s representam os desvios padrões de X e Y , 19/20
Coeficiente de Correlação amostral (variáveis
quantitativas)
▶ O coeficiente de correlação é adimensional
▶ Cor(X , Y ) é um número no intervalo [−1, 1].
▶ Quão mais próximo de −1 ou 1 estiver esse valor, maior é a relação linear entre
as variáveis.
▶ Quão mais próximo de 0 estiver esse valor, menor é a relação linear entre as
variáveis.

▶ Cor(X , Y ) mede um tipo específico de dependência, chamada


dependência linear.

Nota: Correlação não implica causalidade.


20/20

Você também pode gostar