Você está na página 1de 37

Bases Computacionais da Ciência

Estatística Descritiva
Profª. Angelica Nakagawa Lima
angelica.lima@ufabc.edu.br

Outubro/2020
Tópicos
• Pesquisa Científica e Estatística
• Distribuição de frequências
• Medidas de tendência central e de dispersão
• Relação entre variáveis
Pesquisa Científica e Estatística
Onde usamos estatística na Ciência?

Veremos alguns exemplos a seguir...


Crash test
• Para determinar se um modelo de carro é seguro, são
realizados testes de impacto com alguns exemplares
iniciais.
• O teste assume que
esses exemplares são
representativos e
refletem o que ocorrerá
com outros carros do
mesmo modelo que
ainda serão fabricados.
By Calspan Corporation, National Highway Traffic Administration - http://www-
nrd.nhtsa.dot.gov/database/VSR/SearchMedia.aspx?database=v&tstno=9337&mediatyp
e=r&r_tstno=9337, Public Domain,
https://commons.wikimedia.org/w/index.php?curid=48161491
Avaliações médicas
• Um paciente é internado após um ataque cardíaco. Para estimar o
risco de um novo ataque, são avaliadas diversas variáveis como
medidas clínicas, histórico familiar, etc.
• A partir de dados de pacientes anteriores com características
semelhantes, estima-se o risco de um novo ataque.
Pesquisas eleitorais
• Com base em uma amostra da população, estima-se a intenção de
voto em cada candidato.
Efeito de medicamentos
• Para avaliar o efeito de medicamentos, uma amostra das pessoas é
utilizada para realização de testes;
• Geralmente aplica-se o medimento a um grupo e a outro grupo
(controle) aplica-se um medicamento sem efeito (placebo).
Conceitos importantes
• Ponto comum entre os exemplos anteriores: incerteza (pois estamos
trabalhando com um subconjunto dos dados);
• Esse subconjunto é a amostra;
• Subconjunto (da população) usado para estimar as características da
população.
• O conjunto completo é a população;
• Alvo da investigação.
Estatística
• Ramo da Matemática que estuda como podemos obter conclusões
sobre um universo maior de objetos com base em uma amostra.
• Nesse processo devem ser considerados que há variação e incerteza
nas medidas.
Pesquisa científica
• Para entender como a Estatística pode influenciar um estudo
científico, veremos como é o processo científico;
• Resumidamente:
• Determinar objetivo;
• Coletar dados relevantes;
• Analisar os dados;
• Tirar conclusões (e definir continuidade da pesquisa).
Pesquisa científica
• Determinar objetivo; Determinar
• Coletar dados relevantes; amostra
• Analisar os dados; Amostra deve ser
• Tirar conclusões (e definir significativa
continuidade da pesquisa).
Pesquisa científica
• Determinar objetivo; Determinar
• Coletar dados relevantes; amostra
• Analisar os dados; Medição de
• Tirar conclusões (e definir variáveis
continuidade da pesquisa).

Tipos de variáveis
• Independente: sofre uma intervenção/manipulação e/ou
exerce influência sobre uma variável de resposta.
• Dependente: medida de interesse da pesquisa; Varia em
resposta a uma variável manipulada.
Pesquisa científica
• Determinar objetivo;
• Coletar dados relevantes;
• Analisar os dados; Cálculo de valores sobre as
• Tirar conclusões (e definir variáveis medidas.
continuidade da pesquisa).
Pesquisa científica
• Determinar objetivo;
• Coletar dados relevantes;
• Analisar os dados; Cálculo de valores sobre as
• Tirar conclusões (e definir variáveis medidas.
continuidade da pesquisa).

Análise estatística
• Estatística descritiva: apresentação, organização e resumo das
variáveis medidas;
• Estatística inferencial: métodos para generalizar as medidas
para a população.
Tipos de dados
Nominal
Categórico
(qualitativo)
Ordinal

Contínuo
Numérico
(quantitativo)
Discreto
Distribuição de frequências
Distribuição de frequências
• Frequência: contagem dos elementos de uma categoria.

Número de
Curso
estudantes
Economia 10
Matemática 20
Computação 40
Engenharia 15
Quantidade de alunos por curso (dados aleatórios)
Taxa / Porcentagem
Número de Número de
Curso 𝑓 Curso
estudantes 𝑃= estudantes
Economia 10 𝑁 Economia 11,8%
Matemática 20 Matemática 23,5%
Computação 40 Computação 47,1%
Engenharia 15 Engenharia 17,6%
𝑓 é a frequência na categoria
𝑁 é o total de elementos (soma de todas as categorias)

10 20
𝑃(𝐸𝑐𝑜𝑛𝑜𝑚𝑖𝑎) = 𝑃(𝑀𝑎𝑡𝑒𝑚á𝑡𝑖𝑐𝑎) =
10 + 20 + 40 + 15 10 + 20 + 40 + 15

40 15
𝑃(𝐶𝑜𝑚𝑝𝑢𝑡𝑎çã𝑜) = 𝑃(𝐸𝑛𝑔𝑒𝑛ℎ𝑎𝑟𝑖𝑎) =
10 + 20 + 40 + 15 10 + 20 + 40 + 15
Intervalos
• Quando lidamos com dados numéricos, também
podemos utilizar intervalos para cálculo de
frequências.
Frequência
Frequência Frequência
Tabela de (Bases Computacionais da Ciência -

Intervalo Frequência acumulada


relativa acumulada
relativa
16 |-| 20 12 39% 12 39%
21 |-| 25 10 32% 22 71%
26 |-| 30 7 23% 29 94%
UFABC, 2013)

31 |-| 35 2 6% 31 100%
Total 31
Histograma
• Gráfico de barras com a frequência de cada intervalo;
• Permite visualizar a distribuição de valores.
Histograma
• Utilizamos plt.hist para gerar um histograma.
import pylab as plt

notas = [3, 4.5, 5, 3.2, 5.5, 4, 9.5, 10,


2.2, 0, 5, 1, 7.1, 6.8, 6.4, 6]

plt.hist(notas, bins=5)
plt.show()
bins=3
Histograma
• O parâmetro bins define a
quantidade de intervalos:
plt.hist(notas, bins=5) bins=5

bins=7
Histograma
• O parâmetro opcional “facecolor” permite mudar a cor do
histograma:
import pylab as plt

notas = [3, 4.5, 5, 3.2, 5.5, 4, 9.5, 10,


2.2, 0, 5, 1, 7.1, 6.8, 6.4, 6]

plt.hist(notas, bins=5, facecolor="green")


plt.show()
Histograma
• Podemos obter os limites dos intervalos e as frequências do
histograma armazenando seu retorno:

import pylab as plt

notas = [3, 4.5, 5, 3.2, 5.5, 4, 9.5, 10,


2.2, 0, 5, 1, 7.1, 6.8, 6.4, 6]

freq, interv, p = plt.hist(notas, bins=5)


plt.show()
print(freq, interv)
Medidas de tendência central e
de dispersão
Medidas de tendência central
• Média: 𝑁
𝑖=1 𝑥𝑖
𝑥=
𝑁
N = Quantidade de elementos

Tabela de (Bases Computacionais da Ciência -


60

UFABC, 2013)
𝑥= = 5,45
11
Medidas de tendência central
• Mediana: valor central de um conjunto. A
mediana divide a distribuição em duas partes
iguais.
• Primeiro, ordenamos os dados;
• Depois, obtemos a mediana.

Para N ímpar:
𝑁+1
𝑚𝑒𝑑𝑖𝑎𝑛𝑎 = 𝑥𝑖 , 𝑒𝑚 𝑞𝑢𝑒 𝑖 =
2
Para N par:
𝑥𝑖 + 𝑥𝑖+1 𝑁
𝑚𝑒𝑑𝑖𝑎𝑛𝑎 = , 𝑒𝑚 𝑞𝑢𝑒 𝑖 =
2 2
Medidas de tendência central
• Moda: valor/categoria de maior frequência nos dados.

Tabela de (Bases Computacionais da Ciência -


UFABC, 2013)
Medidas de dispersão
• As amostras introduzem variabilidade nos
resultados;
• Essa variabilidade afeta o grau de confiança nos
resultados.
Medidas de dispersão
• Variância amostral:
𝑁
𝑖=1(𝑥𝑖− 𝑥)2
𝑠2 =
𝑁−1

• Desvio padrão:
2
𝑠= 𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎

O desvio padrão mede a dispersão dos valores em torno da média.


Medidas de dispersão
• O desvio padrão mede a dispersão dos valores em torno da média:
• Desvio padrão baixo  os dados tendem a estar próximos da média;
• Desvio padrão alto  os dados estão dispersos por uma ampla faixa de
valores.
Medidas de dispersão

https://www.spss-tutorials.com/standard-deviation/

Desvio padrão baixo Desvio padrão alto


Quartil
• Os quartis dividem os dados em partes com
tamanho de 25%:

Mediana
1º quartil 2º quartil 3º quartil

2, 5 6, 7 8, 9 12, 18
25% 25% 25% 25%

Elementos devem estar ordenados!


Box plot Outlier

Valor máximo
• Gráfico que permite
visualizar a distribuição de
valores de uma variável. Ele
é baseado nos quartis,
3º quartil
conforme mostrado a
seguir:

IQR
Mediana

1º quartil

Valor mínimo

Adaptado de: https://pro.arcgis.com/en/pro-


app/help/analysis/geoprocessing/charts/box-plot.htm
Outlier

Valor máximo

Comprimento máximo:
1,5 * IQR

3º quartil (q3)

IQR = q3 – q1
2º quartil = Mediana

1º quartil (q1)
Comprimento máximo:
1,5 * IQR Valor mínimo
Adaptado de: https://pro.arcgis.com/en/pro-
app/help/analysis/geoprocessing/charts/box-plot.htm
Referências
• Bases computacionais da ciência / Organizado por
Maria das Graças Bruno Marietto, Mário Minami,
Pieter Willem Westera. — Santo André: Universidade
Federal do ABC, 2013. 242 p. ISBN: 987-85-65212–21
• http://editora.ufabc.edu.br/matematica-e-ciencias-da-
computacao/16-bases-computacionais-da-ciencia
• Slides do Prof. Vladimir Rocha – Bases Computacionais
da Ciência – UFABC 2019

Você também pode gostar