Escolar Documentos
Profissional Documentos
Cultura Documentos
095 (1)
© imervalo (4 — 0.02; + 0.02) ¢ chamado intervalo de confianga para p. Sendo que, 0
nivel de confianga é 0.95. Note que, qualquer n suficientemente grande ird satisfazer a
expresso (1.1). A determinagio de n usa recursos da teoria das probabilidades, em
particular, o teorema central do limite que pode ser explorado em disciplinas de probabilidade
¢ inferéncia estatistica. Despre:
zando alguns detalhes técnicos, segue da expresso (1.1) que
0.02 = 1.96/p0— p/n
Sendo que, 1.96 representa o percentil 97.5 de uma distribuigao de probabilidade Normal
padronizada. Isto implica que n = 9604p(1—p). Em muitas aplicagdes, como a deste
exemplo, nao hé informagio adicional sobre 0 valor verdadeiro de p. Entio, admite-se
p = 1/2, 0 valor de p que maximiza p(1— p). Como resultado, n = 2401. A Figura 1.2
apresenta a estimativa simulada da proporgao de votos do candidato A baseado em uma
amostra de tamanho 2401.
Candidato A Candidato B
%
02 02 04 05 06
ot
oo
Figura 1. 2- Resultado simulado da proporgio de votos do candidato A.‘Anse Explratiin de Dados 5
Apés a divulgacao da pesquisa de opinio pelos érgaos de imprensa, algumas questdes
podem surgir ao eleitor. Como foi determinado o tamanho da amostra n ?; Que informagio
importante 0 instituto de pesquisa de opiniao nao apresentou?
Exemplo 1.2 - Determinagio do tamanho de uma populagao (WN). Considere uma populagao
formada por um conjunto de N taxis de uma cidade ¢ que os téxis so enumerados de 1a N.
Para estimar o mimero N de taxis da cidade, foi anotado os niimeros de todos os taxis que um
turista pegou: 440,73, 179, 405 ¢ 280. Como devemos escolher uma estimativa para N?
Os dados ordenados podem ser representados por: (73, 179, 280, 405, 440),
Estimativa de N pelo Método do Extremo: Uma estimativa € obtida somando 0 maior valor
na amostra (440) com a lacuna do menor valor (72). Ou seja, NW = 440 + 72 = 512
Observar que a lacuna entre dois valores dados foi definida pela quantidade de inteiros entre
cles, Entao, a lacuna entre 405 ¢ 440 € (440 — 405 —1) = 34 (existem 34 mimeros
inteiros entre 405 e 440).
Estimativa de N usando Mediana da Amostra: Outra estimativa de N 6 obtida somando-se 0
valor mediano da amostra (280) com sua lacuna (279). Ou seja, N = 280 + 279 = 559.
Estimativa de N pela Média das Lacunas: Considere agora as lacunas observadas na amostra,
isto €, 0 n° de observagdes entre dois valores ordenados da amostra. Os tamanhos das lacunas
observadas sio: 72, 105, 100, 124 ¢ 34. A média das lacunas é dada por:
X= (72 + 105 + 100 + 124 + 34)/5 = 87.
Portanto, outra estimativa é dada por: N = 440 + 87 = 527.
Como poderfamos escolher 0 método de estimagio a ser usado? Esta questio € tratada
em Inferéncia Estatistica. A Estatistica Descritiva, é 0 objeto de estudo dos Capitulos 2 ¢ 3.1.2 Cédigos em R usados no Capitulo 1
##t Cédigos em R do Exemplo 1.1
rm(list=Is(all=TRUE))
x=rbinom(n=2401, size =1,prob=0.58)# sim=1, 0=ndo
nelength(x)
summary(x) # resumo da varidvel (ou vetor )x
‘mean(x) # média de x
var (x) # variancia de x
sd(x) # desvio padrao dex
‘## usando 0 Basics
require ( fBasics ) # carrega o pacote fBasics
basicStats (x) y=c("Candidato A”, "Candidato B")
fize(sum(x), n-sum(x))
pxefi/n
barplot(pxnames=as character(y), ylim=c(0,1.4*max(px)), ylat
ren", main="‘Anse Explratiia de Dados 7
2. Dados Univariados
A Estatistica Descritiva retine um conjunto de técnicas para resumir os dados em
tabelas, grificos e medidas descritivas que permitem tirar informagdes contidas nos dados,
Num conjunto de dados podemos ter dois tipos de varidveis, as quamtitati
S © as
qualitativas.
Variaveis Quantitativas: Sao varidveis numéricas obtidas por contagens ou
‘mensuragao, podem ser discretas ou continuas.
* Varidveis discretas: estdo associadas a dados de contagem, por exemplo, X
‘Niimero de ususrios atendidos mensalmente numa biblioteca; X = Numero de
clientes numa fila esperando atendimento; X = mimero de caras voltadas para
cima em 20 langamentos de uma moeda honesta,
+ Varidveis continuas: estdo associadas a medidas de tempo, peso, altura,
volume, érea, .... capacidade. Por exemplo, T = Tempo de atendimento em
Yy
minutos a um usudrio ou cliente; X = peso em kg de um individu ota
obtida por um aluno numa prova de matematica.
Variaveis Qualitativas ou Categéricas: Sio variéveis nio numéricas em que os
resultados sio categorias ou atributos. Por exemplo, opinido sobre um produto
comprado em uma loja de esporte: {étimo, bom, regular, ruim, péssimo); resultado do
langamento de uma moeda uma nica vez: {cara, coroa); resposta sobre a instalagao
ou nao de um aplicativo num smartphone: {sim, nao}; resultado sobre a qualidade de
um produto fabricado: {perfeito, defeituoso}. Em geral, as varidveis qualitativas
podem ser codificadas numericamente, por exemplo, "sim = 1" ¢ "nao = 0"
Apés a coleta ou obtengao dos dados ¢ a construgao de um banco de dados, como
resumir e organiz:
Seges 2.1 € 2.2.
los de uma maneira informativa? A resposta a esta questdo é tratada nas2.1.
fabelas e Graficos
Apés a coleta dos dados a construgao de um banco de dados pode ser feita em forma
de planilha em um software estatistico para facilitar o resumo de interesse, Um exemplo de
um banco de dados é dado pela Tabela 2.1
TABELA 2.1 - Amostra aleatéria de tamanho 20 de algumas varidveis coletadas numa
pesquisa com estudantes da graduagdo em Matematica da UFMA em setembro de 2010.
Aluno
PL
P2
PB
P7a
P10B
P24
B
3
2
P27
16
B
39
10
32
1
3
12
33
ii
a
18
74
a
Si
EN
26
Gy
Pi. Ano curricular que frequenta?, 1. 1? ano, 2. 22 ano, 3.
P2, Sexo? 0. masculino, 1. feminino,
P3, Falxa etdria?; 1. 17-20 anos, 2. 21-25 anos, 3. 26-30 anos, 4. 31-40 anos, 5. 41 -50 anos.
a
7
alefr[rfrfelalafrfefelele] wf uf ofefole] a
0
0
o
in
o
0
0
0
1
o
1
oO
0
0
0
o
oO
0
1
1
wlalalslalalals)alululaslalw)alslulwlale
BP ano, 4. A ano.
7a. Dominio do idioma inglés para a leitura?; 1. sim, 0. ndo,
P108. Grau de satisfagdo em relagdo as bibliotecas central e setorial? 1. Sem opinido 2.Insatisfeito, 3.
Regular, 4. Bom, 5. Excelente.
P24. Seus professores demonstraram dominio atualizado das disciplinas ministradas? 5. Sim, todos; 4. Sim,
a maior parte deles; 3. Sim, mas apenas metade deles; 2. Sim, mas menos da metade deles; 1. No, nenhum.
deles.
P27. Como vocé avalia a contribuico do Curso para sua formacdo? 5. Muito boa; 4. Boa; 3. Regular; 2.
Fraca; 1. Muito Fraca.
* NA: Nao se aplica, nao respondeu.
+ A pesquisa teve por objetivo obter informacdes do perfil do aluno e sobre 0 grau de satisfagéo em
relagSo aos servigos educacionais oferecides pela Instituiglo, Curso e administragso académica, O
periodo de referéncia considerado foi o 12 semestre de 2010. As entrevistas foram realizadas entre 0s
dias 01, 02 ¢ 03 de setembro de 2010. Foi utiizada uma amostragem aleatérla estratificada dos alunos
levando-se em consideragio 0 periodo matriculado. A amostra final foi composta de $3 alunos. A‘Anse Explratiia de Dados 9
tabulagdo dos dados foi feita no software Excel, Para a elaboragdo dos gréficos e estatisticas
descritivas, foram utilizados o Excel eo software R (R Development Core Team, 2010)
2.1.1. VARIAVEIS CATEGORICAS
Podemos resumir os dados de variaveis categéricas em
* tabelas de frequéncias
* grdficos: em colunas, linhas, histograma de frequéncias, diagrama de pontos ¢
bastoes;
Suponha que os dados estao classificados em k categorias. Calculamos as frequéncias
absolutas f; ¢ as frequéncias relativas f,; de cada categoria
requéncia da categoria j
py <= Mremenciadacategoriaj 5 _ 4 >, (21)
n 12 total de observasbes
Frequéncia simples
Categorias da variével X | absoluta | relativa
fi fi
Gq fh fra
GQ he fa
Cx te Sr
TOTAL 1 10
Geralmente os dados categ6ricos podem ser resumidos por uma tabela de frequéncias, como
mostra a Tabela 2.2 , por gréficos em colunas, barras horizontais ¢ em setores.
Exemplo 2.1 - Considere uma amostra aleatéria de 16939 fontes bibliograficas da biblioteca
da Universidade de Illinois. Uma medida de desempenho utilizada na definigao da qualidade
da biblioteca é a taxa de cobertura estimada na Tabela 2.2 pela percentagem de itens
possuidos na mostra. Os dados estao resumidos na Tabela 2.2 ¢ Figuras 2.1 ,2.2,2.3e 2.4.Andlse Exolrattis de Dados 10
TABELA 2.2 - Amostras de referéncias bibliogrificas da Universidade de Illinois - 1990.
. Tamanho da Possuidos
Tipo de Fonte | _N'de titulos amostra frequéncia (f) (%)
Monografia 10514 1200 923 77
Periédico 4268 1200 1046 87
Tese 2157 1050 961 91
TOTAL. 16939 3450 2930
Fonte: Lancaster (1993) p43, apud Oliveira (1991).
Os dados da Tabela 2.2 podem ser representados graficamente, por exemplo, por grificos em
setores ou em colunas. Para construir o gréfico da Figura 2.1 usando uma calculadora a tabela
seguinte pode ajudar.
Tipo de Fonte i Sri graus:
‘Monografia 10514 06207 23,4512
Periddico 4268 0,25196 90,70665
Tese 2157 0.12734 45,84214
TOTAL 16939 1 360
ReferdncaeBiblogrificas
13%
62%
25%
Monografia mPeriédico Tose
Monegretia —_Periésico
Figura 2.1 - Distribuicdo das referéncias bibliograficas Figura 2.2 - Distribuicdo das referéncias bibliogriticas
da Universidade de Illinois - 1990. da Universidade de Ilinois - 1990.
m
5
Tose
0
8s Peviscico
80
os a Monografia
” ° 500 1000 1500
To Peviseico Monografia 'Possuidos_= Tamanho da amostra
Figura 2.3 - Estimativa da cobertura das referéncias Figura 24 - Amostras de referéncias bibliogréficas
bibliograficas da Universidade de Minois - 1990. da Universidade de Minois - 1990.‘Anslse Explain de Dados "
Exemplo 2.2 - (a) Grificos em colunas para as varidveis P1: ano curricular e P1OB: grau de
satisfagdo em relagdo as bibliotecas central e setorial, respectivamente, apresentadas na
Tabela 2.1.
40
30
20
10
| 7 [|
oo a x ”
Ano curricular que frequent
Figura 2.5 (a) - Ano curricular frequentado pelos alunos da graduagiio em matemética da UFMA numa amostra
aleatéria de tamanho 20 em setembro de 2010,
Sem opinido Insatisfeito Regular Bom Excelente
%
40 20 30 40
0
Figura 25 (b) - Grau de satisfagio em relagao as bibliotecas central e setorial dos alunos da graduagio em
matematica da UFMA numa amostra aleatéria de tamanho 20 em setembro de 2010.
Um exemplo de grifico em colunas agrupadas é dado pela Figura 2.5 (c)Anslse Expl de Dados 12
'elelslelelsl¥' slials
Figura 2.5 (c) - 0s der clubes do NI
1989 - 2020.
Ponte: https:f/cassiozirpoli com br/o-ranking-dos-nordestinos-na-copa-do-brasil-com-89-
‘lubes-de-1989-2-2020/
ym as majores soma de pontos na Copa do Brasil,
Exemplo 2.2 - (b) Exemplos de graficos em barras horizontais que so apropriados quando
temos muitas categorias sao apresentados pelas Figura 2.6 (a) e 2.6 (b).
RS mithes
anc J EEL 8,5
Pivees SL 69.8
Corinthians XQ =n 66.6
Internacional @ 39,7
Séo Paulo F 36,6
Vasco Yj 36,0
Gremio J LT 35,4
Fluminense 9 == 275
Santos jf} et 22,3
Cuzco S 213
AtléticoMG fF Si 16,3
Atlético PR @ at 11,3
Botafogo-RJ (J mam 10,1
Figura 2.6 (a) - Receita de alguns times de futebol com publicidade no ano de 2015.
Fonte: htp/esport.uol.comrifutebolultimas-noticias/2016/07/2/palmeitas-passa-corinthians--fiaeem-2-em-
receitacpublisitariatlae-{ bumAntlce Expl de Dados 13
RECEITAS COMERCIAIS - 2019
PALMS 135
FLAMENGO SE 105
CORNTHANS TT 90
GCREMO ET 70
INTERNACIONAL ST 51
SAO PAULO SE 33
ATHLETICOPR a 38
FORTALEZA SENN 26
AHA SE 25
CRUZEIRO SE 24
SANTOS HEN 23
ATLETICO-MG EEN 22
VASCO MEN 20
FLUMINENSE
CEARA
eo1ks
AMERICA-MG
SPORT
anenico.co
40 60 80 100 120 140
Figura 2.6 (b) - Receitas comerciais dos clubes do Brasil no ano de 2019.
Fonte hits ny superspores com btepp/ncticiaafuebel
fatcbol-nacional/202006/03/otia, futebol. nacional. 3849487/lleco--0-nono--cruzsro-o-ecimo-no-
ranking-deteceitas-dot-clue shit
2.1.2. VARIAVEIS QUANTITATIVAS DISCRETAS
Podemos resumir os dados em
© tabelas;
* grdficos: em colunas, linhas, histograma de frequéncias, diagrama de pontos
bastoes;
* medidas descritivas, ver Segao 2.2.
Para resumir os dados de uma varidvel quantitativa discreta numa tabela de
frequéncias, calculamos as frequéncias relativas dadas por:
frequéncia de um valor x;
7 total de observagses
(2.2)
fr;
Exemplo 2.3 - Os dados a seguir representam 0 nimero didtio X de livros de estatistica
retirados em uma biblioteca, em 30 dias do primeiro semestre do ano de 2015.
G31 1,0, 1, 0,
1, 2,
44 1, 1, 0, 2, 2, 0, 0, 0,
, 1, 2,0, 0, 1, 6, 4, 3, 3, 1 2,
0,
» 4, 0)‘Anse Explratiin de Dados 14
Na Tabela 2.3 temos as frequéncias relativas (distribuigdo de frequéncias) para cada
valor observado x da varidvel X = ntimero de livros retirados diariamente.
TABELA 2,3 - Distribuicao de frequéncias do ntimero de livros estatistica
retirados em uma biblioteca, em 30 dias do primeiro semestre do ano de 2015,
X =n" de livros f fr
0 9 0,3000
1 10 03333
2 5 0,1667
3 3 0,1000
4 2 0,0667
5 0 0,0000
6 1 0,0333
TOTAL 30 1,000
A distribuigao de frequéncias de uma varidvel discreta também pode ser representada
por gréficos em colunas, bastées € graficos de retangulos verticais (histogramas).
‘Nas Figura 2.7 e 2.8 temos, respectivamente, os gréficos em colunas e um histograma
para a distribuigdo de frequéncias dada na Tabela 2.3.
frequéncia relativa
035 #9
9.30
0.25 yl
0.20 o
01s
0.10 o
oas i i
0.00 of ry
o 1 2 83 4 5 6 prorat soe
rnimero se vis retirados *
Figura 2.7 - Grifico em colunas da frequéncia igura 2.8 - Histograma da distribuigo de frequéncias
telativa do nimero didrio de livros de do mimeto diétio de livros de estatistica retirados.
estatistica retirados.
Diagrama de Pontos - Os diagramas de pontos ou dot-plots permitem a visualizagao répida
da concentragao e dispersdo dos dados.‘Anlse Explratiin de Daes 15
Exemplo 2.4 (a) - Os dados a seguir representam o tempo (em minutos) entre as chegadas de
10 usuérios numa biblioteca: 20, 6, 52, 4,4,6,7,8, 14, 18.
oo
0000 0 00 3
Figura 2.9 (a) - Tempo (em minutos) entre as chegadas de 10 usuérios numa biblioteca.
Na Figura 2.9 (b) temos uma reprodugdo obtida usando a linguagem R da Figura 2.9 (a). Os
Cédigos utilizados sao:
(20, 6, 52, 4, 4, 6,7, 8 14, 18)
stripchart(x, ‘method Offset,= 1.0, at = .10, pch = 20,
main “t,col = “blue")
10 20 30 40 50
tempo em minutos
Figura 2.9 (b) - Tempo (em minutos) entre as chegadas de 10 usuérios numa
biblioteca,
2.1.3. VARIAVEIS QUANTITATIVAS CONTINUAS
Podemos resumir os dados em
* tabelas de frequéncias;
* gréficos: histograma de frequéncias ¢ diagrama de pontos ¢ diagrama de caixa;
+ medidas descritivas, ver Segao 2.2.‘AnslseExolratiia de Dados 16
s histogramas, os diagramas de pontos (“dot-plots") e os diagramas de caixa ("box-
plots") so graficos que fomecem informagies sobre a centralidade dos dados, variabilidade e
sobre a forma de sua distribuigao de frequéncias.
Diagrama em caixa ou Box-plot - Representagdo gréfica de cinco medidas amostrais:
minimo, 1° quartil, mediana, 3° quartile maximo de uma varidvel X. Essas medidas estio
apresentadas na Segdo 2.2. Na Figura 2.10, temos uma representagdo esquemitica de um "box
plot".
‘Figura 2.10 - Exemplo de um "box-plot" e algumas de suas caracteristicas
Fonte: adaptado de Bustab & Moretin (2008).
Observar que Li= Q1-$(Q3- QU) Ls = 3+ 3/2(Q3-Q1), Li = titimo ponto
inferior ¢ Ls = iltimo ponto superior. Q1 ¢ Q3 representam 1° quartil e 0 3° quartil,
respectivamente, © ponto * representa um ponto extremo da varidvel X.
Exemplo 2.4 (b) - Considere os dados observados de 15 estudantes nas varidveis X ¢ ¥ notas
em duas provas de Estatistica
X =5,8,9,9,9,8,9,6,5,10,9, 7,8, 10,6
Y = 2,4,6,8,9,8,7,7,6,7,8,7,7,8,7‘Anse Explratiia de Dados 7
Na Figura 2.11 temos uma representagao gréfica para os dados observados das varidveis X ¢
y,
Figura 2.11 - "Box-plots” para os dados observados das variveis X e Y do Exemplo 2.4 (b).
#4 Cédigos em R para os dados do Exemplo 2.4 (b)
## cédigos em R para os dados do Exemplo 2.4 (b)
x= CG, 8 9, 9, 9, 8, 9, 6, 5, 10, 9, 7, 8, 10, 6)
y= CQ, 4, 6, 8 9, 8, 7, 7, 6 7, 8, 7, 7, 8 7)
scores = data. frane(x,y)
boxplot(scores,col = "red")
Histogramas de frequéncias - Sao mais aproptiados do que os dot-plots quando o tamanho
da amostra é grande.
Para construir os histogramas podemos utilizar uma tabela de distribuiggo de
frequéncias ou diretamente fazer uso dos dados brutos.
DISTRIBUICAO DE FREQUENCIAS DE VARIAVEIS CONTINUAS
Em geral, na construgio de uma distribuigao de frequéncias consideram-se intervalos
de classes de comprimentos iguais (Wand, 1997). Os procedimentos utilizados para a
construgio de histogramas e tabelas de frequéncias se baseiam no que segue.‘Anse Explratiia de Dados 18
(i) Achar o minimo e o maximo dos dados ¢ determinar o mimero de classes (K),
pela regra de Sturges (Sturges, 1926; Hyndman, 1995),
+3,322log,)n
Observar que,
logn
log2
k=1+log,n=14
+3,322log,,n
Gi) Escolher intervalos de classes de comprimento ¢ iguais que incluam o minimo
€ 0 maximo da amostra:
(ii) Contar o niimero de observagdes que pertencem a cada imtervalo de classe.
Esses ntimeros fi, fy, fx So as frequéncias das classes 1,2, ...,k,
respectivamente.
(iv) Calcular as frequéncias relativas (f7j) da j-ésima classe:
fy _ frequéncia obsevada na classe j
n 72 total de observagses ’ 2 ¥?
fn= (23)
Uma tabela de frequéncias para os dados observados de uma varidvel X pode ser apresentada
na seguinte forma:
Frequéncia simples [ Frequéncia acumulada
xX [ absoluta | relativa | absoluta | relativa
fi tei i Fj
{lo b) fi Sra A,
(hb) h fra fy fr
(anal) | fe Sr n
Total n 1
sendo que,‘Anse Explratiin de Daces 19
Fry = fry + fre t+ fry
Observar que: [lol:)=lp Sai