Escolar Documentos
Profissional Documentos
Cultura Documentos
Ultima
atualizacao: 16 de junho de 2005
Nesta aula e feita uma introducao ao sistema operacional LINUX que vem sendo adotado
ainda mostrado como rodar o programa R neste sistema.
no LABEST. E
1.1
Comandos b
asicos do LINUX
1.2
Entre em sua conta, abra um terminal (clique no botao xterm) e faca o seguinte, utilizando
os comandos da tabela acima.
1. inspecione o conte
udo do diretorio com o comando ls
2. use o editor nano para criar um arquivo chamando arquivo.txt. Para abrir o editor
digite no prompt do Linux:
nano
Digite o texto abaixo no editor:
Este
e um texto digitado no Linux usando o editor nano.
3. grave o arquivo e saia do editor. Para isto veja as opcoes na parte de baixo da tela do
nano. Note que o caracter ^ corresponde `a tecla CTRL. Portanto para gravar o arquivo
voce vai precisar teclar CTRL-O (tecla control mais o caracter O)
4. inspecione novamente o conte
udo do diretorio com o comando ls
5. troque o nome do arquivo de arquivo.txt para arq1.txt
6. use o comando more para visualizar o conte
udo do arquivo
1
CE-002: Estatstica I
opera
abre o browser Opera
ooffice
abre o OpenOfficce
R
abre o programa R
disquete
abre programa para transferencia de arquivos
da area do usuario para disquete inserido em drive local
O smbolo
CE-002: Estatstica I
11. digite novamente pwd e veja o que sai na tela
12. volte para o seu diretorio raiz usando o comando cd
13. digite pwd de novo e veja onde voce esta agora (em qual diretorio)
14. digite o comando ls e veja o resultado
15. apague o arquivo arq1.txt
16. digite novamente o comando ls e veja o resultado
17. entre no diretorio aula1
18. use o comando pwd para ver se voce esta no diretorio correto
19. abra agora um novo arquivo chamando arq2.R usando o emacs
20. digite neste arquivo as seguinte linhas:
x <- rnorm(100)
summary(x)
hist(x)
sum(x > 0)
21. grave o arquivo e feche o editor emacs
22. veja o conte
udo do diretorio com o comando ls
23. abra o editor openoffice e digite o seguinte texto
Este
e um texto digitado no Linux usando o editor OpenOffice.
O Openoffice
e uma alternativa ao MS-Office.
24. grave o texto num arquivo com o nome arq3 no formato do openoffice
25. grave o texto num arquivo com o nome arq3 no formato do MS-Word (extensao .doc)
26. feche o editor e retorne `a linha de comando
27. liste os arquivos agora exitentes em seu diretorio aula1
28. use o Openoffice para criar uma planilha com os seguinte dados
A
A
A
A
B
B
B
B
12
13
11
10
14
15
12
13
29. salve esta planilha num arquivo com o nome arq4 no formato openoffice
CE-002: Estatstica I
30. salve esta planilha num arquivo com o nome arq4 no formato do MS-Excel
31. feche o programa openoffice
32. liste os arquivos nos seu diretorio
33. volte ao seu diretorio raiz.
1.3
Alguns links
1.4
Distribuic
oes de Probabilidade
CE-002: Estatstica I
2.1
Distribuic
ao Normal
0.3146623
0.9766815
1.0738923
1
2 2
exp{
1
(x )2 }
2 2
CE-002: Estatstica I
0.0
0.0
0.2
0.1
dnorm (x)
0.2
pnorm (x)
0.4
0.6
0.3
0.8
1.0
0.4
CE-002: Estatstica I
0
x
0
x
Note que, alternativamente, os mesmos graficos poderiam ser produzidos com os comandos a
seguir.
> plot(function(x) dnorm(x, 100, 8), 70, 130)
> plot(function(x) pnorm(x, 100, 8), 70, 130)
Comandos usuais do R podem ser usados para modificar a aparencia dos graficos. Por exemplo,
podemos incluir ttulos e mudar texto dos eixos conforme mostrado na grafico da esquerda da
Figura 3 e nos dois primeiros comandos abaixo. Os demais comandos mostram como colocar
diferentes densidades em um mesmo grafico como ilustrado `a direita da mesma Figura.
>
>
>
>
>
>
0.0
0.00
0.2
0.01
0.4
0.02
fx
Fx
0.6
0.03
0.8
0.04
1.0
0.05
CE-002: Estatstica I
70
80
90
100
x
110
120
130
70
80
90
100
x
110
120
130
2.2
Distribuic
ao Binomial
Calculos para a distribuicao binomial sao implementados combinando as letras basicas vistas
acima com o termo binom. Vamos primeiro investigar argumentos e documentacao com args()
e dbinom().
> args(dbinom)
function (x, size, prob, log = FALSE)
NULL
> help(dbinom)
Seja X uma v.a. com distribuicao Binomial com n = 10 e p = 0.35. Vamos ver os comandos
do R para:
1. fazer o grafico das funcao de densidade
2. idem para a funcao de probabilidade
3. calcular P [X = 7]
4. calcular P [X < 8] = P [X 7]
5. calcular P [X 8] = P [X > 7]
6. calcular P [3 < X 6] = P [4 X < 7]
Note que sendo uma distribuicao discreta de probabilidades os graficos sao diferentes dos
obtidos para distribuicao normal e os calculos de probabilidades devem considerar as probabilidades nos pontos. Os graficos das funcoes de densidade e probabilidade sao mostrados na
Figura 4.
CE-002: Estatstica I
0.05
N(100,64)
N(90,64)
N(100,225)
0.0
0.00
0.01
f(x)
0.02 0.03
0.04
densidade de probabilidade
0.1
0.2
0.3
0.4
Distribuico Normal
X ~ N(100, 64)
1
0
1
valores de X
60
80
100
x
120
140
Figura 3: Grafico com texto nos eixos e ttulo (esquerda) e varias distribuicoes em um mesmo
grafico (direita).
>
>
>
>
>
x <- 0:10
fx <- dbinom(x, 10, 0.35)
plot(x, fx, type = "h")
Fx <- pbinom(x, 10, 0.35)
plot(x, Fx, type = "S")
As probabilidades pedidas sao obtidas com os comandos a seguir.
10
0.0
0.00
0.2
0.05
0.4
0.10
fx
Fx
0.6
0.15
0.8
0.20
1.0
0.25
CE-002: Estatstica I
10
10
2.3
Exerccios
Nos exerccios abaixo iremos tambem usar o R como uma calculadora estatstica para resolver alguns exemplos/exerccios de probabilidade tipicamente apresentados em um curso de
estatstica basica.
Os exerccios abaixo com indicacao de pagina foram retirados de:
Magalhaes, M.N. & Lima, A.C.P. (2001) Noc
oes de Probabilidade e Estatstica. 3 ed.
Sao Paulo, IME-USP. 392p.
1. (Ex 1, pag 67) Uma moeda viciada tem probabilidade de cara igual a 0.4. Para quatro
lancamentos independentes dessa moeda, estude o comportamento da variavel n
umero de
caras e faca um grafico de sua funcao de distribuicao.
2. (Ex 5, pag 77) Sendo X uma variavel seguindo o modelo Binomial com parametro n = 15
e p = 0.4, pergunta-se:
P (X 14)
P (8 < X 10)
P (X < 2 ou X 11)
P (X 11 ou X > 13)
P (X > 3 e X < 6)
P (X 13 | X 11)
CE-002: Estatstica I
11
P (X 75)
P (85 X 110)
P (|X 90| 10)
O valor de a tal que P (90 a X 90 + a) = , = 0.95
5. A probabilidade de indivduos nascerem com certa caracterstica e de 0,3. Para o nascimento de 5 indivduos e considerando os nascimentos como eventos independentes, estude
o comportamento da variavel n
umero de indivduos com a caracterstica e faca um grafico
de sua funcao de distribuicao.
6. Sendo X uma variavel seguindo o modelo Normal com media = 130 e variancia 2 = 64,
pergunta-se: (a) P (X 120)
(b) P (135 < X 145)
(c) P (X < 120 ou X
150)
7. (Ex 3.6, pag 65) Num estudo sobre a incidencia de cancer foi registrado, para cada paciente
com este diagnostico o n
umero de casos de cancer em parentes proximos (pais, irmaos,
tios, filhos e sobrinhos). Os dados de 26 pacientes sao os seguintes:
Paciente
Incidencia
Paciente
Incidencia
1 2 3 4 5 6 7 8 9 10 11 12 13
2 5 0 2 1 5 3 3 3 2 0 1 1
14 15 16 17 18 19 20 21 22 23 24 25 26
4 5 2 2 3 2 1 5 4 0 0 3 3
Estudos anteriores assumem que a incidencia de cancer em parentes proximos pode ser
modelada pela seguinte funcao discreta de probabilidades:
Incidencia 0
1
2
3
4
5
pi
0.1 0.1 0.3 0.3 0.1 0.1
os dados observados concordam com o modelo te
orico?
faca um grafico mostrando as frequencias teoricas (esperadas) e observadas.
CE-002: Estatstica I
12
Resistencia 2
3
4
5
6
pi
0,1 0,1 0,4 0,2 0,2
CE-002: Estatstica I
2.4
13
Os exerccios a seguir foram extrados de: Bussab, W. & Morettin, P. (2003) Estatstica
B
asica, Atual Editora, 5a Ed.
Probabilidades
1. Uma urna contem duas bolas brancas (B) e tres bolas vermelhas (V). Retira-se uma bola
ao acaso da urna. Se for branca, lanca-se uma moeda; se for vermelha, ela e devolvida `a
urna e retira-se outra. De um espaco amostral para o experimento.
2. Lance um dado ate que a face 5 apareca pela primeira vez. Enumere os possveis resultados
desse experimento.
3. Tres jogadores A, B e C disputam um torneio de tenis. Inicialmente, A joga com B e o
vencedor joga com C, e assim por diante. O torneio termina quando um jogador ganha
duas vezes em seguida ou quando sao disputadas, ao todo, quatro partidas. Quais sao os
resultados possveis do torneio?
4. Considere uma urna contendo tres bolas pretas e cinco bolas vermelhas. Retire duas bolas
da urna, sem reposicao.
(a) Obtenha os resultados possveis e as respectivas probabilidades
(b) Mesmo problema, para extracoes com reposicao
5. No problema anterior, calcule as probabilidades dos eventos:
(a) Bola preta na primeira e segunda extracoes.
(b) Bola preta na segunda extracao.
(c) Bola vermelha na primeira extracao
6. A probabildade de que A resolva um problema e de 2/3, e a probabilidade de que B
o resolva e de 3/4. Se ambos tentarem independentemente, qual a probabilidade de o
problema ser resolvido?
7. Um dado e viciado, de tal forma que a probabilidade de sair um certo ponto e proporcional
ao seu valor. Calcular:
(a) a probabilidade de sair 5, sabendo-se que o ponto que saiu e mpar;
(b) a probabilidade de tirar um n
umero par, sabendo-se que saiu um n
umero maior que
3.
8. Na tabela a seguir, verifique se A e B sao independentes.
B
B C Total
A
0,04 0,06 0,10
C
A
0,08 0,82 0,90
Total 0,12 0,88 1,00
CE-002: Estatstica I
14
9. As probabilidades de tres motoristas serem capazes de guiar ate em casa com seguranca
depois de beber, sao de 1/3, 1/4 e 1/5, respectivamente. Se decidirem guiar ate em casa,
depois de beber numa festa, qual a probabilidade de todos os tres motoristas sofrerem
acidentes? Qual a probabilidade de pelo menos um dos motoristas guiar ate em casa
salvo?
10. Suponhamos que 10.000 bilhetes sejam vendidos em uma loteria e 5.000 em outra, cada
uma tendo apenas um ganhador. Um homem tem 100 bilhetes de cada. Qual a probabilidade de que:
(a) ele ganhe exatamente um premio?
(b) ele ganhe alguma coisa?
11. Em media, 5% dos produtos vendidos por uma loja sao devolvidos. Qual a probabilidade
de que, das quatro proximas unidades vendidas desse produto, duas sejam devolvidas?
12. Tres alarmes estao dispostos de tal maneira que qualquer um deles funcionara independentemente quando qualquer coisa indesejavel ocorrer. Se cada alarme tem probabilidade
0,9 de trabalhar eficientemente, qual e a probabilidade de se ouvir o alarme quando necessario?
13. Num teste com duas marcas que lhe sao apresentadas em ordem aleatoria, um experimentador de vinhos faz tres identificacoes corretas em tres tentativas.
(a) Qual a probabilidade de isso ocorrer, se na realidade ele nao possuir habilidade
alguma para distingui-los?
(b) E se a probabilidade de distinguir corretamente e de 90% em cada tentativa?
Um grupo de 12 homens e 8 mulheres concorre a tres premios atraves de um sorteio,
sem reposicao de seus nomes. Qual a probabilidade de:
CE-002: Estatstica I
15
v
0 1
p(v) q 1-q
(a) De uma urna com dez bolas brancas e 20 pretas, vamos extrair, com reposicao, cinco
bolas. X e o n
umero de bolas brancas nas cinco extracoes.
(b) Refaca o problema anterior, mas dessa vez as n extracoes sao sem reposicao.
(c) Temos cinco urnas com bolas pretas e brancas e vamos extrair uma bola de cada
urna. Suponha qeu X seja o n
umero de bolas brancas obtidas no final.
(d) Vamos realizar uma pesquisa em dez cidades brasileiras, escolhendo ao acaso um
habitante de cada uma delas e classificando-o em pro ou contra um certo projeto
federal. Suponha que X seja o n
umero de indivduos contra o projeto no final da
pesquisa.
(e) Em uma ind
ustria existem 100 maquinas que fabricam determinada peca. Cada peca
e classificada como boa ou defeituosa. Escolhemos ao acaso um instante de tempo e
verificamos uma peca de cada uma das maquinas. Suponha que X seja o n
umero de
pecas defeituosas.
21. Se X b(n, p), sabendo-se que a media E(X) = 12 e a variancia 2 = 3, determinar:
(a) n
(b) p
(c) P (X < 12)
(d) P (X 14)
(e) E(Z) e V ar(Z), onde Z = (X 12)/sqrt3
(f) P (Y 14/16), onde Y = X/n
(g) P (Y 12/16), onde Y = X/n
22. Numa central telefonica, o n
umero de chamadas chega segundo uma distribuicao de Poisson, com a media de oito chamadas por minuto. Determinar qual a probabilidade que se
tenha:
CE-002: Estatstica I
16
CE-002: Estatstica I
17
CE-002: Estatstica I
18
uma caracterstica
33. Determinado tipo de parafuso e vendido em caixas com 1.000 pecas. E
da fabricacao produzir 10% com defeito. Normalmente, cada caixa e vendida por $13,50.
Um comprador faz a seguinte proposta: de cada caixa, ele escolhe uma amostra de 20
pecas; se a caixa nao tiver parafusos defeituosos, ele paga $20,00; um ou dois defeituosos,
ele para $10,00; tres ou mais defeituosos, ele paga $8,00. Qual alternativa e a mais
vantajosa para o fabricante? Justifique.
34. Uma certa regiao florestal foi dividida em 109 quadrados para estudar a distribuicao de
Primula simenses Selvagem. A priori, supomos que esse tipo distribua-se aleatoriamente
na regiao. O quadro abaixo indica o n
umero de quadrados com X Primula simenses; o
n
umero medio de plantas por quadrado foi de 2,2.
X No observado de famlias
0
200
1
152
2
60
3
30
4
13
5
9
6
7
7
5
8
4
Distribui
co
es te
oricas (contnuas)
1. Em uma prova de estatstica, a media foi 7.25 e o desvio padrao, 0.55. Determine o
n
umero de alunos que fizeram a prova, dado que as notas foram normalmente agrupadas
em cinco graus e que os sete alunos cujas notas estavam entre 7.8 e 8.4 obtiveram grau
B. (supor a distribuicao normal).
2. A maquina M produz esferas para rolamentos. Se o diametro das esferas puder ser considerado uma variavel aleatoria com distribuicao nomal com media 5mm e desvio padrao
0.05 mm, quantas terao diametro superior a 5.07mm ? Se o controle de qualidade refugar
os itens que se afastem mais do que 0.1 mm da media, quantas esferas serao rejeitadas ?
3. A renda per capita da Rep
ublica das Bahanaz e normalmente distribuda, com media
$5000,00 e desvio padrao de $800.
(a) Qual a renda maxima de 80% da populacao mais pobre ?
(b) Qual porcentagem de pessas que recebem por ano
CE-002: Estatstica I
19
i. menos de $4000
ii. mais de $ 6500
iii. entre $ 3750 e $ 6750
4. Dado que o volume de agua que caiu em maio sobre Sao Paulo variou de modo uniforme
entre 1.3 e 59.7 mm, determine a percentagem de dias com pluviosidade:
(a) acima de 50,5 mm
(b) abaixo de 10,5 mm
(c) entre 15,3 e 45,7 mm
5. Uma empresa produz automoveis e garante a restituicao da quantia paga se qualquer
automovel apresentar algum defeito grave no prazo de seis meses. A empresa produz
automoveis dos tipo A comum e do tipo B de luxo, com um lucro de R$ 1000,00 e
R $ 2000,00, respectivamente, caso nao haja restituicao, e com prejuzo de R$3000,00 e
R$8000,00, respectivamente se houver restituicao. Suponha que o tempo para a ocorrencia
de algum defeito grave seja, em ambos os casos, uma variavel com distribuicao normal,
respectivamente com medias 9 meses e 12 meses, e variancias 4 meses e 9 meses. Se tivesse
que planejar uma estrategia de marketing para a empresa, voce incentivaria a venda de
automoveis do tipo A ou do tipo B. Justifique.
2.5
Exerccios de Barros, M.
jogo.
R: media igual a zero e vari
ancia igual a 1.8
3. Uma empresa aerea sabe que 20 % das pessoas que fazem reserva aereas cancelam suas
reservas. A empresa vende 50 passagens para um voo que contem 46 lugares. Supondo que
as pessoas cancelam ou nao suas reservas de maneira independente, calcule a probabilidade
de que havera assentos para todos os passageiros.
CE-002: Estatstica I
20
r
P (R = r)
-5 %
0.40
0%
0.15
5%
0.25
10%
0.15
15%
0.05
4. O retorno mensal de certo investimento de risco pode ser modelado pela seguinte variavel
aleatoria R com funcao de probabilidade dada a seguir :
Calcule o retorno esperado (em %) do investimento, sua variancia e desvio padrao.
CE-002: Estatstica I
21
An
alise descritiva
3.1
Descric
ao univariada
Nesta sessao vamos ver alguns (mas nao todos!) comandos do R para fazer uma analise
descritiva de um conjunto de dados.
Uma boa forma de iniciar uma analise descritiva adequada e verificar os tipode de variaveis
disponveis. Variaveis podem ser classificadas da seguinte forma:
qualitativas
nominais
ordinais
quantitativas
discretas
contnuas
e podem ser resumidas por tabelas, graficos e/ou medidas.
3.2
Estes sao dados no estilo planilha, com variaveis de diferentes tipos: categoricas e numericas (qualitativas e quantitativas). Portanto o formato ideal de armazenamento destes dados
no R e o data.frame. Para entrar com estes dados no diretamente no R podemos usar o editor
que vem com o programa. Para digitar rapidamente estes dados e mais facil usar codigos para
as variaveis categoricas. Desta forma, na coluna de estado civil vamos digitar o codigo 1 para
solteiro e 2 para casado. Fazemos de maneira similar com as colunas Grau de Instruc
ao e Regi
ao
de Procedencia. No comando a seguir invocamos o editor, entramos com os dados na janela que
vai aparecer na sua tela e quanto samos do editor (pressionando o botao QUIT) os dados ficam
armazenados no objeto milsa. Apos isto digitamos o nome do objeto (milsa) e podemos ver o
conte
udo digitado, como mostra a tabela 3.2. Lembre-se que se voce precisar corrigir algo na
digitacao voce pode faze-lo abrindo a planilha novamente com o comando fix(milsa).
> milsa <- edit(data.frame())
> milsa
> fix(milsa)
CE-002: Estatstica I
22
Regiao
interior
capital
capital
outro
outro
interior
interior
capital
capital
outro
interior
capital
outro
outro
interior
outro
capital
outro
interior
interior
outro
capital
outro
outro
interior
outro
outro
interior
interior
capital
outro
interior
capital
capital
capital
interior
CE-002: Estatstica I
23
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
CE-002: Estatstica I
24
Aten
c
ao: Note que alem de digitar os dados na planilha digitamos tambem o nome que
escolhemos para cada variavel. Para isto basta, na planilha, clicar no nome da variavel e escolher
a opcao CHANGE NAME e informar o novo nome da variavel.
A planilha digitada como esta ainda nao esta pronta. Precisamos informar para o programa
sao numericas e sim categoricas. No R
que as variaveis civil, instrucao e regiao, NAO
variaveis categoricas sao definidas usando o comando factor(), que vamos usar para redefinir
nossas variaveis conforme os comandos a seguir. Inicialmente inspecionamos as primeiras linhas
do conjunto de dados. A seguir redefinimos a variavel civil com os r
otulos (labels) solteiro e
casado associados aos nveis (levels) 1 e 2. Para variavel instru
cao usamos o argumento adicional ordered = TRUE para indicar que e uma variavel ordinal. Na variavel regiao codificamos
assim: 2=capital, 1=interior, 3=outro. Ao final inspecionamos as primeiras linhas do conjunto
de dados digitando usando head().
> head(milsa)
1
2
3
4
5
6
>
+
>
+
>
+
>
1
2
3
4
5
6
funcionario
civil instrucao filhos salario ano mes
regiao
1 solteiro
1oGrau
NA
4.00 26
3 interior
2
casado
1oGrau
1
4.56 32 10 capital
3
casado
1oGrau
2
5.25 36
5 capital
4 solteiro
2oGrau
NA
5.73 20 10
outro
5 solteiro
1oGrau
NA
6.26 40
7
outro
6
casado
1oGrau
0
6.66 28
0 interior
Em versoes mais recentes do R foi introduzida a funcao transform() que pode ser usada
alternativamente aos comandos mostrados acima para modificar ou gerar novas variaveis. Por
exemplo, os comandos acima poderiam ser substitudos por:
> milsa <- transform(milsa, civil = factor(civil, label = c("solteiro",
+
"casado"), levels = 1:2), instrucao = factor(instrucao, label = c("1oGrau",
+
"2oGrau", "Superior"), lev = 1:3, ord = T), regiao = factor(regiao,
+
label = c("capital", "interior", "outro"), lev = c(2, 1,
+
3)))
Vamos ainda definir uma nova variavel u
nica idade a partir das variaveis ano e mes que
foram digitadas. Para gerar a variavel idade em anos fazemos:
CE-002: Estatstica I
25
26.25000
34.83333
31.58333
32.41667
43.58333
32.83333
23.50000
39.58333
35.00000
33.58333
36.41667
33.50000
25.66667
46.58333
48.91667
20.83333
27.91667
37.33333
29.66667
42.16667
40.58333
37.41667
30.75000
40.50000
28.00000
44.16667
34.16667
35.83333
41.00000
30.41667
41.00000
31.41667
43.33333
38.66667
26.08333
36.33333
"instrucao"
"regiao"
"filhos"
"idade"
"salario"
> dim(milsa)
[1] 36
Como na sequencia vamos fazer diversas analises com estes dados usaremos o command
attach() para anexar o objeto ao caminho de procura para simplificar a digitacao.
> attach(milsa)
NOTA: este comando deve ser digitado para que os comandos mostrados a seguir tenham
efeito.
3.2.1
An
alise Univariada
A analise univariada consiste basicamente em, para cada uma das variaveis individualmente:
classificar a variavel quanto a seu tipo: qualitativa (nominal ou ordinal) ou quantitativa
(discreta ou contnua)
obter tabela, gr
afico e/ou medidas que resumam a variavel
CE-002: Estatstica I
26
Vari
avel Qualitativa Nominal A variavel civil e uma qualitativa nominal. Desta forma
podemos obter: (i) uma tabela de frequencias (absolutas e/ou relativas), (ii) um grafico de
setores, (iii) a moda, i.e. o valor que ocorre com maior frequencia.
Vamos primeiro listar os dados e checar se estao na forma de um fator, que e adequada para
variaveis deste tipo.
> civil
[1] solteiro casado
casado
[9] casado
solteiro casado
[17] casado
casado
solteiro
[25] casado
casado
solteiro
[33] casado
solteiro casado
Levels: solteiro casado
solteiro
solteiro
solteiro
casado
casado
solteiro
solteiro
casado
casado
casado
casado
solteiro
casado
solteiro
casado
solteiro
solteiro
solteiro
solteiro
casado
casado
> is.factor(civil)
[1] TRUE
A seguir obtemos frequencias absolutas e relativas (note duas formas fiferentes de obter as
frequencias relativas. Note ainda que optamos por armazenar as frequencias absolutas em um
objeto que chamamos de civil.tb.
> civil.tb <- table(civil)
> civil.tb
civil
solteiro
16
casado
20
CE-002: Estatstica I
27
solteiro
casado
Vari
avel Qualitativa Ordinal Para exemplificar como obter analises para uma variavel
qualitativa ordinal vamos selecionar a variavel instrucao.
> instrucao
[1] 1oGrau
1oGrau
1oGrau
2oGrau
[9] 2oGrau
2oGrau
2oGrau
1oGrau
[17] 2oGrau
1oGrau
Superior 2oGrau
[25] 2oGrau
2oGrau
1oGrau
2oGrau
[33] Superior Superior 2oGrau
Superior
Levels: 1oGrau < 2oGrau < Superior
1oGrau
2oGrau
2oGrau
2oGrau
1oGrau
1oGrau
2oGrau
2oGrau
1oGrau
2oGrau
1oGrau
Superior
1oGrau
2oGrau
Superior
2oGrau
> is.factor(instrucao)
[1] TRUE
As tabelas de frequencias sao obtidas de forma semelhante `a mostrada anteriormente.
> instrucao.tb <- table(instrucao)
> instrucao.tb
instrucao
1oGrau
12
2oGrau Superior
18
6
CE-002: Estatstica I
28
> prop.table(instrucao.tb)
instrucao
1oGrau
2oGrau Superior
0.3333333 0.5000000 0.1666667
O grafico de setores nao e adequado para este tipo de variavel por nao expressar a ordem
dos possveis valores. Usamos entao um grafico de barras conforma mostrado na Figura 3.2.1.
10
15
> barplot(instrucao.tb)
1oGrau
2oGrau
Superior
CE-002: Estatstica I
29
Vari
avel quantitativa discreta Vamos agora usar a variavel filhos (n
umero de filhos)
para ilustrar algumas analises que podem ser feitas com uma quantitativa discreta. Note que
esta deve ser uma variavel numerica, e nao um fator.
> filhos
[1] NA 1
[26] 2 NA
2 NA NA 0 NA NA 1 NA
0 5 2 NA 1 3 NA 2
2 NA NA
3
0 NA
2 NA NA
1 NA NA
> is.factor(filhos)
[1] FALSE
> is.numeric(filhos)
[1] TRUE
Frequencias absolutas e relativas sao obtidas como anteriormente.
> filhos.tb <- table(filhos)
> filhos.tb
filhos
0 1 2 3 5
4 5 7 3 1
> filhos.tbr <- prop.table(filhos.tb)
> filhos.tbr
filhos
0
1
2
3
5
0.20 0.25 0.35 0.15 0.05
O grafico adequado para frequencias absolutas de uma variavel discreta e mostrado na
Figura 3.2.1 o obtido com os comandos a seguir.
> plot(filhos.tb)
Outra possibilidade seria fazer graficos de frequencias relativas e de prequencias acumuladas
conforme mostrado na Figura 3.2.1.
> plot(filhos.tbr)
> filhos.fac <- cumsum(filhos.tbr)
> filhos.fac
0
1
2
3
5
0.20 0.45 0.80 0.95 1.00
> plot(filhos.fac, type = "S")
Sendo a variavel numerica ha uma maior diversidade de medidas estatsticas que podem ser
calculadas.
A seguir mostramos como obter algumas medidas de posicao: moda, mediana, media e
media aparada. Note que o argumento na.rm=T e necessario porque nao ha informacao sobre
n
umero de filhos para alguns indivduos. O argumento trim=0.1 indica uma media aparada
onde foram retirados 10% dos menores e 10% dos maiores dados. Ao final mostramos como
obter os quartis, mnimo e maximo.
30
filhos.tb
3
4
CE-002: Estatstica I
filhos
0.2
0.00
0.4
0.10
filhos.fac
0.6
filhos.tbr
0.20
0.8
0.30
1.0
3
filhos
3
Index
CE-002: Estatstica I
31
Median
2.00
> fivenum(filhos)
[1] 0 1 2 2 5
Max.
5.00
NA's
16.00
CE-002: Estatstica I
32
Vari
avel quantitativa Contnua Para concluir os exemplos para analise univariada vamos
considerar a variavel quantitativa contnua salario. Comecamos mostrando os valores da
variavel e verificando o seu tipo no R.
> salario
[1] 4.00 4.56 5.25 5.73 6.26 6.66 6.86 7.39 7.59 7.44 8.12 8.46
[13] 8.74 8.95 9.13 9.35 9.77 9.80 10.53 10.76 11.06 11.59 12.00 12.79
[25] 13.23 13.60 13.85 14.69 14.71 15.99 16.22 16.61 17.26 18.75 19.40 23.30
> is.factor(salario)
[1] FALSE
> is.numeric(salario)
[1] TRUE
Para se fazer uma tabela de frequencias de uma contnua e preciso primeiro agrupar os
dados em classes. Nos comandos mostrados a seguir verificamos inicialmente os valores maximo
e mnimo dos dados, depois usamos o criterio de Sturges para definir o n
umero de classes,
usamos cut() para agrupar os dados em classes e finalmente obtemos as frequencias absolotas
e relativas.
> range(salario)
[1]
4.0 23.3
> nclass.Sturges(salario)
[1] 7
> args(cut)
function (x, ...)
NULL
> args(cut.default)
function (x, breaks, labels = NULL, include.lowest = FALSE, right = TRUE,
dig.lab = 3, ...)
NULL
> salario.tb <- table(cut(salario, seq(3.5, 23.5, l = 8)))
> prop.table(salario.tb)
(3.5,6.36] (6.36,9.21] (9.21,12.1] (12.1,14.9] (14.9,17.8] (17.8,20.6]
0.13888889 0.27777778 0.22222222 0.16666667 0.11111111 0.05555556
(20.6,23.5]
0.02777778
Na sequencia vamos mostrar dois possveis graficos para variaveis contnuas: histograma e
box-plot conforme Figura 3.2.1.
CE-002: Estatstica I
33
10
15
Frequency
4
20
Histogram of salario
10
15
salario
20
> hist(salario)
> boxplot(salario)
Uma outra representacao grafica para variaveis numericas e o diagrama ramo-e-folhas que
pode ser obtido conforme mostrado a seguir.
> stem(salario)
The decimal point is at the |
4
6
8
10
12
14
16
18
20
22
|
|
|
|
|
|
|
|
|
|
0637
379446
15791388
5816
08268
77
0263
84
3
Finalmente medidas s obtidas da mesma forma que para variaveis discretas. Veja alguns
exemplos a seguir.
> salario.md <- median(salario, na.rm = T)
> salario.md
[1] 10.165
> salario.me <- mean(salario, na.rm = T)
> salario.me
CE-002: Estatstica I
34
[1] 11.12222
> range(salario, na.rm = T)
[1]
4.0 23.3
Median
10.160
Max.
23.300
> fivenum(salario)
[1]
3.2.2
4.000
An
alise Bivariada
Na analise bivariada procuramos identificar relaccoes entre duas variaveis. Assim como na
univariada estas relacoes podem ser resumidas por graficos, tabelas e/ou medidas estatstica.
O tipo de resumo vai depender dos tipos das variaveis envolvidas. Vamos considerar tres
possibilidades:
qualitativa vs qualitativa
qualitativa vs quantitativa
quantitativa vs qualitativa
CE-002: Estatstica I
35
k
X
(oi ei )2
i=1
ei
36
12
CE-002: Estatstica I
10
solteiro
casado
10
15
casado
solteiro
1oGrau
2oGrau
Superior
1oGrau
2oGrau
Superior
Figura 10: Dois tipos de graficos de barras ilustrando o cruzamento das variaveis civil e
instrucao.
> summary(civ.gi.tb)
Number of cases in table: 36
Number of factors: 2
Test for independence of all factors:
Chisq = 1.9125, df = 2, p-value = 0.3843
Chi-squared approximation may be incorrect
> names(summary(civ.gi.tb))
[1] "n.vars"
[7] "call"
"n.cases"
CE-002: Estatstica I
37
[1] 0.8983995
Muitas vezes e necessario reagrupar categorias porque algumas frequencias sao muito baixas.
Por exemplo vamos criar uma nova variavel para agrupar 2o Grau e Superior usando ifelse()
e depois podemos refazer as analises do cruzamento com esta nova variavel
> instrucao1 <- ifelse(instrucao == "1oGrau", 1, 2)
> instrucao1 <- factor(instrucao1, label = c("1oGrau", "2o+Superior"),
+
lev = 1:2, ord = T)
> table(instrucao1)
instrucao1
1oGrau 2o+Superior
12
24
> table(civil, instrucao1)
instrucao1
civil
1oGrau 2o+Superior
solteiro
7
9
casado
5
15
> summary(table(civil, instrucao1))
Number of cases in table: 36
Number of factors: 2
Test for independence of all factors:
Chisq = 1.4062, df = 1, p-value = 0.2357
Qualitativa vs Quantitativa Para exemplificar este caso vamos considerar as variaveis
instrucao e salario.
Para se obter uma tabela de frequencias e necessario agrupar a variavel quantitativa em
classes. No exemplo a seguir vamos agrupar a variavel salario em 4 classes definidas pelos
quartis usando cut(). Apos agrupar esta variavel obtemos a(s) tabela(s) de cruzamento como
mostrado no caso anterior.
> quantile(salario)
0%
4.0000
25%
50%
75%
100%
7.5525 10.1650 14.0600 23.3000
38
10
15
20
CE-002: Estatstica I
1oGrau
2oGrau
Superior
Figura 11: Boxplot da variavel salario para cada nvel da variavel instrucao.
salario.cl
instrucao
(4,7.55] (7.55,10.2] (10.2,14.1] (14.1,23.3]
1oGrau
0.5454545
0.2727273
0.1818182
0.0000000
2oGrau
0.1111111
0.3333333
0.2777778
0.2777778
Superior 0.0000000
0.0000000
0.3333333
0.6666667
No grafico vamos considerar que neste exemplo a instrucao deve ser a variavel explicativa
e portanto colocada no eixo-X e o salario e a variavel resposta e portanto no eixo-Y. Isto
e, consideramos que a instrucao deve explicar, ainda que parcialmente, o salario (e nao o
contrario!). Vamos entao obter um boxplot dos salarios para cada nvel de instrucao. Note que
o funcao abaixo usamos a notacao de formula do R, com salario instrucao indicando que a
variavel salario e explicada () pela variavel instrucao.
> boxplot(salario ~ instrucao)
Poderamos ainda fazer graficos com a variavel salario agrupada em classes, e neste caso
os graficos seriam como no caso anterior com duas variaveis qualitativas.
Para as medidas o usual e obter um resumo da quantitativa como mostrado na analise
univariada, porem agora infromando este resumo para cada nvel do fator qualitativo. A seguir
mostramos alguns exemplos de como obter a media, desvio padrao e o resumo de cinco n
umeros
do salario para cada nvel de instrucao.
> tapply(salario, instrucao, mean)
CE-002: Estatstica I
39
1oGrau
2oGrau Superior
7.836667 11.528333 16.475000
> tapply(salario, instrucao, sd)
1oGrau
2oGrau Superior
2.956464 3.715144 4.502438
> tapply(salario, instrucao, quantile)
$"1oGrau"
0%
25%
4.0000 6.0075
50%
7.1250
75%
100%
9.1625 13.8500
$"2oGrau"
0%
25%
50%
75%
100%
5.7300 8.8375 10.9100 14.4175 19.4000
$Superior
0%
25%
50%
75%
100%
10.5300 13.6475 16.7400 18.3775 23.3000
Quantitativa vs Quantitativa Para ilustrar este caso vamos considerar as variaveis salario
e idade. Para se obter uma tabela e necessario agrupar as variaveis em classes conforma fizemos
no caso anterior. Nos comandos abaixo agrupamos as duas variaveis em classes definidas pelos
respectivos quartis gerando portanto uma tabela de cruzamento 4 4.
> idade.cl <- cut(idade, quantile(idade))
> table(idade.cl)
idade.cl
(20.8,30.7] (30.7,34.9] (34.9,40.5] (40.5,48.9]
8
9
9
9
> salario.cl <- cut(salario, quantile(salario))
> table(salario.cl)
salario.cl
(4,7.55] (7.55,10.2] (10.2,14.1] (14.1,23.3]
8
9
9
9
> table(idade.cl, salario.cl)
salario.cl
idade.cl
(4,7.55] (7.55,10.2] (10.2,14.1] (14.1,23.3]
(20.8,30.7]
2
2
2
1
(30.7,34.9]
1
3
3
2
(34.9,40.5]
1
3
2
3
(40.5,48.9]
3
1
2
3
> prop.table(table(idade.cl, salario.cl), mar = 1)
CE-002: Estatstica I
40
salario.cl
idade.cl
(4,7.55] (7.55,10.2] (10.2,14.1] (14.1,23.3]
(20.8,30.7] 0.2857143
0.2857143
0.2857143
0.1428571
(30.7,34.9] 0.1111111
0.3333333
0.3333333
0.2222222
(34.9,40.5] 0.1111111
0.3333333
0.2222222
0.3333333
(40.5,48.9] 0.3333333
0.1111111
0.2222222
0.3333333
Caso queiramos definir um n
umero menos de classes podemos fazer como no exemplo a
seguir onde cada variavel e dividida em 3 classes e gerando um tabela de cruzamento 3 3.
> idade.cl1 <- cut(idade, quantile(idade, seq(0, 1, len = 4)))
> salario.cl1 <- cut(salario, quantile(salario, seq(0, 1, len = 4)))
> table(idade.cl1, salario.cl1)
salario.cl1
idade.cl1
(4,8.65] (8.65,12.9] (12.9,23.3]
(20.8,32.1]
3
5
2
(32.1,37.8]
4
3
5
(37.8,48.9]
3
4
5
> prop.table(table(idade.cl1, salario.cl1), mar = 1)
salario.cl1
idade.cl1
(4,8.65] (8.65,12.9] (12.9,23.3]
(20.8,32.1] 0.3000000
0.5000000
0.2000000
(32.1,37.8] 0.3333333
0.2500000
0.4166667
(37.8,48.9] 0.2500000
0.3333333
0.4166667
O grafico adequado para representar duas variaveis quantitativas e um diagrama de dispersao. Note que se as variaveis envolvidas puderem ser classificadas como explicativae respostadevemos colocar a primeira no eixo-X e a segunda no eixo-Y. Neste exemplo e razoavel
admitir que a idade deve explicar, ao menos parcialmente, o salario e portanto fazemos o grafico
com idade n eixo-X.
> plot(idade, salario)
Para quantificar a associacao entre variaveis deste tipo usamos um coeficiente de correlacao.
A funcao cor() do R possui opcao para tres coeficientes tendo como default o coeficiente de
correlacao linear de Pearson.
> cor(idade, salario)
[1] 0.3651397
> cor(idade, salario, method = "kendall")
[1] 0.214456
> cor(idade, salario, method = "spearman")
[1] 0.2895939
Lembre que ao iniciar as analises com este conjunto de dados anexamos os dados com o
comando attach(milsa). Portanto ao terminar as analises com estes dados devemos desanexar
este conjunto de dados com o detach()
> detach(milsa)
41
10
salario
15
20
CE-002: Estatstica I
20
25
30
35
idade
40
45
50
CE-002: Estatstica I
3.3
42
Uma demonstrac
ao de recursos gr
aficos do R
> demo(graphics)
Voce vai ver a seguinte mensagem na tela:
demo(graphics)
---- ~~~~~~~~
Type
<Return>
to start :
CE-002: Estatstica I
3.4
43
data()
data(women)
women
help(woman)
3.5
3.6
Exerccios
1. Experimente as funcoes mean(), var(), sd(), median(), quantile() nos dados mostrados anteriormente. Veja a documentacao das funcoes e as opcoes de uso.
2. Faca uma analise descritiva adequada do conjunto de dados women.
3. Carregue o conjunto de dados USArrests com o comando data(USArrests). Examine a
sua documentacao com help(USArrests) e responda as perguntas a seguir.
(a) qual o n
umero medio e mediano de cada um dos crimes?
(b) encontre a mediana e quartis para cada crime.
(c) encontre o n
umero maximo e mnimo para cada crime.
(d) faca um grafico adequado para o n
umero de assassinatos (murder).
(e) faca um diagrama ramo-e-folhas para o n
umero de estupros (rape).
(f) verifique se ha correlacao entre os diferentes tipos de crime.
(g) verifique se ha correlacao entre os crimes e a proporcao de populacao urbana.
(h) encontre os estados com maior e menor ocorrencia de cada tipo de crime.
(i) encontre os estados com maior e menor ocorrencia per capta de cada tipo de crime.
(j) encontre os estados com maior e menor ocorrencia do total de crimes.
CE-002: Estatstica I
44
4.1
Exerccios de Magalh
aes & Lima (2005)
2 3 4
8 5 6
S N N
M A M
5 6 7
4 5 7
N S S
M B A
8 9
7 6
N N
M B
10 11 12 13 14 15
8 6 5 5 4 5
S S N S N N
M B B M M A
3. Os dados abaixo referem-se ao salario (em salarios mnimos) de 20 funcionarios administrativos em uma ind
ustria
10,1 7,3 8,5 5,0 4,2 3,1 2,2 9,0 9,4 6,1
3,3 10,7 1,5 8,2 10,0 4,7 3,5 6,5 8,9 6,1
CE-002: Estatstica I
4.2
45
11
10
16
10
8
8 12 14 13 11 14 14 15
14 19 6 12 7 5 8 8
10 12 12 8 11 6 7 12
14 5 12 7 9 12 11 9
14 8 12 10 12 22 7 15
15 16 25 20 24
115 117 120 123 126
CE-002: Estatstica I
46
Escolas Cursadas frequencia
1
46
2
57
3
21
4
15
5
4
Durabilidade frequencia relativa
[0, 3)
0,02
[3, 6)
0,05
[6, 9)
0,15
[9, 12)
0,25
[12, 15)
0,30
[15, 20)
0,23
5. Vinte baterias para automovies de uma certa marca foram testadas quanto `a sua vida
u
til. O teste simula a utilizacao da bateria, acelerando seu dsgaste de modo a criar uma
situacao real. Os resultados da durabilidade (em meses) sao apresentados a seguir:
6. Faca no mesmo grafico um esboco das tres distribucoes descritas abaixo:
(a) Distribuicao das alturas dos brasileiros adultos.
(b) Distribuicao das alturas dos suecos adultos.
(c) Distribuicao das alturas dos japoneses.
7. Os dados a seguir representam as vendas semanais, em classes de salarios mnimos, de
vendedores de generos alimentcios:
Vendas semanais
[30, 35)
[35, 40)
[40, 45)
[45, 50)
[50, 55)
[55, 60)
[60, 65)
[65, 70)
N. de vendedores
2
10
18
50
70
30
18
2
8. O que acontece com a mediana, a media e o desvio padrao de uma serie de dados quando:
(a) cada observacao e multiplicada por 2?
(b) soma-se 10 a cada observacao?
(c) subtrai-se a media geral x de cada observacao?
(d) de cada observacao subtrai-se x e divide-se pelo desvio padrao dp(x)?
9. Na companhia A, a media dos salarios e 10.000 unidades e o 3o quartil e 5.000.
CE-002: Estatstica I
47
(a) Se voce se apresentasse como candidato a funcionario nessa firma e se o seu salario
fosse escolhido ao acaso entre todos os possveis salarios, o que seria mais provavel: ganhar
mais ou menos que 5.000 unidades?
(b) suponha que a companhia B a media dos salarios seja 7.000 unidades, a variancia
praticamente zero e o salario tambem seja escolhido ao acaso. Em qual companhia voce
se apresentaria para procurar emprego?
CE-002: Estatstica I
48
5.1
CE-002: Estatstica I
49
7. Suponha que a producao do exemplo anterior esteja sob controle, isto e, p = 10%, e que
os itens sejam vendidos em caixas com 100 unidades, qual a probabilidade de que uma
caixa:
(a) tenha mais do que 10% de defeituosos?
(b) na tenha itens defeituosos?
(c) Suponha que uma ind
ustria farmaceutica deseja saber a quantos voluntarios se deva
aplicar uma vacina, de modo que a proporcao de indivduos imunizados na amostra
difira de menos de 2% da proporcao verdadeira de imunizados na populacao, com
probabilidade 90%. Qual o tamanho da amostra a escolher?
8. No problema anterior, suponha que a ind
ustria tenha a informacao de que a proporcao
de imunizados pela vacina seja p 0, 80. Qual o novo tamanho de amostra a escolher?
Houve reducao?
9. A distribuicao dos comprimentos dos elos da corrente de bicicleta e normal, com media
2cm e variancia 0, 01cm2 . Para que uma corrente se ajuste `a bicicleta, deve ter comprimento total entre 58 e 61 cm.
(a) Qual e a probabilidade de uma corrente com 30 elos nao se ajustar `a bicicleta?
(b) E para uma corrente com 29 elos?
[Observacao: suponha que os elos sejam selecionados ao acaso para compor a corrente,
de modo que se tenha independencia.]
10. Cada secao usada para a construcao de um oleoduto tem comprimento medio de 5m e
desvio padrao de 20 cm. O comprimento total do oleoduto sera de 8 km.
11. Se a firma construtora do oleoduto encomendar 1.600 secoes, qual e a probabilidade de
ela ter de comprar mais do que uma secao adicional (isto e, de as 1.600 secoes somarem
menos do que 7.995 m)?
(a) Qual e a probabilidade do uso exato de 1.599 secoes, isto e, a soma das 1.599 secoes
estar entre 8.000 m e 8.005 m?
12. Um distribuidor de sementes determina, por meio de testes, que 5% das sementes nao
germinam. Ele vende pacotes com 200 sementes com garantia de 90% de germinacao.
Qual e a probabilidade de que um pacote nao satisfaca `a garantia?
5.2
Exerccios de Magalh
aes & Lima (2005)
CE-002: Estatstica I
50
2. Um fabricante afirma que sua vacina contra gripe imuniza em 80% dos casos. Uma
amostra de 25 indivduos que tomaram a vacina foi sorteada e testes foram feitos para
verificar a imunizacao ou nao destes indivduos. Se o fabricante estiver correto, qual e a
probabilidade da proporccao de imunizados na amostra ser inferior `a 0,75? E superior `a
0,85?
3. A resistencia de vigas de madeira utilizadas na construcao esta sendo estudada. O fornecedor atesta que, em media, cada viga resiste a 3 toneladas com desvio padrao de
aproximadamente 2 toneladas. Vinte destas vigas serao sorteadas para serem utilizadas
numa obra. Considerando que e verdadeira a informacao do fornecedor e supondo que o
modelo Normal e adequado, pergunta-se:
(a) Qual a probabilidade de uma destas vigas suportar menos do que 1 tonelada?
(b) Qual a probabilidade de as 20 vigas suportarem, em media, pelo menos 2,5 toneladas?
(c) Qual a probabilidade em (b), considerando agora 40 vigas e sem fazer a suposicao
de normalidade dos dados?
CE-002: Estatstica I
51
Intervalos de confian
ca e testes de hip
otese
Nesta sessao vamos verificar como utilizar o R para obter intervalos de confianca e testar
hipoteses sobre parametros de interesse.
6.1
M
edia de uma distribui
c
ao normal com vari
ancia desconhecida
2.9 3.4 3.5 4.1 4.6 4.7 4.5 3.8 5.3 4.9
4.8 5.7 5.8 5.0 3.4 5.9 6.3 4.6 5.5 6.2
Neste primeiro exemplo, para fins didaticos, vamos mostrar duas possveis solucoes:
1. fazendo as contas passo a passo, utilizando o R como uma calculadora
2. usando uma funcao ja existente no R.
Entramos com os dados com o comando
> tempo <- c(2.9, 3.4, 3.5, 4.1, 4.6, 4.7, 4.5, 3.8, 5.3, 4.9, 4.8,
+
5.7, 5.8, 5, 3.4, 5.9, 6.3, 4.6, 5.5, 6.2)
Sabemos que o intervalo de confianca para media de uma distribuicao normal com media desconhecida e dado por:
r
r !
S2
S2
x t/2
, x + t1/2
n
n
Vamos agora obter a resposta de duas formas diferentes.
6.1.1
CE-002: Estatstica I
52
[1] 0.992079
Com isto podemos montar o intervalo utilizando os quantis da distribuicao t.
> t.ic <- t.m + qt(c(0.025, 0.975), df = n - 1) * sqrt(t.v/length(tempo))
> t.ic
[1] 4.278843 5.211157
6.1.2
Usando a fun
c
ao t.test
Mostramos a solucao acima para ilustrar a flexibilidade e o uso do programa. Entretanto nao
precisamos fazer isto na maioria das vezes porque o R ja vem com varias funcoes ja disponveis
para procedimentos estatsticos usuais.
Para este exemplo especfico a funcao t.test() pode ser utilizada como vemos no resultado
do comando a sequir que coincide com os obtidos anteriormente.
> t.test(tempo)
One Sample t-test
data: tempo
t = 21.3048, df = 19, p-value = 1.006e-14
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
4.278843 5.211157
sample estimates:
mean of x
4.745
O resultado da funcao mostra a estimativa obtida da media (19), o intervalo de confianca a 95e
testa a igualdade de media a zero (p-value = 1.00642487153941e-14), em um teste bilateral.
Os valores definidos no IC e teste de hipotese acima sao defaults que podem ser modificados.
Por exemplo, para obter um IC a 99
> t.test(tempo, alt = "greater", mu = 3, conf.level = 0.99)
One Sample t-test
data: tempo
t = 7.835, df = 19, p-value = 1.140e-07
alternative hypothesis: true mean is greater than 3
99 percent confidence interval:
4.179408
Inf
sample estimates:
mean of x
4.745
2
CE-002: Estatstica I
6.2
53
Teste 2 de independ
encia
Quando estudamos a relacao entre duas variaveis qualitativas em geral fazemos uma tabela
com o resultado do cruzamento desta variaveis. Em geral existe interesse em verificar se as
variaveis estao associadas e para isto calcula-se uma medida de associacao tal como o 2 ,
coeficiente de contingencia C, ou similar. O passo seguinte e testar se existe evidencia que a
associacao e significativa. Uma possvel forma de fazer isto e utilizando o teste 2 .
Exemplo Para ilustrar o teste vamos utilizar o conjunto de dados HairEyeColor que ja vem
disponvel com o R. Para carregar e visualizar os dados use os comando abaixo.
> data(HairEyeColor)
> HairEyeColor
, , Sex = Male
Eye
Hair
Brown Blue Hazel Green
Black
32
11
10
3
Brown
38
50
25
15
Red
10
10
7
7
Blond
3
30
5
8
, , Sex = Female
Eye
Hair
Brown Blue Hazel Green
Black
36
9
5
2
Brown
81
34
29
14
Red
16
7
7
7
Blond
4
64
5
8
Para saber mais sobre estes dados veja help(HairEyeColor) Note que estes dados ja vem resumidos na forma de uma tabela de frequencias tri-dimensional, com cada uma das dimensoes
correspondendo a um dos atributos - cor dos cabelos, olhos e sexo.
Para ilustrar aqui o teste 2 vamos verificar se existe associacao entre 2 atributos: cor dos
olhos e cabelos entre os indivduos do sexo feminino. Portanto as hipoteses sao:
H0 : nao existe associacao
Ha : existe associacao
Vamos adotar = 5% como nvel de significancia. Nos comandos abaixo primeiro isolamos
apenas a tabela com os indivduos do sexo masculino e depois aplicamos o teste sobre esta
tabela.
> HairEyeColor[, , 2]
Eye
Hair
Brown Blue Hazel Green
Black
36
9
5
2
Brown
81
34
29
14
Red
16
7
7
7
Blond
4
64
5
8
CE-002: Estatstica I
54
6.3
Exemplo Uma certa hipotese genetica, se verdadeira deve produzir indivduos com 4 fenotipos (A, B, C e D) na populacao seguindo a relacao 9:3:3:1. Para verificar se a hipotese genetica
e plausvel foi coletada uma amostra de indivduos na populacao e obteve-se o seguinte n
umero
de indivduos para cada fenotipo:
Fenotipo
A
B C D
N indivduos 190 50 63 20
o
Teste a hipotese de que a hipotese genetica e plausvel com nvel de significancia de 5%.
Portanto as hipoteses sao:
H0 : segue a distribuicao esperada
Ha : nao segue a distribuicao esperada
O nvel de significancia foi definido como = 5% e a estatstica de teste 2c =
tem distribuicao 2(3) . Os comandos para efetuar este teste no R sao:
> o <- c(190, 50, 63, 22)
> e <- c(9, 3, 3, 1)/16
> chisq.test(o, p = e)
P
i
(oi ei )2
ei
CE-002: Estatstica I
55
6.4
CE-002: Estatstica I
6.5
56
Comparac
ao de duas m
edias
Quando temos uma variavel qualitativa com dois nveis e outra quantitativa o interesse em
geral esta em comparar as medias da quantitativa para cada grupo da qualitativa. Para isto
podemos utilizar o testeT . Ha diferentes tipos de teste T: para amostras independentes com
variancias iguais ou desiguais, ou para amostras pareadas.
Exemplo Os dados a seguir correspondem a teores de um elemento indicador da qualidade
de um certo produto vegetal. Foram coletadas 2 amostras referentes a 2 metodos de producao
e deseja-se comparar as medias dos metodos fazendo-se um teste t bilateral, ao nvel de 1% de
significancia e considerando-se as variancias iguais.
Metodo 1 0.9 2.5 9.2 3.2 3.7 1.3 1.2 2.4 3.6 8.3
Metodo 2 5.3 6.3 5.5 3.6 4.1 2.7 2.0 1.5 5.1 3.5
As hipoteses sao:
H 0 : 1 = 2
H a : 1 =
6 2
Vamos ainda fixar o nivel de significancia em 5%. Abaixo os comandos para efetuar o teste
bilateral com variancias iguais.
> m1 <- c(0.9, 2.5, 9.2, 3.2, 3.7, 1.3, 1.2, 2.4, 3.6, 8.3)
> m2 <- c(5.3, 6.3, 5.5, 3.6, 4.1, 2.7, 2, 1.5, 5.1, 3.5)
> t.test(m1, m2, var.eq = TRUE, conf = 0.99)
Two Sample t-test
data: m1 and m2
t = -0.3172, df = 18, p-value = 0.7547
alternative hypothesis: true difference in means is not equal to 0
99 percent confidence interval:
-3.324208 2.664208
sample estimates:
mean of x mean of y
3.63
3.96
Os resultados mostram que nao ha evidencias para rejeitar a hipotese de igualdade entre as
medias ao nvel de 1%.
2
6.6
Exerccios
1. Revisite os dados milsa visto na aula de estatstica descritiva e selecione pares de variaveis
adequadas para efetuar:
(a) um teste 2
(b) um teste para o coeficiente de correlacao
(c) um teste t
CE-002: Estatstica I
57
2. Queremos verificar se machos e femeas de uma mesma especie possuem o mesmo comprimento (em mm) Para isso, foram medidos 6 exemplares de cada sexo e obtivemos os
seguintes comprimentos:
Machos 145 127 136 142 141 137
Femeas 143 128 132 138 142 132
Obtenha intervalos de confianca para a razao das variancias e para a diferenca das medias
dos dois grupos.
Dica: Use as funcoes var.test() e t.test()
3. Carregue o conjunto de dados iris usando o comando data(iris).
Veja a descricao dos dados em help(iris).
Use a funcao cor.test() para testar a correlacao entre o comprimento de sepalas e
petalas.
CE-002: Estatstica I
58
7.1
3. De 50.000 valvulas fabricadas por uma companhia retira-se uma amostra de 400 valvulas,
e obtem a vida media de 800 horas e o desvio padrao de 100 horas.
(a) Qual o intervalo de confianca de 99% para a vida media da populacao?
(b) Com que intervalo dir-se-ia que a vida media e 800 0, 98?
(c) Que tamanho deve ter a amostra para que seja de 95% a confianca na estimativa
800 7, 84?
(Que suposicao voce fez para responder `as questoes acima?)
4. Qual deve ser o tamanho de uma amostra cujo desvio padrao e 10 para que a diferenca
da media amostral para a media da populacao, em valor absoluto, seja menor que 1, com
coeficiente de confianca igual a:
(a) 95% (b) 99%
5. Considere uma amostra de uma distribuicao normal com desvio padrao igual a 10.
(a) Que tamanho deve ter uma amostra para que, com probabilidade 8%, o erro em
estimar a media seja superior a uma unidade?
(b) Supondo-se colhida a amostra no caso anterior, qual o intervalo de confianca, se
x = 50?
6. Uma amostra aleatoria de 625 donas de casa revela que 70% delas preferem a marca A de
detergente. Construir um intervalo de confianca para p = proporcao das donas de casas
que preferem A com coeficiente de confianca = 90%.
7. Encontre os intervalos de confiancas para p se k/n = 0, 3, com coeficiente de confianca
= 95%, com n = 400.
8. Antes de uma eleicao, um determinado partido esta interessado em estimar a proporcao
p de eleitores favoraveis ao seu candidato. Uma amostra piloto de tamanho 100 revelou
que 60% dos eleitores eram favoraveis ao candidato em questao.
CE-002: Estatstica I
59
(a) Determine o tamanho da amostra necessario para que o erro cometido na estimacao
seja de, no maximo, 0,01 com probabilidade de 80%.
(b) Se na amostra final, com tamanho igual ao obtido em (a), observou-se que 55%
dos eleitores eram favoraveis ao candidato em questao, construa um intervalo de
confianca para a proporcao p. Utilize = 95%.
9. Suponha que estejamos interessados em estimar a porcentagem de consumidores de certo
produto. Se a amostra de tamanho 300 forneceu 100 indivduos que consomem o dado
produto, determine:
(a) o intervalo de confianca de p, com coeficiente de confianca de 95% (interprete o
resultado);
(b) o tamanho da amostra para que o erro da estimativa nao exceda a 0,02 unidades
com probabilidade de 95% (interprete o resultado).
10. De experiencias passadas, sabe-se que o desvio padrao da altura de criancas da 5a serie
do 1o grau e 5 cm.
(a) Colhendo uma amostra de 36 dessas criancas, observou-se a media de 150 cm. Qual
o intervalo de confianca de 95% para a media populacional?
(b) Que tamanho deve ter uma amostra par que o intervalo 150 0, 98 tenha 95% de
confianca?
11. Um pesquisador esta estudando a resistencia de um determinado material sob eterminadas
condicoes. Ele sabe que essa variavel e normalmente distribuda com desvio padrao de
duas unidades.
(a) Utilizando os valores 4,9; 7,0; 8,1; 4,5; 5,6; 6,8; 7,2; 5,7; 6,2 unidades, obtidos de
uma amostra de tamanho 9, determine o intervalo de confianca para a resistencia
media com um coeficiente de confianca = 0, 90.
(b) Qual o tamanho da amostra necessaria para que o erro cometido, ao estimarmos a
resistencia media, nao fosse superior a 0,01 unidade com probabilidade 0,90?
(c) Suponha que o item(a) nao fosse conhecido o desvio padrao. Como voce procederia
para determinar o intervalo e confianca, e que suposicoes voce faria para isso?
12. Estime o salario medio dos empregados de uma ind
ustria textil, sabendo-se que uma
amostra de 100 indivduos apresentou os seguintes resultados:
Salario
Frequencia
150, 00| 250, 00
8
250, 00| 350, 00
22
350, 00| 450, 00
38
450, 00| 550, 00
2
650, 00| 750, 00
2
Use = 0, 95.
13. Numa pesquisa de mercado para estudar a preferencia da populacao de uma cidade em
relacao a um determinado produto, colheu-se uma amostra aleatoria de 300 indivduos,
dos quais 180 preferiam esse produto.
CE-002: Estatstica I
60
pq/n
15. Antes de uma eleicao em que existiam dois candidatos, A e B, foi feita uma pesquisa
com 400 eleitores escolhidos ao acaso, e verificou-se que 208 deles pretendiam votar no
candidato A. Construa um intervalo de confianca, com c.c. = 0, 95, para a porcentagem
de eleitores favoraveis ao candidato A na epoca das eleicoes.
16. Encontre o c.c. de um intervalo de confianca para p, se n = 100, p = 0, 6 e a amplitude
do intervalo deve ser igual a 0,090.
17. Estao sendo estudado dois processos para conservar alimentos, cuja principal variavel de
interesse e o tempo de duracao destes. No processo A, o tempo X de duracao segue a
distribuicao N (A , 100), e no processo B o tempo Y obdece `a distrbuicao N (B , 100).
Sorteiam-se duas amostras independentes: a com A, com 16 latas, apresentou tempo
medio de duracao igual a 50, e a de B, com 25 latas, duracao media igual a 60.
(a) Construa um IC para A e B , separadamente.
(b) Para verificar se os dois processos podem ter o mesmo desempenho, decidiu-se construir um IC para a diferenca A B . Caso o zero pertenca ao intervalo, pode-se
concluir que existe evidencia de igualdade dos processos. Qual seria sua resposta?
18. Numa pesquisa sobre a opiniao dos moradores de duas cidades, A e B, com relacao a um
determinado projeto, obteve-se:
Cidade
No de entrevistados
No de favoraveis
A
B
400 600
180 350
CE-002: Estatstica I
7.2
61
Exerccios de Magalh
aes & Lima (2005)
CE-002: Estatstica I
62
8.1
CE-002: Estatstica I
63
3. A variavel X, custo de manuntencao de um tear, pode ser considerada como tendo distribuicao normal de media e desvio padrao 20 unidades. Os valores possveis de
podem ser 200 ou 210. Para verifiar qual dos dois valores e o mais provavel, usar-se-a
uma amostra de 25 teares. Defina:
(a) Uma hipotese a ser testada.
(b) Uma regra de decisao e encontre as probabilidades dos erros de tipo I e II.
4. Sabe-se que o consumo mensal per capita de um produto tem distribuicao normal, com
desvio padrao 2 kg. A diretoria de uma firma que fabrica esse produto resolveu que
retiraria o produto da linha de producao se a media de consumo per capita fosse menor
que 8 kg. Caso contrario, continuaria a fabrica-lo. Foi realizadaP
uma pesquisa de mercado,
tomando-se uma amostra de 25 indivduos, e verificou-se que 25
i=1 Xi = 180kg, onde Xi
representa o consumo mensal do i-esimo indivduo da amostra.
(a) Construa um teste de hipotese adquado, utilizando = 0, 05, e com base na amostra
colhida determine a decisao a ser tomada pela diretoria.
(b) Qual a probabilidade de se tomar uma decisao errada se, na realidade, a media
populacional for = 7, 8 kg.
(c) Se a diretoria tivesse fixado = 0, 01, a decisao seria a mesma? (Justifique sua
resposta.)
(d) Se o desvio da populacao fosse 4kg, qual seria a decisao, com = 0, 05? (Justifique
sua resposta.)
5. A associacao dos proprietarios de ind
ustrias metal
urgicas esta muito preocupada com
o tempo perdido com acidentes de trabalho, cuja media, nos u
ltimos tempos, tem sido
da ordem de 60 horas/homem por ano e desvio padrao de 20 horas/homem. Tentou-se
um programa de prevencao de acidentes, apos o qual foi tomada uma amostra de nove
ind
ustrias e medido o n
umero de horas/homens perdidas por acientes, que foi de 50 horas.
Voce diria, no nvel de 5%, que ha evidencia de melhoria?
6. O salario medio dos empregados das ind
ustrias sider
urgicas e de 2,5 salarios mnimos,
com um desvio padrao de 0,5 salarios mnimos. Se uma firma particular emprega 49
empregados com um salario medio de 2,3 salarios menimos, podemos afirmar que essa
ind
ustria paga salarios inferiores, ao nvel de 5%?
7. Uma companhia de cigarros anuncia que o ndice medio de nicotina dos cigarros que
fabrica apresenta-se abaixo de 23 mg por cigarro. Um laboratorio realiza 6 analises
desses ndices, obtendo: 27, 24, 21, 25, 26, 22. Sabe-se que o ndice de nicotina se
distribui normalmente, com variancia igual a 486mg 2 . Pode-se aceitar, no nvel de 10%,
a afirmacao do fabricante?
8. Uma pessoa gaba-se de advinhar qual sera o resultado do lance de uma moeda, mas e
preciso que os presentes nao o pertubem com pensamentos duvidosos. Para testar tal
capacidade, lancou uma moeda perfeita 6 vezes, e o advinhador acertou 5. Qual seria sua
conclusao?
9. O consumidor de um certo produto acusou o fabricante, dizendo que mais de 20% das
unidades fabricadas apresentam defeito. Para confirmar sua acusacao, ele usou uma
amostra de tamanho 50, onde 27% das pecas eram defeituosas. Mostre como o fabricante
poderia refutar a acusacao. Utilize um nvel de significancia de 10%.
CE-002: Estatstica I
64
10. Um fabricante garante que 90% dos equipamentos que fornece a uma fabrica estao de
acordo com as especificacoes exigidas. O exame de uma amostra de 200 pecas desse
equipamento revelou 25 defeituosas. Teste a afirmativa, nos nveis de 5% e 1%.
11. Os produtores de um programa de televisao pretendem modifica-lo se for assistido regularmente por menos de um quarto dos possuidores de televisao. Uma pesquisa encomendada
a uma empresa especializada mostrou que, de 400 famlias entrevistadas, 80 assistem ao
programa regularmente. Com base nos dados, qual deve ser a decisao dos produtores?
12. O tempo medio, por operario, para executar uma tarefa, tem sido 100 minutos, com um
desvio padrao de 15 minutos. Introduziu-se uma modificacao para diminuir esse tempo,
e apos certo perodo, sorteou-se uma amostra de 16 oeprarios, medindo-se o tempo de
execucao de cada um. O tempo medio da amostra foi 85 minutos, e o desvio padrao foi
12 minutos. Estes resultados trazem evidencia estatsticas da melhora desejada?Em caso
afirmativo, estime o novo tempo medio de execucao. (Apresente as suposicoes teoricas
usadas para resolver o problema.)
13. A precipitacao pluviometrica anual numa certa tem desvio padrao = 3, 1 e media
desconhecida. Para os u
ltimos 9 anos, foram obtidos os seguintes resultados: 30,5; 34,1;
27,9; 35,0; 26,9; 30,2; 28,3; 31,7; 25,8.
(a) Construa um teste de hipotese para saber se a media da precipitacao pluviometrica
anual e maior que 30,0 unidades. Utilize um nvel de significancia de 5%.
(b) Discuta o mesmo problema, considerando desconhecido.
(c) Supondo que, na realidade, = 33, 0, qual a probabilidade de tirarmos uma conclusao errada?
14. Uma fabrica de automoveis anuncia que seus carros consomem, em media, 11 litros por
100 km, com desvio padrao de 0,8 litros. Uma revista resolve testar essa afirmacao e
analisa 35 automoveis dessa marca, obtendo 11,3 litros por 100 km como consumo medio
(considerar distribucao normal). O que a revista pode concluir sobre o an
uncio da fabrica,
ao nvel de 10%?
15. Duas maquinas, A e B, sao usadas para empacotar po de cafe. A experiencia passada
garante que o desvio padrao para ambas e de 10 g. Porem, suspeita-se que elas tem
medias diferentes. Para verificar, sortearam-se duas amostras: uma com 25 pacotes da
maquina A e outra com 16 pacotes da maquina B. As medias foram, respectivamente,
xA = 502, 74g e xB = 496, 60g. Com esses n
umeros, e com o nvel de 5%, qual seria a
coclusao do teste H0 : A = B ?
16. O n
umero medio diario de clientes de um posto de gasolina tem sido 250, com um desvio
padrao de 80 clientes. Durante uma campanha de 25 dias, em que os clientes recebiam
um brinde, o n
umero medio de clientes foi 280, com um desvio padrao de 50. Voce diria
que a campanha modificou a distribuicao do n
umero de clientes do posto? Descreva as
suposicoes feitas para a resolucao do problema.
17. A porcentagem media da receita municipal dos quase 600 municpios de um estado tem
sido 7%. O governo pretende melhorar esse ndice e, para isso, esta estudando alguns
incentivos. Para verificar os efeitos desses incentivos, sorteou 10 cidades e estudou quais
seriam as porcentagem investigadas neles. Os resultados foram: 8, 10, 9, 11, 8, 12, 16, 9,
12, 13.
CE-002: Estatstica I
65
Estatstica
Homens Mulheres
Medias
3,2 anos 3,7 anos
Desvios padroes 0,8 anos 0,9 anos
Que conclusoes voce poderia tirar para a populacao de homens e mulheres dessa ind
ustria?
(Indique as suposicoes feitas para resolver o problema.)
23. Diversas polticas em relacao `as filiais de uma rede de supermercados estao associados ao
gasto medio dos clientes em cada compra. Deseja-se comparar esse parametro para duas
novas filiais, por meio de duas amostras de 50 clientes cada. As medias obtidas foram 62 e
71, respectivamente. Sabe-se que o desvio padrao, em ambos os casos, deve ser da ordem
possvel afirmar que o gasto medio nas duas filiais seja o mesmo? Caso
de 20 unidades. E
contrario, de um intervalo de cobranca para a diferenca.
CE-002: Estatstica I
66
24. Uma fabrica de embalagens para produtos qumicos esta estudando dois processos para
combater a corrosao de suas latas especiais. Para verificar o efeito dos tratamentos, foram
usadas amostras cujos resultados estao no quadro abaixo (em porcentagem de corrosao
eleminada). Qual seria a conclusao sobre os dois tratamento?
Liberais
6,6 10,3 10,8 12,9 9,2 12,3 7,0
Administradores 8,1 9,8 8,7 10,0 10,2 8,2 8,7 10,1
26. Para verificar a importancia de um cartaz nas compras de certo produto, procedeu-se da
seguinte modo:
CE-002: Estatstica I
67
Pessoas
1
2
3
4
5
6
7
8
9
10
Pre
50,0
50,0
50,0
87,5
32,5
35,0
40,0
45,0
62,5
Pos Pessoas
42,0
10
42,0
11
78,0
12
33,0
13
96,0
14
82,0
15
44,0
16
31,0
17
87,0
18
19
Pre
40,0
50,0
75,0
92,5
38,0
46,5
50,0
30,0
35,0
39,4
Pos
50,0
48,0
52,0
74,0
47,5
49,0
58,0
42,0
60,0
28,0
28. Uma empresa deseja estudar o efeito de uma pausa de dez minutos para um cafezinho
sobre a produtividade de seus trabalhadores. Para isso, sorteou seis operarios, e contou
o n
umero de pecas produzidas durante uma semana sem interavalo e uma semana com
intervalo. Os resultados sugerem se ha ou nao melhora na produtividade? Caso haja
melhora, qual deve ser o acrescimo medio de producao para todos os trabalhadores da
fabrica?
Operario
1 2 3 4 5 6
Sem intervalo 23 35 29 33 43 32
Com intervalo 28 38 29 37 42 30
29. Numa ind
ustria deseja-se testar se a produtividade media dos operarios do perodo diurno
e igual `a produtividade media dos operarios do perodo noturno. Para isso, colheram-se
duas amostras, uma de cada perodo, observando-se a producao de cada operario. Os
resultados obtidos forma os seguintes:
n
Diurno 15
Noturno 15
xi
180
150
x2i
2.660
2.980
CE-002: Estatstica I
68
32. A torrefacao Guarany esta querendo comprar uma nova ensacadora de cafe. Apos consultar o mercado, ficou indecisa entre comprar da marca A ou a de marca B. Quanto ao
custo, facilidade de pagamento, tamanho, etc. elas sao equivalentes. O fator que decidira a
compra sera a precisao em encher os pacotes (medido pela variancia). Deseja-se construir
regioes crticas bilaterais, unilaterias `a direita ou `a esquerda, dependendo do objetivo.
Indique qual seria a regiao crtica mais favoravel `as sequintes pessoas: (Justifique.)
(a) Voce diria que a diferenca de opinioes nas duas cudades e estatisticamente significante?
(b) Qual seria o IC de 90% para a proporcao de favoraveis ao projeto nas duas cidades?
(Suponha que o n
umero de pessoas nas duas cidades seja aproximadamente igual.)
37. Para verificar o grau de adesao de uma nova cola para vidros, preparam-se dois tipos de
montagem: cruzado (A), onde a cola e posta em forma de X, e quadrado (B), onde a cola
e posta apenas nas quatro bordas. Os resultados da resistencia para as duas amostras de
10 cada estao abaixo. Que tipo de conclusao poderia ser tirada?
Metodo A
Metodo B
16 14 19 18 19 20 15 18 17 18
13 19 14 17 21 24 10 14 13 15
CE-002: Estatstica I
69
Eficaz
55
48
Nao eficaz
25
32
43. Um produto novo e lancado por uma empresa, e, para verificar a sua aceitacao, dois
grupos de pessoas sao consultados. De 100 pessoas da cidade A, 32 gostaram do produto
e, de 50 pessoas da cidade B, 12 gostram do produto. Ha evidencia que o produto seja
igualmente aceito nas duas cidades?
CE-002: Estatstica I
70