Escolar Documentos
Profissional Documentos
Cultura Documentos
Fernando Itano
Orientadores: Denise Aparecida Botter Mnica Carneiro Sandoval Alunos: Fernando Itano Soane Mota dos Santos
Fernando Itano Instituto de Matemtica e Estatistica Universidade de So Paulo Soane Mota dos Santos
Sumrio
Caractersticas do R ................................................................. 5 Importao de dados .................................................................. 6 Salvando arquivos separados por vrgula (CSV) no Microsoft Excel .................... 6 Lendo arquivos do tipo CSV (separado por vrgulas) .................................. 6 Arquivos em banco de dados (ODBC) ................................................... 6 Funes Estatsticas ................................................................. 7 Tabelas ............................................................................. 7 Tabela de propores ................................................................ 7 Resumo .............................................................................. 8 Mdia ............................................................................... 8 Varincia ........................................................................... 9 Desvio Padro ....................................................................... 9 Mediana ............................................................................. 9 Aplica funes ..................................................................... 10 Diviso de dados ................................................................... 10 lm ................................................................................. 11 Parmetros ....................................................................... 11 Exemplos ......................................................................... 11 Testes para a mdia populacional e para a comparao de duas mdias ................. 12 t.test() ........................................................................... 12 Parmetros ....................................................................... 12 Opes ........................................................................... 12 Testes para uma proporo populacional e para comparao de duas propores ......... 14 prop.test() ........................................................................ 14 Parmetros ....................................................................... 14 Opes ........................................................................... 14 fisher.test() ...................................................................... 15 Parmetros ....................................................................... 15 Opes ........................................................................... 15 Testes para Normalidade ............................................................. 16 Pacote: base ........................................................................ 16 shapiro.test() ..................................................................... 16 Parmetros ....................................................................... 16 Pacote opcional: nortest ............................................................ 16 ad.test() .......................................................................... 16 Parmetros ....................................................................... 16 cvm.test() ......................................................................... 17 Parmetros ....................................................................... 17 lillie.test() ...................................................................... 17 Parmetros ....................................................................... 17 Parmetros ....................................................................... 17 Opes ........................................................................... 17 Parmetros ....................................................................... 18 Testes para comparao de varincias ................................................ 19 Pacote: stats ....................................................................... 19 bartlett.test() .................................................................... 19 Parmetros ....................................................................... 19 Pacote: car ......................................................................... 20 levene.test() ...................................................................... 20 Parmetros ....................................................................... 20 Funes Matemticas ................................................................. 21 Combinatria ....................................................................... 21 Fatorial ........................................................................... 21 Fernando Itano Instituto de Matemtica e Estatistica Universidade de So Paulo Soane Mota dos Santos
Raiz Quadrada ...................................................................... Grficos ............................................................................ locator ............................................................................ text ............................................................................... Grfico de barras .................................................................. Histograma ......................................................................... Boxplot ............................................................................ Grfico de Pizza ................................................................... Grfico de Disperso ............................................................... Probabilidade ....................................................................... Funo Densidade (ou Probabilidade) ................................................ Funo Distribuio ................................................................ Funo Probabilidade ............................................................... Gerador aleatrio .................................................................. Exemplos ............................................................................ Dividindo as observaes em intervalos ............................................. Freqncia de observaes em cada intervalo ........................................ Rotulando os intervalos ............................................................ Criando variveis e exibindo-as em tabelas ......................................... Alterando os rtulos das variveis ................................................. Histogramas com curvas tericas .................................................... Bibliografia ........................................................................
21 22 22 22 23 23 24 24 25 26 26 26 26 26 29 29 29 29 29 29 30 32
Fernando Itano
Caractersticas do R
No foi feito para manipulao de dados em larga escala. Forma mais fcil e direta de acessar os dados convert-los para texto e importar. Salva a sesso em um arquivo .RDATA, que armazena todos os objetos R, possibilitando que um projeto seja retomado posteriormente ou intercambiado com colaboradores. Acessa bancos de dados e planilhas Microsoft Excel via ODBC e outros bancos de dados por servidor SQL, ampliando a capacidade de trabalhar com dados em larga escala. A partir da verso 2.1.1 possui um editor de script, que facilita a execuo de comandos diretamente de dentro do R. Possui pacotes com funes especficas que podem ser instalados pela Internet, atravs do prprio programa. Conta com inmeros colaboradores no mundo inteiro que criam, testam e corrigem as funes que podem ser usadas por qualquer pessoa. Gera grficos em diferentes formatos para as mais diversas utilizaes.
Fernando Itano
Importao de dados
Salvando arquivos separados por vrgula (CSV) no Microsoft Excel
Para importar dados a partir de uma planilha do Microsoft Excel, necessrio antes salvar essa planilha no formato .CSV (valores separados por vrgula). Para salv-la nesse formato, clique em Arquivo do menu, em seguida Salvar como... . Na parte inferior da caixa de dilogo, clique sobre as opes de Salvar como tipo e selecione CSV (separado por vrgulas). Agora basta escolher a pasta de destino e clicar no boto Salvar. Surgiro algumas mensagens indicando a incompatibilidade de alguns recursos do Microsoft Excel com esse formato, mas como o que nos interessa so apenas os dados, clique em OK e em seguida em SIM.
caractere utilizado para separao dos campos e valores. Normalmente utilizado o ponto e vrgula (;) dec: caractere utilizado para separar as casas decimais. Normalmente ponto (.) ou vrgula (,). header: TRUE, assume que a primeira linha da tabela contm rtulos das variveis. FALSE, assume que os dados se iniciam na primeira linha.
exemplo: Importa os dados provenientes do arquivo caries.csv, presente no drive C, pasta Analises descritivas, subpasta odonto, com vrgula como sinal decimal, ponto e vrgula como separador de campos e valores e armazena no objeto de nome caries: > caries <header=TRUE) read.csv("C:/Analises descritivas/odonto/caries.csv", sep=";", dec=",",
Visualiza os dados obtidos e armazenados no objeto caries: > caries X1 X10 1 2 12 2 3 15 3 4 18 4 5 22 Observao: Pode-se optar por utilizar as barras normais como indicadoras do caminho do arquivo, ou barras invertidas duplas. Ex: C:\\Analises descritivas\\odonto\\caries.csv tem o mesmo efeito de C:/Analises descritivas/odonto/caries.csv.
Fernando Itano
Funes Estatsticas
Tabelas
sintaxe: table(dados) exemplo: Dados utilizados da tabela 2.1 de Bussab e Morettin (2003). table(dados$origem) Capital Interior Outros 11 12 13 table(dados$origem,dados$estciv) Casado Solteiro Capital 7 4 Interior 8 4 Outros 5 8 table(dados$origem,dados$estciv,dados$educa) , , = Ensino Fundamental Casado Solteiro Capital 2 2 Interior 1 2 Outros 2 3 , , = Ensino Mdio Casado Solteiro Capital 4 1 Interior 6 1 Outros 2 4 = Superior Casado Solteiro Capital 1 1 Interior 1 1 Outros 1 1
, ,
Tabela de propores
Mostra os dados em formato de tabela usando propores: sintaxe: prop.table(tabela) Exemplo: prop.table(table(dados$Educacao)) Ensino Fundamental 0.3333333 Ensino Mdio 0.5000000 Superior 0.1666667
Fernando Itano
Resumo
Resume a varivel quantitativa em: mnimo, mximo, mdia, mediana, 1o quartil, 3o quartil e dados no preenchidos. Caso a varivel seja qualitativa, informado o nmero de observaes para cada nvel. sintaxe: summary(varivel) Exemplo: Resumo da varivel salrio summary(dados$Salario) Min. 1st Qu. Median Mean 3rd Qu. 4.000 7.553 10.160 11.120 14.060
Max. 23.300
Resumo da varivel salrio apenas para casados summary(dados$salario[dados$estciv=="Casado"]) Min. 1st Qu. Median Mean 3rd Qu. Max. 4.560 8.743 11.930 12.120 15.030 23.300 Resumo da varivel salrio apenas para solteiros summary(dados$salario[dados$estciv=="Solteiro"]) Min. 1st Qu. Median Mean 3rd Qu. Max. 4.000 7.257 9.045 9.871 11.690 18.750 Resumo da varivel qualitativa origem summary(dados$Origem) Capital Interior Outros 11 12 13 Observao: Caso a varivel desejada seja qualitativa numrica, possvel que o R interprete-a como sendo uma varivel quantitativa. Para evitar que isso acontea, utilize a funo as.factor(). Ex: summary(as.factor(dados$sexo))
Mdia
sintaxe: mean(varivel) Opes: na.rm: TRUE, calcula a mdia considerando apenas os dados existentes, ignora os dados faltantes. FALSE, calcula a mdia apenas se todos os valores estiverem preenchidos, caso contrrio retorna NA. Exemplo: mean(dados$Filhos) [1] NA mean(dados$Filhos, na.rm=TRUE) [1] 1.65
Fernando Itano
Varincia
sintaxe: var(varivel) Opes: na.rm: TRUE, calcula a varincia considerando apenas os dados existentes, ignora os dados faltantes. FALSE, calcula a varincia apenas se todos os valores estiverem preenchidos, caso contrrio retorna NA. Exemplo: var(dados$Filhos) Erro em var(dados$Filhos) : observaes faltantes em cov/cor var(dados$Filhos, na.rm=TRUE) [1] 1.607895
Desvio Padro
sintaxe: sd(varivel) Opes: na.rm: TRUE, calcula o desvio padro considerando apenas os dados existentes, ignora os dados faltantes. FALSE, calcula o desvio padro apenas se todos os valores estiverem preenchidos, caso contrrio retorna NA. Exemplo: sd(dados$Filhos) Erro em var(dados$Filhos) : observaes faltantes em cov/cor sd(dados$Filhos, na.rm=TRUE) [1] 1.268028
Mediana
Calcula a mediana do conjunto de dados. median(varivel) Opes: na.rm = TRUE calcula a mediana considerando apenas os dados existentes, ignora os dados faltantes. FALSE calcula a mediana apenas se todos os valores estiverem preenchidos, caso contrrio retorna NA. Exemplo: median(dados$Filhos) [1] NA median(dados$Filhos, na.rm=TRUE) [1] 2 Fernando Itano Instituto de Matemtica e Estatistica Universidade de So Paulo Soane Mota dos Santos
Aplica funes
Aplica a funo desejada na varivel escolhida segundo cada nvel de um determinado fator. sintaxe: tapply(varivel, fator, funo) Exemplo: tapply(dados$Salario,dados$Estado,summary) $Casado Min. 1st Qu. Median Mean 3rd Qu. Max. 4.560 8.743 11.930 12.120 15.030 23.300 $Solteiro Min. 1st Qu. 4.000 7.257
Median 9.045
Max. 18.750
Diviso de dados
Divide os dados em faixas determinadas. sintaxe: cut(varivel, faixas, rtulos, opes) Opes: right: TRUE faz com que o intervalo seja fechado na direita e aberto na esquerda. FALSE faz com que o intervalo seja aberto na direita e fechado na esquerda. Exemplo: cut(dados$Anos, breaks=c(20,30,40,50), labels=c("A","B","C"), right=FALSE) [1] A B B A C A C C B A B A B C B B B B A B B B C A B B C A C B B B C B C C Levels: A B C table(cut(dados$Anos, right=F)) 20|-30 30|-40 40|-50 8 18 10 table(cut(dados$Salario, breaks=c(4,8,12,16,20,24), 16","16|-20","20|-24"), right=F)) 4|-8 10 8|-12 12|-16 16|-20 20|-24 12 8 5 1 labels=c("4|-8","8|-12","12|breaks=c(20,30,40,50), labels=c("20|-30","30|-40","40|-50"),
Observao: possvel a utilizao da funo cut() dentro da funo table() diretamente. O resultado ser uma tabela com a freqncia de cada intervalo determinado pela funo cut(). Fernando Itano Instituto de Matemtica e Estatistica Universidade de So Paulo Soane Mota dos Santos
lm
Cria um modelo linear varincia entre outros. que pode ser utilizando para regresso linear, anlise de
sintaxe: lm(formula, dados, opes) Parmetros formula: Especifica a relao entre a varivel resposta e a varivel explicativa. Ver exemplos. dados: Objeto do tipo data.frame que contm os dados. Opes weights: vetor opcional dos pesos a serem utilizados no processo de ajuste do modelo linear. Exemplos Cria um modelo linear baseado na tabela 15.1 de Bussab e Morettin (2003), onde o objeto dados contm a tabela. lm(Reao ~ Idade, dados) Call: lm(formula = Reao ~ Idade, data = dados) Coefficients: (Intercept) 80.5
Idade 0.9
A funo lm() nos retorna a estimativa dos parmetros do modelo linear da forma: E (Y | x ) = ( x ) = + x , onde corresponde ao valor esperado para a varivel dependente quando a varivel explicativa assume o valor zero (tambm chamado de Intercepto ou coeficiente linear da reta) e corresponde variao mdia da varivel dependente por unidade de variao da varivel explicativa (ou coeficiente angular da reta). No exemplo acima, o (Y | x ) = ( x ) = 80,5 + 0,9 x . modelo seria representado pela equao: E Caso necessrio, pode-se remover o intercepto do modelo alterando a frmula da seguinte maneira: lm(Reao ~ Idade - 1, dados) Call: lm(formula = Reao ~ Idade - 1, data = dados) Coefficients: Idade 3.442
Fernando Itano
Teste t pareado antes = c(16.6,13.4,14.6,15.1,12.9,15.2,14.0,16.6,15.4,13.0) depois = c(15.8,17.9,18.2,20.2,18.1,17.8,18.3,18.6,17.0,18.4) t.test(antes,depois,paired=TRUE) Paired t-test data: antes and depois t = -5.3231, df = 9, p-value = 0.000479 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -4.773642 -1.926358 sample estimates: mean of the differences -3.35
Fernando Itano
Fernando Itano
fisher.test()
Realiza o teste exato de independncia de linhas e colunas em uma tabela de contingncia com as marginais fixas. Sintaxe: fisher.test(x, opes) Parmetros x: Matriz (tabela) contendo a frequncia de observaes em cada casela. Opes alternative: string indicando a hiptese alternativa desejada. Valores possveis: "two-sided", "less" ou "greater". conf.int: TRUE: calcula o intervalo de confiana para a razo de chances em tabelas de dimenso 2x2. conf.level: coeficiente de confiana do intervalo.
Exemplo: Teste de independncia do exemplo: Satisfao no trabalho, Agresti(2002, p.57) Receita Muito Insatisfeito 1 2 1 0 Satisfao Pouco Moderadamente Insatisfeito Satisfeito 3 10 3 10 6 14 1 9
Muito Satisfeito 6 7 12 11
Trabalho = matrix(c(1,2,1,0, 3,3,6,1, 10,10,14,9, 6,7,12,11), 4, 4, dimnames = list(Receita=c("< 15mil", "15-25mil", "25-40mil", "> 40mil"), Satisfao=c("M.Insatisfeito", "P.Insatisfeito", "Mod.Satisfeito", "M.Satisfeito")))
fisher.test(Trabalho) Fisher's Exact Test for Count Data data: Trabalho p-value = 0.7827 alternative hypothesis: two.sided
Fernando Itano
Pacote: base
Este pacote j est instalado.
shapiro.test()
Realiza o teste de Shapiro-Wilk para normalidade. sintaxe: shapiro.test(amostra) Parmetros amostra: Vetor contendo a amostra da qual se quer testar normalidade. Deve conter uma amostra de tamanho entre 3 e 5000. So permitidos missing values. Exemplo: shapiro.test(rnorm(10, mean=10, sd=4)) Shapiro-Wilk normality test data: rnorm(10, mean = 10, sd = 4) W = 0.9779, p-value = 0.9532
ad.test()
Realiza o teste de Anderson-Darling para normalidade. sintaxe: ad.test(amostra) Parmetros amostra: Vetor contendo a amostra da qual se quer testar normalidade. Deve conter uma amostra de tamanho maior ou igual a 7. So permitidos missing values. Exemplo: ad.test(rnorm(10, mean=10, sd=4)) Anderson-Darling normality test data: rnorm(10, mean = 10, sd = 4) A = 0.2772, p-value = 0.5707
Fernando Itano
cvm.test()
Realiza o teste de Cramer-von Mises para normalidade. sintaxe: cvm.test(amostra) Parmetros amostra: Vetor contendo a amostra da qual se quer testar normalidade. Deve conter uma amostra de tamanho maior ou igual a 7. So permitidos missing values. Exemplo: cvm.test(rnorm(10, mean=10, sd=4)) Cramer-von Mises normality test data: rnorm(10, mean = 10, sd = 4) W = 0.0497, p-value = 0.4792
lillie.test()
Realiza o teste de Lilliefors (Kolmogorov-Smirnov) para normalidade. sintaxe: lillie.test(amostra) Parmetros amostra: Vetor contendo a amostra da qual se quer testar normalidade. Deve conter uma amostra de tamanho maior ou igual a 4. So permitidos missing values. Exemplo: lillie.test(rnorm(10, mean=10, sd=4)) Lilliefors (Kolmogorov-Smirnov) normality test data: rnorm(10, mean = 10, sd = 4) D = 0.2169, p-value = 0.2010
pearson.test()
Realiza o teste Qui-quadrado de Pearson para normalidade. sintaxe: pearson.test(amostra) Parmetros amostra: Vetor contendo a amostra da qual se quer testar normalidade. So permitidos missing values. Opes n.classes: Nmero de classes. So permitidos missing values. adjust: TRUE: o valor p calculado de uma distribuio Qui-quadrado com o nmero de graus de liberdade igual ao nmero de classes 3. FALSE: o valor p calculado de uma distribuio Qui-quadrado com o nmero de graus de liberdade igual ao nmero de classes 1. Exemplo: pearson.test(rnorm(10, mean=10, sd=4)) Pearson chi-square normality test data: rnorm(10, mean = 10, sd = 4) P = 2, p-value = 0.5724 Fernando Itano Instituto de Matemtica e Estatistica Universidade de So Paulo Soane Mota dos Santos
sf.test()
Realiza o teste de Shapiro-Francia para normalidade. sintaxe: sf.test(amostra) Parmetros amostra: Vetor contendo a amostra da qual se quer testar normalidade. Deve conter uma amostra de tamanho entre 5 e 5000. So permitidos missing values. Exemplo: sf.test(rnorm(10, mean=10, sd=4)) Shapiro-Francia normality test data: rnorm(10, mean = 10, sd = 4) W = 0.935, p-value = 0.4419
Fernando Itano
bartlett.test()
Realiza o teste de Bartlett com a hiptese nula de que as varincias dos grupos so iguais. sintaxe: bartlett.test(formula, dados) Parmetros formula: Relao entre a varivel dependente e o fator. Ex: "Vendas ~ Ms". dados: Conjunto de dados onde ser aplicada a formula. Exemplo: Queremos comparar a variabilidade das vendas entre os meses Loja Jan Fev Mar Abr Mai Jun Jul Ago Set A 10 14 16 19 12 15 11 10 12 B 12 13 13 14 13 11 16 09 11 C 15 17 12 16 10 16 12 12 08
Out 13 11 14
Nov 18 16 21
Dez 23 25 24
Vendas = c(10,12,15,14,13,17,16,13,12,19,14,16,12, 13,10,15,11,16,11,16,12,10,9,12,12, 11,8,13,11,14,18,16,21,23,25,24) Mes = c("Jan","Jan","Jan","Fev","Fev","Fev","Mar","Mar","Mar","Abr","Abr","Abr", "Mai","Mai","Mai","Jun","Jun","Jun","Jul","Jul","Jul","Ago","Ago","Ago", "Set","Set","Set","Out","Out","Out","Nov","Nov","Nov","Dez","Dez","Dez") dados = data.frame(Vendas=Vendas, Mes=Mes) bartlett.test(Vendas ~ Mes, data=dados) Bartlett test of homogeneity of variances data: Vendas by Mes Bartlett's K-squared = 2.844, df = 11, p-value = 0.9926 Observao: Tambm possvel especificar os grupos da seguinte forma: bartlett.test(list(GRUPO1, GRUPO2)), onde GRUPO1 e GRUPO2 so vetores contendo os valores das observaes de cada amostra. Exemplo: Time A Time B Jogo 1 30 18 Jogo 2 25 24 Jogo 3 32 31 Jogo 4 22 28 Jogo 5 19 29 Jogo 6 26 30
TimeA = c(30,25,32,22,19,26) TimeB = c(18,24,31,28,29,30) bartlett.test(list(TimeA, TimeB)) Bartlett test of homogeneity of variances data: list(TimeA, TimeB) Bartlett's K-squared = 3e-04, df = 1, p-value = 0.9856 Instituto de Matemtica e Estatistica Universidade de So Paulo
Fernando Itano
Pacote: car
Este pacote precisa ser instalado.
levene.test()
Realiza o teste de Bartlett com a hiptese nula de que as varincias dos grupos so iguais. sintaxe: bartlett.test(formula, dados) Parmetros formula: Relao entre a varivel dependente e o fator. Ex: "Vendas ~ Ms". dados: Conjunto de dados onde ser aplicada a formula. Exemplo: Utilizando o mesmo exemplo visto no teste de Bartlett: Loja A B C Jan 10 12 15 Fev 14 13 17 Mar 16 13 12 Abr 19 14 16 Mai 12 13 10 Jun 15 11 16 Jul 11 16 12 Ago 10 09 12 Set 12 11 08 Out 13 11 14 Nov 18 16 21 Dez 23 25 24
levene.test(dados$Vendas, dados$Mes) Levene's Test for Homogeneity of Variance Df F value Pr(>F) group 11 0.1678 0.9981 24
Fernando Itano
Funes Matemticas
Combinatria
Calcula o nmero de combinaes de n elementos em grupos de tamanho k. sintaxe: choose(n,k) exemplo: choose(0,0) [1] 1 choose(8,5) [1] 56
Fatorial
Calcula o fatorial de x. sintaxe: factorial(x) exemplo: factorial(0) [1] 1 factorial(5) [1] 120
Raiz Quadrada
Calcula a raiz quadrada de x. sintaxe: sqrt(x) exemplo: sqrt(0) [1] 0 sqrt(81) [1] 9
Fernando Itano
Grficos
Os grficos nos permitem analisar uma grande quantidade de informaes de forma rpida, sem que seja necessrio olhar tabelas e medidas de resumo. O R possui uma enorme capacidade para gerar diversos tipos de grficos de alta qualidade totalmente configurveis, desde cores e tipos de linhas, at legendas e textos adicionais. A grande maioria das funes grficas faz uso de opes comuns, ou seja, extremamente fcil personalizar qualquer tipo de grfico pois muitas das opes so iguais. As opes comuns a todos os grficos sero abordadas aqui, e em cada seo seguinte as opes especficas quele determinado tipo de grfico sero apresentadas. Opes: xlim: ylim: xlab: ylab: main: col:
(inicio,fim) dupla contendo os limites do eixo (inicio,fim) dupla contendo os limites do eixo rtulo para o eixo X. rtulo para o eixo Y. ttulo principal do grfico. cor de preenchimento do grfico, podendo ser disponveis pode ser obtida atravs do comando
X. Y.
locator
Permite localizar uma coordenada clicando com o mouse no grfico. Se no for definida a opo type, retorna apenas as coordenadas do ponto clicado. til para inserir textos e outros elementos em grficos j prontos. sintaxe: locator() Opes n: Nmero mximo de pontos a localizar. type: p: cria pontos no grfico com as coordenadas indicadas pelo mouse. l: cria linhas no grfico com as coordenadas indicadas pelo mouse.
text
Insere um texto nas coordenadas definidas. sintaxe: text(x, y, labels, cex, col) Opes x: Posio relativa a abscissa (eixo X). y: Posio relativa a ordenada (eixo Y). labels: Texto (ou vetor com textos) a ser inserido nas coordenadas definidas por x e y. cex: Proporo relativa ao tamanho dos caracteres do texto (padro: 1). col: Cor do texto a ser inserido (padro: preto).
Fernando Itano
Grfico de barras
sintaxe: barplot(dados,opes) opes: space: espao deixado antes de cada barra width: vetor contendo a largura relativa de cada barra com relao as demais. Valores iguais para todas as barras no tero efeito, pois a relao entre elas ser 1. exemplo: barplot(table(dados$estciv), col=c("blue","red"), ylim=c(0,25), space=.8, width=c(.2,.2), main="Nmero de filhos por estado civil", xlab="Estado Civil", ylab="Nmero de Filhos") text(locator(n=2),c("56%","44%"))
0 Nmero de Filhos 25
20
56%
44% 15 5 10
Solteiro
Observao: Caso no seja especificada a opo xlim, os valores da opo width no sero interpretados como valores absolutos, mas como valores relativos as demais barras. Ex: barplot(table(dados$estciv), width(0.2,0.2)) tem o mesmo efeito que barplot(table(dados$estciv), width(2,2)) Aps o comando text(locator(n=2), c("56%","44%")), so necessrios dois cliques em pontos do grfico de barras onde sero inseridos os textos com os percentuais relativos a cada barra.
Histograma
Grfico de distribuio de freqncias para variveis quantitativas. sintaxe: hist(dados, opes) opes: prob: T plota a densidade. F plota a freqncia absoluta. breaks: vetor contendo os pontos de definio das larguras das barra do histograma. exemplo: hist(cdnotas$Notas, main="Histograma da varivel Notas", prob=T, xlab="Notas", ylab="Densidade", col=c("pink"), ylim=c(0,0.3), col.main="darkgray") Fernando Itano Instituto de Matemtica e Estatistica Universidade de So Paulo
0.00 2 Densidade 0.30
0.05
0.10
0.15
0.20
0.25
6 Notas
10
Boxplot
sintaxe: boxplot(dados, opes) opes: outline: T plota os outliers. F no plota os outliers. exemplo: boxplot(dados$salario, main="Boxplot de Salrios", ylab="Salrios", col=("green"))
Salrios 20
Boxplot de Salrios
10
15
boxplot(dados$salario ~ dados$educa, main="Boxplot de Salrios por grau de Instruo", xlab="Grau de Instruo", ylab="Salrios", col=c("yellow","orange","red"))
Salrios
5 Ensino Fundamental
10
15
20
Superior
Grfico de Pizza
sintaxe: pie(dados, opes)
Grfico de setores: Grau de Instruo
opes: labels: vetor contendo os rtulos de cada fatia. radius: raio da circunferncia da pizza. (padro=1) col: vetor contendo as cores das fatias. exemplo: pie(table(dados$educa), main="Grfico de setores: Grau de Instruo")
Ensino Mdio
Ensino Fundamental
Superior
Fernando Itano
Para incluir as porcentagens dentro de cada fatia, execute as linhas abaixo clicando na fatia branca, azul e rosa, nesta sequncia. text(locator(n=1), paste(round(prop.table(table(dados$educa))[1], digits=2)*100,"%")) text(locator(n=1), paste(round(prop.table(table(dados$educa))[2], digits=2)*100,"%")) text(locator(n=1), paste(round(prop.table(table(dados$educa))[3], digits=2)*100,"%"))
Ensino Fundamental
33 %
50 % Ensino Mdio
17 % Superior
Grfico de Disperso
Plota dados2 em funo de dados1. sintaxe: plot(dados1, dados2, opes) opes: pch: Escolhe o tipo de caractere. lwd: Espessura do caractere a ser plotado exemplo: plot(dados$filhos, dados$salario, pch=1, lwd=2, main="Grfico de disperso: Salrio x Idade", xlab="Idade (anos)", ylab="Salrios")
20
Salrios
5 0
10
15
Idade (anos)
Fernando Itano
Probabilidade
Funo Densidade (ou Probabilidade)
Calcula o valor da densidade, no caso de distribuies contnuas, ou a probabilidade P(X=x), no caso de distribuies discretas, para cada elemento do vetor x. No R o nome dessa funo iniciado pela letra d mais o nome da distribuio (ex: dbinom, dpois etc.).
Funo Distribuio
Calcula a distribuio acumulada: P(X x). O nome da funo iniciado pela letra p mais o nome da distribuio (ex: pnorm, pexp etc.).
Funo Probabilidade
Calcula o valor de x correspondente a probabilidade p acumulada. o inverso da funo Distribuio. O nome da funo iniciado pela letra q mais o nome da distribuio (ex: qbeta, qcauchy etc.).
Gerador aleatrio
Gera nmeros aleatrios baseados na distribuio definida. O nome da funo iniciado pela letra r mais o nome da distribuio (ex: rnorm, rbinom etc.).
Distribuio
Binomial
Opes x: vetor contendo o nmero total de sucessos em n ensaios de Bernoulli. p: probabilidade de sucesso. q: vetor contendo os quantis em n ensaios de Bernoulli. prob: vetor contendo as probabilidades em n ensaios de Bernoulli. obs: nmero de observaes. n: nmero de ensaios de Bernoulli. x: vetor contendo o nmero de ocorrncias. lambda: nmero mdio de eventos ocorrendo no intervalo considerado. q: vetor contendo os quantis. prob: vetor contendo as probabilidades. obs: nmero de observaes. x: vetor contendo o nmero de falhas ocorridas em uma sequncia de Bernoulli antes do sucesso. prob: probabilidade de sucesso em cada tentativa. q: vetor contendo os quantis p: vetor contendo as probabilidades n: nmero de observaes.
Poisson
dpois(x, lambda, opes) ppois(q, lambda, opes) qpois(prob, lambda, opes) rpois(obs, lambda)
Geomtrica
Fernando Itano
x: vetor contendo o nmero de elementos com a caracterstica A extrados sem reposio de uma urna que contm elementos com caractersticas A e B. m: nmero de elementos com a caracterstica A. n: nmero de elementos com a caracterstica B. k: nmero de elementos extrados da urna. q: vetor contendo os quantis. p: vetor contendo as probabilidades. nn: nmero de observaes. x: vetor contendo os quantis. min: limite inferior da distribuio. max: limite superior da distribuio. q: vetor contendo os quantis. p: vetor contendo as probabilidades. n: nmero de observaes.
Uniforme
dunif(x, opes) punif(q, opes) qunif(p, opes) runif(n, dexp(x, pexp(q, qexp(p, rexp(n,
x: vetor contendo os quantis. rate: parmetro da distribuio. q: vetor contendo os quantis. p: vetor contendo as probabilidades. n: nmero de observaes. x: vetor contendo os quantis. mean: mdia da distribuio. sd: desvio padro da distribuio. q: vetor contendo os quantis. p: vetor contendo as probabilidades. n: nmero de observaes.
Normal
dgamma(x, shape, rate = 1, opes) Gama pgamma(q, shape, rate = 1, opes) E(X)=shape/rate qgamma(p, shape, Var(X) = rate = 1, opes) shape/rate2 rgamma(n, shape, rate = 1) dchisq(x, opes) pchisq(q, opes) qchisq(p, opes) rchisq(n, df, ncp=0, df, ncp=0, df, ncp=0, df, ncp=0)
x: vetor contendo os quantis. shape: parmetro da distribuio. rate: parmetro da distribuio. q: vetor contendo os quantis. p: vetor contendo as probabilidades. n: nmero de observaes.
Qui-quadrado
x: vetor contendo os quantis. df: graus de liberdade. ncp: parmetro de no centralidade. q: vetor contendo os quantis. p: vetor contendo as probabilidades. n: nmero de observaes.
t-Student
dt(x, df, ncp=0, opes) pt(q, df, ncp=0, opes) qt(p, df, opes) rt(n, df)
x: vetor contendo os quantis. df: graus de liberdade. ncp: parmetro de no centralidade. q: vetor contendo os quantis. p: vetor contendo as probabilidades. n: nmero de observaes. Soane Mota dos Santos
Fernando Itano
F-Snedecor
x: vetor contendo os quantis. df1: graus de liberdade do numerador. df2: graus de liberdade do denominador. q: vetor contendo os quantis. ncp: parmetro de no centralidade. p: vetor contendo as probabilidades. n: nmero de observaes.
O termo opes que aparece em algumas funes pode ser substitudo por: lower.tail = (TRUE) TRUE: Calcula as probabilidades da forma P(X <= x). FALSE: Calcula as probabilidades da forma P(X > x). log = (FALSE) log.p = (FALSE) TRUE: As probabilidades p so dadas como o logartmo natural de p ( log(p) ). Em caso de dvida, digite ?nome_da_funo para obter a ajuda necessria.
Para mais distribuies, utilize o comando: help.search("distribution") e em seguida utilize: ?Nome_da_distribuio para mais informaes sobre a distribuio escolhida.
Fernando Itano
Exemplos
Dividindo as observaes em intervalos
salario <- c(12, .4, 5, 2, 50, 8, 3, 1, 4, .25) intervalo <- cut(salario,breaks=c(0,1,5,max(salario))) intervalo [1] (5,50] (0,1] (1,5] (1,5] (5,50] (5,50] (1,5] (0,1] Levels: (0,1] (1,5] (5,50]
(1,5]
(0,1]
(0,1]
(1,5]
(0,1]
Rotulando os intervalos
levels(intervalo) <-c("pobre","rico"," rolando na grana") table(intervalo) intervalo pobre rico rolando na grana 3 4 3
Fernando Itano
Uniforme [0,1]
x=runif(100)
Densidade
0.0 0.0
0.2
curve(dunif(x,0,1),add=T)
0.4
0.6
0.8
1.0
1.2
0.2
0.4 x
0.6
0.8
1.0
Binomial
0.30 Densidade
0.00 0
0.05
0.10
0.15
0.20
n=10;p=0.25 x=rbinom(100,n,p)
0.25
3 x
Normal (0,1)
0.5
curve(dnorm(x),add=T)
0.0 -3
0.1
Densidade
0.2
0.3
x=rnorm(100)
0.4
-2
-1
0 x
Fernando Itano
0.00000 0
0.00005
0.00010
0.00015
0.00020
2000
4000
6000 x
8000
10000
12000 14000
Fernando Itano
Bibliografia
Bussab, W. de O. e Morettin, P. A. (2003). Estatstica Bsica, 5 ed. So Paulo: Editora Saraiva. The R Project for Statistical Computing (08/2006). www.r-project.org
Fernando Itano