Você está na página 1de 27

Aula 2

Álvaro João Pereira Filho

Curso de R
28/08/2018

Álvaro João Pereira Filho Aula 2 Curso de R28/08/2018 1 / 27


Revisão

Aula passada...

R é um software de linguagem estatı́stica e livre


As habilidades necessárias são escrita e leitura (GOOOOGLE!!!)
Comandos básicos: # para comentário e Ctrl + Enter para rodar

Álvaro João Pereira Filho Aula 2 Curso de R28/08/2018 2 / 27


Revisão

Aula passada...

R como calculadora: +, -, *, /, sqrt()...


> 5 + 5
[1] 10

> 6 * 5
[1] 30

Operadores lógicos: == , != , & ...


> T != T
[1] TRUE

> 2 == 2.5 | 4 ! = 4
[1] FALSE

Álvaro João Pereira Filho Aula 2 Curso de R28/08/2018 3 / 27


Revisão

Aula passada...

Atribuição de valores e vetores com <


sorte <- 5

> sorte
[1] 5

Funções...
class () # Informa o tipo de i n f o r m a o do objeto
length () # Numero de valores do vetor ou variavel
sum () # Somatorio dos valores do vetor ou variavel

Álvaro João Pereira Filho Aula 2 Curso de R28/08/2018 4 / 27


Revisão

Aula passada...

Estatı́sticas descritivas:
mean () # Media
mean (x , na . rm = T ) # Media sem os valores NA
median ( x ) # Mediana da variavel ou vetor
sd ( x ) # Desvio - padrao da variavel ou vetor

Álvaro João Pereira Filho Aula 2 Curso de R28/08/2018 5 / 27


Revisão

Aula passada...

Instalamos pacotes:
install . packages ( " PNADcIBGE " )
install . packages ( " UsingR " )

Ativamos os pacotes devidamente instalados:


library ( PNADcIBGE )
library ( UsingR )

Álvaro João Pereira Filho Aula 2 Curso de R28/08/2018 6 / 27


Importação da base

Importação do PNAD

Após ativar o pacote ”PNADcIBGE”, a função get pnadc() fica


disponı́vel para a importação
Como toda a função, ou quase todas, get pnadc() possui argumentos
importantes:
’year =’ se refere ao ano de extração do PNAD
’quarter =’ se refere ao trimestre de extração do PNAD
’design =’ é um arg lógico para retornar o objeto com a configuração
do pacote ’survey’, porém, aqui colocaremos FALSE nesse arg para
utilizarmos maior número de funções já existente no próprio R

Álvaro João Pereira Filho Aula 2 Curso de R28/08/2018 7 / 27


Importação da base

Importação do PNAD

Vamos começar importando o PNAD do 1o trimestre de 2018, nos


retornando um objeto em 0 tbl df 0 e data frame
> pnad2018 <- get _ pnadc ( year = 2018 ,
quarter = 1 , design = F )

Provavelmente, demorará alguns segundos, até minutos, para a


importação
Além disso, essa técnica demanda acesso à internet

Álvaro João Pereira Filho Aula 2 Curso de R28/08/2018 8 / 27


Importação da base

Importação do PNAD

Após a importação concluı́da, é importante explorar as caracterı́sticas


da base de dado disponı́vel
Uma primeira informação que deve ser adquirida é o tipo da base de
dado, isso irá guiar as funções que deverão ser aplicadas
> class ( pnad2018 )
[1] " tbl _ df " " tbl " " data . frame "

Para visualizar a base em planilha é possı́vel através do View(), porém


com bases muito grandes como é o PNAD NÃO É RECOMENDÁVEL

Álvaro João Pereira Filho Aula 2 Curso de R28/08/2018 9 / 27


Importação da base

Importação do PNAD

Porém podemos descobrir valores como as dimensões da base: dim()


> dim ( pnad2018 )
[1] 560741 216

Primeiro valor corresponde ao número de linhas, ou observações, e o


segundo valor ao número de colunas, ou variáveis. São 560741
observações e 216 variáveis.
Com as funções names() e str() obtemos os nomes das variáveis, mas
no segundo caso temos também o correspondente tipo de cada
variável

Álvaro João Pereira Filho Aula 2 Curso de R28/08/2018 10 / 27


Seleção de elementos

Seleção de variáveis

Usaremos o exemplo de um vetor presente no pacote ’UsingR’:


”central.park.cloud
> library ( UsingR )

> data ( " central . park . cloud " )

> class ( central . park . cloud )


[1] " factor "

Álvaro João Pereira Filho Aula 2 Curso de R28/08/2018 11 / 27


Seleção de elementos

Seleção de elementos

Para a seleção de um elemento especı́fico em um vetor:


• Vetor
•[]
• Posição ou regra
Queremos as observações igual a nublado (”cloudy”)
> central . park . cloud [ central . park . cloud == " cloudy " ]

[1] cloudy cloudy cloudy cloudy cloudy cloudy cloudy


Levels : clear partly . cloudy cloudy

> sum ( central . park . cloud == " cloudy " )


[1] 9

Álvaro João Pereira Filho Aula 2 Curso de R28/08/2018 12 / 27


Seleção de elementos

Seleção de elementos

Sabendo o somatório, podemos definir a porcentagem do vetor que é


nublado
> ( sum ( central . park . cloud == " cloudy " ) /
length ( central . park . cloud )) * 100
[1] 29.03226

Isto é, 29% da nosso vetor é de nublados (”cloudy”)


Podemos ver a frequência de cada nı́vel do vetor com a função table()
> table ( central . park . cloud )
[1] central . park . cloud
clear partly . cloudy cloudy
11 11 9

Álvaro João Pereira Filho Aula 2 Curso de R28/08/2018 13 / 27


Seleção de elementos

Seleção de elementos

Álvaro João Pereira Filho Aula 2 Curso de R28/08/2018 14 / 27


Seleção de elementos

Seleção de elementos

Podemos também selecionar segundo o posicionamento no vetor


Vamos, dessa vez, passo a passo:
Primeiro, definimos o vetor
central . park . cloud

Álvaro João Pereira Filho Aula 2 Curso de R28/08/2018 15 / 27


Seleção de elementos

Seleção de elementos

Podemos também selecionar segundo o posicionamento no vetor


Vamos, dessa vez, passo a passo:
Primeiro, definimos o vetor
central . park . cloud

Depois, inserimos o [ ]
central . park . cloud [ ]

Álvaro João Pereira Filho Aula 2 Curso de R28/08/2018 16 / 27


Seleção de elementos

Seleção de elementos

Finalmente, inserimos a regra dentro do [ ]


Buscamos aqui o primeiro e o último valores do vec:

> central . park . cloud [1]


[1] partly . cloudy
Levels : clear partly . cloudy cloudy

> central . park . cloud [ length ( central . park . cloud )]


[1] partly . cloudy
Levels : clear partly . cloudy cloudy

Álvaro João Pereira Filho Aula 2 Curso de R28/08/2018 17 / 27


Seleção de elementos

Seleção de elementos

Para base de dados, que possuem duas dimensões, selecionamos


também utilizando [ ]
• Data frame
• [,]
• Posição ou regra
Sim! Há uma vı́rgula dentro dos colchetes
Ele separa a posição da linha e da coluna
• 1o Linha
• 2o Coluna

Álvaro João Pereira Filho Aula 2 Curso de R28/08/2018 18 / 27


Seleção de elementos

Seleção de elementos

Vamos usar a base ’MLBattend’ como exemplo desse caso


> data ( " MLBattend " )

> class ( MLBattend )


[1] " data . frame "

> dim ( MLBattend )


[1] 838 10

> names ( MLBattend )


[1] " franchise " " league " " division "
[4] " year " " attendance " " runs . scored "
[7] " runs . allowed " " wins " " losses "
[10] " games . behind "

Álvaro João Pereira Filho Aula 2 Curso de R28/08/2018 19 / 27


Seleção de elementos

Seleção de elementos

Vamos selecionar a 6a variável: ’runs.scored’


MLBattend [ ,6]

Álvaro João Pereira Filho Aula 2 Curso de R28/08/2018 20 / 27


Seleção de elementos

Seleção de elementos

Vamos selecionar a 6a variável: ’runs.scored’


> MLBattend [ ,6]

Entretanto, podemos também selecionar a variável pelo nome, com o


auxı́lio do operador $
> MLBattend $ runs . scored

> MLBattend [ ,6] == MLBattend $ runs . scored

Álvaro João Pereira Filho Aula 2 Curso de R28/08/2018 21 / 27


Recodificação de variáveis

Recodificação

Para recodificar variáveis, usaremos os operadores de seleção de


elementos juntamente com operadores lógicos
Vamos, primeiramente, substituir para valores numéricos a variável
”Condição em relação à força de trabalho”da base do PNAD 2018
> table ( pnad2018 $ VD4001 )
Pessoas na forca Pessoas fora da forca
265259 186477

O objetivo é atribuir o valor 0 para a pessoa fora da força de trabalho


e 1 para a pessoa dentro do mercado

Álvaro João Pereira Filho Aula 2 Curso de R28/08/2018 22 / 27


Recodificação de variáveis

Recodificação

O primeiro passo é substituir o tipo da informação


> class ( pnad2018 $ VD4001 )
[1] " factor "

> pnad2018 $ VD4001 <- as . numeric ( pnad2018 $ VD4001 )

Em seguida, substituimos o valor 2 por 0


> pnad2018 $ VD4001 [ pnad2018 $ VD4001 == 2] <- 0

> table ( pnad2018 $ VD4001 )


0 1
186477 265259

Álvaro João Pereira Filho Aula 2 Curso de R28/08/2018 23 / 27


Recodificação de variáveis

Recodificação

Vamos recodificar agrupando valores para a variável de renda mensal


Até o 1o quartil, vamos atribuir o valor 1, do primeiro quartil até a
mediana renda 2, da mediana até o 3o quartil 3 e, por fim, 3o quartil
até o máximo atribuiremos o valor 4
Para descobrir esses valores, usaremos a função summary()
> summary ( pnad2018 $ VD4020 )
Min .1 st Qu . Median Mean 3 rd Qu . Max . NA ’s
0 800 1210 2102 2200 450000 337395

Álvaro João Pereira Filho Aula 2 Curso de R28/08/2018 24 / 27


Recodificação de variáveis

Recodificação

pnad 2 0 1 8 $ VD 4 0 2 0 [ pnad 2 0 1 8 $ VD 4 0 2 0 < 8 0 0 ] <- 1


pnad 2 0 1 8 $ VD 4 0 2 0 [ pnad 2 0 1 8 $ VD 4 0 2 0 >= 8 0 0 &
pnad 2 0 1 8 $ VD 4 0 2 0 < 1 2 1 0 ] <- 2
pnad 2 0 1 8 $ VD 4 0 2 0 [ pnad 2 0 1 8 $ VD 4 0 2 0 >= 1 2 1 0 &
pnad 2 0 1 8 $ VD 4 0 2 0 < 2 2 0 0 ] <- 3
pnad 2 0 1 8 $ VD 4 0 2 0 [ pnad 2 0 1 8 $ VD 4 0 2 0 >= 2 2 0 0 ] <- 4

table ( pnad 2 0 1 8 $ VD 4 0 2 0 )
1 2 3 4
51160 60512 54709 56965

Álvaro João Pereira Filho Aula 2 Curso de R28/08/2018 25 / 27


Recodificação de variáveis

Recodificação

Álvaro João Pereira Filho Aula 2 Curso de R28/08/2018 26 / 27


Recodificação de variáveis

Aula 2

Álvaro João Pereira Filho

Curso de R
28/08/2018

Álvaro João Pereira Filho Aula 2 Curso de R28/08/2018 27 / 27

Você também pode gostar