Trabalho FInal Probabilidade e Estatística Aplicada

Çç
Adrian Valt Hohmann
Trabalho Final - Probabilidade e Estatística Aplicadas

Análise Comparativa dos Três Principais PIBs Globais
Curitiba
2023
Análise Comparativa dos Maiores PIBs Globais: Estados
Unidos, China e Japão
Este relató rio emprega a linguagem de programaçã o R para uma aná lise comparativa
dos Produtos Internos Brutos (PIBs) dos Estados Unidos, China e Japã o.
1. Base de Dados
As bases de dados essenciais para esta aná lise foram obtidas de fontes confiá veis.
Os links abaixo direcionam à s fontes específicas utilizadas para extrair as
informaçõ es referentes aos Produtos Internos Brutos (PIBs) dos Estados Unidos,
China e Japã o.
 Maiores Economias - https://www.dadosmundiais.com/maiores-
economias.php#:~:text=Com%20um%20PIB%20de%2025,para%20o%20ano%20de
%202022.
 Estados Unidos - https://www.dadosmundiais.com/america/usa/index.php
 China -https://www.dadosmundiais.com/asia/china/index.php
 Japã o -https://www.dadosmundiais.com/asia/japao/index.php
2. Criando os dados
Com esse có digo abaixo , você terá um dataframe chamado “dados” que contém
informaçõ es organizadas sobre os anos e os PIBs dos Estados Unidos, China e
Japã o, facilitando aná lises e visualizaçõ es desses dados usando as capacidades
do R.
dados <- data.frame(

Ano = c(2012, 2013, 2014, 2015, 2016, 2017, 2018,
2019, 2020, 2021),
USA = c(16.917, 16.691, 17.428, 18.120, 18.707,
19.485, 20.580, 21.433, 21.433, 22.675),
China = c(8.227, 9.607, 10.482, 11.065, 11.231, 12.237,
13.608, 14.342, 16.227, 17.732),
Japao = c(5.963, 5.155, 4.850, 4.116, 4.938, 4.872,
4.970, 5.081, 4.872, 6.112)
)
3. Histograma
Para a elaboraçã o do nosso histograma, precisamos fazer o download da
biblioteca denominada ggplot2. Isso pode ser realizado através do có digo
"install.packages("ggplot2")", seguido pela sua ativaçã o por meio do comando
"library(ggplot2)". Vale ressaltar que utilizaremos o dataframe preexistente
denominado "dados", o qual contém as informaçõ es essenciais para a construçã o
da tabela.
histograma <- ggplot(dados, aes(x = Ano)) + ... Cria um objeto chamado
'histograma' usando a funçã o ggplot. Define o eixo x como o ano.
geom_bar(aes(y = , fill = ""), stat = "identity", position = "dodge", width = , color =
"") + ...: Cria barras para o PIB dos EUA, China e Japã o e define suas respectivas
cores
labs(...): Adiciona ró tulos ao grá fico, incluindo título, ró tulo do eixo x, ró tulo do
eixo y e legenda.
theme_minimal(): Aplica um tema minimalista ao grá fico
print(histograma): Exibe o histograma criado anteriormente.
Aqui está o có digo do texto descritivo acima sobre “histograma”:
install.packages("ggplot2")
library(ggplot2)
histograma <- ggplot(dados, aes(x = Ano)) +
geom_bar(aes(y = USA, fill = "USA"), stat = "identity", position =
"dodge", width = 0.7, color = "white") +
geom_bar(aes(y = China, fill = "China"), stat = "identity", position
= "dodge", width = 0.7, color = "white") +
geom_bar(aes(y = Japao, fill = "Japao"), stat = "identity", position
= "dodge", width = 0.7, color = "white") +
labs(title = "Comparação dos PIBs (Trilhões de dólares): USA,
China, Japão (2012-2021)",
x = "Ano",
y = "PIB",
fill = "Países") +
scale_fill_manual(values = c("USA" = "blue", "China" = "green",
"Japao" = "red")) +
theme_minimal()
print(histograma)
4. Cálculos
Os có digos apresentados abaixo têm como objetivo calcular diversas medidas
estatísticas, incluindo média, mediana,variâ ncia, desvio padrã o, quartis,
amplitude e decis, para os Produtos Internos Brutos (PIBs) dos Estados Unidos,
China e Japã o. Cabe ressaltar que a moda nã o foi calculada, uma vez que esta
medida requer a presença de nú meros repetidos, o que nã o se verifica nos dados
fornecidos
Calculando a variância
VariânciaUSA <- var(USA)
VariânciaChina <- var(China)
VariânciaJapão <- var(Japao)
Calculando a média
media_usa <- mean(USA)
media_china <- mean(China)
media_japao <- mean(Japao)
Calculando a mediana
mediana_usa <- median(USA)
mediana_china <- median(China)
mediana_japao <- median(Japao)
Calculando o desvio padrão

desvio_padrao_usa <- sd(USA)
desvio_padrao_china <- sd(China)
desvio_padrao_japao <- sd(Japao)
5. Tabela de Frequência
Estes có digos em R têm como objetivo realizar uma aná lise de frequência
acumulativa sobre os 30 primeiros valores dos Produtos Internos Brutos
(PIBs) dos Estados Unidos, China e Japã o. Vamos entender cada passo:
 todos_pibs <- c(dados$USA, dados$China, dados$Japao) combina os

PIBs dos três países em um ú nico vetor chamado 'todos_pibs'.
 primeiros_30_valores <- head(todos_pibs, 30) seleciona os

primeiros 30 valores do vetor combinado 'todos_pibs'.
 intervalos <- c(-Inf, 25, 20, 15, 10, 5) define os intervalos para a
aná lise de frequência acumulativa.
 pibs_intervalos <- cut(primeiros_30_valores, breaks = intervalos,

right = FALSE) utiliza a funçã o cut para classificar os valores nos
intervalos definidos.
 tabela_freq_acumulativa <- table(pibs_intervalos) calcula a tabela

de frequência acumulativa para os intervalos definidos.
 tabela_final_acumulativa <- data.frame converte a tabela de

frequência acumulativa em um dataframe formatado, incluindo colunas
para os intervalos, quantidade acumulativa e frequência relativa.
Aqui está o có digo do texto descritivo acima sobre “Tabela de Frequência”
todos_pibs <- c(dados$USA, dados$China, dados$Japao)

primeiros_30_valores <- head(todos_pibs, 30)
intervalos <- c(-Inf, 25, 20, 15, 10, 5)
pibs_intervalos <- cut(primeiros_30_valores, breaks = intervalos, right = FALSE)
tabela_freq_acumulativa <- table(pibs_intervalos)
tabela_final_acumulativa <- data.frame(
PIB = c("(Abaixo de 5)", "(Abaixo de 10)", "(Abaixo de 15)", "(Abaixo de 20)", "(Abaixo de
25)"),
Quantidade = cumsum(tabela_freq_acumulativa),
Frequencia_Relativa = formatC(cumsum(prop.table(tabela_freq_acumulativa)) * 100, digits
= 2, format = "f")
)
print(tabela_final_acumulativa)
A Figura abaixo mostra como fica no software R a “Tabela de Frequência”
6. Intervalo de Confiança
O cá lculo do intervalo de confiança envolve a aná lise de três elementos

cruciais: média, desvio-padrã o e erro-padrã o.
Calcular médias
USA.mean <- mean(dados$USA)
China.mean <- mean(dados$China)
Japao.mean <- mean(dados$Japao)
Calcular desvios-padrão
USA.sd <- sd(dados$USA)
China.sd <- sd(dados$China)
Japao.sd <- sd(dados$Japao)
Calcular erros-padrão
sem_USA <- USA.sd / sqrt(10)
sem_China <- China.sd / sqrt(10)
sem_Japao <- Japao.sd / sqrt(10)
Este trecho de có digo em R abaixo calcula o intervalo de confiança de 95% para a

média do PIB dos paises estudados.
Utiliza a média amostral, o valor crítico da distribuiçã o t de Student (considerando um
nível de confiança de 95% e um tamanho de amostra de 10 anos), e o erro-padrã o do
PIB.
O intervalo de confiança é entã o construído subtraindo e somando, respectivamente, o
produto do valor crítico e do erro-padrã o à média do PIB.
Este procedimento fornece uma estimativa da faixa onde a verdadeira média
populacional do PIB provavelmente está situada, com um nível de confiança de 95%.
Calcular intervalos de confiança
IC_USA <- c(USA.mean - qt(0.975, df = 10 - 1) * sem_USA, USA.mean + qt(0.975, df = 10 - 1)
* sem_USA)
IC_China <- c(China.mean - qt(0.975, df = 10 - 1) * sem_China, China.mean + qt(0.975, df =
10 - 1) * sem_China)
IC_Japao <- c(Japao.mean - qt(0.975, df = 10 - 1) * sem_Japao, Japao.mean + qt(0.975, df =
10 - 1) * sem_Japao)
7. Teste Anova
Para realizar o teste ANOVA, adaptei a formataçã o dos dados criando uma
tabela com duas colunas. A primeira coluna contém os nomes dos países,
enquanto a segunda contém os respectivos valores dos Produtos Internos
Brutos (PIBs). Essa formataçã o foi pensada para garantir compatibilidade com
o software.
O có digo anova <- aov(Pib ~ Paises, data = dados) realiza o teste de aná lise de
variâ ncia (ANOVA) utilizando o dataframe "dados".
summary(): É uma fó rmula em R usada para extrair e apresentar as

informaçõ es e resultado do teste ANOVA.
O có digo qf(0.95, df1=2, df2=27) em R utiliza a funçã o qf, que é a funçã o

quantile para a distribuiçã o F. Ela nos fornce o “F tabelado”. Este có digo está
calculando o valor que deixa uma probabilidade acumulada de 95% da
distribuiçã o F.
Aqui está o có digo do texto descritivo acima sobre “Anova”
dados <- data.frame

(Paises=c("USA","USA","USA","USA","USA","USA","USA","USA","USA","USA"
,"China","China","China","China","China","China","China","China","China","
China","Japao","Japao","Japao","Japao
","Japao","Japao","Japao","Japao","Japao","Japao"),
Pib= c(16.917, 16.691, 17.428, 18.120, 18.707, 19.485, 20.580, 21.433,
21.433, 22.675,8.227, 9.607, 10.482, 11.065, 11.231, 12.237, 13.608, 14.342,
16.227, 17.732,5.963, 5.155, 4.850, 4.116, 4.938, 4.872, 4.970, 5.081,
4.872, 6.112))
anova <-aov(Pib~Paises,data=dados)
summary(anova)
qf(0.95, df1=2, df2=27)
A Figura abaixo mostra como fica no software R
o “Teste Anova”
8. Teste Tukey
TukeyHSD(anova): Aplica o Teste de Tukey para comparaçõ es mú ltiplas entre

médias dos grupos. Este teste foi utilizado apó s a realizaçã o de um Teste
ANOVA.
Aqui está o có digo e a representaçã o no software R referentes ao texto

descritivo acima sobre o “Teste Tukey”
 TukeyHSD(anova)
9. Teste de Normalidade
shapiro.test(): É a funçã o que realiza o Teste de Shapiro. Este teste é utilizado

para verificar se uma amostra segue uma distribuiçã o normal. A hipó tese nula
(H0) do teste é que a amostra segue uma distribuiçã o normal.
Aqui está o có digo e a representaçã o no software R referentes ao texto

descritivo acima sobre o “Teste Tukey”
 shapiro.test(resid(anova))
10. BoxPlot
A gente ultilizará na criaçã o desse grá fico o dataset, anteriormente falado,

chamado “dados”
dados <- data.frame(

Ano = c(2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021),
USA = c(16.917, 16.691, 17.428, 18.120, 18.707, 19.485, 20.580, 21.433,
21.433, 22.675),
China = c(8.227, 9.607, 10.482, 11.065, 11.231, 12.237, 13.608, 14.342,
16.227, 17.732),
Japao = c(5.963, 5.155, 4.850, 4.116, 4.938, 4.872, 4.970, 5.081, 4.872,
6.112))
 boxplot(dados[, -1], ...): Cria o boxplot. dados[, -1] é usado para

selecionar todas as colunas, exceto a primeira (que é a coluna
'Ano').
 names = c("USA", "China", "Japã o"): Define os ró tulos para as
caixas para cada país
 col = c("blue", "red", "green"): Define as cores das caixas para cada
país.
 xlab = "País": Define o ró tulo do eixo x.

 ylab = "PIB": Define o ró tulo do eixo y.
Aqui está o có digo do texto descritivo acima sobre “BoxPlot”
dev.new()
boxplot(dados[, -1],
names = c("USA", "China", "Japã o"),
col = c("blue", "red", "green"),
main = "Boxplot do PIB por País",
xlab = "País",
ylab = "PIB")
A Figura abaixo mostra como fica no software R a “BoxPlot”
11. Referências
A seguir, apresento todas as referências de vídeos e recursos que consultei para

auxiliar na execuçã o do projeto “Comparaçã o de PIBs utilizando o software R.”
além do material disponibilizado no Moodle.
1. https://www.youtube.com/watch?v=NrXgvVABd-
c&pp=ygUfY29tbyBmYXplciBncmFmaWNvIGJveHBsb3Qgbm8gUg%3D%3D
2. https://www.youtube.com/watch?
v=RkuRtT5J90w&t=55s&pp=ygUfY29tbyBmYXplciBncmFmaWNvIGJveHBsb3Qgbm8gUg%3D%3D
v=yntCNgcDS5E&pp=ygUsY29tbyBmYXplciBncmFmaWNvIHRlc3RlIGRlIG5vcm1hbGlkYWRlIG5vIFI%3D
4. https://www.youtube.com/watch?v=72jYBvK-
PWY&pp=ygUsY29tbyBmYXplciBncmFmaWNvIHRlc3RlIGRlIG5vcm1hbGlkYWRlIG5vIFI%3D
v=logcKzEVR30&pp=ygUjY29tbyBmYXplciB0YWJlbGEgZGUgY29uZmlhbmNhIG5vIFI%3D
v=P90SA4SuReo&pp=ygUjY29tbyBmYXplciB0YWJlbGEgZGUgY29uZmlhbmNhIG5vIFI%3D
7. https://www.youtube.com/watch?v=vGoUy0uO2Bg&pp=ygUaY29tbyBmYXplciBoaXN0b2dyYW1hIG5vIFI%3D
8. https://www.youtube.com/watch?v=3lBisWimwr4&pp=ygUaY29tbyBmYXplciBoaXN0b2dyYW1hIG5vIFI%3D
9. https://www.youtube.com/watch?v=hWQMZVjVB7A&pp=ygUFQW5vdmE%3D
v=wAQs0J5eL4M&pp=ygUkY29tbyBpbnRlcnByZXRhciBkYWRvcyBlc3RhdMOtc3RpY29z
11. https://www.youtube.com/watch?v=2pZ-
02ALD0M&pp=ygUzY29tbyBhbmFsaXNhciBvcyByZXN1bHRhZG9zIGRvIHRlc3RlIGRlIG5vcm1hbGlkYWRl
12. https://www.youtube.com/watch?v=yBwXpsaJGNU&pp=ygULYm9wbG90IG5vIHI%3D
13. https://rpubs.com/GislaineDMQ/EPB_P1
14. https://statisticsglobe.com/cumsum-r-function-explained/
15. https://rpubs.com/davimat/boxplot_ggplot2
16. https://rpubs.com/diogoprov/IC95

Trabalho FInal Probabilidade e Estatística Aplicada

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Trabalho FInal Probabilidade e Estatística Aplicada

Enviado por

Direitos autorais:

Formatos disponíveis

Çç

Adrian Valt Hohmann

Trabalho Final - Probabilidade e Estatística Aplicadas

dados <- data.frame(

Aqui está o có digo do texto descritivo acima sobre “histograma”:

Calculando o desvio padrão

 todos_pibs <- c(dados$USA, dados$China, dados$Japao) combina os

 primeiros_30_valores <- head(todos_pibs, 30) seleciona os

 pibs_intervalos <- cut(primeiros_30_valores, breaks = intervalos,

 tabela_freq_acumulativa <- table(pibs_intervalos) calcula a tabela

 tabela_final_acumulativa <- data.frame converte a tabela de

Aqui está o có digo do texto descritivo acima sobre “Tabela de Frequência”

todos_pibs <- c(dados$USA, dados$China, dados$Japao)

O cá lculo do intervalo de confiança envolve a aná lise de três elementos

Este trecho de có digo em R abaixo calcula o intervalo de confiança de 95% para a

summary(): É uma fó rmula em R usada para extrair e apresentar as

O có digo qf(0.95, df1=2, df2=27) em R utiliza a funçã o qf, que é a funçã o

Aqui está o có digo do texto descritivo acima sobre “Anova”

dados <- data.frame

TukeyHSD(anova): Aplica o Teste de Tukey para comparaçõ es mú ltiplas entre

Aqui está o có digo e a representaçã o no software R referentes ao texto

shapiro.test(): É a funçã o que realiza o Teste de Shapiro. Este teste é utilizado

Aqui está o có digo e a representaçã o no software R referentes ao texto

A gente ultilizará na criaçã o desse grá fico o dataset, anteriormente falado,

dados <- data.frame(

 boxplot(dados[, -1], ...): Cria o boxplot. dados[, -1] é usado para

 xlab = "País": Define o ró tulo do eixo x.

Aqui está o có digo do texto descritivo acima sobre “BoxPlot”

A Figura abaixo mostra como fica no software R a “BoxPlot”

A seguir, apresento todas as referências de vídeos e recursos que consultei para

Você também pode gostar