Você está na página 1de 7

Matheus Batista - nº USP: 8944449, turma 94

MQA

Atividade 2 - Estatística descritiva do seu dataset


1) De onde veio o Dataset?

Achei no Kaggle no seguinte link. Ele foi feito por um engenheiro de dados
chamado Gregory Smith através de web scraping do seguinte website:
https://www.vgchartz.com/gamedb/.
É um dataset sobre venda de videogames mundialmente.Segundo o Kaggle, o
dataset foi upado faz 5 anos. Tem 16598 linhas e 11 colunas.

2)Procedimentos de amostragem que foram utilizados por você (em caso de


datasets muito grandes) ou pelos autores do dataset para selecionar a
amostra (se for o caso).

O autor do dataset pegou 19 páginas do website e databank vgchartz.

3)Variáveis

Ranking --> Ranqueamento do jogo baseado no número de vendas em


milhões[qualitativa ordinal]
Nome --> Nome[qualitativa nominal]
Plataforma --> A plataforma do jogo ou console[qualitativa nominal]
Ano--> Ano de lançamento do jogo[qualitativa ordinal]
Genero --> Genero (corrida, luta, etc)[qualitativa nominal]
publisher --> name of the publisher[qualitativa nominal]
NA_vendas --> Vendas na América do Norte (milhões)[quantitativa contínua]
EU_vendas -- Vendas na Europa (milhões))[quantitativa contínua]
JP_vendas --> Vendas no Japão (milhões))[quantitativa contínua]
outras_vendas --> Vendas nas outras regiões (milhões))[quantitativa contínua]
vendas_Globais --> Total de vendas no mundo todo (milhões))[quantitativa
contínua]

Missing data
Rank 0
Nome 0
Plataforma 0
Ano 271
Gênero 0
Publisher 58
NA_vendas 0
EU_vendas 0
JP_vendas 0
outras_vendas 0
Global_vendas 0
4)Estatística descritiva

Descrição de variáveis numéricas (vendas em milhões)

NA_Vend EU_Vend JP_Vend Outras_V Global_V


Rank Ano as as as endas endas
count 16291 16291 16291 16291 16291 16291 16291
mean 8290,19 2006 0,27 0,15 0,08 0,05 0,54
std 4792,65 5,83 0,82 0,51 0,31 0,19 1,57
min 1 1980 0,00 0,00 0,00 0,00 0,01
25% 4132,5 2003 0,00 0,00 0,00 0,00 0,06
50% 8292 2007 0,08 0,02 0,00 0,01 0,17
75% 12439,5 2010 0,24 0,11 0,04 0,04 0,48
max 16600 2020 41,49 29,02 10,22 10,57 82,74

Temos cerca de 16 mil jogos sendo avaliados.


Esses jogos foram lançados entre 1980 e 2010
O máximo das vendas está muito distante das médias e os desvios padrão estão
bem altos nas vendas, sugerindo vendas gigantes e minúsculas.Terá que ser
averiguado.

Descrição de variáveis categóricas

Nome Plataforma Gênero Publisher


count 16291 16291 16291 16291
unique 11325 31 12 576
top Need for Speed: Most Wanted DS Action Electronic Arts
freq 12 2131 3251 1339

Podemos ver que somente 11 mil nomes de jogos, dentre 16 mil registros, são
únicos. O nome mais comum foi Need for Speed: Most Wanted com 12 repetições.
Separando estas 12 linhas podemos entender o que acontece:

O mesmo jogo é lançado em plataformas diferentes e até em anos diferentes, o que


justifica as duplicatas.

Temos 31 plataformas diferentes.


14 gêneros de jogo diferentes, sendo Ação o mais comum.
Temos 576 publisher diferentes, sendo a mais comum Electronic Arts (EA).

5) Primeiras Análises

Para satisfazer a curiosidade óbvia, vamos ver os jogos top 10 de vendas mundiais:
Agora observando todos os jogos lançados entre 1980 e 2020 e observando seus
valores de vendas notamos o seguinte formato:

Esse comportamento explica o desvio padrão e é esperado. Temos uma seleta


coleção de jogos que batem milhões de vendas e uma grande maioria com um
número muito menor. Devido a grande quantidade de nomes, o eixo x apresenta um
espaçamento de 308 registros entre cada nome.
Outra coisa interessante que podemos avaliar é o lançamento de jogos
durante esses 40 anos.:

Conforme o post do Kaggle, esta base foi colhida faz 5 anos (ou seja, 2016) porém,
alguns dados referentes ao ano 2017 e 2020 estão presentes no dataset,
provavelmente algum erro no banco de dados. Na minha opinião, poderíamos retirar
todos os dados posicionados depois de 2015 para trabalhar com essa base com
mais confiança. Fora isso, é uma bela curva, poderíamos explorar o porquê dessa
queda na segunda década do novo século.

5)Que tipo de pesquisa/pergunta você pretende fazer com este dataset?


Penso em algumas linhas que poderiam ser exploradas com esse dataset.
Poderíamos enriquecer o dataset com a data de lançamento de cada plataforma e
fazer uma análise de vendas para cada publisher baseada em suas melhores
plataformas e melhores jogos de cada plataforma. Poderíamos analisar casos
específicos (claro que sejam comum o suficiente em nosso dataset) como o do
Need For Speed: Most Wanted, jogo lançado 12 vezes, e perguntar:
Remakes/Relaunch/Revamp de jogos tem números bons de venda? E daí encontrar
todos os jogos com repetições e fazer esta análise.
Também é possível fazer uma análise comparativa entre o mercado americano,
europeu e o resto do mundo, pelo menos no que diz respeito a quantidade de
vendas. Outro enriquecimento possível seria avaliação de jogadores dos títulos
dentro do dataset. Não sei o quão fácil ou difícil isto seria, mas é mais uma ideia.
Um título legal seria: Do Tetris ao GTA - O que podemos aprender em 40 anos de
videogames?

Você também pode gostar