A CIÊNCIA
DE DADOS
Introdução
Atualmente, a ciência de dados é uma das áreas do conhecimento mais
valorizadas por empresas de diferentes ramos de atuação. Entre as fer-
ramentas utilizadas por essa área, os métodos advindos da estatística
figuram como os principais, tendo um papel fundamental nas etapas
de processamento de dados e análise dos resultados.
De forma geral, a estatística é a ciência que apresenta métodos
próprios para coletar, apresentar e interpretar adequadamente con-
juntos de dados, sejam eles qualitativos ou quantitativos. A estatística
descritiva — cujo objetivo básico é o de sintetizar um conjunto de
observações de uma variável — permite que se tenha uma visão global
sobre a posição e a dispersão desses valores por meio do uso de tabelas,
gráficos e medidas descritivas.
Neste capítulo, você vai estudar sobre a importância da ciência
de dados e o motivo pelo qual essa área vem sendo cada vez mais
solicitada por empresas ligadas a diversos setores da economia. Você
2 Estatística descritiva para ciência de dados
estatística descritiva;
inferência estatística;
estatística probabilística.
Variáveis
Variável é uma característica de interesse que é mensurada em cada indivíduo
da população. Os seus valores variam entre os indivíduos, podendo ser numé-
ricos ou não numéricos. As variáveis quantitativas são as características que
podem ser medidas utilizando valores numéricos, como número de alunos na
classe de cálculo ou peso de uma pessoa. As variáveis qualitativas representam
as características não numéricas dentro de um conjunto de interesse, como
marca, modelo de veículos e gênero (ZABALA, 2020).
As variáveis quantitativas podem ser classificadas como contínuas ou discretas:
Uma variável originalmente quantitativa pode ser coletada de forma qualitativa. Por
exemplo, quando a variável idade informa apenas a faixa etária (25 a 30 anos, 50 a 55
anos...), ela é qualitativa ordinal. Outro ponto importante é que nem sempre uma variável
representada por números é quantitativa. Exemplos disso são o número do telefone
de uma pessoa, o número da casa, o número da identidade e o sexo do indivíduo,
quando registrado em uma planilha como 1 para masculino e 2 para feminino.
6 Estatística descritiva para ciência de dados
Distribuição de frequência
Você já viu que as variáveis de um processo se dividem em quatro tipos. Como
os dados gerados pelos diferentes tipos de variáveis são de naturezas diversas,
eles devem receber tratamentos diversos. Portanto, você vai estudar agora as
ferramentas (tabelas e gráficos) mais adequadas para a análise de frequência
de cada tipo de dados.
Para os dados de natureza qualitativa, é usual fazer uma tabela de
frequência, como mostra o Quadro 1. Nesse quadro, são apresentadas as
frequências de ocorrência de cada um dos sexos no total de 103 entrevis-
tados em uma pesquisa de satisfação do consumidor feita por uma loja de
eletrodomésticos.
Feminino 62 60,2
Masculino 41 39,8
Frequência Frequência
Mês de Frequência Frequência absoluta relativa
observação absoluta relativa (%) acumulada acumulada (%)
Quando se trata de uma variável discreta que assume poucos valores, a forma
de analisar é semelhante ao tratamento dado às variáveis qualitativas ordinais. É
como se cada valor que a variável discreta assume fosse uma classe, e que existe
uma ordem natural nessas classes (REIS; REIS, 2002). Veja o exemplo a seguir.
onde:
n = número de observações (ou amostras);
s = desvio padrão amostral;
max(x) = maior valor observado;
min(x) = menor valor observado.
A altura de 100 alunos de uma escola do ensino médio foi coletada. Sabendo que o
desvio das amostras de altura é s = 0,066, que a altura máxima é 1,80, e que a altura
mínima é 1,50, determine o tamanho e a quantidade de classes para representar a
distribuição de frequência de altura dos alunos.
Frequência
Número Frequência Frequência relativa
de filhos absoluta relativa (%) acumulada (%)
Medidas de posição
A média de uma variável é dada pela soma de todas as observações, dividida
pelo número de observações. Pela facilidade de cálculo e de entendimento, é a
medida de tendência central mais conhecida e usada (REIS; REIS, 2002). Portanto,
Média: = 4,55
Com o conjunto de observações 15, 5, 3, 8, 10, 2, 7, 11, 12, calcule os quartis 0,25 e 0,75.
Medidas de dispersão
A amplitude de uma variável é dada pela diferença do valor máximo pelo
valor mínimo.
X = [170 175 180 185 190 195 200 200 200 205].
Leitura recomendada
GRUS, J. Data Science do zero: primeiras regras com o Python. Rio de Janeiro: Alta
Books, 2018.
Os links para sites da web fornecidos neste capítulo foram todos testados, e seu fun-
cionamento foi comprovado no momento da publicação do material. No entanto, a
rede é extremamente dinâmica; suas páginas estão constantemente mudando de
local e conteúdo. Assim, os editores declaram não ter qualquer responsabilidade
sobre qualidade, precisão ou integralidade das informações referidas em tais links.