Análise de dados
3 Introdução
13 Conclusão
15 Sobre o autor
Introdução
INTRODUÇÃO
A análise de dados tem sido uma habilidade cada vez mais requisitada no mercado de trabalho. A quantidade de dados
disponíveis é enorme, mas poucas pessoas conseguem transformá-los em insights para decisões de negócios. Muitas vezes
isso acontece porque as pessoas não sabem qual gráfico utilizar em cada uma das situações que lhes são apresentadas.
4
Como é feita uma boa
análise de dados?
Como é feita uma boa análise de dados?
6
Como é feita uma boa análise de dados?
7
Execute a anÁlise
Comece avaliando a presença de outliers e investigue a razão da ocorrência desses valores atípicos ou discrepantes.
Caso eles existam, o que você fará? Eles realmente fazem parte da população em estudo ou são erros de digitação?
Essa é uma fase que nos ajuda a fazer uma limpeza dos dados, deixando-os prontos para a análise.
8
Como é feita uma boa análise de dados?
Com os dados preparados para a análise, comece respondendo às perguntas iniciais. Para cada gráfico preparado,
anote os aprendizados. Lembre-se de que a análise é iterativa, ou seja, as respostas às perguntas iniciais levam à
formulação de novas perguntas e esse ciclo segue-se diversas vezes.
Faça um compilado com os principais gráficos e resultados. Discuta com outras pessoas. Veja se aparecem novas
dúvidas e volte à análise.
Lembre-se de que a qualidade visual é importante, assim, faça ajustes nos eixos e legendas
dos gráficos para que esses fiquem claros e visíveis para sua audiência, mas cuidado para
não rebuscar demais, evitando que as conclusões sejam de difícil compreensão – quanto
menos tinta melhor!
É importante pontuar que é preciso desenvolver a habilidade de interpretação gráfica. É possível fazer um paralelo
com médicos que se especializam em interpretar exames como ressonância magnética. Para uma pessoa que não
foi treinada, provavelmente seja impossível entender esse tipo de informação. Com os gráficos também é preciso
treino e, por essa razão, colocamos as nossas interpretações em cada gráfico dos exemplos, para ajudá-lo a
desenvolver essa habilidade.
9
Conceitos iniciais
para suportar uma
boa análise de dados
Conceitos iniciais para suportar uma boa análise de dados
A Estatística é um conjunto de conceitos e técnicas, utilizado no planejamento da coleta e na análise de dados, com
o objetivo de resolver problemas reais. Claramente, cientistas, engenheiros, economistas e outros profissionais estão
envolvidos com essas atividades e, portanto, necessitam utilizar a Estatística. Além disso, de uma forma ou de outra,
todas as pessoas são afetadas pelo uso da Estatística. Cada vez mais órgãos governamentais e empresas baseiam as
próprias decisões, as quais afetam o dia a dia das pessoas, em análises estatísticas, o que faz com que não apenas
profissionais tenham de adquirir algum conhecimento dessa técnica.
O que torna essa disciplina de grande utilidade, e única, é que a aplicação dela ocorre em
situações ou processos em que a incerteza e a variabilidade estão presentes.
Um processo é definido como uma combinação de pessoas, materiais, procedimentos, métodos, políticas e meio
ambiente, cujos elementos integrados formam uma série de ações que conduzem a determinado resultado. Em
nosso caso, o resultado é um produto ou serviço. Para avaliar a utilidade de um produto para o consumidor, variáveis
são medidas no produto. Dois itens produzidos nas mesmas condições não são, em geral, idênticos, com respeito às
variáveis consideradas. Existe uma variabilidade inerente em cada processo.
11
Conceitos iniciais para suportar uma boa análise de dados
12
Conceitos iniciais para suportar uma boa análise de dados
Para avaliar a performance do processo e a qualidade do que se está produzindo, é preciso dados sobre o processo ou
o produto. Os dados devem ser analisados, e as decisões devem ser feitas com respeito ao processo, além de que elas
devem ser tomadas na presença de variabilidade. A Estatística é a ferramenta adequada para se planejar a coleta de
dados, que sejam relevantes para o problema em estudo, bem como para a análise.
Tipos de dados
Antes de realizar qualquer análise, é preciso entender qual o tipo de dado que está na sua frente. Quando queremos
colocar um prego na parede utilizamos um martelo, já quando queremos apertar um parafuso podemos usar uma
chave de fenda. Da mesma forma, dependendo do tipo de variável que coletamos, iremos utilizar uma ferramenta
gráfica diferente. Em termos gerais, os dados podem ser de três tipos, como você pode observar a seguir.
•• Classificação (qualitativos): os resultados possíveis são classificações (peça defeituosa ou não defeituosa,
entrega atrasada ou não atrasada, cliente satisfeito ou não satisfeito, cor de determinado produto).
•• Contagem: os resultados são números inteiros (número de riscos em uma peça, número de acidentes no mês,
número de cursos vendidos).
•• Contínuos: os resultados podem ser quaisquer números dentro de um intervalo (peso, comprimento, gasto mensal).
13
Quando, como e
exemplos para gráficos
QUANDO, COMO E EXEMPLOS PARA GRÁFICOS htp:/ w w.escolaedti.com.br htps:/w .facebok.cm/EdtiProjetsDeMlhoriaEInovaco/ htps:/br.linkedin.com/edu/escola-edti-19708
HISTOGRAMA
15
QUANDO, COMO E EXEMPLOS PARA GRÁFICOS htp:/ w w.escolaedti.com.br htps:/w .facebok.cm/EdtiProjetsDeMlhoriaEInovaco/ htps:/br.linkedin.com/edu/escola-edti-19708
HISTOGRAMA
Quando utilizar: adequada para quando temos dados numéricos e desejamos
aprender sobre a distribuição dele.
No caso de densidade, a frequência relativa do intervalo i, (fri), é representada pela
área de um retângulo que é colocado acima do ponto médio da classe i. Conse-
quentemente, a área total do histograma (igual a soma das áreas de todos os
retângulos) será igual a 1. Assim, ao construir o histograma, cada retângulo deverá
ter área proporcional à frequência relativa (ou à frequência absoluta, o que é
indiferente) correspondente.
Já para os onde os intervalos são de tamanhos (amplitudes) iguais, as alturas dos
retângulos serão iguais às frequências relativas (ou iguais às frequências absolu-
tas) dos intervalos correspondentes.
16
QUANDO, COMO E EXEMPLOS PARA GRÁFICOS htp:/ w w.escolaedti.com.br htps:/w .facebok.cm/EdtiProjetsDeMlhoriaEInovaco/ htps:/br.linkedin.com/edu/escola-edti-19708
HISTOGRAMA
17
Quando, como e exemploS para gráficos
18
QUANDO, COMO E EXEMPLOS PARA GRÁFICOS htp:/ w w.escolaedti.com.br htps:/w .facebok.cm/EdtiProjetsDeMlhoriaEInovaco/ htps:/br.linkedin.com/edu/escola-edti-19708
BOXPLOT
O boxplot (gráfico de caixa) é um gráfico utilizado para avaliar a distribuição
empírica do dados. O boxplot é formado pelo primeiro e terceiro quartil e pela
mediana. As hastes inferiores e superiores se estendem, respectivamente, do
quartil inferior até o menor valor não inferior ao limite inferior e do quartil
superior até o maior valor não superior ao limite superior. Os limites são
calculados da forma abaixo
Limite Inferior:
Limite Superior:
Para este caso, os pontos fora destes limites são considerados valores
discrepantes (outliers) e são denotados por asterisco (*).
O boxplot pode ainda ser utilizado para uma comparação visual entre dois ou
mais grupos. Por exemplo, duas ou mais caixas são colocadas lado a lado e se
compara a variabilidade entre elas, a mediana e assim por diante. Outro ponto
importante é a diferença entre os quartis que é uma medida da
variabilidade dos dados.
19
QUANDO, COMO E EXEMPLOS PARA GRÁFICOS htp:/ w w.escolaedti.com.br htps:/w .facebok.cm/EdtiProjetsDeMlhoriaEInovaco/ htps:/br.linkedin.com/edu/escola-edti-19708
BOXPLOT
20
Quando, como e exemploS para gráficos
Exemplo 1: Na figura, a
seguir, você encontra todas
as informações apresentadas
em um Boxplot.
21
Quando, como e exemploS para gráficos
O centro da distribuição é indicado pela linha da mediana (alguns softwares estatísticos também representam a média
com um símbolo, nesse caso o ‘+’). A dispersão é representada pela altura do retângulo (Q3 – Q1), no qual Q3 é o terceiro
quartil e Q1 é o primeiro quartil. O retângulo contém 50% dos valores do conjunto de dados. A posição da linha mediana no
retângulo informa sobre a assimetria da distribuição. Uma distribuição simétrica teria a mediana no centro do retângulo,
bem próxima à média – no exemplo anterior, o conjunto de dados foi assimétrico. Se a mediana é próxima de Q1, então, os
dados são positivamente assimétricos. Se a mediana é próxima de Q3, os dados são negativamente assimétricos.
O comprimento das linhas fora do retângulo (algumas vezes chamadas de whisquers) informam sobre a cauda da distribuição.
Uma utilidade muito importante do Boxplot é na comparação gráfica de dois ou mais grupos. Nesse caso, o Boxplot é
preferível ao histograma. Essa comparação pode ser feita desenhando-se os Boxplots para cada conjunto de dados,
paralelamente, em um mesmo gráfico.
22
Quando, como e exemploS para gráficos
23
Quando, como e exemploS para gráficos
Gráfico de dispersão
Quando utilizar: quando queremos estudar a relação entre duas variáveis numéricas. O
objetivo é responder à pergunta: a variável X influencia a variável Y? Se conseguirmos entender
como ocorre a relação entre as variáveis, pode ser possível propor novos direcionamentos para
um negócio. Por exemplo, podemos descobrir que o tempo para responder a uma proposta
influencia negativamente a chance de sucesso na venda e, com isso, redesenhar as atividades
da área comercial de modo a diminuir esse tempo de envio de propostas.
•• Direção: positiva (quando “x” aumenta e “y” também aumenta) ou negativa (quando “x”
aumenta e “y” diminui).
•• Forma: a relação é linear (pode ser aproximada por uma reta) ou não linear.
24
Quando, como e exemploS para gráficos
25
Quando, como e exemploS para gráficos
Além do gráfico, podemos também utilizar o Coeficiente de Correlação Linear, que mede o grau de associação entre
duas variáveis. Esse coeficiente pode ter valores entre -1 e 1.
Quanto mais próximo de 1 ele estiver, maior será a relação positiva, e quanto mais
próximo de -1, maior a relação negativa entre as variáveis X e Y.
Cuidado especial deve ser tomado em relação a possíveis relações espúrias ou “viciadas”.
26
Quando, como e exemploS para gráficos
Gráfico de Pareto
27
Quando, como e exemploS para gráficos
28
Quando, como e exemploS para gráficos
Nesse caso, a análise do gráfico de Pareto permitiu à empresa identificar quais eram os defeitos mais recorrentes
e, assim, priorizar a solução dos problemas relacionados à não selagem do topo, não selagem do fundo e não
selagem lateral.
Vamos utilizar esse exemplo para entender como encontrar as categorias vitais. Para isso,
observe a linha azul, que mostra o percentual acumulado.
Perceba, no exemplo analisado, que da primeira para a segunda barra acontece um grande salto.
Da segunda para a terceira barra também ocorre um grande salto.
A partir da terceira barra os saltos ficam quase do mesmo tamanho e, com isso, podemos
concluir que encontramos as categorias vitais: as representadas pelas três primeiras barras.
29
Quando, como e exemploS para gráficos
Gráfico de tendência
30
Quando, como e exemploS para gráficos
20
É fácil perceber, pelo gráfico, que houve
15 uma melhoria no indicador entre os meses
10 8 e 9, causando redução no percentual de
entregas atrasadas.
5
31
Quando, como e exemploS para gráficos
32
Quando, como e exemploS para gráficos
A situação ideal é a que denominamos “análise prospectiva”. Quando iniciamos um projeto, coletamos dados do
indicador de um período anterior (em geral em torno de 10 pontos é suficiente). Colocamos esses pontos em um Gráfico
de Tendência e tentamos avaliar se não há evidência para rejeitar que o indicador estava estável no período (atenção
para o detalhe: “se não há evidência para rejeitar” e não “se há evidência para aceitar” – é sútil).
Se não há evidência para rejeitar que o indicador estava estável, então, traçamos a linha
de base e a projetamos para o futuro. A partir disso começamos a colocar novos pontos
no gráfico e anotamos mudanças que são realizadas no processo. Se a regra de 8 ou mais
pontos acima ou abaixo da linha de base é satisfeita, então, criamos uma nova linha de base
com esses novos pontos.
Se conseguimos associar a mudança de linha de base com alguma mudança realizada de forma intencional no
processo, ótimo. Se não conseguimos associar a alteração na linha de base com alguma mudança feita de modo
intencional, então, devemos tentar identificar alguma transformação que foi executada, às vezes sem nosso
conhecimento, que possa explicar esse impacto no indicador. E assim prosseguimos acompanhando o processo,
alterando a linha de base quando o indicador mostra que algo mudou no processo que impactou o indicador.
33
Quando, como e exemploS para gráficos
34
Quando, como e exemploS para gráficos
35
Quando, como e exemploS para gráficos
36
Quando, como e exemploS para gráficos
37
Conclusão
Conclusão
Bons resultados!
39
Sobre o autor