Você está na página 1de 50

Unidade Curricular:

Análise de Dados e Riscos


Profa. Daniela
Estatística
• Definição: ramo da matemática que trata da coleta, da análise, da interpretação e da
apresentação de massas de dados numéricos.

• Estatística está relacionada aos métodos científicos para coletas, organização,


resumo, apresentação e análise de dados, bem como à obtenção de conclusões
válidas e à tomada de decisões razoáveis baseadas em tais análises.
Classificação das variáveis
• Saber classificar cada tipo de variável auxilia na busca de técnicas estatísticas mais
adequadas para o resumo dos dados.

Qualitativa Quantitativa
Exs.: Sexo, Classe social, Exs.: Salário (R$), No defeitos por peça,
Qualidade da peça (boa ou defeituosa), Volume (mL), Estatura (m),
Escolaridade, ... No filhos,...

Ordinal Discreta Contínua


Nominal
Ex.: Classe social, Ex.: No defeitos por peça, Ex.: Salário (R$), Peso (kg),
Ex.: Sexo, Raça, ... No de filhos... Estatura (m),...
Escolaridade, ...
Classificação das variáveis
• Variável Qualitativa: é uma variável que assume como possíveis valores, atributos ou
qualidades. As respostas desse tipo de variável representam diferentes categorias e
podem ser representadas numericamente ou não-numericamente. Também são
denominadas variáveis categóricas.

✔ Variável Qualitativa Nominal: é uma variável que assume como possíveis valores,
atributos ou qualidades e estes não apresentam uma ordem natural de
ocorrência.

✔ Variável Qualitativa Ordinal: é uma variável que assume como possíveis valores,
atributos ou qualidades e estes apresentam uma ordem natural de ocorrência.
Classificação das variáveis
• Variável Quantitativa: as respostas desse tipo de variável consistem valores,
números.

✔ Variável Quantitativa Discreta: é uma variável que assume como possíveis


valores números, em geral inteiros, formando um conjunto finito ou enumerável.

✔ Variável Quantitativa Contínua: é uma variável que assume como possíveis


valores números, em intervalos da reta real e, em geral, resultantes de
mensurações.
Classificação das variáveis
• Para cada tipo de variável existem técnicas estatísticas mais adequadas para o
resumo dos dados.
Resumos estatísticos que podem ser feitos
Qualitativa
Exs.: Sexo, Classe social,
✔ Contar a frequência absoluta de cada categoria
Qualidade da peça (boa ou ✔ Contar a frequência relativa (%) de cada categoria
defeituosa),
Escolaridade, ... ✔ Construir gráficos de pizza, coluna, barras, ...

Resumos estatísticos que podem ser feitos


Quantitativa ✔ Cálculo de medidas de posição (ou de localização)
Exs.: Salário (R$), N o defeitos por
peça, ✔ Cálculo de medidas de dispersão (ou variabilidade)
Volume (mL), Estatura (m),
No filhos,...
✔ Construir gráficos: boxplot, histograma, linha, dispersão, ...
Estatística Descritiva
• Trata-se da organização, apresentação e descrição de um conjunto de dados (para uma ou
mais variáveis);
• Os resumos descritivos podem ser organizados em
Medidas
tabelas, apresentados graficamente ou a partir de Medidas
de
dispersão
de
estimadores ou estatísticas de parâmetros da população. posição

Gráficos Gráficos e
e Resumos visuais Tabelas
Tabelas

São valores calculados que tendem a


Medidas
de representar melhor a distribuição de
posição
um conjunto de dados em um valor
central
Estatística
Medidas São medidas que indicam a
de descritiva
dispersão dispersão dos dados em torno de
algum valor central
Outras definições
• População: É o conjunto de todos os elementos de interesse em determinado estudo.

• Amostra: É um subconjunto da população.

• Inferência estatística: É o processo no qual a partir dos dados obtidos na amostra


consegue-se estimar e testar parâmetros da população sendo estudada.

• Censo: Conjunto de dados de uma população inteira sendo estudada.

• Pesquisa por amostragem: Processo de realização de uma pesquisa para coletar


dados de uma amostra.
Sintetizando uma variável quantitativa
A gerente da Oficina Auto Hudson pretende entender melhor o custo
das peças trocadas pela sua loja no conserto de motores. Ela sorteou
uma amostra de 50 notas fiscais de veículos que tiveram o motor
consertado e o custo (em US$) das peças trocadas, arredondado, são
apresentados na sequência:

• Como resumir os dados acima em uma única tabela?


• Como resumir os dados acima em um único gráfico que ilustre como eles estão
distribuídos?
Sintetizando uma variável quantitativa
1. Dividir os valores em faixas (de preferência de mesmo
intervalo);

2. Contar quantos dados pertencem a cada faixa criada.


Como?

obtidos para um valor


Arredonde os valores
fácil de trabalhar
Sintetizando uma variável quantitativa
n = 50
menor = 52
maior = 109

Adotamos iniciar a primeira


c) Determine os valores dos limites inferior e superior das faixas, faixa com o valor 50 (somente
respeitando a amplitude calculada. por praticidade. Poderíamos
ter escolhido o mínimo que
vale 52.
Sintetizando uma variável quantitativa

Distribuição de
frequências absolutas
Limites de classe

Limite de classe inferior

Limite de classe superior

Ponto médio de uma classe:


Exemplo: Da Faixa 95-103 => (95+103)/2=99
Sintetizando uma variável quantitativa

Distribuição de frequências
relativas percentuais (%)

Exemplo:
frequência relativa da classe 86-94:
4/50*100=8%
Sintetizando uma variável quantitativa

Distribuição de frequências relativas


percentuais acumuladas (%)
“Insights”
• Somente 4% dos consertos foi abaixo de $58;
• Pouco mais da metade (52%) dos consertos
custa até $76;
• Quase 1/3 dos consertos (34%) custa entre
$68 e $76;
• Apenas 8% dos consertos custam mais de
$104.
Sintetizando uma variável quantitativa - Histograma
• Gráfico para representar a distribuição de uma variável quantitativa;
• Os valores da variáveis são dispostos no eixo X (abscissa);
• Diferente do gráfico de colunas, no histograma, não há separação entre os retângulos
de cada faixa de valor;
• Serve para estudar a forma da distribuição dos dados da variável (se tem simetria ou
não).
Sintetizando uma variável quantitativa – outros gráficos

• Nada mais é do que um gráfico de linhas representando as frequências % acumuladas


da variável.
Outros gráficos estatísticos
• Gráfico de setores (“pizza”):
✔ Esse tipo de gráfico fornece uma ideia geral dos dados de uma variável qualitativa;
✔ A soma de todos os setores deve totalizar 100%;
✔ Idealmente, deve ter poucas categorias (de 2 a 5 fatias);
✔ Se possível, mostre os valores absolutos ou relativos (%) de cada categoria (fatia).
Outros gráficos estatísticos
• Gráfico de setores (colunas ou barras):
✔ As categorias da variável qualitativa são representadas no eixo das abcissas. Nas
ordenadas são representadas as frequências com que aparecem;
✔ A altura da coluna (ou largura da barra) é proporcional às frequências (absolutas ou
percentuais) observadas;
✔ Caso não polua o gráfico, procure ilustrar no topo de cada coluna (ou ao final de cada
barra) os rótulos
lu n as dos valores que representam
arr
as a frequência de cada categoria.
Co B
Outros gráficos estatísticos
• Gráfico de Pareto
✔ Um tipo de gráfico de colunas acrescida de um gráfico de linha que representa as
frequências relativas acumuladas. Bastante utilizado em Controle de Qualidade para
mostrar os tipos de defeitos e com qual frequência eles ocorrem.
✔ As categorias são dispostas em ordem
decrescente de frequência;

✔ O foco é avaliar algumas poucas categorias


que contribuem com um número elevado
de defeitos/erros.
Outros gráficos estatísticos
• Gráfico de Dispersão
✔ Os exemplos anteriores construíam gráficos e tabelas para uma única variável.

✔ Porém, também é muito comum querer entender (por meio de uma tabela ou
gráfico) a relação entre duas variáveis.
✔ Um Diagrama de Dispersão é um gráfico de pares ordenados (x,y), com um eixo x
horizontal e um eixo y vertical.
Boxplot
• O boxplot ou diagrama de caixa é uma ferramenta gráfica que permite visualizar a
distribuição e valores discrepantes (outliers) dos dados, fornecendo assim um meio
complementar para desenvolver uma perspectiva sobre o caráter dos dados.

• As medidas de estatísticas descritivas como o mínimo, máximo, primeiro quartil,


segundo quartil ou mediana e o terceiro quartil formam o boxplot.

• Adequado para quantitativa contínua.

• Pode ser usado também para quantitativa discreta com muitos valores.
Boxplot
Mediana e Quartis

Medidas de Posição
• Estatísticas que tendem a representar melhor a distribuição dos dados de uma
variável X em um único valor central. Fornecem uma ideia do “centro de
gravidade” dos dados.

• Descrevem apenas uma das características dos valores numéricos de um


conjunto de observações, o da tendência central.
Medidas de Posição

xi : valor da i-ésima observação da variável x


n : tamanho da amostra

xi : valor da i-ésima observação da variável x


pi : fatores de ponderação ou pesos
Medidas de Posição
• Mediana: é o valor que divide o conjunto de dados ao meio. É o valor central
ou a média aritmética dos dois valores centrais.

✔ Exemplo 1: O conjunto dos números 3, 4, 4, 5, 6, 8, 8, 8 e 10 tem mediana 6.

Quando o número de elementos do conjunto de dados for ímpar, a mediana é o


valor que divide o conjunto ao meio.

✔ Exemplo 2: O conjunto dos números 5, 5, 7, 9, 11, 12, 15, e 18 tem mediana


(9+11)/2=10.
Quando o número de elementos do conjunto de dados for par, a mediana será a
média aritmética dos dois valores centrais.
Medidas de Posição
• Moda: é o valor que ocorre com maior frequência, ou seja, é o valor mais
comum.

✔ Exemplo 1: O conjunto 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12 e 18 tem moda 9.

✔ Exemplo 2: O conjunto 3, 5, 8, 10, 12, 15 e 16 não tem moda.

✔ Exemplo 3: O conjunto 2, 3, 4, 4, 4, 5, 5, 7, 7, 7 e 9 tem duas modas 4 e 7, e é


denominada bimodal.

✔ Uma distribuição que tem apenas uma única moda é unimodal.


Medidas de Dispersão ou Variação
• Em muitos casos, o simples cálculo da média aritmética não proporciona uma
visão do que realmente acontece com o comportamento dos dados
observados, portanto não proporciona informações importantes para a tomada
da decisão.

• Medidas de dispersão: são medidas que indicam a dispersão dos dados em


torno de algum valor central.
Medidas de Dispersão ou Variação
• Amplitude Total: Uma forma simples de medir a dispersão em um conjunto de
observações é através da amplitude total:

AT = Maior valor − Menor valor

Verifica que a amplitude total como medida de dispersão é limitada. Essa medida só
depende dos valores extremos, ou seja, não é afetada pela dispersão dos valores
internos.
Medidas de Dispersão ou Variação

Medidas de Dispersão ou Variação

Medidas de Dispersão ou Variação

Distribuição de frequências

Exercício. Uma amostra de 50 peças foi selecionada


Número de Frequência pelo controle de qualidade de uma empresa. A
defeitos variável X de interesse é o número de defeitos por
0 13
1 11 peça. Em média, quantos defeitos há nessa amostra?
2 9
3 8
4 6
5 1
6 2
Distribuição de frequências

Exercício. Uma amostra de 50 peças foi selecionada


Número de Frequência pelo controle de qualidade de uma empresa. A
defeitos variável X de interesse é o número de defeitos por
0 13
1 11 peça. Qual é o valor do desvio padrão de X?
2 9
Calcule.
3 8
4 6
5 1
6 2
Distribuição de frequências: dados agrupados
• Quando os dados estão dispostos em uma tabela de frequências com k classes, porém
com valores agrupados, utiliza-se as mesmas expressões do cálculo da média e da
variância apresentados nas duas telas anteriores.
Nesse caso, cada
xi representa o
ponto médio da Exercício. Uma amostra dos rendimentos mensais de
Rendimento Frequência
classe i certa aplicação financeira foi selecionada e os dados
Mensal (%)
foram apresentados consolidados numa tabela de
0,60 ├ 0,70 4
0,70 ├ 0,80 2 frequência agrupada. Como calcular a média e o
0,80 ├ 0,90 4 desvio padrão do retorno financeiro agora? Calcule.
0,90 ├ 1,00 2

Como calcular a
média e a variância da
amostra agora?
Exercícios
1) Classifique cada uma das variáveis abaixo em qualitativa (nominal / ordinal) ou quantitativa
(discreta / contínua):
a. Número de quedas no sistema de computação de certa empresa durante o ano de 2010.

b. Local de nascimento dos empregados de uma empresa.

c. Intensidade do uso de bebida alcoólica por universitários (baixa, moderada ou alta).

d. Tempo semanal despendido por funcionários para a atenção de reclamações (em horas).

e. Grau de satisfação dos paulistanos com relação ao trabalho do prefeito (valores de 0 a 5,


com 0 indicando totalmente insatisfeito e 5 totalmente satisfeito).

f. Aumento percentual nas vendas de varejo durante o último ano.


Exercícios
2) Uma pesquisa com usuários de transporte coletivo na cidade de São Paulo indagou sobre os
diferentes tipos usados nas suas locomoções diárias. Dentre ônibus, metro e trem, o número
de diferentes meios de transporte utilizados foi o seguinte: 2, 3, 2, 1, 2, 1, 2, 1, 2, 3, 1, 1, 1, 2,
2, 3, 1, 1, 1, 1, 2, 1, 1, 2, 2, 1, 2, 1, 2 e 3.
a. Organize uma tabela de frequência.
b. Faça uma representação gráfica.
c. Admitindo que essa amostra represente bem o comportamento do usuário paulistano, você
acha que a porcentagem dos usuários que utilizam mais de um tipo de transporte é grande?
Exercícios
3) Um novo medicamento para cicatrização está sendo testado e um experimento é feito para
estudar o tempo (em dias) de completo fechamento em cortes provenientes de cirurgia.
Uma amostra em trinta cobaias forneceu os valores: 15, 17, 16, 15, 17, 14, 17, 16, 16, 17, 15,
18, 14, 17, 15, 14, 15, 16, 17, 18, 18, 17, 15, 16, 14, 18, 18, 16, 15 e 14.
a. Organize uma tabela de frequência.
b. Que porcentagem das observações estão abaixo de 16 dias?
c. Classifique como rápida as cicatrizações iguais ou inferiores a 15 dias e como lenta as demais.
Faça um gráfico de barras indicando as porcentagens para cada classificação.
Exercícios
4) Construa
A tabela aabaixo mostradea frequência
distribuição distribuiçãoabsoluta,
de peso relativa
de 30 jogadoras da seleção de
e relativa acumulada, basquete
a seguir da Lituânia.
responda:

60 49 77 72 75 66
62 48 53 55 56 76
50 61 54 58 62 72
75
a) O limite superior da primeira classe 56 54 62 65 68
58 74 58 60 52 48
b) O limite inferior da quarta classe
c) O ponto médio da terceira classe
d) A amplitude do segundo intervalo de classe
e) A frequência relativa da quinta classe
f) A porcentagem de jogadoras com peso maior ou igual a 63 kgs
g) A frequência relativa acumulada até a quarta classe
h) A porcentagem de jogadoras com peso maior ou igual a 53 kgs ou menor/igual a 62 kgs.
Exercícios
5) A tabela a seguir apresenta os pesos de 40 estudantes do sexo masculino de uma
universidade com arredondamento para quilograma. Construa a distribuição de frequência
absoluta e relativa percentual.
69 85 75 65 73 62 75 79
73 80 70 73 68 74 76 73
87 62 69 91 82 59 81 85
73 90 71 73 67 78 70 67
84 72 67 71 75 78 72 64

6) A tabela a seguir mostra a distribuição de frequência para o número de minutos por semana
gasto por 400 jovens estudantes do ensino médio assistindo TV. Com referência a essa tabela,
determine:
a. O limite superior da quinta classe.
b. O limite inferior da oitava classe.
Exercícios
e. A frequência da quarta classe

f. A frequência relativa da sexta classe

g. A porcentagem de estudantes que assistem TV por um tempo igual ou superior a 900 minutos.

Tempo Número de
assistido TV estudantes
(minutos)
300-399 14
400-499 46
500-599 58
600-699 76
700-799 68
800-899 62
900-999 48
1000-1099 22
1100-1199 6
Exercícios
7) Um exame de sangue realizada em 20 pacientes do sexo feminino detectou o seguinte
número de leucócitos (glóbulos brancos) em N/mm3:

5800 7100 3100 6800 5900


1300 2800 6900 2950 3300
4000 5900 5700 3900 4750
2000 5100 4500 3600 4130

O valor considerado normal (valor referencia) é entre 5000 e 10000 N/mm3: inclusive. Está
correto afirmar que a porcentagem de pacientes que está abaixo do valor mínimo de
referência é de :

a) 12% b) 20% c) 40% d) 60 %


Exercícios
8) Os dados seguintes representam 20 observações relativas ao índice pluviométrico em
determinados municípios do Estado:
144 152 159 160 160 151 157 146 154 145
141 150 142 146 142 141 141 150 143 158

Construa a distribuição de frequência absoluta e relativa.

9) A tabela seguinte representa as alturas (em cm) de 40 alunos de uma classe.


162 163 148 166 169 154 170 166
164 165 159 175 155 163 171 172
170 157 176 157 157 165 158 158
160 158 163 165 164 178 150 168
166 169 152 170 172 165 162 164

a. Admitindo-se 6 classes qual a amplitude do intervalo de classe?


Exercícios
10) Dado o conjunto de dados tabelados abaixo:

Classes Frequências
03 ├─ 08 5
08 ├─ 13 15
13 ├─ 18 20
18 ├─ 23 10

Calcule a média aritmética, o desvio padrão e a mediana desse conjunto de dados.


Exercícios
11) Um levantamento dos preços à vista de gasolina e de álcool, em alguns postos da cidade,
está mostrado na tabela abaixo (em R$).

Gasolina 2,61 2,64 2,56 2,61 2,60 2,58


Álcool 1,90 1,79 1,88 1,81 1,88 1,84

a. Qual é a média e o desvio padrão dos preços de cada combustível?

b. Qual é o combustível que tem seus preços mais homogêneos?


Exercícios
12) Os dados a seguir foram obtidos em indivíduos contaminados pelo veneno de um certo
tipo de inseto e submetidos a tratamento. A variável de interesse Recup é definida como o
tempo (em horas) entre a administração do tratamento e a recuperação do indivíduo. Os
valores de Recup são os seguintes: 1, 2, 2, 3, 3, 3, 3, 4, 5, 8, 11, 11, 12, 16, 22, 23, 37, 39, 42,
45, 46, 47, 51, 52, 56, 90.
a. Determine a média, mediana e desvio padrão.

b. Separe o conjunto de dados em três grupos denominados cura rápida, com valor de
Recup menor ou igual a 12, cura normal, se o valor de Recup for maior do que 12 e menor
ou igual a 45, e cura lenta, se o valor de Recup estiver acima de 45.
Exercícios
13) Em 1997, uma mulher processou um fabricante de teclados de computadores, sob a
acusação de lesões por esforços repetitivos causados pelo teclado. O pleito era de cerca de
3,5 milhões de dólares por danos físicos, mas a corte negou esse valor, pois julgou a
indenização exagerada. Ao fazer essa determinação, a corte identificou um grupo
“normativo” de 27 casos similares e especificou como razoável uma indenização limitada
por dois desvios-padrão em relação à indenização média dos 27 casos. Os dados dessas
indenizações foram (em milhares de dólares):

Segundo a determinação da corte, a indenização poderia chegar a qual valor?


Exercícios
14) No processo de fabricação de automóveis, o peso de diversos volantes foi coletado
conforme a tabela abaixo:

Complete a tabela (apresente os resultados da tabela com uma casa decimal) e calcule a
média e o desvio padrão do peso das peças (apresente esses resultados com duas casas
decimais). Qual a melhor aproximação do valor da mediana da variável em questão?
Exercícios
15) Uma cerâmica fabrica tijolos de acordo com a norma de um grande cliente. A norma
estabelece que os tijolos devem suportar no mínimo uma força de compressão média de 10
kg/cm2 e que o desvio padrão não deve ser superior a 5% da média. Num ensaio realizado
em um lote de tijolos pelo Engenheiro da Qualidade do cliente, foram registrados os
seguintes dados de uma amostra de 6 tijolos, para sua resistência à compressão em
kg/cm2: 12; 11; 10; 9; 8,5 e 11,5. Nestas condições, o Engenheiro da Qualidade aprovará ou
reprovará o lote de tijolos?
Obrigada.

prof.danielagomes@usjt.br

Você também pode gostar