Você está na página 1de 12

Avaliação - Estatı́stica

Lincoln Kovalski Carasilo (lkcarasilo@gmail.com)


Especialização em Ciência de Dados
Facens - RA: 070839
Abril 2018

1 Introdução
Esse documento tem como objetivo resumir e fazer a análise descritiva do último
trabalho passado em sala de aula. As planilhas utilizadas estão disponı́veis na
internet[Car] e também seguirão anexas no e-mail juntamento com esse docu-
mento.

2 Sobre a planilha Base de Dados


Foi disponibilizada uma planilha de base de dados para a primeira parte da
tarefa representando dados do sistema de controle A1c e o retrabalho. Por
motivo de espaço, a base não está nesse documento, mas pode ser encontrada
na planilha disponı́vel na internet[Car]. Como primeiro passo, foi calculado os
parâmetros base da estatı́stica descritiva:
Para o perı́odo da manhã
Sistema controle atc Retrabalho
Média 100746,8 Média 2980,109635
Erro padrão 1838,713 Erro padrão 75,30794139
Mediana 103902,6 Mediana 3096,719026
Modo 110343,9 Modo #N/D
Desvio padrão 15923,72 Desvio padrão 652,1859035
Variância da amostra 2,54E+08 Variância da amostra 425346,4528
Curtose -0,28339 Curtose 0,363066019
Assimetria -0,77426 Assimetria -0,685328554
Intervalo 63289,15 Intervalo 2765,268948
Mı́nimo 63605,48 Mı́nimo 1407,038003
Máximo 126894,6 Máximo 4172,306952
Soma 7556012 Soma 223508,2226
Contagem 75 Contagem 75

1
Para o perı́odo da noite
Sistema controle atc Retrabalho
Média 84066,07841 Média 3576,092847
Erro padrão 2241,347797 Erro padrão 107,9777175
Mediana 86689,2686 Mediana 3617,973888
Modo 95568,13932 Modo 3967,905644
Desvio padrão 19410,64131 Desvio padrão 935,1144641
Variância da amostra 376772996,2 Variância da amostra 874439,0609
Curtose -0,573719713 Curtose 1,591291004
Assimetria -0,056377056 Assimetria 0,485578896
Intervalo 88947,28757 Intervalo 5399,789831
Mı́nimo 48126,54428 Mı́nimo 1626,54222
Máximo 137073,8319 Máximo 7026,332051
Soma 6304955,881 Soma 268206,9635
Contagem 75 Contagem 75

Pelos dados acima, podemos concluir várias coisas e fazer uma análise descritiva.
Primeiramente a produção da manhã é maior que da noite, o que mostra que
o perı́odo noturno está sendo menos produtivo em volume de peças. Inversa-
mente, o retrabalho noturno é maior que da manhã o que evidencia problemas
na produção do perı́odo noturno. Também nota-se que os dados de retrabalho
no geral são mais dispersos que da produção. Segundo o padrão estabelecido
no primeiro dia de aula, apenas o trabalho da manhã possui alta confiabilidade
e pouca dispersão. Os dados de retrabalho da noite possuem alta dispersão e
baixa confiabilidade e o restante dos dados são média dispersão e confiabilidade.
Também conclui-se que por a moda estar a direita da média, a alta produção é
mais frequente, porém possui um impacto menor no resultado geral. A curtose
negativa dos dados de produção indicam um conjunto de dados mais concen-
trado em torno da média, enquanto a curtose positiva dos retrabalhos indicam
que esses dados estão mais dispersos da média. A assimetria positiva do re-
trabalho noturno indicam uma curva normal com o centro deslocado a direita
enquanto a assimetria negativa do restante indicam um centro da curva normal
deslocado a esquerda.
Os resultados visuais podem ser vistos nas imagens abaixo:

2
3
Próximo passo foi analisar a correlação entre produção e retrabalho para ambos
os perı́odos. Com a ajuda do Excel foram feitos os cálculos de correlação e

4
também a função de regressão. Os dados podem ser encontrados na tabela
abaixo:
Item Manhã Noite
Correlação entre produção e retrabalho 0,889494578 0,765572
R2 0,7912 0,5861
Erro 0,1044 0,20695
Pelos dados acima, podemos notar que os dados da manhã possuem uma média
correlação e os da noite uma baixa correlação, seguindo o padrão estabelecido
no primeiro dia de aula. Isso significa que no perı́odo da manhã o retrabalho
está relacionado com a produção enquanto a noite ele é influenciado por muitos
outros fatores (como talvez sono, falta de iluminação e outras coisas mais sub-
jetivas). Foi montado o gráfico para realizar a regressão dos dados em ambos
os perı́odos:

Para a manhã

5
para a noite

Pelos gráficos, podemos notar como no perı́odo da noite os dados encontram-


se menos relacionados e mais distantes da linha. Foi solicitado então para se
calcular o valor de retrabalho para o mês de abril utilizando-se da função de
regressão e do erro. Foi determinado então os valores:
Item Manhã Noite
Produção 131728 141967
Mı́nimo 3676 4532
Máximo 4533 6897
Apesar desses valores, os dados para a noite não são muito confiáveis já que
a correlação é fraca e a função de regressão apresentou uma margem de erro
muito grande. Para o perı́odo da manhã, esses valores são aceitáveis.
Foi solicitado também fazer a curva normal padronizada, mas essa já encontra-se
disponı́vel no sumário gráfico feito pelo Minitab e visı́vel no começo do trabalho,
assim como comentários sobre a informação que ela exibe.
Em seguida, foi solicitado para avaliar se o valor 109598 seria aceito para a
produção no perı́odo da noite. Para isso foi utilizado o teste T e encontrados os
seguintes valores:

6
Item Valor
Ponto a ser estudado 109598
Confiança 99,74%
alpha 0,26%
GL 74
Média 84066,07841
Desvio padrão 19410,64131
n 75
Tc 11,39121752
To 3,117
Tc >To Rejeita igualdade
Pelo teste t feito, esse valor não seria aceito dentro do padrão de produção
registrado nos últimos meses para o perı́odo da noite. Também foi validado o
teste realizando o procedimento pelo Minitab, onde o valor p foi igual a 0, o que
claramente rejeita a hipótese nula de que o padrão possa ser aceito.
Em seguida foi solicitado para analisar utilizando IC se o valor 97759 seria
aceito no perı́odo da manhã. Seguindo a fórmula apresentada em sala de aula e
descrita abaixo:
Zα/2 σ
IC = x̄ ± √ (1)
n
Utilizando os valores previamente calculados e para um grau de confiança de
95%, foi encontrado os valores mı́nimos e máximos de IC, onde o valor mı́nimo
foi 100330,7 e o máximo 101163. Portanto, o valor não é aceito, já que não
encontra-se nessa faixa.
Próximo passo foi fazer a comparação t-student e verificar se a inspeção do
supervisor obteve diferenças nas produções dos perı́odos estudados. Para isso,
foi realizado os testes de produção e retrabalho. Seguindo a fórmula do teste
t-student apresentado em sala de aula e representada abaixo:
x¯1 − x¯2
Tc = q 2 (2)
σ1 σ22
n1 + n2

Chegou-se aos seguintes valores:


Item Valor
GL 148
Tc 5,753863285
To 1,976
Tc>To Rejeita igualdade
Em seguida, foi conferido o teste realizando-se o mesmo no Minitab e obtendo-
se valor p igual a 0, rejeitando a igualdade. Isso demonstra que a presença
do inspetor teve sim impacto na produção, porém como já verificado, os dados
noturnos encontram-se bem piores que da manhã, portanto foi uma influência
negativa.
Também foi solicitado que se fizesse a carta de controle para um dos perı́odos.

7
Devido aos problemas claramente visualizados no perı́odo da noite, foi feita a
carta desse perı́odo a fim de se descobrir em que momento a produção saiu do
controle.

Pela carta de controle podemos notar a instabilidade da produção no perı́odo.


Apesar de inicialmente haver pouca diferença, mais ou menos no meio a produ-
ção subiu demasiado o que provavelmente desgastou os trabalhados e trouxe in-
stabilidade para as produções seguidas. Também nota-se um grande aumento no
começo, o que não rejeita a hipótese de ter sobrecarregado os trabalhadores nos
primeiros dias visando aumentar a produção para um limite acima do aceitável
pelo limite superior.
Próximo passo seria analisar pelo qui-quadrado os dados da parte 2, porém para
fim de organização desse trabalho, listaremos aqui fora de ordem a fim de agru-
par todas as análises da parte 1 do trabalho.
Também foi solicitado fazer o teste de F-Snedecor e analisar os perı́odos da
manhã e noite. Em seguida, comparar com a análise de t-student já realizada.
Utilizando-se da fórmula de comparação de variância disponibilizada na sala de
aula:
σ2
Fc = 12 (3)
σ2
Substituindo-se os valores (lembrando que o numerador deve ser sempre a maior
variância) e procurando os valores na tabela, obteve-se os seguintes valores:
Item Manhã Noite
F calculado 1,48590416
GL 74 74
F observado 1,4695
F calculado >F observado Igualdade rejeitada
Com o teste de F-Snedecor, confirmamos o que já se havia verificado no teste t-
student, que a presença do supervisor teve alteração de resultados, porém como

8
já comentado, o esforço excessivo dos funcionários para aumentar a produção
produziu um maior retrabalho e também fez com que a produção saı́sse de
controle.

3 Parte 2
Para a segunda parte, foi solicitado se analisar se uma jazida de ouro está dentro
do padrão de normatização 0844FACENS descrito abaixo:
Padrão substâncias %
ouro puro 15,00%
Ferro 1,78%
cromo 3,05%
nı́quel 5,56%
chumbo 7,43%
ouro t3 67,18%
Os dados da amostra 0-99-15AF da jazida XTSBW estão descritos na tabela
abaixo:
Peça retirada jazida composição em mmg
ouro puro 68
Ferro 6
cromo 13
nı́quel 29
chumbo 35
ouro t3 200
Utilizando-se do método do qui-quadrado e utilizando-se da fórmula fornecida
em sala de aula:
X (O − E)2
χ2 = (4)
E
Foi montada a seguinte tabela:
(O−E)2
Descrição O E (O − E)2 E
Ouro puro 68 52,66952 223,0461 4,234822
ferro 6 6,266264 0,044438 0,007092
cromo 13 10,70367 7,100803 0,663399
niquel 29 19,51728 86,72031 4,443257
chumbo 35 26,10105 82,51725 3,161453
ouro t3 200 235,8724 1280,561 5,429044
Total 351 351 1680 18
Pela tabela, obteve-se o χ calculado de 18. Comparando-se com a tabela, o
valor de χ da tabela é de 11,07. Como o χ calculado é maior que o χ da
tabela, concluimos que a jazida não atende o padrão de normatização. É in-
teressante notar que o ouro t3 e o nı́quel estão muito acima do padrão e que

9
normalizando-se estes o padrão já poderia ser aceito, se manter-se os outros na
mesma proporção. em especial se aumentasse o ouro puro. Podemos demonstrar
os problemas da empresa através do gráfico de Pareto onde fica fácil identificar
e atacar os problemas.

Pelo gráfico de Pareto podemos notar que atacando esses itens já citados, os
problemas da empresa com normatização podem ser resolvidos (diminuindo
nı́quel e ouro t3 e aumentando ouro puro).

4 Parte 3 - Final
Para a parte 3, primeiramente foi pedido que se analisasse pelo método do qui
quadrado os dados da empresa FCV que pretende verificar se existe homogenei-
dade entre seus clientes. Para fazermos isso, colocou-se na coluna E os dados
de um cliente e na coluna O os do outro cliente da mesma categoria. Montou-se
com isso a seguinte tabela:

10
(O−E)2
Descrição O E (O − E)2 E
Serviços - Incompatibilidade no sistema 35 13 484 37,23077
Serviços - Operadores sem treinamento 47 17 900 52,94118
Serviços - Instabilidade Gerencial 52 50 4 0,08
Serviços - Planejamento sem metas 39 18 441 24,5
Serviços - Incompatibilidade do TI 16 44 784 17,81818
Serviços - Apoio logı́stico 41 43 4 0,093023
Serviços - Apoio planejamento 46 37 81 2,189189
Serviços - Metas atingidas 47 53 36 0,679245
Comércio - Incompatibilidade no sistema 25 15 100 6,666667
Comércio - Operadores sem treinamento 36 15 441 29,4
Comércio - Instabilidade Gerencial 53 39 196 5,025641
Comércio - Planejamento sem metas 26 24 4 0,166667
Comércio - Incompatibilidade do TI 76 49 729 14,87755
Comércio - Apoio logı́stico 37 35 4 0,114286
Comércio - Apoio planejamento 44 34 100 2,941176
Comércio - Metas atingidas 35 38 9 0,236842
Indústria - Incompatibilidade no sistema 26 19 49 2,578947
Indústria - Operadores sem treinamento 42 16 676 42,25
Indústria - Instabilidade Gerencial 45 14 961 68,64286
Indústria - Planejamento sem metas 29 21 64 3,047619
Indústria - Incompatibilidade do TI 55 35 400 11,42857
Indústria - Apoio logı́stico 43 52 81 1,557692
Indústria - Apoio planejamento 41 47 36 0,765957
Indústria - Metas atingidas 50 48 4 0,083333
Total 986 776 6588 325,3154
Com a tabela acima, encontrou-se o χ calculado de 325,3154 e utilizando-se do
valor de GL e procurando na tabela, encontrou-se o valor de χ de 36,416. Como
χ calculado é maior que o da tabela, conclui-se que não há homogeneidade entre
os clientes. Utilizando o gráfico de Pareto, podemos notar os pontos de maior
discrepância:

11
Pelo gráfico de Pareto, nota-se que as maiores discrepâncias encontram-se nos
clientes de serviço e indústria enquanto os de comércio são mais homogênios.
Logo após, foi solicitado para se fazer o gráfico da ANOVA da parte 3. Por
motivo de espaço, novamente a base de dados não se encontra nesse documento,
mas pode ser visualizada na internet[Car]. Utilizando a ferramenta de análise
VBA do Excel, encontrou-se os seguintes valores:

Fonte da variação SQ gl MQ F valor-P F crı́tico


Entre grupos 884,4957 2 442,2478 2,529793 0,083533 3,064761
Dentro dos grupos 23075,69 132 174,8158
Total 23960,19 134
Pela tabela podemos notar um valor de p acima de 0,05 o que significa que os
dados estão bastante relacionados e portanto as amostras tem influência sobre
os perı́odos. O mesmo dado pode ser averiguado pelo valor de F que é menor
que o valor crı́tico, portanto aceito dentro da faixa de igualdade.

5 Conclusão
Pode-se concluir desse trabalho que apesar de limitado pela carga horária,
aprendeu-se muitos métodos de análise que certamente serão úteis nas próximas
matérias do curso e para a carreira de Cientista de Dados num geral.

Bibliografia
[Car] Lincoln Kovalski Carasilo. Avaliação Estatı́stica. url: https://1drv.
ms/x/s!Ak1pbgm5yXRXjVyHoi-Q5lodVaeg. (acessado: 11.04.2018).

12

Você também pode gostar