Você está na página 1de 58
Instituto Tecnológico de Aeronáutica Divisão de Engenharia Mecânica MOQ-13/PO-210: Probabilidade e Estatística Profa.

Instituto Tecnológico de Aeronáutica Divisão de Engenharia Mecânica

MOQ-13/PO-210:

Probabilidade e Estatística

Profa. Denise Beatriz Ferrari www.mec.ita.br/denise

denise@ita.br

SEMANA 01: Roteiro

Motivação Apresentação do Curso Plano da Disciplina Recursos Computacionais

Motivação

Data Revolution

Como nossas vidas (economia/sociedade) foram e estão sendo transformadas pela recente disponibilidade (massiva) de todos os tipos de dados?

Data Revolution

https://www.youtube.com/watch?v=r6v15Z60eUI

www.thehumanfaceofbigdata.com

Data Revolution

Big data

Small data

Linked data

Open data

All Data!

Data Revolution Big data Small data Linked data Open data All Data! 6 / 57

From Big Data to “Smart” Data

Como gerar VALOR a partir de todos esses dados?

From Big Data to “Smart” Data

Como gerar VALOR a partir de todos esses dados?

Isto significa não apenas fazer as mesmas coisas de uma maneira melhor

significa fazer coisas completamente novas !

Como gerar valor?

Novas tecnologias propõe novos desafios:

obtenção dos dados limpeza e organização análise e visualização senso crítico para compreender limitações e ciladas

Habilidades mais buscadas por “data active companies” : Conhecimento da área – Quais os processos“reais”

Habilidades mais buscadas por “data active companies”:

Conhecimento da área

Quais os processos“reais” que geram os dados?

Quais as limitações dos dados?

Que perguntas os dados permitem responder?

Combinação de habilidades computacionais e analíticas

programação (obtenção e manipulação de dados)

análise (extração de significado)

Experiência no tratamento de dados

ferramentas

tecnologias

http://www.nesta.org.uk/publications/skills-datavores-talent-and-data-revolution

“Datavores” Report (cont.)

“Datavores” Report (cont.) 10 / 57
“Datavores” Report (cont.) 10 / 57

Apresentação do Curso

O QUE É ESTATÍSTICA?

O que é Estatística?

Uso comum

O uso comum da palavra estatística normalmente refere-se a uma coleção de números, valores relativos a nascimentos, mortes, populações, acidentes, esportes =sinônimo de "dados".

O que é Estatística?

Definições de livros

“Consiste no campo científico que se dedica à coleta, organização, análise e interpretação de dados.”

“Trata do desenvolvimento e aplicação de métodos capazes de auxiliar o processo de tomada de decisões na presença de incertezas e variabilidade.”

O que é Estatística?

Entendimento contemporâneo

Estatística é uma ciência incomumente abrangente:

O que é Estatística? Entendimento contemporâneo Estatística é uma ciência incomumente abrangente: 15 / 57

ESTATÍSTICA

É A

CIÊNCIA

DO

APRENDIZADO PELA EXPERIÊNCIA

(Frequentista × Bayesiana)

Estatística em Engenharia

Uma parte essencial da prática em Engenharia consiste na tomada de decisões na presença de incertezas (informação incompleta, variabilidade de processos).

Tal prática normalmente envolve as atividades:

Descrever e analisar a aleatoriedade (incerteza) no fenômeno em estudo

Planejar cursos de ação em situações de incerteza

Exemplos:

confiabilidade de aeronaves e seus subsistemas

análise do tempo de vida de componentes aeronáuticos

análise de falhas

limites de tolerância

Estatística Em Engenharia

O Método Científico

Como a Estatística contribui neste processo?

Científico Como a Estatística contribui neste processo? Método Científico: Processo iterativo indutivo-dedutivo

Método Científico:

Processo iterativo indutivo-dedutivo

Em Engenharia emprega-se o Método Científico para inferir a natureza de fenômenos de interesse.

É fundamental notar que inferências realizadas com base em dados amostrais são sujeitas a incertezas, pois uma amostra, por mais representativa que seja, não é capaz de fornecer uma imagem perfeita da população de interesse.

Estatística em Engenharia

Descrição e Análise de Incertezas

A disciplina de Estatística utiliza elementos de probabilidade para avaliar o grau de confiabilidade, ou seja, quantificar a incerteza associada a inferências realizadas a partir de dados amostrais.

Desta forma, engenheiros podem realizar melhor inferência (estimar, tomar decisões) e avaliar criticamente seus resultados.

Os procedimentos estatísticos dependem do tipo de problema investigado:

Problemas de Estatística Descritiva:

– caracterizar de um conjunto de dados

Problemas de Inferência Estatística (análise matemática/computacional):

– inferir sobre as características de uma determinada população a partir das observações em uma amostra.

Um pouco de história

Origem em 1763: publicação da “Regra de Bayes”

Lado filosófico da disciplina

Os primeiros advogados da regra a consideravam um argumento para a existência de Deus.

Os primeiros advogados da regra a consideravam um argumento para a existência de Deus. Thomas Bayes,

Thomas Bayes, 1702-1761

Um pouco de história

1950’s - 1990’s: período de transição (“early computer age”)

acelerado desenvolvimento de metodologia estatística

.

.

teoria

prática

1950’s – atualidade: “computer age”

“Big Data”

“Data Science”

“Machine Learning”

Neste curso

MOQ-13 / PO-210 / MB-210

MÉTODOS DE INFERÊNCIA ESTATÍSTICA CLÁSSICA (Frequentista, Bayesiana, Fisheriana)

Plano da Disciplina

Semana

Conteúdo

1

Apresentação da disciplina. Recursos Computacionais.

2

Introdução à teoria de probabilidades. Cálculo de probabilidades.

3

Probabilidade condicional e independência. Teoremas de Probabilidade (TP Total, T. Bayes).

4

Variáveis aleatórias - parte I.

5

Variáveis aleatórias - parte II.

6

1a. Prova Bimestral

7

Distribuições notáveis - parte I.

8

Distribuições notáveis - parte II.

9

Distribuições notáveis - parte III.

10

2a. Prova Bimestral

11

Princípios de Estatística. Distribuições amostrais. Teorema do Limite Central.

12

Inferência estatística: estimação pontual.

13

Inferência estatística: estimação via intervalos de confiança.

14

Inferência estatística: teoria da decisão (testes de hipóteses).

15

Feriado

16

Tópicos adicionais. Encerramento do curso.

EX1

Exame final

Material de Estudo

– Notas de aula

– Séries de exercícios

– Programas computacionais utilizando a linguagem R

– Textos de apoio/vídeos

– Bibliografia Principal:

1. Devore, JL (2014). Probabilidade e Estatística para Engenharia e Ciências,8a. Ed, Cengage Learning.

– Bibliografia Complementar:

1. Zuur, AF; Ieno, EN; Meesters, EHWG (2009). A Beginner’s Guide to R, Springer.

2. Verzani, J (2005). Using R for Introductory Statistics, CRC Press.

3. Horton, NJ; Kleinman, K (2011). Using R for Data Management, Statistical Analysis, and Graphics, CRC Press.

Equipe

Professores:

– Aulas teóricas/fundamentos:

– Exercícios/discussão:

Monitores:

– ?

– ?

Participações Especiais:

– Equipe do ITAÚ

– outros ?

DENISE FERRARI

FILIPE RODRIGUES

Obrigações dos Professores

Educação Respeito Propensão ao Diálogo DC Esforço para fazer o melhor possível Demais obrigações típicas da função “PROFESSOR”

fonte: prof. Armando Milioni (uso com permissão)

Obrigações dos Alunos

Educação Respeito Propensão ao Diálogo DC Esforço para fazer o melhor possível Demais obrigações típicas da função “ALUNO”

fonte: prof. Armando Milioni (uso com permissão)

Avaliação

– Provas Bimestrais:

B1: S06 (06/set/2017) B2: S10 (11/out/2017)

– Exame Final

– Quizzes Semanais (online)

Composição das Notas Bimestrais:

NB i = 0, 90 × P i + 0, 10 × MQ i

onde:

i = 1, 2

P i : nota da prova do bimestre i MQ i : média dos quizzes propostos no bimestre i

Elementos Fundamentais em Estatística

Elementos Fundamentais em Estatística

Dados e Fontes de Dados

Dados

População: conjunto de dados (normalmente grande, ou apenas conceitual) que caracteriza o fenômeno de interesse.

Amostra: subconjunto de dados selecionados a partir da população de interesse, de forma representativa.

Fontes de Dados

Primárias: a coleta dos dados faz parte do estudo

– experimentos planejados

– estudos observacionais

Secundárias: os dados são obtidos a partir de outras fontes publicadas (relatórios, periódicos, publicações oficiais etc.)

Elementos Fundamentais em Estatística

Observações e Variáveis

Unidades Experimentais: objetos/indivíduos a partir dos quais são coletadas as medidas que compõe o conjunto de dados.

Observação: toda informação a respeito de uma unidade experimental no conjunto de dados (conjunto de variáveis).

Variáveis: características ou propriedades observadas nas unidades experimentais.

– Qualitativas (categóricas)

– . Nominais

– . Ordinais

– Quantitativas (numéricas)

– . Contínuas

– . Discretas

Fundamentos da Análise Exploratória de Dados

Métodos para Exploração, Resumo e Descrição de Dados

Tentar obter informação a partir de dados tabulados nem sempre é uma tarefa simples (especialmente para conjuntos de dados grandes – “big data”).

Se o conjunto de dados representa uma população, ferramentas gráficas e resumos numéricos podem ser muito úteis para caracterizar a população (e apenas para este propósito).

Frequentemente, os dados constituem uma amostra, e tais ferramentas descritivas também podem ser utilizadas para auxiliar o processo de inferência.

Os procedimentos mais adequados dependem da natureza das variáveis analisadas.

Ferramentas Descritivas para Dados Qualitativos Tabelas de frequência relativa Gráfico de barras Diagrama de

Ferramentas Descritivas para Dados Qualitativos

Tabelas de frequência relativa Gráfico de barras Diagrama de Pareto

Exemplo:

Acidentes em plantas nucleares (1977 – 2004)

Categoria

Coal Mine Collapse Dam Failure Gas Explosion Lightning Nuclear Reactor OilFire

Coal Mine Collapse Dam Failure Gas Explosion Lightning Nuclear Reactor OilFire
Coal Mine Collapse Dam Failure Gas Explosion Lightning Nuclear Reactor OilFire
Coal Mine Collapse Dam Failure Gas Explosion Lightning Nuclear Reactor OilFire
Coal Mine Collapse Dam Failure Gas Explosion Lightning Nuclear Reactor OilFire
Coal Mine Collapse Dam Failure Gas Explosion Lightning Nuclear Reactor OilFire

Frequencia

7

4

28

1

1

4

Fonte: "Safety of nuclear power reactors". Nuclear Issues Briefing Paper 14, November 2004.

Ferramentas Gráficas para Descrição de Dados Quantitativos

Gráfico de totais Histogramas

Número de classes em Histogramas

No. de observações

No. de classes

< 25 25 – 50 > 50

5 – 6 7 – 14 15 – 20

Histogramas No. de observações No. de classes < 25 25 – 50 > 50 5 –
Histogramas No. de observações No. de classes < 25 25 – 50 > 50 5 –

Ferramentas Numéricas para Descrição de Dados Quantitativos

Estatísticas vs. Parâmetros:

Estatísticas: são calculadas com base em dados amostrais

Parâmetros: representam medidas descritivas de uma população

– normalmente desconhecidos

– representados por letras gregas

Ferramentas Numéricas para Descrição de Dados Quantitativos

Medidas de Localização (Centro)

média (aritmética)

¯

média amostral:

X =

1

n i=1 n X i

média populacional: µ =

1

n i=1

n

X i

– ponto de equilíbrio (centro de massa) => sensível a assimetrias (skewness, cauda)

mediana

– resistente à presença de pontos extremos

moda

– uso menos frequente (exceto em situações em que a frequência relativa de ocorrência é importante)

moda – uso menos frequente (exceto em situações em que a frequência relativa de ocorrência é

Ferramentas Numéricas para Descrição de Dados Quantitativos

Medidas de Dispersão (Variação)

amplitude: A = X max X min

– medida resistente: diferentes conjuntos de dados podem apresentar mesma amplitude e diferentes variabilidades

– útil para amostras pequenas

variância amostral: S 2 =

desvio-padrão

n1 i=1

1

n (X i

¯

X) 2 populacional: σ 2 =

amostral: S = S

populacional: σ = σ 2

1

n n

i=1 (X i µ) 2

Ferramentas Numéricas para Descrição de Dados Quantitativos

Medidas de Posição Relativa

Quantis/percentis

Medidas de Posição Relativa Quantis/percentis Escores-z – medida da posição de uma observação em

Escores-z

– medida da posição de uma observação em números de desvio-padrão com relação à média. – amostral:

z

¯

= X X

s

– populacional:

z

= X µ

σ

Detecção de Outliers (observações extremas)

Uma observação atipicamente grande ou pequena, relativamente às demais observações no conjunto de dados considerado é chamada outlier.

Outliers normalmente podem ter uma das possíveis causas:

1. A observação foi incorretamente medida, registrada ou lida pelo computador.

2. A observação pertence a uma população distinta.

3. A observação é correta, mas representa um evento raro.

Métodos comuns de detecção:

– escore-z: |z| > 3

– boxplots

correta, mas representa um evento raro. Métodos comuns de detecção: – escore-z: | z | >

Recursos Computacionais

Recursos Computacionais

Software Estatístico R

“R é uma linguagem computacional que permite que o usuário programe algoritmos e utilize ferramentas que foram programadas por outras pessoas 1

Com o R podemos

fazer cálculos

realizar análises estatísticas

gerar gráficos de excelente qualidade

construir funções e programas para necessidades específicas

1 Zuur et al. (2009) A Beginner’s Guide to R. Use R! Springer

Por que aprender R?

Custo ($0)

Disponibilidade para as plataformas UNIX, Windows, MacOS, online

Software Livre

Possibilidade de criar e compartilhar pacotes

Contém implementações de métodos avançados, não facilmente encontrados em outros programas estatísticos (proprietários)

Capacidade de produção de gráficos de qualidade

É amplamente utilizado não apenas na academia, mas em empresas e instituições como NASA, Google, New York Times, Pfizer, Bank of America, Merck, Nestlè, Shell, Ebay, Samsumg, Honda, Hyundai, GE etc.

Preparando o Ambiente

Instalar R e RStudio

Preparando o Ambiente Instalar R e RStudio 45 / 57

Preparando o Ambiente

Iniciando uma Sessão

Preparando o Ambiente Iniciando uma Sessão 46 / 57

Operações aritméticas em R

R utiliza os seguintes símbolos para realizar operações aritméticas:

+ : adição : subtração : multiplicação / : divisão

() : ordenamento de operações %% : resto de divisão %/% : divisão inteira

> (1 + 1/100)ˆ100 [1] 2.704814

> 5 %% 2 [1] 1

> 5 %/% 2 [1] 2

Em cada caso, uma expressão matemática é inserida, avaliada e o resultado da operação é impresso na tela.

Note que cada resultado é precedido por “ [1]”. O prefixo [1] indica que o resultado é o primeiro elemento do vetor de saída.

Operações lógicas em R

R também realiza operações lógicas:

!x : NÃO

Operações elemento a elemento:

x

&

y :

E

x

|

y : OU

xor(x,y) : OU exclusivo

isTRUE(x) : (para vetor unitário)

Operações com apenas o primeiro elemento de um vetor:

x && y : E

x || y : OU

Funções pré-definidas

R disponibiliza diversas funções pré-programadas, tais como sin(x), cos(x), log(x), sqrt(x), entre muitas outras.

> exp(1)

[1] 2.718282

> pi

[1] 3.141593

> sin(pi/6)

[1] 0.5

> floor(exp(1))

[1] 2

> ceiling(pi)

[1] 4

R calcula valores numéricos com precisão elevada. Porém, está pré-programado para representar apenas 7 dígitos significativos. Esta opção pode ser modificada utilizando a função options(digits=x):

> options(digits=16)

>

pi

[1] 3.141592653589793

As funções floor(x) e ceiling(x) arredondam, respectivamente, para o menor e maior número inteiro mais próximo.

Constantes pré-definidas

Algumas constantes especiais estão disponíveis.

Lógicas: TRUE, FALSE (evite T e F)

Valores especiais:

NaN

“not a number”

(0/0)

NA

valor faltante

(desconhecido)

NULL

valor indefinido

(objeto nulo)

Inf ou -Inf

infinito

(1/0, -1/0)

pi

3.141593

Outras:

– “A”, “B”,

LETTERS

,

“Z”

– “a”, “b”,

letters

,

“z”

– “Jan”, “Feb”,

month.abb

,

“Dec”

– “January”, “February”,

month.name

,

“December”

Buscando ajuda

Aprender a programar em R envolve lembrar funções e saber encontrar ajuda quando necessário.

Para obter detalhes a respeito da função sqrt(x), por exemplo:

> ?sqrt

> help("sqrt")

> help.search("sqrt")

Obs. Por se tratar de um software livre, existe uma grande grande quantidade de informação disponível na internet, no entanto pode ser difícil encontrá-la (“R”, além de ser o nome do software também é uma letra do alfabeto, portanto presente em diversos sites).

– O buscador http://www.rseek.org/ restringe a busca para os sites que possuem conteúdo relacionado apenas à linguagem R.

52 / 57

Variáveis

As operações anteriores mostram o resultado da avaliação de comandos sendo impressos em tela. No entanto, um resultado pode ser armazenado através da atribuição do valor calculado a uma variável.

> x <- 5 + 7

> x [1] 12

> y <- sqrt(4)

> y [1] 2

> z <- xˆy

> z [1] 144

> n <- 1

> (n <- n + 1) [1] 2

A atribuição de valores se dá através da utilização do operador “<-”.

Nomes de variáveis podem incluir letras, números e caracteres “.” ou “a”, desde que iniciem com uma letra ou “.”.

Para visualizar o valor de uma variável, basta digitar o seu nome ou os comandos print(x) ou show(x) ou, ainda, digitando a expressão de atribuição entre parênteses.

Procure nomear suas variáveis de maneira informativa, afim de melhorar a inteligibilidade de seu código.

Objetos

Toda informação é armazenada em R na forma de objetos. Variáveis são apenas um tipo de objeto.

Durante uma sessão, todos os objetos são armazenados na área de trabalho, ou workspace.

Podemos visualizar o conteúdo da área de trabalho utilizando as funções objects() ou ls(). Para remover objetos utilizamos as funções remove() ou rm().

> x <- 5 + 7; y <- sqrt(4)

> z <- xˆy

> ls()

[1] “x” “y” “z”

> rm("x")

> objects()

[1] “y” “z”

Ponto e vírgula (;) separa comandos distintos.

O comando rm(list=ls()) remove todos os objetos da área de trabalho:

> rm(list=ls())

> objects()

character(0)

55 / 57

“Statistical thinking will one day be as necessary for efficient citizenship as the ability to read and write.” (H.G. Wells, 1946)

OBRIGADA Denise B. Ferrari denise@ita.br — 2017 —

OBRIGADA

Denise B. Ferrari denise@ita.br — 2017 —