Você está na página 1de 35

Probabilidade e Estatística

Natalina Silva Rocha


Ano letivo 2021-22
Conteúdos programáticos

CAP1- Estatística Descritiva


 Conceitos e aplicação
 Amostragem, Descrição tabelar e Gráfica
 Medidas de tendência central e não central
 Medidas de Dispersão
Estatística Descritiva - Conceitos

Estatística - instrumento eficiente para a compreensão e interpretação da realidade.


Estudo estatístico- depende do planeamento correto de todas as etapas.
i) Definir o que é estudado
ii) Natureza dos dados
iii) Como recolher, quantos, aonde (plano de amostragem)

Estatística Descritiva - descrever, resumir a informação recolhida


Estatística Descritiva - Conceitos

 Unidade estatística – elementos que constituem a amostra ou população a estudar.


 Parâmetro – indicador que ajuda na produção de uma visão global dos dados.
 População – é um conjunto de todos os elementos em estudo.
 Amostra – é uma parte da população (ou subconjunto).
Estatística Descritiva - Conceitos
 Variável estatística. Qualquer característica que se pretenda estudar e
que apresente valores não constantes (exemplos: peso, altura, sexo).

 Variável Quantitativa. Uma variável diz-se quantitativa se os valores


que pode assumir são numéricos (altura, peso).

 Variável Qualitativa. Uma variável diz-se qualitativa se os valores que


pode assumir correspondem a categorias de nomes (sexo).

 Variável Continua. Quando pode assumir todos os valores possíveis num


determinado intervalo (peso, altura, gastos com medicamentos)

 Variável Discreta. Quando não pode assumir todos os valores num


determinado intervalo (nº médio diário de admissões num hospital, nº de
filhos).
variável

 Variável – é o termo usado para o que se esta estudando.


São tipos de variáveis – sexo, idade, Peças produzidas por hora, Paradas de produção no mês,
Rotatividade de estoque por ano, Poluição, Clima na região sudeste.

discreta
quantitativa
Variável continua

nominal
qualitativa
ordinal
População / amostra

Os resultados da amostra fornecem somente estimativas dos valores das características


populacionais. Com métodos de amostragens apropriados, os resultados da amostra
produzirão “boas” estimativas da população, ou seja, um estudo bem feito não elimina o
erro, mas limita‐o a uma margem, procurando torná ‐la o menor possível.
As razões para selecionar uma amostra
 população é muito grande;
 menos tempo;
 É menos dispendioso (caro)
 Uma análise amostral é menos cansativa e mais prática.
Tabelas de frequências

 A apresentação dos resultados pode ser feita com recurso a


representações gráficas ou a tabelas de frequências. Estas duas formas
de apresentar resultados são aplicáveis a todo o tipo de variáveis.

 No entanto, a estrutura e forma de construção dos gráficos e das


tabelas de frequências é diferente para variáveis discretas e para as
variáveis contínuas.
Frequências-Definiçao

 Designa-se a variável por uma letra maiúscula X, o valor da variável por uma letra
minúscula x. O índice (i=1,…k) representa cada uma das k modalidades da característica
em estudo.
 A frequência absoluta da variável X na categoria i representa-se por Fi correspondendo ao
número de vezes que o valor da variável é observado nesta modalidade.
A partir do valor das frequências absolutas e do conhecimento da dimensão da amostra, que se
assume aqui ser n, é possível calcular as frequências relativas, frequências absolutas
acumuladas e as frequências relativas acumuladas.
Frequências-Definiçao

 A frequência relativa de xi, representada por fi, é definida pelo quociente entre a
frequência absoluta e a dimensão da amostra, ou seja,
 Representa a proporção de ocorrências do valor da variável na categoria i. A frequência
absoluta acumulada de xi, representada por Ni, corresponde à soma do número de
ocorrências para os valores da variável inferiores ou iguais a xi.
 De forma idêntica é definida a frequência relativa acumulada de xi, representada por Fi.
Esta corresponde à soma da proporção de ocorrências registada para os valores da variável
inferiores ou iguais a xi.
Distribuição de frequência
Ao se trabalhar com grandes conjuntos de dados, em geral é útil organizá-los e resumi-los em
uma tabela, chamada, tabela de frequências.
Tabela frequência dados desagrupados
Valores da Frequencia Acumulladada Frequencia Acumulladada
variável () absoluta() Frequência relativa() Frequência
absoluta() relativa()

... ….. …..


n 1
Exemplo

Notas dos 25 alunos


4,0 5,0 7,0 9,0 9,0
4,0 5,0 7,0 9,0 9,0 5 5 0,2 0,2

4,0 5,0 7,0 9,0 9,0 3 8 0,12 0,32


4,0 6,0 8,0 9,0 9,0 6,0 2 10 0,08 0,40
4,0 6,0 8,0 9,0 9,0 7,0 3 13 0,12 0,52
8,0 2 15 0,8 0,6
9,0 10 25 0,4 1
Tabela frequência dados agrupados

 Em uma distribuição de frequência, ao se trabalhar com grandes conjuntos de dados e com


valores dispersos, ou quando a variável é do tipo qualitativa, já não é adequada a representação
anterior, o que se faz é agrupar os dados em classes.
Como?
 Calcule o numero de classes (k), usando a formula dada pela raiz da quantidade de dados, ou
seja se:
ou usa-se: Regra de Sturges: K=1+3,32log(n).

Calcule a amplitude da amostra R=(Maior valor – Menor valor)


 Calcule a amplitude de classe (h) que é o tamanho da classe, sendo:
 h=R/K
 3. Montar as classes a partir do Menor valor , somando com a amplitude de classe até que se
chegue na ultima classe.
Exemplo
70 90 100 110 123
71 93 102 115 123
73 95 103 115 123 R=128-70=58 k=, h=9,6=10 (usei k=6)
76 97 105 115 123 limite
80 97 105 117 124
81 97 109 117 124
Classes
83 99 109 121 128
86 99 109 121 128 70-80 4 4 0,1 0,1
80-90 4 8 0,1 0,2
90-100 8 16 0,2 0,4
100-110 8 24 0,2 0,6

110-120 6 30 0,15 0,75


120-130 10 40 0,25 1
Gráficos
 Gráficos de barras- dados quantitativos discretos e qualitativos
 Histograma- dados contínuos
 Gráfico circular- objetivo realçar uma parte em relação ao todo .
Medidas de localização/ resumo/ tendência
central
 Média – é a soma de todos os valores observados a dividir pelo total.

Dados numa tabela de frequência ou

Para dados em classes ou


- ponto médio da classe i
Medidas de localização/ resumo/ tendência
central
 Mediana ()- é o valor que divide os dados em duas partes iguais, metade menores do que o
seu valor e metade maior. *e mais robusta que a media. Para o seu calculo:

50%
Se n (dimensão da amostra) é impar, por Ex:
Ex.: 12, 78, 69, 75, 80, 71, 82, 73, 285 ordenar 12, 69, 71, 73, 75, 78, 80, 82, 285
Me=

Se n é par Me=)Ex.: 12, 69, 71, 73, 78, 80, 82, 785, 995 1000. Me==79
E se os dados tiverem numa tabela de
frequência?

 N e impar logo Me== 7,0


Dados Agrupados
Para dados agrupados :
 i) Identificar a classe da mediana Acumulada antes da classe da mediana
classe da mediana
 Usar a formula abaixo

Limite inferior da classe da mediana

Frequência na classe da mediana


Exemplo
=100, pois =20, =8, =10, logo Me=105
Medidas de localização/ resumo/ tendência
central
 Moda – É o valor da variável que repete mais vezes. O seu cálculo é feito de forma distinta
consoante se disponha de dados não classificados ou dados classificados.
 Dados não classificados
 É o valor que ocorre um maior número de vezes.
• A moda pode não existir (se os valores da variável forem todos distintos)
• A moda pode não ser única
• A moda pode ser calculada para variáveis qualitativas
 Dados classificados
Caso se disponha de dados classificados(em classes)existem alguns métodos de
cálculo distintos para a determinação do valor da moda. Qualquer que seja o método
adoptado, o primeiro passo para determinar o valor da moda é identificar a classe com
maior frequência absoluta usualmente designada por classe modal
Moda

Formula para o calculo da moda para dados agrupados.


Medidas de Tendência não central
Percentis e Quartis
 Quantis são estatísticas que nos permitem caracterizar conjuntos de dados dividindo-os
em partes iguais. Os quantis mais utilizados são os percentis e os quartis. Os percentis
dividem um conjunto de dados em 100 partes iguais e os quartis em quatro.
Percentis
 Dado um conjunto de observações x1,x2,…xn, o percentil de ordem p, designado por P, é
o valor de X tal que p% ou menos das observações são inferiores a P e (100-p)% ou
menos das observações são superiores a P.

 Quartis
 O primeiro quartil tem aproximadamente 25% de observações inferiores a
Q1, o segundo quartil Q2 tem cerca de 50% e o terceiro quartil, Q3 tem cerca de 75% de
observações à sua esquerda.

 A mediana é um dos quantis e corresponde ao percentil 50 e ao quartil 2.


Medidas de Tendência não central

 Quartis - Dividem a amostra em 4 partes iguais


 Decis - Dividem a amostra em 10 partes iguais
 Percentis - Dividem a amostra em 100 partes iguais

Qi
Box Plot / diagrama de extremos equaqqqquar

mimmim
outliers

 A identificação dos outliers (valores extremos/ valores aberrantes),


ou seja, dos valores que diferem significativamente do conjunto, é
feita com base nas chamadas barreiras internas (inferiores e
superiores) sendo a sua classificação feita com base nas barreiras
externas (inferiores e superiores).
outliers
Medidas de Dispersão

 Alem das medidas de localização é também necessário recorrer a medidas que nos
indiquem se as observações estão concentradas em torno da média, ou se pelo
contrário, as observações se encontram muito dispersas
 A dispersão é definida tendo em consideração a posição das observações
relativamente a uma referência fixa que deve ser o valor escolhido para identificar a
localização da distribuição de frequências. Assim, se a localização escolhida for a
média a dispersão deve quantificar o comportamento do conjunto dos desvios em
relação à média.
 A amplitude do intervalo de variação corresponde à diferença entre o maior
valor da amostra e o menor valor da amostra.
Medidas de Dispersão
 Desvio médio absoluto

- Variância- é definida como a média dos quadrados dos desvios em relação


à média, i.e:

È usual usar a forma corrigida

• Desvio padrão - Assume valores mais pequenos do que a variância


É expresso na mesma unidade de medida da variável
Coeficiente de variação

 Quando se pretende comparar a dispersão entre dois ou mais conjuntos de dados,


eventualmente expressos em unidades diferentes, o desvio padrão não é a medida
mais aconselhada uma vez que depende da unidade de medida da variável.

 Uma das medidas de dispersão, independentes da unidade da variável (medida de


dispersão relativa) é o coeficiente de variação.

 Quanto maior for o CV maior a dispersão da variável


Medidas de assimetria e Achatamento

 A assimetria mede o grau de afastamento dos dados em relação a média.


A distribuição é simétrica quando a média, mediana e moda se coincidem; assimétrica à direita
quando a média é maior que a mediana e a moda; assimétrica à esquerda , quando a média é
menor que a mediana e a moda. Este raciocínio é importante pois é a base para o estudo de
probabilidades e inferência.
 O grau de assimetria de uma distribuição de frequências pode ser calculado por meio do
Coeficiente de Pearson, abaixo:

ou
Medidas de assimetria e Achatamento

 Se As = 0, será simétrica
 Se As < 0, será assimétrica esquerda (negativa)
 Se As > 0, será assimétrica direita (positiva)

 Interpretação da assimetria. Quanto mais As se afasta de zero, mais assimétrica será a


distribuição, podendo ser fraca (se situada até |0,15|), moderada (se situada de |0,15| a |1|)
ou forte (se maior que |1|). Forte, nesse caso, não é algo necessariamente bom, pois indica
que a distribuição está fortemente (muito) distante do eixo central, no caso, da média.
 Portanto, para efeitos de inferência estatística, melhor é que a As se aproxime de zero, no
caso, de uma distribuição simétrica.
Medidas de assimetria e Achatamento

 A curtose mede o grau de achatamento ou alongamento de uma distribuição, em relação a


uma distribuição padrão, denominada curva normal.
 Curvas alongadas, com alta curtose, são chamadas de leptocúrticas. Observe que tem um
pico relativamente alto.
 Curvas nem alongadas nem achatadas e de curtose mediana são chamadas de
mesocúrticas.
 Curvas achatadas apresentam menor curtose e são denominadas platicúrticas. Observe
que tem o topo achatado.
Medidas de assimetria e Achatamento

 Se C < 0, 263 → curva leptocúrtica


 Se C = 0, 263 → curva mesocútica
 Se C > 0, 263 → curva palticúrtica

O coeficiente de curtose +e calculado usando a seguinte formula

C=

Você também pode gostar