Escolar Documentos
Profissional Documentos
Cultura Documentos
Estatística 1
Draft de Apontamentos Teóricos
Outubro/2020
Albertina Delgado
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
Estatística 1
Draft de Apontamentos Teóricos
1
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
Conteúdo
1. Introdução......................................................................................................................................................... 4
1.1 ConceitosBásicos ............................................................................................................................................ 4
1.1.1- Objectivo da Estatística ........................................................................................................................... 5
1.1.2- Utilidade da Estatística............................................................................................................................ 5
1.2 Evolução histórica da Estatística ..................................................................................................................... 6
1.3- Método Estatístico de Resolução de um Problema.......................................................................................... 8
1.4- Escalas de medidas de dados Estatísticos........................................................................................................ 9
2. EstatísticaDescritiva........................................................................................................................................ 11
2.1- Classificação das Variáveis .......................................................................................................................... 11
2.2- Apresentação dos Dados .............................................................................................................................. 13
2.2.1 Quadros eGráficos.................................................................................................................................. 13
Gráficos para dados qualitativos .................................................................................................................. 14
Gráficos para dados quantitativos discretos.................................................................................................. 17
Gráficos para dados quantitativos contínuos ................................................................................................ 17
2.2.2- Distribuição de Frequências .................................................................................................................. 19
Variáveis qualitativas e variáveis quantitativas discretas .............................................................................. 20
Variáveis quantitativas contínuas................................................................................................................. 22
2.3-Medidas de Estatística Descritiva .................................................................................................................. 24
2.3.1- Medidas de localização ......................................................................................................................... 24
2.3.1.1 Medidas de Tendência Central ......................................................................................................... 24
Média Aritmética..................................................................................................................................... 24
Mediana.................................................................................................................................................. 26
Moda....................................................................................................................................................... 28
2.3.1.2 Medidas de Tendência não Central................................................................................................... 29
Quartis.................................................................................................................................................... 29
Decis....................................................................................................................................................... 31
Percentis ................................................................................................................................................. 31
2.3.2- Medidas de dispersão e concentração .................................................................................................... 32
2.3.2.1 Medidas de Dispersão Absoluta ....................................................................................................... 32
2.3.2.2 Medidas de dispersão relativa .......................................................................................................... 34
2.3.3- Medidas de assimetria e Curtose............................................................................................................ 34
2.3.3.1 Medidas de assimetria...................................................................................................................... 34
2
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
3
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
1. Introdução
SUMÁRIO
O que é a estatística?
A Estatística é a ciência que se ocupa da obtenção de informação, seu tratamento inicial, com a
finalidade de, através de resultados probabilísticos adequados, inferir de uma amostra para a
população, e eventualmente prever a evolução futura de um fenómeno. Em outras palavras, é um
instrumento de leitura de informação, e da sua transformação em conhecimento.
Estatística Aplicada refere-se as técnicas pelas quais os dados de natureza quantitativa são
colectados, organizados, apresentados e analisados.
Estatísticas – É toda a função que opera sobre a amostra. Isto é, são valores não exactos,
dado que de uma população se podem retirar diversas amostras estamos perante valores que
variam de amostra para amostra, e são designados por letras maiúsculas do alfabeto
Romano. Ex: média amostral ( ), a variância amostral (S2), desvio-padrão amostral (S).
População (ou Universo): Conjunto de unidades com uma ou mais características comuns
4
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
Exemplos:
Estatística Inferencial: conjunto de métodos estatísticos que visam caracterizar (ou inferir sobre)
uma população a partir de uma parte dela (a amostra).
5
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
O termo estatística vem da expressão em Latim statisticum collegium isto é, palestra sobre os
assuntos do Estado, de onde surgiu a palavra em língua italiana statista, que significa "homem de
estado", ou político, e a palavra alemã Statistik, designando a análise de dados sobre o Estado. A
palavra foi proposta pela primeira vez no século XVII, em latim, por Schmeitzel na Universidade
de Lena e adoptada pelo académico alemão Godofredo Achenwall. Aparece como vocabulário na
Enciclopédia Britânica em 1797, e adquiriu um significado de colecta e classificação de dados, no
início do século 19.
Para que os governantes das grandes civilizações antigas tivessem conhecimento dos bens que o
Estado possuía e como estavam distribuídos pelos seus habitantes, realizaram-se as primeiras
estatísticas, nomeadamente para determinarem leis sobre impostos e números de homens
disponíveis para combater. Estas estatísticas eram frequentemente limitadas à população adulta
masculina.
O primeiro dado disponível sobre um levantamento estatístico foi referido por Heródoto, que
afirmava ter-se efectuado em 3050 a.c um estudo das riquezas da população do Egipto com a
finalidade de averiguar quais os recursos humanos e económicos disponíveis para a construção das
pirâmides.
Existem indícios, que constam da Bíblia, relativamente a recenseamentos feitos por Moisés (1490
a.c). Outra estatística referida pelos investigadores foi feita no ano 1400 a.c, quando Ramsés II
mandou realizar um levantamento das terras do Egipto.
As estatísticas realizadas por Pipino, em 758, e por Carlos Magno, em 762, sobre as terras que
eram propriedade da Igreja, são algumas das estatísticas importantes de que há referências desde a
queda do império romano.
Para responder ao desenvolvimento social surgiram estas primeiras técnicas estatísticas: classificar,
apresentar, interpretar os dados recolhidos foram para os censos e são para a Estatística um aspecto
essencial do método utilizado. Mas, um longo caminho havia de ser percorrido até aos dias de
hoje.
Até ao início do séc. XVII, a Estatística limitou-se ao estudo dos “assuntos de Estado”. Usada
pelas autoridades políticas na inventariação ou arrolamento dos recursos disponíveis, a Estatística
limitava-se a uma simples técnica de contagem, traduzindo numericamente factos ou fenómenos
observados fase da Estatística Descritiva.
No séc. XVII, com os aritméticos políticos, nomeadamente John Graunt (1620-1674) e Sir William
Petty (1623-1687), inicia-se em Inglaterra uma nova fase de desenvolvimento da Estatística, virada
para a análise dos fenómenos observados na fase da Estatística Analítica.
6
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
John Graunt, uma pessoa engenhosa e estudiosa, tinha o hábito de se levantar cedo para estudar,
antes da abertura da sua loja, inspirado nas tábuas de mortalidade que semanalmente se
publicavam na sua paróquia, publicou, em 1660, um trabalho estatístico sobre a mortalidade dos
habitantes de Londres, procurando dar interpretações sociais às listas de tempos de vida. Sir
William Petty, baseado neste trabalho, escreveu um livro de largo sucesso, divulgando a nova
ciência da Aritmética Política.
Em 1692, o astrónomo Edmund Halley (1658-1744), famoso pela descoberta do cometa de órbita
elíptica que se aproxima da Terra de 75 em 75 anos, baseando-se também em listas de nascimento
e falecimento, foi o precursor das actuais tabelas de mortalidade, base das anuidades dos seguros
devida.
O desenvolvimento do Cálculo das Probabilidades surgiu também no século XVII. A ligação das
probabilidades com os conhecimentos estatísticos veio dar uma nova dimensão à Estatística, que
progressivamente se foi tornando um instrumento científico poderoso e indispensável. Considera-
se assim uma nova fase, a terceira, em que se começa a fazer inferência estatística: quando a partir
de observações se procurou deduzir relações causais, entre variáveis, realizando-se previsões a
partir daquelas relações.
A palavra Estatística surge, pela primeira vez, no séc. XVIII. Alguns autores atribuem esta origem
ao alemão Gottfried Achemmel (1719-1772), que teria utilizado pela primeira vez o termo statistik,
do grego statizein; outros dizem ter origem na palavra estado, do latim status, pelo aproveitamento
que dela tiravam os políticos e o Estado.
A partir do século XVIII são vários os nomes que se destacaram na história da evolução da
estatística, tais como Quételet (1796-1874), Galton (1822-1911), Karl Pearson (1857-1936),
Weldon (1860-1906), Ronald Fisher (1890-1962).
Na sua origem, a Estatística estava ligada ao Estado. Hoje, não só se mantém esta ligação, como
todos os Estados e a sociedade em geral dependem cada vez mais dela. Por isso, em todos os
Estados existe um Departamento ou Instituto Nacional de Estatística. Na actualidade, a Estatística
já não se limita apenas ao estudo da Demografia e da Economia. O seu campo de aplicação
alargou-se à análise de dados em Biologia, Medicina, Física, Psicologia, Indústria, Comércio,
Meteorologia, Educação, etc., e ainda a domínios aparentemente desligados, como estrutura de
linguagem e estudo de formas literárias.
1
Cfr WILLCOX, Walter (1938) The Founder of Statistics. Review of the International Statistical Institute
5(4):321-328.
7
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
Identificação do Problema
É importante desde início do estudo, ter claro, qual é problema a analisar, e uma vez conhecido é
importante saber, qual o tipo de decisões que se pretende tomar.
A recolha de toda a informação pode ser feita directamente (quando os dados são obtidos da fonte
originária) ou de uma forma indirecta (quando dados recolhidos provém já de uma recolha indirecta).
Os dados obtidos de fonte originária, isto é, quando é possível encontrar em registos ou ficheiros, chamam-
se dados primários; enquanto os valores não disponíveis nestas fontes e calculados a partir daqueles são
dados secundários.
Exemplos:
Dados Primários: Todos os dados resultantes de inquéritos feitos directamente a uma população ou a um
grupo desta população.
Dados Secundários: Todos os dados disponíveis nas estatísticas publicadas do INE. As fontes dos dados
podem ainda ser classificadas como internas e externas.
Fontes Internas, os serviços de contabilidade, produção ou marketing de uma empresa,
constituem fontes internas de informação económicas e comercial que deverá ser posta ao
dispor dos órgãos de decisão da empresa.
No que diz respeito à periodicidade, a recolha dos dados pode ser classificada como:
Continua, quando se realiza permanentemente;
8
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
Muitas vezes acontece, não estar disponível toda informação necessária ou porque não existe, ou
porque, se encontra desactualizada. Nestes casos é necessário fazer uma nova recolha de
informação
Uma vez recolhidos os dados, é necessário proceder-se a uma revisão crítica, de modo ao suprir
valores estranhos ou eliminar erros capazes de provocar futuros enganos de apresentação e análise
ou mesmo de enviesar conclusões obtidas.
Aqui começa o principal objectivo da estatística descritiva, criar os instrumentos necessários para
classificar e apresentar conjuntos de dados numéricos, de modo que a informação neles contida
seja compreendida mais fácil e rapidamente. Este processo de classificação consiste na
identificação de unidades de informação com características comuns e no agrupamento em classes.
Uma vez classificados os dados, passa a ser possível sintetizar a informação neles contida com
ajuda de quadros e valores numéricos descritivos, que ajudem a compreender a situação e a
identificar relações importantes entre as variáveis.
Análise e Interpretação
Por último é necessário, interpretar os resultados encontrados. A interpretação será tanto mais
facilitada quanto se tiver escolhido em etapas anteriores, os instrumentos mais apropriados à
representação e análise do tipo de dados recolhidos.
Dependendo do tipo de variáveis que constituem os dados estes podem ser expressos em quatro
escalas distintas: nominal, ordinal, por intervalo e por rácios.
Os dados qualitativos exprimem-se nas duas primeiras escalas e os dados quantitativos nas duas
últimas.
Escala Nominal – são os valores (numéricos ou não) que não possuem uma ordem
intrínseca. Um caso particular deste tipo de escala de medida ocorre quando a característica
em estudo envolve apenas duas categorias. Essas características são denominadas binárias
ou diatómicas.
Exemplos:
O tipo de sangue de uma pessoa (O, A, B e AB)
Categorias taxionómicas das plantas ou animais.
O sexo (0 - Feminino, 1 - Masculino) ou questões que apenas podem ser
respondidas com “sim” ou “não”.
9
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
Escala Ordinal – são os valores (numéricos ou não) que possuem uma ordem intrínseca.
Esta escala de medida pode ser construída a partir de escalas nominais quando existe
paralelismo evidente entre a escala nominal e uma sequência crescente ou decrescente com
significado.
Exemplos:
Pode-se perguntar a um consumidor qual é a sua opinião sobre um determinado
produto alimentar de acordo com a seguinte lista: (detesta; gosta pouco;
indiferente; gosta; adora), sendo evidente que esta lista corresponde a uma
sequência ordenada com cinco categorias.
Classificações obtidas no 2º e 3º ciclos do ensino básico (1 a5).
Classificação dos camarões para venda.
Grupos etários (crianças, jovens, adultos e idosos)
Exemplos:
O número de automóveis que atravessa a ponte Elisabeth em cada hora pode ser
definido numa escala por intervalos de valores discretos, por exemplo, entre 0 e
150; entre 150 e 300; entre 300 e 450,etc.
A temperatura mínima diária do ar em ºC numa estação meteorológica num
determinado ano pode ser definida numa escala por intervalos de valores
contínuos, por exemplo, [-5, 0[; [0, 5[; [5, 10[; [10, 15[;etc.
Exemplos:
O peso pode constituir uma escala por rácios (a razão entre os pesos de dois
pacotes de açúcar, por exemplo, é sempre o mesmo qualquer que seja a unidade
de medida: g, kg, ton., etc.) mas a temperatura não (10ºC = 50 ºF; 30 ºC=86 ºF
porém 10/30 ≠50/86.
Medidas de comprimento, áreas, pesos ou intervalos de tempo.
10
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
2. Estatística Descritiva
SUMÁRIO
A variável é uma característica (quantificada) que pode variar de elemento para elemento, de uma
amostra ou população.
Uma variável, enquanto representar apenas a característica e não estiver concretizada em nenhum
elemento, representa-se habitualmente por uma letra maiúscula. Quando se pretende representar o
valor da variável para um indivíduo utiliza-se a respectiva letra minúscula.
Exemplo:
X representa a hemoglobina no sangue;
x =14,2 representa a hemoglobina de um certo indivíduo
Uma amostra pode conter mais de uma característica para cada uma das unidades observadas.
Por exemplo na população angolana, podem interessar várias características dos indivíduos: o
peso, a altura, a cor dos olhos, a raça, o tipo de sangue, etc.
Tipos de variáveis
Variáveis Quantitativas: são as características que podem ser medidas em uma escala
quantitativa, ou seja, apresentam valores numéricos que fazem sentido. Podem ser contínuas ou
discretas. Com exemplo temos: comprimento de um escaravelho, o nº de filhos de um casal, a
11
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
Variáveis Qualitativas (ou categóricas): são as características que não possuem valores
quantitativos, mas, ao contrário, são definidas por várias categorias, ou seja, representam uma
classificação dos indivíduos. Podem ser nominais ou ordinais. Para exemplo deste tipo de variáveis
pode-se citar as seguintes: o tipo de sangue de uma pessoa (O, A, B e AB); o sexo (Feminino,
Masculino).
Variáveis nominais: não existe ordenação dentre as categorias. Por exemplo: sexo, cor dos
olhos, fumante/não fumante, doente/sadio.
OBS:
Uma variável originalmente quantitativa pode ser colectada de forma qualitativa.
Exemplos:
1- A variável idade, medida em anos completos, é quantitativa (contínua); mas, se for informada
apenas a faixa etária (0 a 5 anos, 6 a 10 anos, etc.), é qualitativa(ordinal).
2- O peso dos lutadores de boxe, uma variável quantitativa (contínua) se trabalha com o valor
obtido na balança, mas qualitativa (ordinal) se o classificarmos nas categorias do boxe (peso -
pena, peso-leve, peso-pesado, etc.).
Outro ponto importante é que nem sempre uma variável representada por números é quantitativa.
Exemplos:
1- O número do telefone de uma pessoa, o número da casa, o número de sua identidade.
2- Às vezes o sexo do indivíduo é registado na placa de dados como 1 se for masculino e 2 se for
feminino. Isto não significa que a variável sexo passou a ser quantitativa!
12
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
Quando nos deparamos com muitos dados não classificados torna-se muito difícil tirar conclusões.
Por isso é necessário proceder a um trabalho prévio de ordenação e apresentação desses valores, e
a mesma pode ser feita por quadros e gráficos.
Quer os quadros, quer os gráficos devem apresentar três partes: o cabeçalho, o corpo e o rodapé. O
cabeçalho deve dar-nos a informação sobre os dados, em que consistem e a que se referem (lugar e
época); o corpo é representado pelas colunas e sub colunas dentro dos quais se apresentam os
dados; no rodapé, para além da identificação dos dados, poderão ainda incluir-se quaisquer
observações pertinentes.
Quadros
A UCAN resolveu observar as alturas (em cm) dos alunos de uma turma de Contabilidade e
Administração do 2º Ano. O resultado obtido foi o seguinte:
Quadro 1: Alturas (em cm) dos alunos de uma turma de C. A do 2º Ano
150 169 174 155 165 170 172
152 158 163 158 166 158 166
170 171 162 171 161 154 168
161 164 166 164 162 156 167
Fonte: UCAN, 2009
13
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
Gráficos
A representação gráfica dos dados estatísticos tem por finalidade, dar uma ideia, mais imediata dos
resultados obtidos permitindo chegar-se a conclusões mais rápidas sobre a evolução do fenómeno em
estudo ou sobre a relação entre os diferentes valores apresentados.
A representação gráfica dos dados estatísticos tem por finalidade, dar uma ideia, mais imediata dos
resultados obtidos permitindo chegar-se a conclusões mais rápidas sobre a evolução do fenómeno em
estudo ou sobre a relação entre os diferentes valores apresentados.
Os mais comuns são: o diagrama de barras, o histograma, gráfico de sectores e o gráfico de linhas.
Gráfico de Linhas
É o mais utilizado de entre todos os tipos de gráficos devido a sua facilidade de execução e de
interpretação. Sua aplicação é mais indicada para representações de séries temporais sendo por tal razão,
conhecidos também como gráficos de séries cronológicas. Sua construção é feita colocando-se no eixo
vertical (y) a mensuração da variável em estudo e na abcissa (x), as unidades da variável numa ordem
crescente.
14
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
Constrói-se colocando os valores da variável em observação num dos eixos (Horizontal) e as frequências no
outro eixo (Vertical).
O gráfico de barras é um gráfico formado por rectângulos horizontais de larguras iguais, onde cada um
deles representa a intensidade de uma modalidade ou atributo. É recomendável que cada coluna conserve
uma distância entre si de aproximadamente 2/3 da largura da base de cada barra, evidenciando deste modo,
a não continuidade na sequência dos dados.
O gráfico de colunas é o gráfico mais utilizado para representar variáveis qualitativas. Difere do gráfico de
barras por serem seus rectângulos dispostos verticalmente ao eixo das abcissas sendo mais indicado quando
as designações das categorias são breves.
15
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
Gráficos de Sectores
Consiste na representação gráfica dos resultados num círculo, por meio de sectores. Este tipo de gráfico
onde a variável em estudo é projectada num círculo, de raio arbitrário, dividido em sectores com áreas
proporcionais às frequências das suas categorias. São indicados quando se deseja comparar cada valor da
série com o total.
16
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
Diagrama diferencial
Este gráfico é formado por segmentos de rectas perpendiculares ao eixo horizontal (eixo da variável), cujo
comprimento corresponde à frequência absoluta ou relativa de cada elemento da distribuição. Suas coordenadas não
podem ser unidas porque a leitura do gráfico deve tornar claro que não há continuidade entre os valores individuais
assumidos pela variável em estudo.
Diagrama Integral
É o gráfico para frequência acumulada de uma variável quantitativa discreta. Na abcissa são alocados os valores
assumidos pela variável número de irmãos e no eixo das ordenadas suas frequências acumuladas.
Histograma
Os histogramas são diagramas de barras utilizados para variáveis quantitativas. São formados por
rectângulos justapostos.
17
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
Então, para finalizar sua elaboração, deve-se acrescentar à distribuição, uma classe à esquerda e outra à
direita, ambas com frequências zero. Tal procedimento permite que a área sob a linha de frequências seja
igual à área do histograma.
18
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
É um gráfico que permite descrever dados quantitativos por meio da frequência acumulada. O polígono de
frequências acumuladas é um gráfico de linha que une os pontos cujas abcissas são os limites superiores das classes,
e, ordenadas suas respectivas frequências acumuladas. Quando os dados contidos em cada classe são distribuídos
uniformemente, pode-se estimar, a partir do polígono, o número de elementos pertencentes a qualquer uma das
classes que compõe a distribuição de frequência dos dados e a quantidade ou percentagem de elementos que estão
abaixo de certo valor pertencente ao conjunto de dados.
Considerando uma população (N) ou uma amostra (n) de indivíduos com a característica que representa p
modalidades observadas X1,X2, X3, …,Xp . Chama-se distribuição de frequência são conjunto de todos os
valores ou modalidades de uma variável e das frequências ou número de ocorrências correspondentes.
Nas tabelas de distribuição de frequências representa-se a forma como uma dada variável se encontra
distribuída pelo conjunto dos indivíduos em que essa variável foi analisada, tendo aplicação tanto em
variáveis qualitativas como quantitativas.
O Quadro de distribuição de frequências é construído da seguinte forma: numa coluna colocam-se todos os
valores que a variável apresenta e na outra coluna o número de ocorrência correspondentes a cada valor da
variável.
19
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
Xi Fi
X1 n1
X2 n2
X3 n3
. .
. .
. .
Xp np
A frequência absoluta (Fi) é o número de vezes que cada modalidade da variável se repete na amostra ou
população. A partir destas podem-se calcular as frequências relativas e as frequências absolutas e relativas
acumuladas.
A frequência relativa (fi) é dada por fi = Fi/N, isto é, o número de vezes que esse valor ocorre (Fi)
relativamente ao total da amostra (n) ou população (N).
Exemplos:
Variável Qualitativa
Suponha que se pretende estudar a marca de computadores portáteis preferida pelos estudantes do ensino
superior. Tendo-se questionado 50 estudantes obtiveram-se os dados representados na Tabela seguinte:
TOSHIBA COMPAQ COMPAQ TOSHIBA TOSHIBA ACER ACER COMPAQ FUJITSU COMPAQ
FUJITSU IBM FUJITSU IBM COMPAQ TOSHIBA FUJITSU FUJITSU IBM TOSHIBA
ACER TOSHIBA IBM IBM IBM IBM FUJITSU COMPAQ TOSHIBA ACER
FUJITSU COMPAQ ACER IBM IBM TOSHIBA COMPAQ TOSHIBA COMPAQ TOSHIBA
20
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
Gráfico sectorial
Porque a marca de computadores é uma variável qualitativa não é possível fazer outro tipo de gráficos.
Interpretação:
Dos 50 estudantes entrevistados 26 preferem a marca Compaq, ao passo que apenas um prefere a
marca HP;
21
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
As marcas Compaq e Toshiba são as marcas mais preferidas pelos estudantes universitários,
representando 48% dos entrevistados.
Variável Discreta
Suponha-se uma experiência concebida para verificar se um dado é ou não viciado. A experiência consistiu
em lançar os dados 112 vezes e registar o resultado obtido em cada lançamento. O espaço amostral desta
experiência é um conjunto discreto, limitado e de dimensão reduzida, correspondendo a A ={1, 2, 3, 4, 5, 6}.
Resultados obtidos em 112 lançamentos de um dado
Nesse caso recorre-se à distribuição dos dados por classes ou células. Aqui será necessário introduzir
alguns conceitos novos como: o número de classes (K), a amplitude (a i), limite e ponto médio ou centro de
classes.
Existem algumas regras básicas que deverão ser consideradas na construção os intervalos:
1- Em geral, o número de classes (K) deverá estar compreendido entre 4 e 14;
2- Nenhuma classe deverá ter uma frequência nula;
3- As classes deverão ter, sempre que possível, amplitudes iguais;
4- Os pontos médios das classes deverão ser números de cálculo fácil;
5- As classes abertas deverão ser evitadas embora nem sempre seja possível fazê-lo;
6- Os limites das classes definidos de modo a que cada valor da variável é incluído num e só num
intervalo.
Levando em consideração as regras básicas, para se determinar o número de classes(K), por vezes é
adoptada a seguintes soluções:
R (Valormáximo Valormínimo )
ai
K K
22
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
O exemplo n.º 2 é mais utilizado, e será o adoptado nas aulas para estudo da estatística descritiva.
O ponto médio ou centro da classe (Ci) é a média aritmética entre o limite inferior e superior da classe.
Exemplo:
A UCAN resolveu observar as alturas (em cm) dos alunos de uma turma de Contabilidade e Administração
do 2º Ano. O resultado obtido foi o seguinte:
174 150
≅ √28 ≅ 5,29 ai 4,53 5
5,29
Classes Fi fi CumFi Cumfi
150-155 3 0,1071 3 0,1071
155-160 5 0,1786 8 0,2857
160-165 7 0,2500 15 0,5357
165-170 7 0,2500 22 0,7857
170-175 6 0,2143 28 1,0000
Soma 28 1
23
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
2.3.1-Medidas de localização
Média Aritmética
A média é uma medida de localização de tendência central, sendo representada por por μconforme se
trate, da média amostral (estatística) ou da média populacional (parâmetro).
A média de um conjunto de dados quantitativos, que se obtém somando todos os valores e dividindo o
resultado pelo nº total de observações.
x i
X i 1
n
Onde:
xi é o valor observado
n é o número total de observações
24
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
Dados Discretos
n
X i Fi n
i 1
X i fi
N i 1
X i Fi n
X i 1
X i fi
n i 1
Onde:.
Dados Contínuos
n
C F i i n
i 1
Ci f i
N i 1
C F i i n
X i 1
Ci f i
n i 1
Onde:
Ci : centro da classe; N : é somatório de Fi; Fi: é a frequência absoluta e fi a frequência relativa.
6- A média do quadrado dos desvios dos valores da variável em relação à média é mínima.
f X
2
i i
É mínimo
A média aritmética tem vantagens e desvantagens.
Vantagens:
25
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
Desvantagens:
- Ser influenciada por valores extremos que tomam um peso significativo no calculo da média;
- Poder não corresponder a um valor concreto da variável
Mediana
É o valor que divide uma série ordenada de tal forma que pelo menos a metade das observações
sejam iguais ou maiores do que ela, e que haja pelo menos outra metade de observações maiores
do que ela.
Dados discretos
Quando se tratam de dados discreto, primeiramente temos que saber se a distribuição é par ou
impar.
N 1
-Se F N For impar então, a mediana seráo central de ordem
i
2
N 2 N
-Se FiN For impar então, a mediana serão central de ordem 2 2
2
Exemplo 1:
Xi Fi CumFi
1 1 1
2 3 4
3 7 11
4 2 13
Soma 13
1- Calcular:
N 1 13 1
7
2 2
26
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
2- Achar a frequência acumulada absoluta que contém este valor 7, neste caso a frequência
acumulada que contém 7 é a11;
Exemplo 2:
Xi Fi CumFi
82 5 5
85 10 15
87 15 30
89 8 38
90 4 42
Soma 42
1- Calcular:
N 2 N 42 2 42
2 2 2 2 21,5
2 2
2- Achar a frequência acumulada absoluta que contém este valor 21,5, neste caso a frequência
acumulada que contém 21,5 é a30;
Dados Contínuos
Quando se tratam de dados contínuos, não interessa saber se a distribuição é par ou impar.
1- Calcula-se
2- Achar a frequência acumulada absoluta que contém este valor, calculado em1,
N
CumFi ( Me 1)
Me li( Me ) 2 a( Me )
Fi ( Me )
Onde:
li (Me): limite inferior da classe mediana
27
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
A mediana é uma medida comum das propriedades de conjuntos de dados em estatística e em teoria das
probabilidades, com importância central na estatística robusta. A estatística robusta é mais resistente, com
ponto de rotura de 50%. A mediana não fornece resultados arbitrariamente grandes desde que mais da
metade dos dados não esteja contaminada.
A vantagem da mediana em relação à média é que a mediana pode dar uma ideia melhor de um valor típico
porque não é tão distorcida por valores extremamente altos ou baixos. Em estudos estatísticos sobre renda
familiar ou outros activos voláteis, a média pode ser distorcida por um pequeno número de valores
extremamente altos ou baixos.
Moda
A moda (Mo) é o valor mais frequente da distribuição, ou ainda o valor que mais observações apresentam
no conjunto dados.
Para variáveis quantitativas discretas ou qualitativas é simplesmente a variável mais frequente (ou mais
observada), isto é o valor Xi da frequência absoluta mais elevada.
Fi ( Mo 1)
Mo li ( Mo ) a( Mo )
Fi ( Mo 1) Fi ( Mo 1)
28
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
Onde:
li (Mo): limite inferior da classe modal
Fi(Mo-1): frequência absoluta da classe anterior à classe da moda;
Fi(Mo+1): frequência absoluta da classe da moda
a(Mo): amplitude da classe da moda
f i ( Mo 1)
Mo li ( Mo ) a( Mo )
f i ( Mo 1) f i ( Mo 1)
Onde:
Graficamente, utilizando-se um conjunto de dados hipotéticos, identifica-se a classe modal como aquela
que apresenta o rectângulo de maior altura (frequência). A intersecção das reptas que unem os pontos AD e
os pontos BC, determina o ponto P que, projectado perpendicularmente no eixo da variável, corresponderá
ao valor da moda Mo.
Vantagens:
Fácil de calcular e interpretar e não é afectada por valores extremos;
Desvantagem
Não pode ser definida com rigor e o seu valor exacto ser muitas das vezes incerto
Quartis
Os quartis são os valores da variável observada que dividem a distribuição de frequências em 4 partes
iguais.
29
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
Q1 – Primeiro Quartil – é o valor da variável observada tal que o nº de observações para valores
inferiores a Q1 será de 25% e o nº de observações para valores superiores a Q1 será de 75%;
Q2 – Segundo Quartil – é o valor da variável tal que metade das observações encontram-se à sua
esquerda e a outra metade à sua direita, logo, coincide com a mediana;
Q3 – Terceiro Quartil – é o valor da variável observada tal que o nº de observações para valores
inferiores a Q3 será de 75% (3/4) e o nº de observações para valores superiores a Q3 será de 25%
(1/4).
Dados discretos
Dados contínuos
Onde:
li (Qi): limite inferior da classe do quartil
Fi(Qi-1): frequência absoluta da classe anterior à classe do quartil;
Fi(Qi+1): frequência absoluta da classe do quartil
a(Qi): amplitude da classe do quartil
Q % Cumf i ( Qi 1)
Qi li( Q ) a( Qi )
f i ( Qi )
Onde:
30
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
Decis
Os decis são os valores da variável que dividem a distribuição em 10 partes iguais. O número de decis é 9
(do D1 até o D9).
Dados discretos
Dados Contínuos
Uti1iza-se os mesmos passos do quartil, diferenciando a penas as letras, representa-se com a letra D para o decil:
N D % CumFi ( Di 1)
Di li( Q ) a( Di )
Fi ( Di )
Onde:
li (Di): limite inferior da classe do decil
Fi(Di-1): frequência absoluta da classe anterior à classe do decil
Fi(Di+1): frequência absoluta da classe do decil
a(Di): amplitude da classe do decil
D % Cumf i ( Di 1)
Di li( Di ) a ( Di )
f i ( Di )
Fi(Di-1): frequência relativa da classe anterior à classe do decil
Fi(Di+1): frequência relativa da classe do decil
a(Di): amplitude da classe do decil
Percentis
Os percentis dividem a distribuição em 100 partes iguais. O número de percentis é 99 (do P1 ao P99).
Dados discretos
Dados Contínuos
31
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
Uti1iza-se os mesmos passos do quartil, diferenciando a penas as letras, representa-se com a letra P:
N P % CumFi ( Pi 1)
Pi li( Pi ) a ( Pi )
Fi ( Pi )
Onde:
li (Pi): limite inferior da classe do percentil
Fi(Pi-1): frequência absoluta da classe anterior à classe do percentil
Fi(Pi+1): frequência absoluta da classe do percentil
a(Pi): amplitude da classe do percentil
P % Cumf i ( Pi 1)
Pi li( Pi ) a ( Pi )
f i ( Pi )
Fi(Pi-1): frequência relativa da classe anterior à classe do percentil
Fi(Pi+1): frequência relativa da classe do percentil
a(Pi): amplitude da classe do percentil
As medidas de dispersão têm por finalidade verificar a representatividade das medidas de localização.
Medidas de distância
São aqueles cujos valores estão representados nas mesmas unidades que os dados e onde não é
necessário o cálculo de uma medida de localização.
Exemplo:
32
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
Exemplo:
Desvio Médio Absoluto, é uma media de dispersão não negativa e quanto maior o seu valor maior a
dispersão da variável.
DM
X i
N
DM fi X i
DM fi Ci
Variância é a soma dos quadrados das diferenças entre os valores da variável e a média, dividida pelo
número de observações. Tem a desvantagem de se traduzir no quadrado das unidades em que está definida
a variável X.
n n
( X i )2 (X i X )2
2 i 1
S2 i 1
N n
Para dados discretos:
33
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
n n
2 fi ( X i )2 2 f i X i2 2
i 1 i 1
2 S S2
Coeficiente de variação
O Coeficiente de variação (Cv) é uma média relativa de dispersão, útil para a compreensão em termos
relativos do grau de concentração em torno da média, de distribuição de frequências distintas. É dado pela
relação em termos percentuais entre o desvio padrão e a média da distribuição.
Cv 100
s
Cv 100
X
A medida de assimetria é um indicador da forma da distribuição dos dados. Ao construir uma distribuição
de frequências e/ou um histograma, está-se buscando, também, identificar visualmente, a forma da
distribuição dos dados que é ou não confirmada pelo coeficiente de assimetria de Pearson.
34
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
Existem outros indicadores quantitativos que permitem estimar, com maior precisão, o grau de uma
distribuição.
O coeficiente de Pearson:
Mo Q3 Q1 2 Me
G1 G2
IQ
Se G = 0, a distribuição é simétrica;
Se G > 0, a distribuição é assimétrica positiva;
Se G < 0, a distribuição é assimétrica negativa.
Curtose é o grau de achatamento de uma distribuição. A Curtose ou achatamento é mais uma medida com a
finalidade de complementar a caracterização da dispersão em uma distribuição. Esta medida quantifica a
concentração ou dispersão dos valores de um conjunto de dados em relação às medidas de tendência central
em uma distribuição de frequências. O achatamento pode ser: leptocúrtica, mesocúrtica e platicúrtica.
IQ
K
2P90 P10
35
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
Estudar a associação entre variáveis permitirá, numa fase posterior, elaborar previsões, é o facto de se
poder estabelecer uma relação do tipo causa-efeito entre as variáveis. Isto é, só é viável fazer previsões
com base em relações estatísticas entre variáveis se a variação de uma delas puder ser atribuída à variação
da outra.
Um diagrama de dispersão consiste num gráfico constituído por pontos discretos onde cada ponto, Pi,
representa um par de valores observados, (xi, yi). xi representa o valor da variável independente observada
para o indivíduo Pi e yi representa o valor da variável dependente observada para esse mesmo indivíduo.
O diagrama de dispersão tem uma função dupla: por um lado ajuda a destrinçar se existe alguma
associação entre as variáveis, por outro permite identificar qual o modelo matemático (equação) mais
apropriado para descrever essa associação.
Nos gráficos da Figura seguinte apresentam-se vários exemplos de diagramas de dispersão e as conclusões
que deles se podem tirar acerca da relação entre as variáveis.
36
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
No caso de existir uma relação entre as variáveis esta pode ser de vários tipos: linear (casos (a) e(b) da
figura), polinomial (caso (c) da figura – polinómio do 2º grau), exponencial, logarítmica, etc.
A relação mais simples é do tipo linear, sendo possível linearizar algumas das relações não lineares
exemplificadas no parágrafo anterior.
Uma relação do tipo linear entre as variáveis pode ser descrita matematicamente pela equação:
Y a bX e
A equação anterior representa pois uma recta que, quando ajustada aos dados do diagrama de
dispersão, se chama recta de regressão ou recta ajustada.
Ao ajustar uma recta de regressão aos dados observados anulamos os efeitos da variável residual. A
37
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
Diremos que geometricamente, a curva de uma função de regressão é o espaço geométrico onde as médias ou
expectativas condicionais das variáveis dependentes para os valores fixados da variável explicativa;
E (Y X i ) f ( X i ) Equação 1
Onde X é uma função explicativa e Y a variável explicada, linear em X. Chamaremos assim a equação 1 como
função de população de regressão (FPR) de duas variáveis. Assim, assumindo que X pode tomar valores nulos,
podemos transcrever a FPR como:
E (Y X i ) a bX i Equação 2
2.4.3 Propriedades
a) A LINEARIDADE
Assumimos que a nossa FRP é linear, o que significa que a expectativa condicional de Y em relação a X é
consequência de uma função linear, podendo esta ser representada geometricamente por um gráfico.
Semelhantemente, a FRP é linear nos parâmetros.
b) A ESPECIFICAÇÃO ESTOCÁSTICA
Consideremos que dada a variável Y e a sua estimativa condicional em relação a Y, ocorrerá sempre um
desvio a que chamaremos o erro termo, a perturbação estocástica ou ainda o white noise:
Yi E (Y X i ) ei Equação 3
38
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
Assim sendo o primeiro elemento do lado esquerdo será o elemento sistemático ou determinístico, e o
segundo termo, corresponde ao componente assistemática ou aleatória, cuja propriedade facilmente
podemos obter quando aplicamos expectativas em ambos os lados da equação condicional a X:
E (Y X i ) E E (Y X i ) E (ei X i ) Equação 4
E (Y X i ) E (Y X i ) E (ei X i )
note que para que a igualdade vigore, é necessário que E (ei X i ) seja igual a zero
E ( ei X i ) 0 Equação 5
Neste contexto, considerando que ao extrapolar o caso para a vida prática, encontraremos variáveis
sendo explicadas por outras, o termo erro i representará sempre aqueles factores não considerados na
explicação da variável dependente. Isso pode ser o caso de variáveis omissas.
Para além do aspecto da omissão de variáveis destacado no ponto anterior, existem outros factores que
justificam a razão de existência da perturbação estocástica no nosso modelo, apontando-se:
1. Inexactidão da teoria
2. Escassez de dados
3. Forma funcional errada
4. Casualidade intrínseca ao comportamento humano
5. Variáveis essenciais versus variáveis periféricas
Conforme referido anteriormente, constitui objecto principal testar a FRP tendo como referência a FRA.
Dos enumeras métodos existentes, vamos aqui considerar o método dos quadrados mínimos MQO também
denominado por Ordinary Least Squares –OLS desenvolvido pelo matemático Alemão Car Friederich
Gauss. O método em causa baseia-se no princípio dos mínimos quadrados.
39
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
Sabe-se que a FRP Yi a bX i ei não é directamente observável, o que nós conhecemos é sim
Yˆa aˆ bˆX i eˆi conforme as equações 6 e 7 o elemento erro ou resíduo é dado pela diferença do Y
observado e Ya estimado.
ei Yi Yˆa Equação 8
O interesse consistirá neste caso em determinar a FRA mais próxima do Y observado, o que em outras
palavras pressupõe dizer que quanto menor for resíduo quadrado melhor será. eˆi Yi Yˆa . Note que
o critério MQO consiste em minimizar a soma do erro. Porém, veja na figura, a soma do erro eˆ1 , eˆ2 , eˆ3 , eˆ4 é
nula, dada a sua assimetria. Entretanto, nós estamos mais interessados é no quadrado da soma, pois fazendo
assim tornamos os valores negativos em positivos e o interesse consistirá em encontrar o menor valor
possível o que em outras palavras significa obter resíduos mais próximos da FRA.
Uma vez que os valores observados são dados por Y e os valores ajustados são dados por Ya. O que se
pretende através do método dos mínimos quadrados é minimizar o somatório dos quadrados das diferenças,
isto é, minimizar o somatório do quadrado dos resíduos.
min e
2
i
a ,b
Para o último somatório, ou para qualquer outro polinómio quadrático, os pontos mínimos encontram-se
quando as primeiras derivadas forem nulas e as segundas derivadas forem positivas (concavidade voltada
para cima). Assim, a função de minimização estabelecida, pode ser resolvida através dos sistemas, que
conduzem às seguintes expressões para b (declive da recta ajustada) e para a (ordenada na origem da recta
40
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
ajustada):
b
n Yi X i X i Yi
b
X Y Y X
i i i
b
X Y nY X
i i
X i
2
n X i
2
X XX i
2
i X nX
i
2 2
a Y bX
Assumindo dados centrados então podemos, podemos calcular b pela seguinte fórmula:
b
x y i i
x 2
i
Onde:
xi é valor centrado, calculado da seguinte forma: = −
sendo que o∑ = 0 e∑ =0
∑
=
∑
=
Veremos agora as hipóteses básicas do Modelo Clássico de Regressão Linear (MCRL), que de uma forma mais
avançada, infere as hipóteses enunciadas por Gauss Markov.
Hipótese 1 - Modelo de Regressão Linear - O modelo é linear nos parâmetros conforme mostrado em;
Yi a bX i ei
Hipótese 2 -Os valores de X são fixados em amostras iterativas – Os valores assumidos pelo regressor X
são considerados fixados em repetidas amostras. A variável é um dado não estocástico.
Hipótese 3 - O valor médio do resíduo ei é nulo – Dado o valor X, o valor esperado da perturbação
residual é zero.
41
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
E ei X i 0
Hipótese 4 -Homoskedasticidade ou variância igual ei- Dado o valor da variável independente, a variância
é invariante ao tempo
var ei X i E ei E ei X i
2
E ei2 X i 2
Hipótese 5 -Não existe auto-correlação entre as perturbações e, entre a perturbação hei e a variável
independente X- Dados dois valores ei e ej tal que (i≠j) a correlação entre quaisquer resíduos de diferentes
períodos é zero.
cov ei , e j X i , X j E ei E ei X i e j E e j X j
E ei X i e j X j
0
Quando se procede ao ajuste de uma determinada recta de regressão aos dados observados, podemos ainda
tirar conclusões acerca da qualidade do ajuste através do cálculo de outro coeficiente: o coeficiente de
determinação.
O coeficiente de determinação, notado por R2, mede a qualidade do ajuste entre a recta e os dados e o seu
valor é um número real compreendido entre 0 e 1. Se R2for 1 a qualidade do ajuste é perfeita (positiva ou
negativa), não existindo relação linear se R2=0.
R R2
42
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
Este coeficiente mede o grau da correlação (e a direcção dessa correlação - se positiva ou negativa) entre
duas variáveis de escala métrica (intervalar ou de rácio/razão).
n X iYi X i Yi
R
n X i2 X i 2 n Yi 2 Yi 2
D X Y
Interpretação do coeficiente de correlação:
2.4.5.5Covariância
A covariância é também uma medida do grau de associação linear entre duas variáveis. A covariância é
uma medida do grau de interdependência (ou inter-relação) numérica entre duas variáveis aleatórias.
Assim, variáveis independentes têm covariância zero.
43
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
Cov x , y
x y i i
A covariância é semelhante à correlação, mas quando a covariância é calculada, os dados não são
padronizados. Portanto, a covariância é expressa em unidades que variam de acordo com os dados e não é
convertida para uma escala normalizada de -1 a +1.
3. Teoria da Probabilidade
SUMÁRIO:
3.1 Conceitos da teoria das probabilidades
3.2 Álgebra dos acontecimentos (operações e probabilidades)
3.3 Conceitos de probabilidades
3.4 Axiomas da teoria das probabilidades
3.5 Probabilidades Condicionadas
3.6 Acontecimentos independentes
3.7 Teorema da probabilidade total Teorema de BAYES
44
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
Uma experiência aleatória é uma experiência sobre a qual não se pode dizer qual vai ser o resultado, antes
de a realizarmos. Por oposição, temos o conceito de experiência determinística, que é aquela cujo
resultado é possível prever, com absoluta certeza.
Por exemplo é possível prever que se atirarmos uma pedra ao ar, ela cai (experiência determinística), mas
já não é possível prever qual vai ser o resultado de um lançamento de um dado (experiência aleatória).
Espaço de resultados
Os resultados possíveis desta experiência são: saída de face 1, saída de face 2, saída de face 3, saída de face
4, saída de face 5, saída de face6.
Espaço de resultados conjunto de todos os resultados possíveis associados a uma experiência aleatória.
O espaço de resultados associado a uma experiência é normalmente representado pela letra Grega Ω.
Exemplo 1:
Experiência aleatória: lançamento de uma moeda duas vezes consecutivas. Espaço de resultados: H = {(C,
C), (C, F), (F, C), (F, F)}
(C representa saída de coroa; F representa saída de face).
3.2- Acontecimentos
O acontecimento C diz-se elementar, pois a sua realização depende apenas da ocorrência de um único
resultado do espaço de resultados.
45
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
Ao conjunto de todos os acontecimentos que se podem associar a uma experiência aleatória damos o nome
de espaço de acontecimentos.
Consideremos, por exemplo, a experiência aleatória lançamento de um rapa. Espaço de resultados: Ω = {R,
T, D, P} (Rapa, Tira, Deixa, Põe)
O conjunto de todos os subconjuntos de Ω representa-se por P(Ω ) (conjunto das partes de Ω). Se Ω tiver 8
elementos, então P(Ω ) tem 2n elementos.
A B, diz-se união de A com B, é o acontecimento que consiste na realização de pelo menos um deles;
46
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
A probabilidade é uma medida do grau de incerteza de um dado acontecimento aleatório, donde o estudo
da teoria das probabilidades estar na base da inferência estatística.
Se a uma experiência aleatória pode-se classificar à priori todos os resultados os possíveis num número
finito n de casos mutuamente exclusivos e igualmente prováveis, então o cálculo da probabilidade de um
acontecimento A ocorrer resume-se à contagem do número de resultados possíveis N e do número de
resultados favoráveis a A, nA resultados.
n
P[A] A
N
Onde:
nA é o número de casos favoráveis a A
47
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
Exemplo:
Num lançamento de um dado equilibrado qual a probabilidade de sair um número ímpar?
Só pode ser aplicada se o número de resultados possíveis da experiência aleatória for finito. Só pode ser
aplicada se os resultados forem igualmente prováveis.
Uma determinada experiência aleatória é repetida n vezes em idênticas condições, tendo o acontecimento A
se realizado nA vezes. Seja = sua frequência relativa.
A probabilidade subjectiva é dada pelo grau de credibilidade ou de confiança que cada pessoa dá à
realização de um dado acontecimento aleatório. Daí que seja subjectiva porque para o mesmo
acontecimento diferentes pessoas podem dar diferentes probabilidades.
Exemplos:
48
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
1- O Miguel acha que a probabilidade do Benfica ganhar o campeonato é superior a 0,6; já o António
acha que essa probabilidade é inferior a 0,5;
Consideremos que P(.) é uma função que associa a todo o acontecimento A definido em Ω um
número compreendido no intervalo [0,1] e satisfaz os seguintes axiomas:
49
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
Teorema 2:
A probabilidade do acontecimento impossível é zero, isto é P 0 .
Teorema 3:
Teorema 4:
Para n = 3
50
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
1- ( )≥0
( ⋂ )
Tem-se: ( ) = ( | ) = ( )
≥0
2- (Ω)=1
( ⋂ ) ( )
Tem-se: (Ω) = (Ω| ) = = =1
( ) ( )
3- Se ∩ = ∅ então ( ∪ )= ( )+ ( )
[ ∩( ∪ )]
Tem-se: P (B ∪ B ) = P (B ∪ B |A) =
( )
[( ∩ )∪( ∩ )] [( ∩ )+( ∩ )]
= =
( ) ( )
[( ∩ ] [( ∩ ]
= + = ( )+ ( )
( ) ( )
51
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
Portanto, de P[A B] PAPB | Avem: Se A e B são independentes, então P[A B]
PAPB.
P[ A] 0 e P[B] 0
Os acontecimentos não podem ser independentes pois, para tal, e por definição, seria têm
probabilidades não nulas.
Caso os acontecimentos sejam independentes não podem ser mutuamente exclusivos, pois se
são independentes então, P[A B] P(A) P(B) é maior que zero; para serem
simultaneamente mutuamente exclusivos esta probabilidade teria de ser nula, facto impossível a
não ser que algum dos acontecimentos tivesse probabilidade nula, o que não é o caso.
Quer dizer, que, dois acontecimentos não podem ser simultaneamente dependente e mutuamente
exclusivos, porem existe excepções, é o caso em que um dos acontecimentos é impossível,
porque este é sempre independente e mutuamente exclusivo de todo e qualquer outro
acontecimento possível.
P[AB]0e P[ A B] 1
.
52
Draft Estatistica 1, Outubro 2020 | Albertina Delgado
Se os acontecimentos A1, A2, … An definem uma repartição sobre , então para qualquer
acontecimento B definido em tem-se que:
n
Em teoria das probabilidades, o teorema de Bayes descreve a probabilidade de um evento, tendo com
base um conhecimento a priori que pode estar relacionado ao evento. O teorema mostra como alterar as
probabilidades a priori tendo em vista novas evidências para obter probabilidades a posteriori.
Uma das muitas aplicações do teorema de Bayes é a inferência bayesiana, uma abordagem da inferência
estatística. Quando aplicado, as probabilidades envolvidas no teorema de Bayes podem ter diferentes
significados de probabilidade.
Se A1, A2, … An definem uma repartição sobre , então para B definido em , com P[B] 0 :
53