Você está na página 1de 14

1

marcely silveira - marcely_silveira@hotmail.com - CPF: 014.998.545-28


Você acaba de adquirir o material de Noções de Probabilidade e Estatística para o
concurso da CAIXA ECONÔMICA FEDERAL.

Esse material é totalmente focado no certame e aborda os principais pontos do


edital da disciplina de Língua Portuguesa.

Caso tenha qualquer dúvida, você pode entrar em contato conosco enviando seus
questionamentos para o seguinte e-mail: cadernomapeado@gmail.com.

Bons Estudos!

Rumo à aprovação!!

marcely silveira - marcely_silveira@hotmail.com - CPF: 014.998.545-28


CONSIDERAÇÕES INICIAIS .......................................................................................................................... 4
REPRESENTAÇÃO TABULAR E GRÁFICA .................................................................................................. 5
MEDIDAS DE TENDÊNCIA CENTRAL E DE DISPERSÃO ........................................................................ 7
CÁLCULO DE PROBABILIDADE................................................................................................................. 10
TEOREMA DE BAYES E PROBABILIDADE CONDICIONAL .................................................................. 11
POPULAÇÃO E AMOSTRA ......................................................................................................................... 12
CORRELAÇÃO LINEAR SIMPLES ............................................................................................................... 13

marcely silveira - marcely_silveira@hotmail.com - CPF: 014.998.545-28


CONSIDERAÇÕES INICIAIS

Pessoal!

Antes de iniciarmos o estudo de Noções de Probabilidade e Estatística, apresentaremos os


assuntos que deverão ser cobrados no edital da CAIXA ECONÔMICA FEDERAL.

CONTEÚDO

1 - Representação tabular e gráfica.

2 - Medidas de tendência central (média, mediana, moda, medidas de posição, mínimo e máximo) e de
dispersão (amplitude, amplitude interquartil, variância, desvio padrão e coeficiente de variação).

3 - Cálculo de probabilidade.

4 - Teorema de Bayes e Probabilidade condicional.

5 - População e amostra.

6 - Correlação linear simples.

marcely silveira - marcely_silveira@hotmail.com - CPF: 014.998.545-28


REPRESENTAÇÃO TABULAR E GRÁFICA

A representação tabular e gráfica é uma parte fundamental da disciplina de estatística. Ela envolve a
organização e a apresentação dos dados coletados de forma clara e visualmente atraente,
permitindo uma compreensão mais fácil e rápida das informações. Tanto as tabelas quanto os
gráficos desempenham um papel importante na análise e na interpretação dos dados estatísticos.

1) Representação tubular

A representação tabular envolve a criação de tabelas que organizam os dados em colunas e linhas.
Cada coluna geralmente representa uma variável ou uma categoria específica, enquanto cada linha
representa uma observação individual. As tabelas podem ser simples, contendo apenas algumas
colunas e linhas, ou podem ser mais complexas, com várias variáveis e categorias. Além disso, as
tabelas podem incluir medidas de resumo, como médias, medianas e desvios padrão, para fornecer
uma visão geral dos dados.

Suponhamos que uma pesquisa foi realizada para coletar dados sobre o desempenho acadêmico de
um grupo de estudantes em três disciplinas: Matemática, Ciências e Português. A representação
tabular dos dados pode ser feita da seguinte forma:

ESTUDANTE MATEMÁTICA CIÊNCIAS PORTUGUÊS

Estudante 1 8 7 6

Estudante 2 9 8 7

Estudante 3 7 6 8

Estudante 4 6 5 6

Estudante 5 10 9 9

Nesse exemplo, cada linha representa um estudante específico, enquanto as colunas representam as
três disciplinas. Os valores nas células indicam as notas obtidas pelos estudantes em cada disciplina.

Essa tabela fornece uma visão organizada dos dados coletados, permitindo uma fácil comparação
das notas dos estudantes em diferentes disciplinas. Ela também pode ser usada para calcular
medidas de resumo, como médias, medianas e desvios padrão para cada disciplina, fornecendo uma
visão geral do desempenho do grupo como um todo.

marcely silveira - marcely_silveira@hotmail.com - CPF: 014.998.545-28


Além disso, a representação tabular permite a realização de análises específicas, como identificar o
estudante com a nota mais alta em cada disciplina ou calcular a média geral do grupo. Essas
informações podem ser facilmente extraídas da tabela, proporcionando uma compreensão mais
precisa e concisa dos dados coletados.

2) Representação gráfica

Os gráficos, por outro lado, são representações visuais dos dados. Eles podem ser usados para
ilustrar padrões, tendências e relações entre as variáveis. Os tipos comuns de gráficos utilizados na
estatística incluem gráficos de barras, gráficos de colunas, gráficos de setores, histogramas, gráficos
de dispersão e gráficos de linhas. Cada tipo de gráfico é adequado para diferentes tipos de dados e
propósitos analíticos.

Com base nos mesmos dados sobre o desempenho acadêmico dos estudantes em três disciplinas
(Matemática, Ciências e Português), um exemplo de representação gráfica pode ser um gráfico de
barras. Suponha que desejamos comparar as notas médias obtidas em cada disciplina. O gráfico de
barras pode ser construído da seguinte maneira:

12

10

0
Estudante 1 Estudante 2 Estudante 3 Estudante 4 Estudante 5

Matemática Ciências Português

Nesse gráfico de barras, cada barra representa uma disciplina (Matemática, Ciências e Português) e
a altura das barras indica as notas médias obtidas em cada disciplina. As escalas das notas e das
disciplinas estão representadas no eixo vertical e horizontal, respectivamente.

Ao observar o gráfico de barras, é possível comparar facilmente as notas médias entre as disciplinas.
Por exemplo, se a barra correspondente à disciplina de Matemática for mais alta do que as outras,
podemos concluir que a média das notas em Matemática é mais alta em comparação com Ciências
e Português.
6

marcely silveira - marcely_silveira@hotmail.com - CPF: 014.998.545-28


A representação gráfica oferece uma visualização rápida e clara das diferenças nas notas médias das
disciplinas, facilitando a comparação e a identificação de padrões ou tendências nos dados. Além
disso, a escolha do gráfico de barras permite uma fácil interpretação dos resultados, destacando as
discrepâncias nas notas entre as disciplinas de forma visualmente impactante.

A escolha entre a representação tabular e gráfica depende do objetivo da análise e do tipo de dados
envolvidos. As tabelas são úteis quando se deseja examinar os valores específicos dos dados ou
quando se precisa realizar cálculos precisos. Elas são particularmente adequadas para dados
numéricos ou categóricos discretos. Por outro lado, os gráficos são excelentes para visualizar
padrões, comparações e tendências gerais nos dados. Eles são eficazes para dados contínuos ou
categóricos e podem transmitir informações de forma mais intuitiva e impactante.

Além disso, a representação tabular e gráfica podem ser complementares. Muitas vezes, é útil
apresentar os dados tanto em forma tabular quanto gráfica para fornecer uma compreensão
abrangente dos resultados. Por exemplo, uma tabela pode fornecer detalhes específicos sobre os
valores médios, enquanto um gráfico de linhas pode mostrar a tendência geral dos dados ao longo
do tempo.

Em resumo, a representação tabular e gráfica desempenham um papel crucial na estatística,


permitindo a organização, visualização e interpretação dos dados. Elas são ferramentas poderosas
para comunicar informações estatísticas de maneira eficaz, facilitando a compreensão dos padrões
e insights contidos nos dados coletados.

MEDIDAS DE TENDÊNCIA CENTRAL E DE DISPERSÃO

As medidas de tendência central e dispersão são conceitos fundamentais na análise estatística. Elas
fornecem informações sobre a localização central e a variabilidade dos dados, respectivamente.

1) Medidas de Tendência Central

As medidas de tendência central são utilizadas para descrever o valor central ou típico de um
conjunto de dados. Elas fornecem uma indicação do ponto em torno do qual os valores se
concentram

Média: A média é a medida mais comum de tendência central. Ela é calculada somando todos
os valores e dividindo pelo número total de observações. A média é sensível a valores extremos e
pode ser afetada por eles.

Suponha que tenhamos o seguinte conjunto de dados: 5, 7, 9, 11, 13. A média é calculada somando
todos os valores e dividindo pelo número total de observações: (5 + 7 + 9 + 11 + 13) / 5 = 9.
Portanto, a média é 9.

marcely silveira - marcely_silveira@hotmail.com - CPF: 014.998.545-28


Mediana: A mediana é o valor que divide o conjunto de dados em duas partes iguais, ou seja,
50% dos valores estão abaixo dela e 50% estão acima. A mediana é menos sensível a valores
extremos do que a média e é uma medida robusta.

Considerando o mesmo conjunto de dados: 5, 7, 9, 11, 13. A mediana é o valor que divide o conjunto
de dados em duas partes iguais. Nesse caso, como temos um número ímpar de observações, a
mediana é o valor do meio, que é 9.

Moda: A moda é o valor que ocorre com maior frequência no conjunto de dados. Pode haver
casos em que não existe uma moda clara (dados bimodais, multimodais) ou quando todos os valores
ocorrem com a mesma frequência (dados amodais).

Tomando o conjunto de dados: 5, 7, 9, 9, 11, 13. A moda é o valor que ocorre com maior frequência.
Neste caso, a moda é 9, pois é o valor que se repete com mais frequência.

Medidas de posição: Além da média, mediana e moda, existem outras medidas de posição,
como quartis, percentis e decis. Essas medidas dividem os dados em partes iguais, fornecendo
informações sobre a distribuição relativa dos valores.

Para ilustrar essa medida, vamos considerar o conjunto de dados novamente: 5, 7, 9, 11, 13. Os
quartis dividem os dados em partes iguais. O primeiro quartil (Q1) é o valor que divide os 25%
inferiores dos dados, o segundo quartil (Q2) é a mediana (50% dos dados abaixo e 50% acima) e o
terceiro quartil (Q3) divide os 75% inferiores dos dados. Supondo que os quartis sejam 6, 9 e 12,
respectivamente, essas medidas fornecem informações sobre a distribuição relativa dos valores.

Mínimo e máximo: O mínimo é o menor valor observado no conjunto de dados, enquanto o


máximo é o maior valor. Essas medidas simplesmente indicam os limites inferiores e superiores do
conjunto de dados.

No mesmo conjunto de dados: 5, 7, 9, 11, 13, o mínimo é 5 (o menor valor) e o máximo é 13 (o maior
valor).

2) Medidas de Dispersão

As medidas de dispersão são utilizadas para descrever a variabilidade, espalhamento ou dispersão


dos dados em relação à medida de tendência central. Elas fornecem informações sobre a extensão
com que os valores variam em torno da média.

marcely silveira - marcely_silveira@hotmail.com - CPF: 014.998.545-28


Amplitude: A amplitude é a diferença entre o maior e o menor valor do conjunto de dados.
Embora seja fácil de calcular, a amplitude pode ser influenciada por valores extremos e não fornece
uma medida precisa da dispersão dos dados.

Utilizando o conjunto de dados: 5, 7, 9, 11, 13, a amplitude é a diferença entre o maior valor (13) e o
menor valor (5), que é igual a 8.

Amplitude interquartil: A amplitude interquartil é a diferença entre o terceiro quartil (Q3) e o


primeiro quartil (Q1). Ela fornece uma medida robusta de dispersão, pois é menos afetada por valores
extremos.

Continuando com o conjunto de dados anterior, suponhamos que o primeiro quartil (Q1) seja 6 e o
terceiro quartil (Q3) seja 12. A amplitude interquartil é calculada como a diferença entre Q3 e Q1: 12
- 6 = 6.

Variância: A variância é uma medida de dispersão que mede o quão distantes os valores estão
da média. É calculada como a média dos quadrados das diferenças entre cada valor e a média. A
variância pode ser influenciada por valores extremos e é expressa em unidades ao quadrado.

Para calcular a variância, utilizamos o mesmo conjunto de dados: 5, 7, 9, 11, 13. Primeiro, calculamos
a média (que já foi encontrada como 9). Em seguida, calculamos as diferenças entre cada valor e a
média, elevamos essas diferenças ao quadrado, somamos todas as diferenças ao quadrado e
dividimos pelo número total de observações. Suponhamos que as diferenças ao quadrado sejam 16,
4, 0, 4 e 16. Somando todas elas, obtemos 40. Dividindo por 5 (número de observações), a variância
é igual a 8.

Desvio padrão: O desvio padrão é a raiz quadrada da variância. Ele representa a dispersão média
dos valores em relação à média. O desvio padrão é uma medida mais intuitiva, pois está na mesma
unidade dos dados originais.

O desvio padrão é a raiz quadrada da variância. No exemplo anterior, a variância foi calculada como
8. A raiz quadrada de 8 é aproximadamente 2,83. Portanto, o desvio padrão é 2,83.

Coeficiente de variação: O coeficiente de variação é calculado dividindo o desvio padrão pela


média e multiplicando por 100. Essa medida expressa a variabilidade relativa dos dados em relação
à média. É útil para comparar a dispersão de conjuntos de dados diferentes, especialmente quando
eles têm médias diferentes.

marcely silveira - marcely_silveira@hotmail.com - CPF: 014.998.545-28


Para calcular o coeficiente de variação, dividimos o desvio padrão pela média e multiplicamos por
100. No conjunto de dados mencionado anteriormente, o desvio padrão é 2,83 e a média é 9.
Portanto, o coeficiente de variação é (2,83 / 9) * 100 = 31,4%.

Contudo, as medidas de tendência central e dispersão são essenciais para resumir e compreender a
distribuição dos dados. Elas oferecem informações valiosas sobre a concentração e a dispersão dos
valores, permitindo que os estatísticos e pesquisadores analisem e interpretem os dados de maneira
mais completa. Diferentemente dos textos descritivos e expositivos onde há predominantemente
fatos, o texto argumentativo contém uma opinião a partir dos fatos apresentados.

CÁLCULO DE PROBABILIDADE

O cálculo de probabilidade é um tópico central na disciplina de estatística. Ele lida com a


quantificação da incerteza e a avaliação da chance de ocorrência de eventos em um contexto
probabilístico. A probabilidade é uma medida numérica que varia de 0 a 1, indicando a likelihood
(probabilidade) de um evento ocorrer.

Existem dois enfoques principais para calcular a probabilidade: o enfoque clássico e o enfoque
frequentista:

1) Enfoque clássico e frequentista

O enfoque clássico é aplicado quando todos os resultados possíveis são igualmente prováveis. A
probabilidade é calculada dividindo-se o número de resultados favoráveis pelo número total de
resultados possíveis. Por exemplo, ao jogar um dado justo de seis faces, a probabilidade de obter
um número específico, como 3, é de 1/6, pois existem seis resultados possíveis e apenas um deles é
favorável.

O enfoque frequentista baseia-se na observação de frequências relativas. A probabilidade é estimada


pela proporção de vezes que um evento ocorre em um grande número de tentativas. Por exemplo,
ao lançar uma moeda justa repetidamente, a probabilidade de obter cara é de cerca de 0,5, pois em
um grande número de lançamentos, espera-se que cara ocorra aproximadamente metade das vezes.

Além desses enfoques, a teoria das probabilidades estabelece um conjunto de regras e propriedades
para calcular a probabilidade de eventos. Alguns conceitos fundamentais incluem:

2) Conceitos fundamentais

10

marcely silveira - marcely_silveira@hotmail.com - CPF: 014.998.545-28


Evento: É um resultado ou conjunto de resultados possíveis em um experimento. Pode ser
representado por um conjunto de valores ou uma condição específica. Por exemplo, "obter um
número par ao lançar um dado" é um evento.

Espaço amostral: É o conjunto de todos os resultados possíveis de um experimento. No caso do


lançamento de um dado, o espaço amostral é {1, 2, 3, 4, 5, 6}.

Evento complementar: É o evento que consiste em todos os resultados que não pertencem a
um evento específico. Por exemplo, o evento complementar de "obter um número par ao lançar um
dado" é "obter um número ímpar".

União e interseção de eventos: A união de dois eventos A e B é o evento que ocorre quando
pelo menos um deles ocorre. A interseção de dois eventos A e B é o evento que ocorre quando
ambos ocorrem.

Regra da adição: A probabilidade da união de dois eventos A e B é calculada pela soma das
probabilidades de A e B, menos a probabilidade da interseção, se houver.

Regra da multiplicação: A probabilidade da interseção de dois eventos A e B é calculada


multiplicando-se as probabilidades de A e B, se eles forem eventos independentes.

Esses são apenas alguns conceitos básicos do cálculo de probabilidade. À medida que o estudo
avança, tópicos mais avançados, como probabilidade condicional, distribuições de probabilidade e
teorema do limite central, são explorados para aplicar a probabilidade em contextos mais complexos
e estatísticos.

O cálculo de probabilidade é essencial para a análise estatística, permitindo a quantificação da


incerteza e a tomada de decisões informadas com base nas chances de ocorrência de eventos. Ele é
aplicado em uma ampla gama de campos, desde a teoria das filas e a modelagem de riscos até a
inferência estatística e a análise de dados.

TEOREMA DE BAYES E PROBABILIDADE CONDICIONAL

O Teorema de Bayes é um princípio fundamental da teoria das probabilidades e descreve como


atualizar nossas crenças sobre um evento à luz de novas evidências. Ele é amplamente utilizado em
estatística, teoria da decisão e aprendizado de máquina, entre outros campos.

O teorema é baseado na ideia de probabilidade condicional, que é a probabilidade de um evento


A ocorrer, dado que outro evento B já ocorreu. A probabilidade condicional é denotada por P(A|B),
lida como "a probabilidade de A dado B". Ela representa a chance de um evento ocorrer sabendo
que alguma informação ou condição adicional está presente.

11

marcely silveira - marcely_silveira@hotmail.com - CPF: 014.998.545-28


O Teorema de Bayes estabelece a relação entre as probabilidades condicionais P(A|B) e P(B|A). De
acordo com o teorema, podemos calcular a probabilidade de um evento A ocorrer, dado que o
evento B ocorreu, utilizando a seguinte fórmula:

P(A|B) = (P(B|A) * P(A)) / P(B)

Onde:

P(A|B) é a probabilidade de A ocorrer dado B.

P(B|A) é a probabilidade de B ocorrer dado A.

P(A) e P(B) são as probabilidades marginais de A e B, respectivamente.

O Teorema de Bayes permite atualizar as probabilidades à medida que novas evidências são obtidas.
Inicialmente, temos uma crença a priori sobre a probabilidade de um evento ocorrer (P(A)) e, em
seguida, utilizamos as probabilidades condicionais P(B|A) e P(A|B) para ajustar essa crença com base
nas informações adicionais fornecidas por B.

O teorema é particularmente útil quando se lida com incertezas e informações incompletas. Ele
fornece uma estrutura formal para a atualização de probabilidades com base em novas evidências,
tornando-se uma ferramenta poderosa para a tomada de decisões em ambientes incertos.

O Teorema de Bayes tem uma ampla gama de aplicações em diversos domínios, incluindo medicina,
diagnóstico, processamento de sinais, aprendizado de máquina e análise estatística. É uma
ferramenta valiosa para inferência estatística e raciocínio probabilístico, permitindo que tomemos
decisões informadas com base em evidências disponíveis.

POPULAÇÃO E AMOSTRA

Na estatística, população e amostra são conceitos fundamentais relacionados à coleta e análise de


dados. Eles descrevem os conjuntos de elementos dos quais os dados são obtidos e sobre os quais
se deseja fazer inferências.

População: A população refere-se ao conjunto completo de elementos ou indivíduos que


possuem uma característica comum e sobre os quais se deseja obter informações estatísticas. Por
exemplo, se estamos interessados na altura de todos os estudantes universitários de um país, a
população seria composta por todos os estudantes universitários do país. No entanto, muitas vezes
é impraticável ou impossível obter dados de toda a população, seja devido ao tamanho, custo ou
logística envolvida.

12

marcely silveira - marcely_silveira@hotmail.com - CPF: 014.998.545-28


Amostra: Uma amostra é um subconjunto selecionado da população. É um grupo representativo
de elementos extraídos da população com o objetivo de obter informações sobre a população como
um todo. A amostra é usada como uma estimativa ou inferência sobre a população mais ampla. No
exemplo da altura dos estudantes universitários, uma amostra poderia ser um grupo selecionado de
estudantes universitários que representam uma variedade de instituições, cursos e níveis de
graduação.

A seleção adequada de uma amostra é crucial para obter resultados confiáveis e representativos da
população. Existem diferentes técnicas de amostragem, como amostragem aleatória simples,
amostragem estratificada, amostragem por conglomerados, entre outras. Cada técnica tem suas
próprias vantagens e aplicabilidades, dependendo das características da população e dos objetivos
da pesquisa.

As estatísticas descritiva e inferencial são usadas para analisar os dados coletados de uma amostra
e fazer inferências sobre a população. A estatística descritiva envolve a organização, resumo e
apresentação dos dados por meio de medidas de tendência central, medidas de dispersão, tabelas
e gráficos. A estatística inferencial utiliza técnicas estatísticas para tirar conclusões, fazer previsões e
generalizar os resultados da amostra para a população mais ampla.

É importante notar que as conclusões inferenciais são sempre sujeitas a algum grau de incerteza
devido à natureza aleatória da amostragem. Portanto, é fundamental entender os princípios
estatísticos e realizar uma análise adequada para minimizar os erros de amostragem e obter
resultados confiáveis e significativos.

Em resumo, a população representa o conjunto completo de elementos de interesse, enquanto a


amostra é um subconjunto representativo extraído da população. A amostragem e a análise
estatística são utilizadas para obter informações sobre a população a partir dos dados coletados da
amostra, permitindo generalizações e inferências estatísticas.

CORRELAÇÃO LINEAR SIMPLES

A correlação linear simples é uma medida estatística que avalia a relação linear entre duas variáveis
contínuas. Ela mede a força e a direção dessa relação, fornecendo informações sobre como as duas
variáveis estão relacionadas e se elas tendem a variar juntas.

1) Correlação linear simples e o coeficiente de correlação de Pearson

A correlação linear simples é frequentemente representada pelo coeficiente de correlação de


Pearson, que varia entre -1 e 1.

13

marcely silveira - marcely_silveira@hotmail.com - CPF: 014.998.545-28


Um coeficiente de correlação de +1 indica uma correlação positiva perfeita, o que significa que as
duas variáveis estão diretamente relacionadas e variam juntas de forma linear. Por outro lado, um
coeficiente de correlação de -1 indica uma correlação negativa perfeita, onde as duas variáveis estão
inversamente relacionadas, ou seja, quando uma aumenta, a outra diminui de forma linear. Um
coeficiente de correlação próximo a 0 indica uma correlação fraca ou inexistente entre as variáveis.

A interpretação do coeficiente de correlação de Pearson é a seguinte:

Próximo de +1: Existe uma correlação forte e positiva entre as variáveis, indicando que elas
tendem a aumentar ou diminuir juntas.

Próximo de -1: Existe uma correlação forte e negativa entre as variáveis, indicando que elas
tendem a variar inversamente.

Próximo de 0: Não há uma relação linear aparente entre as variáveis, indicando uma correlação
fraca ou inexistente.

É importante ressaltar que a correlação linear simples mede apenas a relação linear entre as variáveis
e não captura outros tipos de relacionamentos não lineares. Portanto, mesmo que duas variáveis
não apresentem uma correlação linear significativa, elas ainda podem estar relacionadas de outras
maneiras.

A correlação linear simples é amplamente utilizada em estatística, ciências sociais, econômicas e


outras áreas de pesquisa. Ela fornece uma medida quantitativa da relação entre variáveis contínuas,
permitindo a identificação de padrões, tendências e associações entre os dados.

No entanto, é importante ter cuidado ao interpretar a correlação como uma relação causal. Uma alta
correlação não implica necessariamente que uma variável cause a variação da outra. Correlação não
implica causalidade, e é necessário realizar estudos mais aprofundados para estabelecer relações de
causa e efeito entre as variáveis.

Em resumo, a correlação linear simples é uma medida estatística que avalia a relação linear entre
duas variáveis contínuas. O coeficiente de correlação de Pearson é comumente utilizado para
representar essa relação, variando entre -1 e 1. A interpretação do coeficiente de correlação envolve
a força (valor absoluto) e a direção (sinal) da correlação. No entanto, é importante lembrar que
correlação não implica causalidade.

14

marcely silveira - marcely_silveira@hotmail.com - CPF: 014.998.545-28

Você também pode gostar