Escolar Documentos
Profissional Documentos
Cultura Documentos
Estatística
Estatística é a ciência que utiliza-se das teorias probabilísticas para explicar a frequência da
ocorrência de eventos,[1] tanto em estudos observacionais quanto em experimentos
para modelar a aleatoriedade e a incerteza de forma a estimar ou possibilitar a previsão de fenômenos
futuros, conforme o caso.
A estatística é uma ciência que se dedica à coleta, análise e interpretação de dados. Preocupa-se com
os métodos de recolha, organização, resumo, apresentação e interpretação dos dados, assim como
tirar conclusões sobre as características das fontes donde estes foram retirados, para melhor
compreender as situações.
Devido às suas raízes empíricas e seu foco em aplicações, a estatística geralmente é considerada uma
disciplina distinta da matemática, e não um ramo dela.
Etimologia
O termo "estatística" surge da expressão em latim statisticum collegium palestra sobre os assuntos
do Estado, de onde surgiu a palavra em língua italiana statista, que significa "homem de estado",
ou político, e a palavra alemã Statistik, designando a análise de dados sobre o Estado. A palavra foi
proposta pela primeira vez no século XVII, em latim, por Schmeitzel na Universidade de Jena e
adotada pelo acadêmico alemão Godofredo Achenwall. Aparece como vocabulário na Enciclopédia
Britânica em 1797, e adquiriu um significado de coleta e classificação de dados, no início do século
XIX.
Alguns autores dizem que é comum encontrar como marco inicial da estatística a publicação
do "Observations on the Bills of Mortality" (Observações sobre os Censos de Mortalidade, 1662) de
John Graunt. As primeiras aplicações do pensamento estatístico estavam voltadas para as
necessidades de Estado, na formulação de políticas públicas, fornecendo
dados demográficos e econômicos. A abrangência da estatística aumentou no começo do século XIX
para incluir a acumulação e análise de dados de maneira geral. Hoje, a estatística é largamente
aplicada nas ciências naturais, e sociais, inclusive na administração pública e privada.
Seus fundamentos matemáticos foram postos no século XVII com o desenvolvimento da teoria das
probabilidades por Pascal e Fermat, que surgiu com o estudo dos jogos de azar. O método dos
mínimos quadrados foi descrito pela primeira vez por Carl Friedrich Gauss, aproximadamente no ano
de 1794. O uso de computadores modernos tem permitido a computação de dados estatísticos em
larga escala e também tornaram possível novos métodos antes impraticáveis.
Fundamentos
Ligações para estatística observacional fenômeno são coletados pelos fenômenos estatísticos.
• Estatística inferencial é o conjunto de técnicas utilizadas para identificar relações entre variáveis que
representem ou não relações de causa e efeito;
• Estatística robusta é o conjunto de técnicas utilizadas para atenuar o efeito de outliers e preservar a
forma de uma distribuição tão aderente quanto possível aos dados empíricos.
A estatística não é uma ferramenta matemática que nos informa sobre o quanto de erro nossas
observações apresentam sobre a realidade pesquisada. A estatística baseia-se na medição do erro
que existe entre a estimativa de quanto uma amostra representa adequadamente a população da qual
foi extraída. Assim o conhecimento de teoria de conjuntos, análise combinatória e cálculo são
WWW.DOMINACONCURSOS.COM.BR 1
ESTATÍSTICA
indispensáveis para compreender como o erro se comporta e a magnitude do mesmo. É o erro (erro
amostral) que define a qualidade da observação e do delineamento experimental.
A faceta dessa ferramenta mais palpável é a estatística descritiva. A descrição dos dados coletados é
comumente apresentado em gráficos ou relatórios e serve tanto a prospecção de uma ou mais
variáveis para posterior aplicação ou não de testes estatísticos bem como a apresentação de
resultados de delineamentos experimentais.
Nós descrevemos o nosso conhecimento de forma matemática e tentamos aprender mais sobre aquilo
que podemos observar. Isto requer:
• Inferência estatística - obter um consenso sobre o que as observações nos dizem sobre o mundo que
observamos.
Normalmente aproximamos a probabilidade de alguma coisa para cima ou para baixo porque elas são
tão prováveis ou improváveis de ocorrer, que é fácil de reconhecê-las como probabilidade de um ou
zero. Entretanto, isso pode levar a desentendimentos e comportamentos perigosos, porque é difícil
distinguir entre, uma probabilidade de 10−4 e uma de 10−9, a despeito da grande diferença numérica
entre elas. Por exemplo, se você espera atravessar uma estrada 105 ou 106 vezes na sua vida, definir o
risco de atravessá-la em 10−9 significa que você está bem seguro pelo resto da sua vida. Entretanto,
um risco de 10−4 significa que é bem provável que você tenha um acidente, mesmo que intuitivamente
um risco de 0,01% pareça muito baixo.
Estatística Computacional
Os povos da Antiguidade utilizavam das técnicas estatísticas a fim de obter informações sobre o
número de habitantes, riquezas, casos de doenças, entre outras situações que levassem ao
enfraquecimento do poderio militar dos povos. Os governantes passaram a realizar pesquisas
WWW.DOMINACONCURSOS.COM.BR 2
ESTATÍSTICA
No Brasil, órgãos como o IBGE (Instituto Brasileiro de Geografia e Estatística) e instituições como a
FGV (Fundação Getúlio Vargas) têm por objetivo a coleta, análise e divulgação de informações
relacionadas ao meio político, econômico, social, segurança, educacional, saúde e diversos ramos da
sociedade.
Os levantamentos estatísticos são divulgados em jornais, Internet, noticiários de televisão e revistas,
comumente possuem relação direta com a vida das pessoas, pois envolvem temas relacionados a
hábitos da população em geral.
Na indústria, acompanha testes de qualidade e ajuda a fazer a previsão de vendas com base em
modelos matemáticos.
Se uma variável aleatória tem densidade dada por f(x), então o intervalo infinitesimal [x, x+dx]
tem probabilidade f(x) dx. Formalmente, a função densidade de probabilidade (ou fdp), denotada
por fx(x), de uma variável aleatóriacontínua X é a função que satisfaz
Os termos função distribuição de probabilidade e função de probabilidade por vezes foram sido
utilizados para denotar a função de densidade de probabilidade. No entanto, esse uso não é padrão
entre estatísticos. Em outras fontes, função de distribuição de probabilidade pode ser utilizado quando
a distribuição de probabilidade é definida como uma função sobre conjuntos de valores, ou pode referir-
se a função distribuição acumulada, ou ainda pode ser uma função massa de probabilidade (FMP), em
vez de densidade. Existem outras confusões da terminologia porque função densidade também tem
sido usado para o que é aqui chamado de função massa de probabilidade (FMP). Em geral, porém, a
FMP é usada no contexto de variáveis aleatórias discretas (variáveis aleatórias que tenham valores de
um conjunto discreto), enquanto FDP é usado no contexto de variáveis aleatórias contínuas.
Exemplo
Suponhamos que uma espécie de bactérias normalmente vive por 4 a 6 horas. Qual é a probabilidade
de que uma bactéria viva exatamente 5 horas? A resposta é de 0%. Muitas bactérias vivem
por aproximadamente 5 horas, mas não há nenhuma chance de que qualquer bactéria morra
em exatamente 5.000000000 horas.
Em vez disso, poderíamos perguntar: qual é a probabilidade de que a bactéria morra entre 5 horas e
5,01 horas? Vamos dizer que a resposta é de 0,02 (ou seja, 2%). A seguir: qual é a probabilidade de
que a bactéria morra entre 5 horas e 5.001 horas? A resposta é provavelmente em torno de 0,002, uma
vez que este é um décimo do intervalo anterior. A probabilidade de que a bactéria morre entre 5 horas
e 5.0001 horas é provavelmente cerca de 0,0002, e assim por diante.
WWW.DOMINACONCURSOS.COM.BR 3
ESTATÍSTICA
Por exemplo, a probabilidade de que ela viva por mais do que 5 horas, mas menos do que (5 horas + 1
nanossegundo), é (2 horas-1) x (1 nanosegundo) ≃ 6 × 10-13 (usando a conversão de unidade 3,6 ×
1012 nanossegundos = 1 hora).
Uma variável aleatória discreta tem um número definido de possíveis ocorrências. Por exemplo,
a variável aleatória "resultado de um dado" tem apenas 6 possíveis ocorrências: 1,2,3,4,5 e 6. Por isso,
a função de probabilidade a ela associada também só pode assumir 6 valores (1/6 cada uma, se o
dado não for viciado), que necessariamente somarão 1.
Uma variável aleatória contínua, ao contrário, tem um número infinito de ocorrências. Por exemplo,
a variável aleatória "idade de cada empregado de uma empresa" pode assumir infinitos valores, por
exemplo 18,1 anos, 18,23 anos, 20,341 anos, 30,3167 anos etc. Por isso, se simplesmente tentarmos
calcular p(x=x) como faz uma função de probabilidade para uma variável aleatória discreta,
chegaremos ao seguinte:
Ou seja, a probabilidade de a variável aleatória contínua X assumir um determinado valor x é zero. Por
isso, a "função densidade de probabilidade" não trabalha com valores pontuais, e sim com intervalos
infinitesimais - ela informa a probabilidade de a variável X assumir um valor naquele intervalo.
No caso univariado contínuo acima, a medida de referência é a medida de Lebesgue. A função massa
de probabilidade de uma variável aleatória discreta é a densidade no que diz respeito à medida
contável sobre o espaço da amostra (normalmente o conjunto de números inteiros, ou um subconjunto
dos mesmos).
Note-se que não é possível definir uma densidade referindo a uma medida arbitrária (por exemplo, não
se pode escolher a medida contável como uma referência para uma variável aleatória contínua). Além
disso, quando ela existe, a densidade é em quase todos os lugares únicas.
Nem toda distribuição de probabilidade tem uma função densidade: as distribuições de variáveis
aleatórias discretas não possuem; nem a distribuição de Cantor, mesmo ela não tendo qualquer
componente discreto, isto é, não atribui probabilidade positiva para qualquer ponto individual.
Se uma distribuição de probabilidade admite uma densidade, então a probabilidade de cada conjunto
de um ponto {a} é zero; o mesmo vale para conjuntos finitos e contáveis.
WWW.DOMINACONCURSOS.COM.BR 4
ESTATÍSTICA
No campo da física estatística, uma reformulação não formal da relação acima entre a derivada da
função distribuição acumulada e a função densidade de probabilidade é geralmente utilizada como a
definição da função densidade de probabilidade.
É possível representar certas variáveis aleatórias discretas, bem como variáveis aleatórias que
envolvem tanto uma parte contínua e uma parte discreta com uma função densidade de probabilidade
generalizada, usando a função delta de Dirac. Por exemplo, considere uma variável aleatória discreta
binária tendo uma distribuição de Rademacher – isto é, assumindo valores −1 ou 1, com probabilidade
½ cada.
Famílias De Densidades
Uma vez que os parâmetros são constantes, re parametrizar uma densidade em termos de diferentes
parâmetros, para se obter uma caracterização de uma variável aleatória diferente na família, significa
simplesmente substituir os novos valores de parâmetros para a fórmula em lugar dos antigos. Alterar o
domínio de uma densidade de probabilidade, no entanto, é mais complicado e exige mais trabalho:
consulte a seção abaixo sobre a mudança de variáveis.
Uma estatística é uma função (qualquer) das variáveis observáveis que não contém qualquer
parâmetro desconhecido.
Mais formalmente, a Teoria Estatística define uma estatística como uma função de uma amostra em
que a função por si mesma é independente da distribuição que gerou a amostra.
Este termo é utilizado usualmente tanto para a função quanto para o particular valor numérico da
função aplicada a uma dada amostra observada.
Uma estatística não representa o mesmo conceito que um parâmetro estatístico, que não é calculável
da amostra. Por exemplo, a média amostral é uma estatística, enquanto que a média de uma
população é um parâmetro. Em geral utiliza-se um estimador (caso particular de estatística) para
chegar num valor numérico que estima um parâmetro. No exemplo anterior, o estimador para a média
da população é a média amostral.
A palavra estatística é do latim e significa “estado”. Este termo provém do primeiro uso da estatística
eu tinha como função o registro de dados (nº de habitantes da população, nº de casamentos...) e a
elaboração de tabelas e gráficos para descrever resumidamente um determinado país em números.
Passado muito tempo a estatística evoluiu, tornando-se uma ampla e complexa ciência, tirando
conclusões sobre o conjunto todo a partir de amostras representativas.
WWW.DOMINACONCURSOS.COM.BR 5
ESTATÍSTICA
A estatística trabalha com dois conjuntos de dados: o universo e a amostra. Apesar de a estatística se
preocupar em obter informações sobre a população, dificilmente ela estuda todos os componentes da
mesma (censo).
Não existem estatísticas especiais, como bioestatística e estatística econômica, mas sim aplicações
específicas de estatística em determinadas áreas, o que leva a dividir a estatística especificamente
para questões didáticas.
-Estatística descritiva: é a parte que procura os melhores métodos para coletar, ordenar e sumarizar os
dados dos experimentos.
-Estatística experimental: é a parte que fornece os métodos de análise e interpretação dos resultados
dos experimentos.
Distribuições estáveis paretianas têm propriedades atraentes para modelagem empírica em finanças,
porque incluem a distribuição normal como um caso especial, mas também pode permitir caudas mais
pesadas e assimetria.
Uma razão principal para a pouca utilização dessa distribuição em trabalhos acadêmicos aplicados é
devido ao fato de que, em geral, não há expressão de "forma fechada" para a a função de densidade
de probabilidade, e que as aproximações numéricas computacionais são não-triviais e
computacionalmente extensivas.
Nesse post vou mostrar como é possível calcular a função densidade de probabilidade via Fast-Fourier
Transform (FFT).
O trabalho original sobre esse assunto foi produzido por Mittnik, Doganoglu e Chenyao (1999).
A Distribuição Alfa-Estável.
A distribuição alfa-estável, em geral, não possui expressão analítica para sua função densidade de
probabilidade (f.d.p) ou ainda para a sua função distribuição acumulada (f.d.a), mas pode ser escrita
por meio de sua função característica (Rachev e Mittnik, 2000 ):
__________________________________________________________________________________
__________________________________________________________________________________
WWW.DOMINACONCURSOS.COM.BR 6
ESTATÍSTICA
A função densidade de probabilidade pode ser aproximada utilizando o método FFT (Fast Fourier
Transform) o qual é computacionalmente eficiente e permite um processo de aproximação mais rápido
do que expansão por séries (Bergström, 1952) ou integração direta (Nolan, J. P., 2001. Maximum
likelihood estimation of stable parameters. Manuscrito não publicado.).
Segundo Durrett (2010) página 106 uma função densidade de probabilidade pode ser escrita
pela Transformada de Fourier da função característica, em outras palavras:
A integral acima pode ser calculada para pontos igualmente espaçados com distância e soma
resultante pode ser computada por meio do método FFT (Fast Fourier Transform). Mittnik e Doganoglu
(1999) sugerem que os valores de e devem ser respectivamente e para que uma
boa aproximação seja possível.
A distribuição normal conhecida também como distribuição gaussiana é sem dúvida a mais importante
distribuição contínua. Sua importância se deve a vários fatores, entre eles podemos citar o teorema
central do limite, o qual é um resultado fundamental em aplicações práticas e teóricas, pois ele garante
que mesmo que os dados não sejam distribuídos segundo uma normal a média dos dados converge
para uma distribuição normal conforme o número de dados aumenta. Além disso diversos estudos
práticos tem como resultado uma distribuição normal. Podemos citar como exemplo a altura de uma
determinada população em geral segue uma distribuição normal. Entre outras características físicas e
sociais tem um comportamento gaussiano, ou seja, segue uma distribuição normal.
Probabilidade é a chance real de ocorrer um determinado evento, isto é, a chance de ocorrer uma
medida em um determinado intervalo. Por exemplo, a frequência relativa deste intervalo, observada à
partir de uma amostra de medidas, é a aproximação da probabilidade. E a distribuição de frequências é
a aproximação da distribuição de probabilidades.
A palavra probabilidade deriva do Latim probare(provar ou testar). Informalmente, provável é uma das
muitas palavras utilizadas para eventos incertos ou conhecidos, sendo também substituída por
algumas palavras como “sorte”, “risco”, “azar”, “incerteza”, “duvidoso”, dependendo do contexto.
A probabilidade é um número que varia de 0 (zero) a 1 (um) e que mede a chance de ocorrência de um
determinado resultado. Quanto mais próxima de zero for a probabilidade, menores são as chances de
ocorrer o resultado e quanto mais próxima de um for a probabilidade, maiores são as chances.
Experimento Aleatório
WWW.DOMINACONCURSOS.COM.BR 7
ESTATÍSTICA
Em uma tentativa com um número limitado de resultados, todos com chances iguais, devemos
considerar:
Espaço amostral é o conjunto E cujos elementos são todos os possíveis resultados que podem ser
obtidos na realização de um experimento.
Evento (A)
Cálculo De Probabilidades
Onde:
Estatística
Definição
A estatística é uma coleção de métodos para planejar experimentos, obter dados e organiza-los,
resumi-los, analisá-los, interpretá-los e deles extrair conclusões.
Noções De Estatística
Amostra
ROL
Exemplo:
Os cincos alunos de uma amostra apresentaram as seguintes notas na prova bimestral de matemática
6; 4; 8; 7; 8. Apresentando esses dados em rol, temos: (4; 6; 7; 8; 8) ou (8; 8; 7; 6; 4).
WWW.DOMINACONCURSOS.COM.BR 8
ESTATÍSTICA
Classes
Medidas De Posição
São as estatísticas que representam uma série de dados orientando-nos quanto à posição da
distribuição em relação ao eixo horizontal do gráfico da curva de frequência.
As medidas de tendência central mais utilizadas são: média aritmética, moda e mediana.
Média Aritmética
É igual ao quociente entre a soma dos valores do conjunto e o número total dos valores.
Consideremos uma coleção formada por n números, de forma que cada um esteja sujeito a um peso
(valor que indica a quantidade de vezes em que cada número se repete).
A média aritmética ponderada desses n números é a soma dos produtos de cada um por seu peso,
dividida pelos somatórios dos seus pesos, isto é:
Moda: (MO)
Quando dois valores ocorrem com a mesma frequência, cada um deles é chamado de uma moda, e o
conjunto se diz BIMODAL.
Se mais de dois valores ocorrem com a mesma frequência máxima, cada um deles é uma moda e o
conjunto é MULTIMODAL.
Mediana (MD)
Valor do meio do conjunto de dados, quando os valores estão dispostos em ordem crescente ou
decrescente; divide um conjunto de dados em duas partes iguais.
Para calcular:
WWW.DOMINACONCURSOS.COM.BR 9
ESTATÍSTICA
Medidas De Dispersão
Existem algumas medidas chamadas medidas de dispersão, que procuram mostrar como os elementos
do conjunto se comportam em torno da região central, ou seja, medidas que mostram se eles estão
mais ou menos dispersos.
Por exemplo, num jogo de duplas de tênis, são conhecidas as idades dos jogadores:
Equipe A Equipe B
No entanto, as idades da equipe B estão bem mais dispersas em torno da média do que as idades da
equipe A.
Variância
2, 5, 6, 8, 14,
Onde a média aritmética é 7. A diferença entre cada valor é a média é chamada desvio. Assim,
os desvios para o nosso conjunto de dados serão:
Chamamos variância de um conjunto de dados a média aritmética dos quadrados dos desvios. No
nosso exemplo, temos:
A variância é :
WWW.DOMINACONCURSOS.COM.BR 10
ESTATÍSTICA
Desvio-Padrão
__________________________________________________________________________________
__________________________________________________________________________________
__________________________________________________________________________________
__________________________________________________________________________________
__________________________________________________________________________________
__________________________________________________________________________________
__________________________________________________________________________________
__________________________________________________________________________________
__________________________________________________________________________________
__________________________________________________________________________________
__________________________________________________________________________________
__________________________________________________________________________________
__________________________________________________________________________________
__________________________________________________________________________________
__________________________________________________________________________________
__________________________________________________________________________________
__________________________________________________________________________________
__________________________________________________________________________________
__________________________________________________________________________________
__________________________________________________________________________________
__________________________________________________________________________________
__________________________________________________________________________________
__________________________________________________________________________________
__________________________________________________________________________________
WWW.DOMINACONCURSOS.COM.BR 11