Escolar Documentos
Profissional Documentos
Cultura Documentos
1
1 Estatística: conceitos, ramos............................................................................................................. 1
2 Técnicas de amostragem .................................................................................................................. 8
3 Importância e função da medida em ciências humanas e sociais ................................................... 17
4 Sumarização de dados ................................................................................................................... 19
5 Medidas de tendência central ......................................................................................................... 20
6 Medidas de variabilidade ................................................................................................................ 24
7 Curva normal e suas propriedades ................................................................................................. 30
8 Testes de hipóteses ........................................................................................................................ 34
9 Correlação ...................................................................................................................................... 34
Questões ........................................................................................................................................... 35
As dúvidas serão encaminhadas para os professores responsáveis pela matéria, portanto, ao entrar
em contato, informe:
- Disciplina (matéria);
- Qual a dúvida.
Caso existam dúvidas em disciplinas diferentes, por favor, encaminhá-las em e-mails separados. O
professor terá até cinco dias úteis para respondê-la.
Bons estudos!
2
1 Estatística: conceitos, ramos.
Conceitos Básicos
A estatística é, hoje em dia, um instrumento útil e, em alguns casos, indispensável para tomadas de
decisão em diversos campos: científico, econômico, social, político…
Todavia, antes de chegarmos à parte de interpretação para tomadas de decisão, há que proceder a
um indispensável trabalho de recolha e organização de dados, sendo a recolha feita através de
recenseamentos (ou censos ou levantamentos estatísticos) ou sondagens. Existem indícios que há 300
mil anos a.C. já se faziam censos na China, Babilônia e no Egito. Censos estes que se destinavam à
taxação de impostos.
Estatística pode ser pensada como a ciência de aprendizagem a partir de dados. No nosso
quotidiano, precisamos tomar decisões, muitas vezes decisões rápidas.
Em linhas gerais a Estatística fornece métodos que auxiliam o processo de tomada de decisão
através da análise dos dados que possuímos. Um resultado é significante, portanto, tem significância
estatística, se for improvável que tenha ocorrido por acaso (que em estatística e probabilidade é tratado
pelo conceito de chance), caso uma determinada hipótese nula seja verdadeira, mas não sendo
improvável caso a hipótese base seja falsa. A expressão teste de significância foi cunhada por Ronald
Fisher.
Mais concretamente, no teste de hipóteses com base em frequência estatística, a significância de um
teste é a probabilidade máxima de rejeitar acidentalmente uma hipótese nula verdadeira (uma decisão
conhecida como erro de tipo I). O nível de significância de um resultado é também chamado de α e não
deve ser confundido com o valor p (p-value).
Por exemplo, podemos escolher um nível de significância de, digamos, 5%, e calcular um valor
crítico de um parâmetro (por exemplo a média) de modo que a probabilidade dela exceder esse valor,
dada a verdade da hipótese nulo, ser 5%. Se o valor estatístico calculado (ou seja, o nível de 5% de
significância anteriormente escolhido) exceder o valor crítico, então é significante “ao nível de 5%”.
Se o nível de significância (ex: 5% anteriormente dado) é menor, o valor é menos provavelmente um
extremo em relação ao valor crítico. Deste modo, um resultado que é “significante ao nível de 1%” é
mais significante do que um resultado que é significante “ao nível de 5%”. No entanto, um teste ao nível
de 1% é mais susceptível de padecer do erro de tipo II do que um teste de 5% e por isso terá menos
poder estatístico.
Ao divisar um teste de hipóteses, o técnico deverá tentar maximizar o poder de uma dada
significância, mas ultimamente tem de reconhecer que o melhor resultado que se pode obter é um
compromisso entre significância e poder, em outras palavras, entre os erros de tipo I e tipo II. É
importante ressaltar que os valores p Fisherianos são filosoficamente diferentes dos erros de tipo I de
Neyman-Pearson. Esta confusão é infelizmente propagada por muitos livros de estatística.
1
Divisão da Estatística:
- Estatística Não-Paramétrica: Teste Binomial - Teste Qui-quadrado (uma amostra, duas amostras
independentes, k amostras independentes) - Teste Kolmogorov-Smirnov (uma amostra, duas amostras
independentes) - Teste de McNemar - Teste dos Sinais - Teste de Wilcoxon - Teste de Walsh - Teste
Exata de Fisher - Teste Q de Cochran - Teste de Kruskal-Wallis - Teste de Friedman.
Panorama Geral:
Variáveis: São características que são medidas, controladas ou manipuladas em uma pesquisa.
Diferem em muitos aspectos, principalmente no papel que a elas é dado em uma pesquisa e na forma
como podem ser medidas.
Variáveis dependentes e variáveis independentes: Variáveis independentes são aquelas que são
manipuladas enquanto que variáveis dependentes são apenas medidas ou registradas. Esta distinção
confunde muitas pessoas que dizem que “todas variáveis dependem de alguma coisa”. Entretanto, uma
2
vez que se esteja acostumado a esta distinção ela se torna indispensável. Os termos variável
dependente e independente aplicam-se principalmente à pesquisa experimental, onde algumas
variáveis são manipuladas, e, neste sentido, são "independentes" dos padrões de reação inicial,
intenções e características dos sujeitos da pesquisa (unidades experimentais). Espera-se que outras
variáveis sejam “dependentes” da manipulação ou das condições experimentais. Ou seja, elas
dependem "do que os sujeitos farão" em resposta. Contrariando um pouco a natureza da distinção,
esses termos também são usados em estudos em que não se manipulam variáveis independentes,
literalmente falando, mas apenas se designam sujeitos a “grupos experimentais” baseados em
propriedades pré-existentes dos próprios sujeitos. Por exemplo, se em uma pesquisa compara-se a
contagem de células brancas (White Cell Count em inglês, WCC) de homens e mulheres, sexo pode ser
chamada de variável independente e WCC de variável dependente.
Níveis de Mensuração: As variáveis diferem em “quão bem” elas podem ser medidas, isto é, em
quanta informação seu nível de mensuração pode prover. Há obviamente algum erro em cada medida,
o que determina o "montante de informação" que se pode obter, mas basicamente o fator que determina
a quantidade de informação que uma variável pode prover é o seu tipo de nível de mensuração. Sob
este prisma as variáveis são classificadas como nominais, ordinais e intervalares.
- Variáveis nominais permitem apenas classificação qualitativa. Ou seja, elas podem ser medidas
apenas em termos de quais itens pertencem a diferentes categorias, mas não se pode quantificar nem
mesmo ordenar tais categorias. Por exemplo, pode-se dizer que 2 indivíduos são diferentes em termos
da variável A (sexo, por exemplo), mas não se pode dizer qual deles "tem mais" da qualidade
representada pela variável. Exemplos típicos de variáveis nominais são sexo, raça, cidade, etc.
- Variáveis ordinais permitem ordenar os itens medidos em termos de qual tem menos e qual tem
mais da qualidade representada pela variável, mas ainda não permitem que se diga “o quanto mais”.
Um exemplo típico de uma variável ordinal é o status socioeconômico das famílias residentes em uma
localidade: sabe-se que média-alta é mais “alta” do que média, mas não se pode dizer, por exemplo,
que é 18% mais alta. A própria distinção entre mensuração nominal, ordinal e intervalar representa um
bom exemplo de uma variável ordinal: pode-se dizer que uma medida nominal provê menos informação
do que uma medida ordinal, mas não se pode dizer “quanto menos” ou como esta diferença se compara
à diferença entre mensuração ordinal e intervalar.
- Variáveis intervalares permitem não apenas ordenar em postos os itens que estão sendo medidos,
mas também quantificar e comparar o tamanho das diferenças entre eles. Por exemplo, temperatura,
medida em graus Celsius constitui uma variável intervalar. Pode-se dizer que a temperatura de 40C é
maior do que 30C e que um aumento de 20C para 40C é duas vezes maior do que um aumento de 30C
para 40C.
Relações entre variáveis: Duas ou mais variáveis quaisquer estão relacionadas se em uma amostra
de observações os valores dessas variáveis são distribuídos de forma consistente. Em outras palavras,
as variáveis estão relacionadas se seus valores correspondem sistematicamente uns aos outros para
aquela amostra de observações. Por exemplo, sexo e WCC seriam relacionados se a maioria dos
homens tivesse alta WCC e a maioria das mulheres baixa WCC, ou vice-versa; altura é relacionada ao
peso porque tipicamente indivíduos altos são mais pesados do que indivíduos baixos; Q.I. está
relacionado ao número de erros em um teste se pessoas com Q.I.'s mais altos cometem menos erros.
Importância das relações entre variáveis: Geralmente o objetivo principal de toda pesquisa ou
análise científica é encontrar relações entre variáveis. A filosofia da ciência ensina que não há outro
meio de representar “significado” exceto em termos de relações entre quantidades ou qualidades, e
ambos os casos envolvem relações entre variáveis. Assim, o avanço da ciência sempre tem que
envolver a descoberta de novas relações entre variáveis. Em pesquisas correlacionais a medida destas
relações é feita de forma bastante direta, bem como nas pesquisas experimentais. Por exemplo, o
experimento já mencionado de comparar WCC em homens e mulheres pode ser descrito como procura
de uma correlação entre 2 variáveis: sexo e WCC. A Estatística nada mais faz do que auxiliar na
avaliação de relações entre variáveis.
Aspectos básicos da relação entre variáveis: As duas propriedades formais mais elementares de
qualquer relação entre variáveis são a magnitude (“tamanho”) e a confiabilidade da relação.
- Magnitude é muito mais fácil de entender e medir do que a confiabilidade. Por exemplo, se cada
homem em nossa amostra tem um WCC maior do que o de qualquer mulher da amostra, poderia-se
3
dizer que a magnitude da relação entre as duas variáveis (sexo e WCC) é muito alta em nossa amostra.
Em outras palavras, poderia-se prever uma baseada na outra (ao menos na amostra em questão).
- Confiabilidade é um conceito muito menos intuitivo, mas extremamente importante. Relaciona-se à
“representatividade” do resultado encontrado em uma amostra específica de toda a população. Em
outras palavras, diz quão provável será encontrar uma relação similar se o experimento fosse feito com
outras amostras retiradas da mesma população, lembrando que o maior interesse está na população. O
interesse na amostra reside na informação que ela pode prover sobre a população. Se o estudo atender
certos critérios específicos (que serão mencionados posteriormente) então a confiabilidade de uma
relação observada entre variáveis na amostra pode ser estimada quantitativamente e representada
usando uma medida padrão (chamada tecnicamente de nível-p ou nível de significância estatística).
Força X Confiabilidade de uma relação entre variáveis: Foi dito anteriormente que força
(magnitude) e confiabilidade são dois aspectos diferentes dos relacionamentos entre variáveis.
Contudo, eles não são totalmente independentes. Em geral, em uma amostra de certo tamanho quanto
maior a magnitude da relação entre variáveis, mais confiável a relação.
Assumindo que não há relação entre as variáveis na população, o resultado mais provável deveria
ser também não encontrar relação entre as mesmas variáveis na amostra da pesquisa. Assim, quanto
mais forte a relação encontrada na amostra menos provável é a não existência da relação
4
correspondente na população. Então a magnitude e a significância de uma relação aparentam estar
fortemente relacionadas, e seria possível calcular a significância a partir da magnitude e vice-versa.
Entretanto, isso é válido apenas se o tamanho da amostra é mantido constante, porque uma relação de
certa força poderia ser tanto altamente significante ou não significante de todo dependendo do tamanho
da amostra.
Por que a significância de uma relação entre variáveis depende do tamanho da amostra: Se há
muito poucas observações então há também poucas possibilidades de combinação dos valores das
variáveis, e então a probabilidade de obter por acaso uma combinação desses valores que indique uma
forte relação é relativamente alta. Considere-se o seguinte exemplo:
Há interesse em duas variáveis (sexo: homem, mulher; WCC: alta, baixa) e há apenas quatro
sujeitos na amostra (2 homens e 2 mulheres). A probabilidade de se encontrar, puramente por acaso,
uma relação de 100% entre as duas variáveis pode ser tão alta quanto 1/8. Explicando, há uma chance
em oito de que os dois homens tenham alta WCC e que as duas mulheres tenham baixa WCC, ou vice-
versa, mesmo que tal relação não exista na população. Agora considere-se a probabilidade de obter tal
resultado por acaso se a amostra consistisse de 100 sujeitos: a probabilidade de obter aquele resultado
por acaso seria praticamente zero.
Observando um exemplo mais geral. Imagine-se uma população teórica em que a média de WCC
em homens e mulheres é exatamente a mesma. Supondo um experimento em que se retiram pares de
amostras (homens e mulheres) de certo tamanho da população e calcula-se a diferença entre a média
de WCC em cada par de amostras (supor ainda que o experimento será repetido várias vezes). Na
maioria dos experimentos os resultados das diferenças serão próximos de zero. Contudo, de vez em
quando, um par de amostra apresentará uma diferença entre homens e mulheres consideravelmente
diferente de zero. Com que frequência isso acontece? Quanto menor a amostra em cada experimento
maior a probabilidade de obter esses resultados errôneos, que, neste caso, indicariam a existência de
uma relação entre sexo e WCC obtida de uma população em que tal relação não existe. Observe-se
mais um exemplo (“razão meninos para meninas”, Nisbett et al., 1987):
Há dois hospitais: no primeiro nascem 120 bebês a cada dia e no outro apenas 12. Em média a
razão de meninos para meninas nascidos a cada dia em cada hospital é de 50/50. Contudo, certo dia,
em um dos hospitais nasceram duas vezes mais meninas do que meninos. Em que hospital isso
provavelmente aconteceu? A resposta é óbvia para um estatístico, mas não tão óbvia para os leigos: é
muito mais provável que tal fato tenha ocorrido no hospital menor. A razão para isso é que a
probabilidade de um desvio aleatório da média da população aumenta com a diminuição do tamanho da
amostra (e diminui com o aumento do tamanho da amostra).
Por que pequenas relações podem ser provadas como significantes apenas por grandes
amostras: Os exemplos dos parágrafos anteriores indicam que se um relacionamento entre as
variáveis em questão (na população) é pequeno, então não há meio de identificar tal relação em um
estudo a não ser que a amostra seja correspondentemente grande. Mesmo que a amostra seja de fato
“perfeitamente representativa” da população o efeito não será estatisticamente significante se a amostra
for pequena. Analogamente, se a relação em questão é muito grande na população então poderá ser
constatada como altamente significante mesmo em um estudo baseado em uma pequena amostra.
Mais um exemplo:
Se uma moeda é ligeiramente viciada, de tal forma que quando lançada é ligeiramente mais provável
que ocorram caras do que coroas (por exemplo uma proporção 60% para 40%). Então dez lançamentos
não seriam suficientes para convencer alguém de que a moeda é viciada, mesmo que o resultado
obtido (6 caras e 4 coroas) seja perfeitamente representativo do viesamento da moeda. Entretanto, dez
lançamentos não são suficientes para provar nada? Não, se o efeito em questão for grande o bastante,
os dez lançamentos serão suficientes. Por exemplo, imagine-se que a moeda seja tão viciada que não
importe como venha a ser lançada o resultado será cara. Se tal moeda fosse lançada dez vezes, e cada
lançamento produzisse caras, muitas pessoas considerariam isso prova suficiente de que há “algo
errado” com a moeda. Em outras palavras, seria considerada prova convincente de que a população
teórica de um número infinito de lançamentos desta moeda teria mais caras do que coroas. Assim, se a
relação é grande, então poderá ser considerada significante mesmo em uma pequena amostra.
Pode uma “relação inexistente” ser um resultado significante: Quanto menor a relação entre as
variáveis maior o tamanho de amostra necessário para prová-la significante. Por exemplo, imagine-se
quantos lançamentos seriam necessários para provar que uma moeda é viciada se seu viesamento for
de apenas 0,000001 %! Então, o tamanho mínimo de amostra necessário cresce na mesma proporção
5
em que a magnitude do efeito a ser demonstrado decresce. Quando a magnitude do efeito aproxima-se
de zero, o tamanho de amostra necessário para prová-lo aproxima-se do infinito. Isso quer dizer que, se
quase não há relação entre duas variáveis o tamanho da amostra precisa quase ser igual ao tamanho
da população, que teoricamente é considerado infinitamente grande. A significância estatística
representa a probabilidade de que um resultado similar seja obtido se toda a população fosse testada.
Assim, qualquer coisa que fosse encontrada após testar toda a população seria, por definição,
significante ao mais alto nível possível, e isso também inclui todos os resultados de "relação
inexistente".
Como medir a magnitude (força) das relações entre variáveis: Há muitas medidas da magnitude
do relacionamento entre variáveis que foram desenvolvidas por estatísticos: a escolha de uma medida
específica em dadas circunstâncias depende do número de variáveis envolvidas, níveis de mensuração
usados, natureza das relações, etc. Quase todas, porém, seguem um princípio geral: elas procuram
avaliar a relação comparando-a de alguma forma com a “máxima relação imaginável” entre aquelas
variáveis específicas. Tecnicamente, um modo comum de realizar tais avaliações é observar quão
diferenciados são os valores das variáveis, e então calcular qual parte desta “diferença global
disponível” seria detectada na ocasião se aquela diferença fosse “comum” (fosse apenas devida à
relação entre as variáveis) nas duas (ou mais) variáveis em questão. Falando menos tecnicamente,
compara-se “o que é comum naquelas variáveis” com “o que potencialmente poderia haver em comum
se as variáveis fossem perfeitamente relacionadas”. Outro exemplo:
Em uma amostra o índice médio de WCC é igual a 100 em homens e 102 em mulheres. Assim,
poderia-se dizer que, em média, o desvio de cada valor da média de ambos (101) contém uma
componente devida ao sexo do sujeito, e o tamanho desta componente é 1. Este valor, em certo
sentido, representa uma medida da relação entre sexo e WCC. Contudo, este valor é uma medida muito
pobre, porque não diz quão relativamente grande é aquela componente em relação à "diferença global"
dos valores de WCC. Há duas possibilidades extremas: S
- Se todos os valore de WCC de homens são exatamente iguais a 100 e os das mulheres iguais a
102 então todos os desvios da média conjunta na amostra seriam inteiramente causados pelo sexo.
Poderia-se dizer que nesta amostra sexo é perfeitamente correlacionado a WCC, ou seja, 100% das
diferenças observadas entre os sujeitos relativas a suas WCC's devem-se a seu sexo.
- Se todos os valores de WCC estão em um intervalo de 0 a 1000, a mesma diferença (de 2) entre a
WCC média de homens e mulheres encontrada no estudo seria uma parte tão pequena na diferença
global dos valores que muito provavelmente seria considerada desprezível. Por exemplo, um sujeito a
mais que fosse considerado poderia mudar, ou mesmo reverter, a direção da diferença. Portanto, toda
boa medida das relações entre variáveis tem que levar em conta a diferenciação global dos valores
individuais na amostra e avaliar a relação em termos (relativos) de quanto desta diferenciação se deve à
relação em questão.
“Formato geral” de muitos testes estatísticos: Como o objetivo principal de muitos testes
estatísticos é avaliar relações entre variáveis, muitos desses testes seguem o princípio exposto no item
anterior. Tecnicamente, eles representam uma razão de alguma medida da diferenciação comum nas
variáveis em análise (devido à sua relação) pela diferenciação global daquelas variáveis. Por exemplo,
teria-se uma razão da parte da diferenciação global dos valores de WCC que podem se dever ao sexo
pela diferenciação global dos valores de WCC. Esta razão é usualmente chamada de razão da variação
explicada pela variação total. Em estatística o termo variação explicada não implica necessariamente
que tal variação é “compreendida conceitualmente”. O termo é usado apenas para denotar a variação
comum às variáveis em questão, ou seja, a parte da variação de uma variável que é “explicada” pelos
valores específicos da outra variável e vice-versa.
Como é calculado o nível de significância estatístico: Assuma-se que já tenha sido calculada
uma medida da relação entre duas variáveis (como explicado acima). A próxima questão é “quão
significante é esta relação”? Por exemplo, 40% da variação global ser explicada pela relação entre duas
variáveis é suficiente para considerar a relação significante? “Depende”. Especificamente, a
significância depende principalmente do tamanho da amostra. Como já foi explicado, em amostras
muito grandes mesmo relações muito pequenas entre variáveis serão significantes, enquanto que em
amostras muito pequenas mesmo relações muito grandes não poderão ser consideradas confiáveis
(significantes). Assim, para determinar o nível de significância estatística torna-se necessária uma
função que represente o relacionamento entre “magnitude” e “significância” das relações entre duas
variáveis, dependendo do tamanho da amostra. Tal função diria exatamente “quão provável é obter uma
6
relação de dada magnitude (ou maior) de uma amostra de dado tamanho, assumindo que não há tal
relação entre aquelas variáveis na população”. Em outras palavras, aquela função forneceria o nível de
significância (nível-p), e isso permitiria conhecer a probabilidade de erro envolvida em rejeitar a ideia de
que a relação em questão não existe na população. Esta hipótese “alternativa” (de que não há relação
na população) é usualmente chamada de hipótese nula. Seria ideal se a função de probabilidade fosse
linear, e por exemplo, apenas tivesse diferentes inclinações para diferentes tamanhos de amostra.
Infelizmente, a função é mais complexa, e não é sempre exatamente a mesma. Entretanto, em muitos
casos, sua forma é conhecida e isso pode ser usado para determinar os níveis de significância para os
resultados obtidos em amostras de certo tamanho. Muitas daquelas funções são relacionadas a um tipo
geral de função que é chamada de normal (ou gaussiana).
Todos os testes estatísticos são normalmente distribuídos: Não todos, mas muitos são ou
baseados na distribuição normal diretamente ou em distribuições a ela relacionadas, e que podem ser
derivadas da normal, como as distribuições t, F ou Chi-quadrado (Qui-quadrado). Tipicamente, estes
testes requerem que as variáveis analisadas sejam normalmente distribuídas na população, ou seja,
que elas atendam à "suposição de normalidade". Muitas variáveis observadas realmente são
normalmente distribuídas, o que é outra razão por que a distribuição normal representa uma
"característica geral" da realidade empírica. O problema pode surgir quando se tenta usar um teste
baseado na distribuição normal para analisar dados de variáveis que não são normalmente distribuídas.
Em tais casos há duas opções. Primeiramente, pode-se usar algum teste "não paramétrico" alternativo
(ou teste “livre de distribuição”); mas isso é frequentemente inconveniente porque tais testes são
tipicamente menos poderosos e menos flexíveis em termos dos tipos de conclusões que eles podem
proporcionar. Alternativamente, em muitos casos ainda se pode usar um teste baseado na distribuição
normal se apenas houver certeza de que o tamanho das amostras é suficientemente grande. Esta
última opção é baseada em um princípio extremamente importante que é largamente responsável pela
popularidade dos testes baseados na distribuição normal. Nominalmente, quanto mais o tamanho da
amostra aumente, mais a forma da distribuição amostral (a distribuição de uma estatística da amostra)
da média aproxima-se da forma da normal, mesmo que a distribuição da variável em questão não seja
normal. Este princípio é chamado de Teorema Central do Limite.
7
Como se conhece as consequências de violar a suposição de normalidade: Embora muitas das
declarações feitas anteriormente possam ser provadas matematicamente, algumas não têm provas
teóricas e podem demonstradas apenas empiricamente via experimentos Monte Carlo (simulações
usando geração aleatória de números). Nestes experimentos grandes números de amostras são
geradas por um computador seguindo especificações pré-designadas e os resultados de tais amostras
são analisados usando uma grande variedade de testes. Este é o modo empírico de avaliar o tipo e
magnitude dos erros ou viesamentos a que se expõe o pesquisador quando certas suposições teóricas
dos testes usados não são verificadas nos dados sob análise. Especificamente, os estudos de Monte
Carlo foram usados extensivamente com testes baseados na distribuição normal para determinar quão
sensíveis eles eram à violações da suposição de que as variáveis analisadas tinham distribuição normal
na população. A conclusão geral destes estudos é que as consequências de tais violações são menos
severas do que se tinha pensado a princípio. Embora estas conclusões não devam desencorajar
ninguém de se preocupar com a suposição de normalidade, elas aumentaram a popularidade geral dos
testes estatísticos dependentes da distribuição normal em todas as áreas de pesquisa.
Objeto da Estatística: Estatística é uma ciência exata que visa fornecer subsídios ao analista para
coletar, organizar, resumir, analisar e apresentar dados. Trata de parâmetros extraídos da população,
tais como média ou desvio padrão. A estatística fornece-nos as técnicas para extrair informação de
dados, os quais são muitas vezes incompletos, na medida em que nos dão informação útil sobre o
problema em estudo, sendo assim, é objetivo da Estatística extrair informação dos dados para obter
uma melhor compreensão das situações que representam. Quando se aborda uma problemática
envolvendo métodos estatísticos, estes devem ser utilizados mesmo antes de se recolher a amostra,
isto é, deve-se planejar a experiência que nos vai permitir recolher os dados, de modo que,
posteriormente, se possa extrair o máximo de informação relevante para o problema em estudo, ou
seja, para a população de onde os dados provêm. Quando de posse dos dados, procura-se agrupá-los
e reduzi-los, sob forma de amostra, deixando de lado a aleatoriedade presente. Seguidamente o
objetivo do estudo estatístico pode ser o de estimar uma quantidade ou testar uma hipótese, utilizando-
se técnicas estatísticas convenientes, as quais realçam toda a potencialidade da Estatística, na medida
em que vão permitir tirar conclusões acerca de uma população, baseando-se numa pequena amostra,
dando-nos ainda uma medida do erro cometido.
Exemplo: Ao chegarmos a uma churrascaria, não precisamos comer todos os tipos de saladas, de
sobremesas e de carnes disponíveis, para conseguirmos chegar a conclusão de que a comida é de boa
qualidade. Basta que seja provado um tipo de cada opção para concluirmos que estamos sendo bem
servidos e que a comida está dentro dos padrões.
2 Técnicas de Amostragem.
8
Quando não é possível estudar, exaustivamente, todos os elementos da população, estudam-se só
alguns elementos, a que damos o nome de Amostra.
Exemplo: Se o objetivo for estudar o desempenho escolar de um colégio, é indicado estudar as notas
dos alunos ao final do ano letivo. A partir daí poderemos facilmente obter a percentagem de
aprovações e reprovações. Agora, se entretanto o interesse for aprofundar o estudo, saber se por
exemplo o sucesso no estudo pode ser atribuído para as alunas ou alunos, deveremos recolher não
somente a informação relativa a nota do aluno que aprovou ou não, mas também para cada um, o sexo.
Aprovados
Masculino 28%
Feminino 13%
Total 41%
Quando a amostra não representa corretamente a população diz-se enviesada e a sua utilização
pode dar origem a interpretações erradas.
Sondagem: por vezes não é viável nem desejável, principalmente quando o número de elementos
da população é muito elevado, inquirir todos os seus elementos sempre que se quer estudar uma ou
mais características particulares dessa população. Assim surge o conceito de sondagem, que se pode
tentar definir como: Estudo científico de uma parte de uma população com o objetivo de estudar
atitudes, hábitos e preferências da população relativamente a acontecimentos, circunstâncias e
assuntos de interesse comum.
Amostragem: é o processo que procura extrair da população elementos que através de cálculos
probabilísticos ou não, consigam prover dados inferenciais da população-alvo.
Não Probabilística
Acidental ou conveniência
Intencional
Quotas ou proporcional
Tipos de
Desproporcional
Amostragem
Probabilística
Aleatória Simples
Aleatória Estratificada
Conglomerado
- Não Probabilística: A escolha de um método não probabilístico, via de regra, sempre encontrará
desvantagem frente ao método probabilístico. No entanto, em alguns casos, se faz necessário a opção
por este método. Fonseca (1996), alerta que não há formas de se generalizar os resultados obtidos na
amostra para o todo da população quando se opta por este método de amostragem.
- Intencional: O entrevistador dirige-se a um grupo em específico para saber sua opinião. Por
exemplo, quando de um estudo sobre automóveis, o pesquisador procura apenas oficinas.
9
- Desproporcional: Muito utilizada quando a escolha da amostra for desproporcional à população.
Atribui-se pesos para os dados, e assim obtêm-se resultados ponderados representativos para o
estudo.
Elementos
Participação
Marcas da Amostra
no mercado
n %
Nokia 60% 50 25%
Ericson 20% 50 25%
Gradiente 15% 50 25%
Philips 05% 50 25%
Total 100% 200 100%
Objetivando obtermos os pesos a serem atribuídos a cada marca de telefone celular, para uma
análise conjunta de todas as marcas no exemplo acima, obtemos os seguintes coeficientes:
Número de
Marcas Pesos elementos a serem
entrevistados
Nokia 2,4 120
Ericson 0,8 40
Gradiente 0,6 30
Philips 0,2 10
Total 4,0 200
Variável intervalar e
população infinita
Variável intervalar e
população finita
Variável nominal ou
ordinal e população
infinita
Variável nominal ou
ordinal e população
finita
Obs.: A proporção (p) será a estimativa da verdadeira proporção de um dos níveis escolhidos para a
variável adotada. Por exemplo, 60% dos telefones da amostra é Nokia, então p será 0,60. A proporção
(q) será sempre 1 - p. Neste exemplo q, será 0,4. O erro é representado por d. Para casos em que não
se tenha como identificar as proporções confere-se 0,5 para p e q.
Motivação: Muitas vezes estamos interessados em algumas características de uma população, por
exemplo, qual a característica de uma região em Belo Horizonte? Qual o perfil dos moradores dessa
região? A consulta a todos os moradores dessa região tornaria o levantamento muito inviável por
diversas razões (limitações):
10
- Custo
- Tempo
- Pessoal
- Comodidade
- Impossibilidade de observar todas as unidades amostrais.
Dessa forma, consultar uma parte dos moradores (uma amostra) é uma alternativa bem razoável.
Por que fazer amostragem? População grande, diminuir custo, resultados mais rápidos, aumentar a
representatividade, melhorar a precisão (mais cuidado na obtenção dos dados), minimizar perdas por
medidas destrutivas. Por que fazer censo? População pequena, precisão completa (não se permite
erros), a observação já é completa.
Notação:
N: tamanho da população
n: tamanho da amostra
X1,..., XN : elementos da população
x1,..., xn: elementos da amostra
Elemento: É um objeto no qual as características de interesse podem ser medidas. Ex.: cada
residente que acionou a polícia através do 190.
População alvo (ou objetiva): É a coleção finita de elementos sobre a qual desejamos fazer
inferência, ou seja, coletar informações. Ex.: todas as pessoas que acionaram a polícia pelo 190.
Unidades amostrais: São partes disjuntas da população. A união dessas unidades deve constituir
toda a população referenciada e cada elemento da população só pode pertencer a uma única unidade
amostral. Ex.: cada residente que acionou a polícia através do 190.
Sistema de referência (ou frame): É uma lista de todas as unidades amostrais. Ex.: cadastro de
todas as pessoas que acionaram a polícia pelo 190.
Amostra representativa: É uma amostra na qual qualquer elemento da população pode fazer parte
dela.
Parâmetros populacionais: São medidas que sintetizam a informação dos elementos populacionais
em relação às características populacionais de interesse. Ex.: grau de satisfação das pessoas que
usaram o 190.
Estimador: É qualquer função das observações amostrais e que é utilizada para inferir sobre o
parâmetro populacional de interesse. Ex.: proporção das pessoas que estão satisfeitas com o 190.
Estimativa: É o valor numérico observado do estimador. Ex.: 68% das pessoas que acionaram o 190
estão satisfeitas.
11
Variação amostral: É a variação que acontece quando amostras com unidades amostrais diferentes
produz estimativas diferentes.
Esse erro acontece devido ao fato de que a amostra não pode fornecer uma informação completa
sobre a característica populacional medida. Tal erro pode ser controlado através da escolha adequada
do procedimento de amostragem a ser utilizada na coleta de dados e do tamanho da amostra.
Erros não devidos à amostragem: São erros que podem aparecer nas pesquisas e são mais
difíceis de serem controlados.
a) Erros de campo: Não respostas, informações imprecisas, efeitos dos entrevistadores, etc.
b) Erros de planejamento: Sistemas de referências não adequados, escolha incorreta do método de
seleção de unidades amostrais, vício na seleção das unidades amostrais, deficiência dos questionários,
etc.
A invalidação ou não da extensão dos resultados da pesquisa devido a “não resposta” dependerá:
a) do volume de não respondentes;
b) de uma análise criteriosa sobre a diferença de perfil dos respondentes em relação aos não
respondentes.
Plano amostral: É o protocolo que descreve todos os métodos e medidas envolvidos na execução
da amostragem. O plano amostral contém todas as informações, como o método usado para seleção da
amostra, erro de estimação e tamanho de amostra, estimadores usados na pesquisa, etc.
Seleção probabilística: São procedimentos de seleção de amostras nas quais cada unidade
amostral tem associada uma probabilidade de seleção diferente de zero.
Seleção não-probabilística: São procedimentos de seleção nos quais as unidades amostrais são
escolhidas intencionalmente, ou até atingir-se uma cota, ou de algum outro modo, com isso algumas
unidades amostrais tem probabilidade zero de seleção.
Planejamento de Pesquisa
Para que se possa fazer uma pesquisa por amostragem com qualidade é necessário definir-se
claramente:
- Os objetivos gerais da pesquisa;
- As populações alvo e de estudo, além de subpopulações de interesse;
- As características populacionais e os parâmetros de interesse;
- A unidade amostral e o sistema de referência de cada estágio de seleção da amostra;
- O método de amostragem a ser empregado na seleção da amostra; os estimadores e seus erros de
estimação; tamanho de amostras;
- O método de coleta de informações a ser empregado em campo, ou seja, entrevistas pessoais, por
telefone, pelo correio, internet, etc.
- O instrumento de medida a ser utilizado na coleta de informações, ou seja, um medidor físico.
Exemplo: questionário;
12
- Processamento de dados: escolher bem a forma de entrar com os dados no sistema para não
dificultar a análise estatística posterior dos dados;
- Deve-se ter bons digitadores bem treinados, manual de digitação com dicionários de variáveis e
códigos de digitação;
- Os erros de digitação e a consistência dos dados precisam ser verificados;
- Inacessibilidade a toda população: quando o pesquisador não tem acesso a toda população de
estudo, somente uma parte dela está disponível. Exemplo: população de usuários de drogas de Belo
Horizonte (não existe cadastro).
- Material contínuo: devido a característica da continuidade é impossível realizar sorteio. Exemplo:
Retirar amostras de água em diferentes pontos de um rio para avaliar a poluição.
- Amostragem por quotas: Inclui unidades amostrais na amostra segundo diversas características da
população e nas mesmas proporções que figuram na população. Exemplo: idade, sexo, nível
socioeconômico, etc.
- Amostragem por julgamento (ou conveniência): Inclui na amostra as unidades estatísticas que
poderão proporcionar uma representatividade da população, de acordo com a lógica, senso comum ou
um julgamento equilibrado.
- Amostragem por voluntário: Quando o indivíduo se apresenta para fazer parte da amostra. É um
método muito aplicado em pesquisas médicas.
- A esmo (ou sem norma): O pesquisador procura ser aleatório sem, no entanto, realizar
propriamente o sorteio. Exemplo: Misturar 10000 parafusos e retirar 100.
Procedimento:
Þ Enumerar de 1 a N, os elementos da população.
Þ Sortear n números compreendidos entre 1 e N.
O mecanismo aleatório de seleção dos números poderia ser, por exemplo, um gerador
computacional ou uma tabela de números aleatórios.
- Os elementos correspondentes aos números sorteados formarão a amostra.
Exemplo: Os dados a seguir referem-se aos diâmetros (mm) de 30 eixos produzidos por uma
indústria automobilística.
26 32 26 19 20 22 30 31 17 20 16 17 28 15 26 19 14 16 16 26 27 31 13 26 18 29 18 16 21 24
Solução:
Eixo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Diâmetro 26 32 26 19 20 22 30 31 17 20 16 17 28 15 26
Eixo 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Diâmetro 19 14 16 16 26 27 31 13 26 18 29 18 16 21 24
Sorteio: 26 15 03 07 06
Diâmetro: 29 26 26 30 22
13
Amostragem Estratificada (AAE): Este tipo de amostragem deve ser utilizado quando os elementos
da população podem ser divididos em grupos não-superpostos e homogêneos em relação à
característica que se quer medir (em relação à variável de interesse).
O objetivo da amostragem aleatória estratificada é formar estratos homogêneos e então realizar
amostragem aleatória simples dentro de cada estrato.
Essa forma de amostragem é uma das mais utilizadas, já que a maioria das populações tem estratos
bem definidos: os homens e as mulheres; os alunos das escolas X, Y, Z; os operários pertencentes às
classes salariais 1, 2, 3, 4 etc. Os estratos devem ser heterogêneos entre si e, homogêneos
internamente.
Procedimento:
- Primeiro divide a população alvo em L estratos (ou grupos)
Seja: Ni= número de unidades amostrais no estrato i;
N=N1+N2+...+NL N é o nº de unidades amostrais na população
- Selecionamos uma AAS dentro de cada estrato
Procedimento:
- Calcula-se a fração de amostragem: f = n/N
- O número de elementos a serem sorteados em cada estrato será:
Desejamos estimar o salário médio de um funcionário desta indústria usando uma amostra de
tamanho n=2500 funcionários. A população é heterogênea com relação a variável de interesse, pois o
salário varia muito dependendo do cargo. (n=2500).
Cargo N Salário
Chefe de seção 5000 Alto
Operário especializado 15000 Médio
Operário não especializado 30000 Baixo
Total 50000
Podemos formar estratos de acordo com o cargo. Assim teremos estratos homogêneos com relação
ao salário e teremos heterogeneidade entre os estratos. Selecionar os elementos da amostra entre os
vários estratos em número proporcional ao tamanho de cada um deles fração de amostragem: f = n/N =
2500/50000 = 0,05
O número de elementos a serem sorteados em cada estrato será: n1 = fN1 = 0,05.5000 = 250; n2 =
0,05.15000 = 750; n3 = 0,05.30000 = 15000
Usando o frame, sortear 250 chefes de seção, 750 operários especializados e 15000 operários não
especializados.
Exemplo: Na execução de uma rede elétrica, uma firma especializada utiliza eletrodutos de dois
tipos: E e F. Em uma análise do custo do material, foram consideradas 30 faturas, representadas a
seguir pelo preço de 10 m de eletroduto:
F: 750 750 750 750 755 760 760 765 765 765 765 765 770 770 770 785 785 790 790 795 795 800
810 820
14
Solução:
Eletroduto 1 2 3 4 5 6
Fatura 710 710 715 715 755 760
Tipo E:
Eletroduto 1 2 3 4 5 6 7 8 9 10 11 12
Fatura 750 750 750 750 755 760 760 765 765 765 765 765
Eletroduto 13 14 15 16 17 18 19 20 21 22 23 24
Fatura 770 770 770 785 785 790 790 795 795 800 810 820
Sorteio no frame 03 01 01 10 02 04 24 07
Tipo E E F F F F F F
Fatura - Amostra 715 710 750 765 750 750 820 760
Amostragem Sistemática (AS): Utilizada quando temos os elementos de uma população ordenada,
e a retirada dos elementos da amostra é feita periodicamente.
Ex.: os prédios de uma rua, as linhas de produção, listas telefônicas, etc.
Procedimento:
- Define-se o intervalo de amostragem r = N/n
- Sorteia-se o primeiro elemento K, 1£ K £ r, e os demais serão definidos pela soma de r.
A amostra sistemática de tamanho n será constituída dos elementos de ordem K, K + r, K + 2r, ..., K
+ (n – 1)r.
Amostragem por Conglomerado (ou Clusters) (AC): É uma amostra probabilística em que cada
unidade amostral é uma coleção, ou grupo de elementos.
Exemplo: Um quarteirão de uma cidade, que consiste de uma coleção (ou conglomerado) de
domicílios.
O primeiro passo para se usar esse processo é especificar conglomerados apropriados, que
idealmente são heterogêneos internamente e semelhantes entre si.
Nesse caso, a seleção de um pequeno número de conglomerados com um grande número de
elementos é suficiente para representar a população.
A amostra por conglomerado é muito útil quando:
- Não se dispõe de um bom frame, ou sua obtenção é muito complicada;
- Quando a distância geográfica entre os elementos eleva demais o custo de obter uma observação.
15
Na AAE seleciona-se uma AAS (de indivíduos) dentro de cada estrato;
Na AC selecionam-se AAS de grupos, e todos os indivíduos dentro dos grupos selecionados farão
parte da amostra.
Solução:
- Amostragem aleatória simples é inviável, pois pressupõe uma listagem de todos os operários de
todas as montadoras, o que é difícil de se obter.
- Amostragem estratificada é também inviável, já que aqui também é necessária uma listagem dos
elementos por estrato.
- A melhor escolha é amostragem por conglomerado. Cada montadora é um conglomerado. Assim
temos heterogeneidade dentro dos conglomerados com relação ao salário e entre os conglomerados
existe homogeneidade. Extrai-se uma amostra aleatória simples de montadoras e nelas pesquisa-se o
salário de todos os funcionários.
Exemplo: Um estatístico contratado pela prefeitura deseja estimar a renda média por domicílio em
uma determinada cidade do estado Paraná. Como ele deve escolher a amostra?
Solução: Se ele utilizar a AAS, precisará ter uma lista com todos os domicílios desta cidade (solução
muitas vezes impossível ou muito cara). Se utilizar então a AAE, ele também precisará desta lista
contendo todos os domicílios em cada estrato. Porém, ele utilizando esta amostragem por
conglomerados, poderia dividir a cidade em regiões tais como quarteirões, bairros (conglomerados de
elementos) e selecionar uma AAS de bairros da população. Depois poderia observar a renda de todos
os domicílios dentro de cada bairro. Vemos que desta forma o custo de se realizar esta entrevista seria
menor, pois os elementos dentro de um conglomerado estariam geograficamente mais próximos uns
dos outros, diminuindo assim as despesas com transporte.
Exemplo: Pretende-se fazer uma pesquisa de opinião, envolvendo famílias de uma determinada
cidade.
Solução: Como é muito difícil obter um cadastro de todas as famílias, pode-se planejar uma amostra
da seguinte forma: com um mapa da cidade delimita-se os bairros e as quadras; toma-se como unidade
amostral, primeiramente os bairros e dentre eles sorteia-se uma amostra casual simples. Em seguida,
tomando-se como unidade amostral, as quadras dos bairros selecionadas fazem-se, novamente, um
sorteio. Ao conjunto de famílias que habitam as quadras sorteadas dá-se o nome de conglomerado,
sendo elas que serão investigadas na pesquisa.
16
3 Importância e função da medida em ciências
humanas e sociais.
Equipe de Professores Maxi Educa
Ciências Humanas: As ciências humanas ou humanidades são as disciplinas que tratam dos
aspectos do ser humano como indivíduo e como ser social, tais como a filosofia, sociologia, ciência
política, antropologia, história, linguística, pedagogia, economia, administração, contabilidade, geografia
humana, direito, arqueologia, teologia, psicologia, entre outros.
Ciências Sociais: Ciências sociais é um ramo da ciência que estuda os aspectos sociais do mundo
humano, ou seja, a vida social de indivíduos e grupos humanos. Isso inclui Antropologia,
Biblioteconomia, Estudos da comunicação, Economia, Administração, Arqueologia, Contabilidade,
Geografia humana, História, Linguística, Ciência política, Estatística, Psicologia social, Direito e
Sociologia.
A importância da medida
1
Ana Amaral, Escola Superior de Tecnologia do Mar de Peniche – Instituto Politécnico de Leiria; Elfrida Ralha, Centro de Matemática,
Dep.to de Matemática – Universidade do Minho; Alexandra Gomes, CIFPEC/LIBEC Instituto de Estudos da Criança – Universidade do Minho.
17
aptidões e conhecimentos a desenvolver: “utilizar com correção instrumentos de medição; realizar
construções geométricas e efetuar medições, selecionando os instrumentos adequados”.
Em 2005, Serrazina e outros investigadores, num documento para discussão, afirmavam que a
subvalorização da compreensão do processo de medição, notório em orientações curriculares num
passado recente, deu lugar à preocupação de enfatizar o “desenvolvimento de capacidades de
visualização espacial...na compreensão do processo de medição mais do que na memorização de
fórmulas…”.
O Programa de Matemática do Ensino, refere-se quando da definição de objetivos gerais do ensino
da Matemática (Ponte2), que os alunos devem “.…conhecer os fatos e procedimentos básicos da
Matemática”, ou seja, os alunos devem ser capazes de: “reconhecer as figuras geométricas básicas;
efetuar medições e realizar construções geométricas com um grau de precisão adequado; usar
instrumentos matemáticos tais como réguas, esquadros, compassos, transferidores, e também
calculadoras e computadores”. Este documento refere ainda que os alunos devem desenvolver uma
compreensão da Matemática, ser capazes de “entender o significado dos conceitos, relacionando-os
com outros conceitos” matemáticos ou não e “perceber a razão de ser dos algoritmos e procedimentos
de rotina”. Os currículos de Matemática realçam ainda a importância da referência à História da
Matemática. Proporcionar o conhecimento da gênese desta ciência permitirá a compreensão de
conceitos a lecionar. Assim, o Programa de Matemática (Ponte) refere que os alunos devem se capazes
de “apreciar a Matemática”, “mostrar conhecimento da História da Matemática e ter apreço pelo seu
contributo para a cultura e para o desenvolvimento da sociedade contemporânea”.
O programa sugere que seja fomentado o interesse “por fatos da História da Matemática
relacionados com os conhecimentos a adquirir”, assim como desenvolvida a capacidade de “estabelecer
relações entre fatos históricos da Matemática e da História do Homem”.
Origens da medida
18
ensino alteraram-se (os escribas não se limitavam a copiar textos apresentados pelos professores), mas
os conceitos ligados à metrologia e às unidades de medida mantinham-se e por esta razão verificou-se
uma evolução na Matemática. Surgiram placas, do período da Antiga Babilônia, com problemas
envolvendo distâncias entre estrelas obrigando o estudante a lidar com números irregulares.
4 Sumarização de dados.
2ª Fase Estatística Indutiva: Conhecidas certas propriedades (obtidas a partir de uma análise
descritiva da amostra), expressas por meio de proposições, imaginam-se proposições mais gerais, que
exprimam a existência de leis (na população).
No entanto, ao contrário das proposições deduzidas, não podemos dizer que são falsas ou
verdadeiras, já que foram verificadas sobre um conjunto restrito de indivíduos, e, portanto não são
falsas, mas não foram verificadas para todos os indivíduos da População, pelo que também não
podemos afirmar que são verdadeiras.
Existe, assim, certo grau de incerteza (percentagem de erro) que é medido em termos de
Probabilidade. Precisamos aqui da noção de Probabilidade, para medir o grau de incerteza que existe,
quando tiramos uma conclusão para a população, a partir da observação da amostra.
19
descritiva detalhada permite ao pesquisador familiarizar-se com os dados, organizá-los e sintetizá-los
de forma a obter as informações necessárias do conjunto de dados para responder as questões que
estão sendo investigadas. Tradicionalmente, a análise descritiva limitava-se a calcular algumas medidas
de posição e variabilidade. No final da década de 70, Tukey criou uma nova corrente de análise.
Utilizando principalmente técnicas visuais, buscando descrever quase sem utilizar cálculos, alguma
forma de regularidade ou padrão nos dados, em oposição aos resumos numéricos. Nessa etapa, iremos
produzir tabelas, gráficos e medidas resumo que descrevam a tendência dos dados, quantifiquem a sua
variabilidade, permitam a detecção de estruturas interessantes e valores atípicos no banco de dados.
Tipo de variáveis: Cada uma das características de interesse observadas ou medidas durante o
estudo é denominada de variável. As variáveis que assumem valores numéricos são denominadas
quantitativas, enquanto que as não numéricas, qualitativas.
Uma variável é qualitativa quando seus valores são atributos ou qualidades (por ex: sexo, raça,
classe social). Se tais variáveis possuem uma ordenação natural, indicando intensidades crescentes de
realização, são classificadas de qualitativas ordinais (por ex: classe social - baixa, média ou alta). Se
não for possível estabelecer uma ordem natural entre seus valores, são classificadas como qualitativas
nominais (por ex: Sexo - masculino ou feminino).
As variáveis quantitativas podem ser classificadas ainda em discretas ou contínuas. Variáveis
discretas podem ser vistas como resultantes de contagens, e assumem, em geral, valores inteiros (por
ex: Número de filhos). Variáveis contínuas podem assumir qualquer valor dentro de um intervalo
especificado e são, geralmente, resultados de uma mensuração (por ex: Peso, em kg; Altura, em
metros).
Descrição dos dados: É importante conhecer e saber construir os principais tipos de tabelas,
gráficos e medidas resumo para realizar uma boa análise descritiva dos dados. Vamos tentar entender
como os dados se distribuem, onde estão centrados, quais observações são mais frequentes, como é a
variabilidade etc., tendo em vista responder às principais questões do estudo. Cada ferramenta fornece
um tipo de informação e o seu uso depende, em geral, do tipo de variável que está sendo investigada.
Mediana: é o valor que tem tantos dados antes dele, como depois dele. Para se medir a mediana, os
valores devem estar por ordem crescente ou decrescente. No caso do número de dados ser ímpar,
existe um e só um valor central que é a mediana. Se o número de dados é par, toma-se a média
aritmética dos dois valores centrais para a mediana.
É uma medida de localização do centro da distribuição dos dados, definida do seguinte
modo: Ordenados os elementos da amostra, a mediana é o valor (pertencente ou não à amostra) que a
divide ao meio, isto é, 50% dos elementos da amostra são menores ou iguais à mediana e os outros
50% são maiores ou iguais à mediana.
Para a sua determinação utiliza-se a seguinte regra, depois de ordenada a amostra de n
elementos: Se n é ímpar, a mediana é o elemento médio. Se n é par, a mediana é a semissoma dos
dois elementos médios.
A mediana, m, é uma medida de localização do centro da distribuição dos dados, definida do
seguinte modo:
20
Ordenados os elementos da amostra, a mediana é o valor (pertencente ou não à amostra) que a
divide ao meio, isto é, 50% dos elementos da amostra são menores ou iguais à mediana e os outros
50% são maiores ou iguais à mediana.
Para a sua determinação utiliza-se a seguinte regra, depois de ordenada a amostra de n elementos:
- Se n é ímpar, a mediana é o elemento médio.
- Se n é par, a mediana é a semissoma dos dois elementos médios.
Como medida de localização, a mediana é mais robusta do que a média, pois não é tão sensível aos
dados. Consideremos o seguinte exemplo: um aluno do 10º ano obteve as seguintes notas: 10, 10, 10,
11, 11, 11, 11, 12. A média e a mediana da amostra anterior são respectivamente.
=10.75 e =11
Admitamos que uma das notas de 10 foi substituída por uma de 18. Neste caso a mediana
continuaria a ser igual a 11, enquanto que a média subiria para 11.75.
A média ao contrário da mediana, é uma medida muito influenciada por valores “muito grandes” ou
“muito pequenos”, mesmo que estes valores surjam em pequeno número na amostra. Estes valores são
os responsáveis pela má utilização da média em muitas situações em que teria mais significado utilizar
a mediana.
A partir do exposto, deduzimos que se a distribuição dos dados:
- for aproximadamente simétrica, a média aproxima-se da mediana.
- for enviesada para a direita (alguns valores grandes como "outliers"), a média tende a ser maior que
a mediana.
- for enviesada para a esquerda (alguns valores pequenos como "outliers"), a média tende a ser
inferior à mediana.
21
Dado um histograma é fácil obter a posição da mediana, pois esta está na posição em que passando
uma linha vertical por esse ponto o histograma fica dividido em duas partes com áreas iguais.
Como medida de localização, a mediana é mais resistente do que a média, pois não é tão sensível
aos dados.
- Quando a distribuição é simétrica, a média e a mediana coincidem.
- A mediana não é tão sensível, como a média, às observações que são muito maiores ou muito
menores do que as restantes (outliers). Por outro lado a média reflete o valor de todas as observações.
Assim, não se pode dizer em termos absolutos qual destas medidas de localização é preferível,
dependendo do contexto em que estão a ser utilizadas.
Exemplo: Os salários dos 160 empregados de uma determinada empresa, distribuem-se de acordo
com a seguinte tabela de frequências:
Comentário: O fato de termos obtido uma média de 156,10 e uma mediana de 100, é reflexo do fato
de existirem alguns, embora poucos, salários muito altos, relativamente aos restantes. Repare-se que,
numa perspectiva social, a mediana é uma característica mais importante do que a média. Na realidade
50% dos trabalhadores têm salário menor ou igual a 100 €, embora a média de 156,10 € não transmita
essa ideia.
Vejamos de outra forma: Sabes, quando a distribuição dos dados é simétrica ou aproximadamente
simétrica, as medidas de localização do centro da amostra (média e mediana) coincidem ou são muito
semelhantes. O mesmo não se passa quando a distribuição dos dados é assimétrica, fato que se
prende com a pouca resistência da média.
22
Representando as distribuições dos dados (esta observação é válida para as representações
gráficas na forma de diagramas de barras ou de histograma) na forma de uma mancha, temos, de um
modo geral:
Moda: é o valor que ocorre mais vezes numa distribuição, ou seja, é o de maior efetivo e, portanto,
de maior frequência. Define-se moda como sendo: o valor que surge com mais frequência se os dados
são discretos, ou, o intervalo de classe com maior frequência se os dados são contínuos. Assim, da
representação gráfica dos dados, obtém-se imediatamente o valor que representa a moda ou a classe
modal. Esta medida é especialmente útil para reduzir a informação de um conjunto de dados
qualitativos, apresentados sob a forma de nomes ou categorias, para os quais não se pode calcular a
média e por vezes a mediana.
Para um conjunto de dados, define-se moda como sendo: o valor que surge com mais frequência se
os dados são discretos, ou, o intervalo de classe com maior frequência se os dados são contínuos.
Assim, da representação gráfica dos dados, obtém-se imediatamente o valor que representa a moda ou
a classe modal.
Esta medida é especialmente útil para reduzir a informação de um conjunto de dados qualitativos,
apresentados sob a forma de nomes ou categorias, para os quais não se pode calcular a média e por
vezes a mediana (se não forem susceptíveis de ordenação).
Tal como a mediana, é uma medida que se calcula a partir da amostra ordenada. Um processo de
obter os quartis é utilizando a Função Distribuição Empírica.
Generalizando ainda a expressão para o cálculo da mediana, temos uma expressão análoga para o
cálculo dos quartis:
23
Qp =
Aos quartis de ordem 1/4 e 3/4 , damos respectivamente o nome de 1º quartil e 3º quartil. Exemplo:
Tendo-se decidido registrar os pesos dos alunos de uma determinada turma prática do 10º ano,
obtiveram-se os seguintes valores (em kg):
52 56 62 54 52 51 60 61 56 55 56 54 57 67 61 49
49 51 52 52 54 54 55 56 56 56 57 60 61 61 62 67
b) Um aluno com 61 kg pode ser considerado um pouco "forte", pois naquela turma só 25% dos
alunos é que têm peso maior ou igual a 60.5 kg.
6 Medidas de Variabilidade.
As medidas de tendência central fornecem informações valiosas mas, em geral, não são suficientes
para descrever e discriminar diferentes conjuntos de dados. As medidas de Dispersão ou variabilidade
permitem visualizar a maneira como os dados espalham-se (ou concentram-se) em torno do valor
central. Para mensurarmos esta variabilidade podemos utilizar as seguintes estatísticas: amplitude total;
distância interquartílica; desvio médio; variância; desvio padrão e coeficiente de variação.
24
- Desvio Médio: é a diferença entre o valor observado e a medida de tendência central do conjunto
de dados.
- Variância: é uma medida que expressa um desvio quadrático médio do conjunto de dados, e sua
unidade é o quadrado da unidade dos dados.
- Desvio Padrão: é raiz quadrada da variância e sua unidade de medida é a mesma que a do
conjunto de dados.
- Coeficiente de variação: é uma medida de variabilidade relativa, definida como a razão percentual
entre o desvio padrão e a média, e assim sendo uma medida adimensional expressa em percentual.
Boxplot: Tanto a média como o desvio padrão podem não ser medidas adequadas para representar
um conjunto de valores, uma vez que são afetados, de forma exagerada, por valores extremos. Além
disso, apenas com estas duas medidas não temos ideia da assimetria da distribuição dos valores. Para
solucionar esses problemas, podemos utilizar o Boxplot. Para construí-lo, desenhamos uma "caixa" com
o nível superior dado pelo terceiro quartil (Q3) e o nível inferior pelo primeiro quartil (Q1). A mediana
(Q2) é representada por um traço no interior da caixa e segmentos de reta são colocados da caixa até
os valores máximo e mínimo, que não sejam observações discrepantes. O critério para decidir se uma
observação é discrepante pode variar; por ora, chamaremos de discrepante os valores maiores do que
Q3+1.5*(Q3-Q1) ou menores do que Q1-1.5*(Q3-Q1).
O Boxplot fornece informações sobre posição, dispersão, assimetria, caudas e valores discrepantes.
Variância: Define-se a variância, como sendo a medida que se obtém somando os quadrados dos
desvios das observações da amostra, relativamente à sua média, e dividindo pelo número de
observações da amostra menos um.
25
Desvio-Padrão: Uma vez que a variância envolve a soma de quadrados, a unidade em que se
exprime não é a mesma que a dos dados. Assim, para obter uma medida da variabilidade ou dispersão
com as mesmas unidades que os dados, tomamos a raiz quadrada da variância e obtemos o desvio
padrão: O desvio padrão é uma medida que só pode assumir valores não negativos e quanto maior for,
maior será a dispersão dos dados. Algumas propriedades do desvio padrão, que resultam
imediatamente da definição, são: o desvio padrão será maior, quanta mais variabilidade houver entre os
dados.
Exemplo: Em uma turma de aluno, verificou-se através da análise das notas de 15 alunos, os
seguintes desempenhos:
Observamos no exemplo, que a média das provas, foi estimada em 7,32 com desvio padrão em 1,77.
Concluímos que a maioria das notas concentrou-se em 9,09 e 5,55.
Como a medida de localização mais utilizada é a média, será relativamente a ela que se define a
principal medida de dispersão - a variância, apresentada a seguir.
Define-se a variância, e representa-se por s2, como sendo a medida que se obtém somando os
quadrados dos desvios das observações da amostra, relativamente à sua média, e dividindo pelo
número de observações da amostra menos um:
26
Se afinal pretendemos medir a dispersão relativamente à média. Por que é que não somamos
simplesmente os desvios em vez de somarmos os seus quadrados?
Experimenta calcular essa soma e verás que (x1-x) + (x2-x) + (x1-x) + ... + (xn – x) ≠ 0. Poderíamos ter
utilizado módulos, para evitar que os desvios negativos, mas é mais fácil trabalhar com quadrados, não
concorda?! E por que é que em vez de dividirmos pó “n”, que é o número de desvios, dividimos por (n-
1)? Na realidade, só aparentemente é que temos “n” desvios independentes, isto é, se calcularmos (n-1)
desvios, o restante fica automaticamente calculado, uma vez que a sua soma é igual a zero. Costuma-
se referir este fato dizendo que se perdeu um grau de liberdade.
Uma vez que a variância envolve a soma de quadrados, a unidade em que se exprime não é a
mesma que a dos dados. Assim, para obter uma medida da variabilidade ou dispersão com as mesmas
unidades que os dados, tomamos a raiz quadrada da variância e obtemos o desvio padrão:
O desvio padrão é uma medida que só pode assumir valores não negativos e quanto maior for, maior
será a dispersão dos dados. Algumas propriedades do desvio padrão, que resultam imediatamente da
definição, são:
- o desvio padrão é sempre não negativo e será tanto maior, quanta mais variabilidade houver entre
os dados.
- se s = 0, então não existe variabilidade, isto é, os dados são todos iguais.
Exemplo: Na 2ª classe de certa escola o professor deu uma tarefa constituída por certo número de
contas para os alunos resolverem. Pretendendo determinar a dispersão dos tempos de cálculo,
observam-se 10 alunos durante a realização da tarefa, tendo-se obtido os seguintes valores:
Resolução: Na tabela anterior juntamos duas colunas auxiliares, uma para colocar os desvios das
observações em relação à média e a outra para escrever os quadrados destes desvios. A partir da
coluna das observações calculamos a soma dessas observações, que nos permitiu calcular a média =
16.9. Uma vez calculada a média foi possível calcular a coluna dos desvios. Repare-se que, como seria
de esperar, a soma dos desvios é igual a zero. A soma dos quadrados dos desvios permite-nos calcular
a variância donde s = 3.54.
s2 = 112.9 = 12.54
27
9
O tempo médio de realização da tarefa foi de aproximadamente 17 minutos com uma variabilidade
medida pelo desvio padrão de aproximadamente 3.5 minutos. Na representação gráfica ao lado
visualizamos os desvios das observações relativamente à média (valores do exemplo anterior):
Do mesmo modo que a média, também o desvio padrão é uma medida pouco resistente, pois é
influenciado por valores ou muito grandes ou muito pequenos (o que seria de esperar já que na sua
definição entra a média que é não resistente). Assim, se a distribuição dos dados for bastante
enviesada, não é conveniente utilizar a média como medida de localização, nem o desvio padrão como
medida de variabilidade. Estas medidas só dão informação útil, respectivamente sobre a localização do
centro da distribuição dos dados e sobre a variabilidade, se as distribuições dos dados forem
aproximadamente simétricas.
Propriedades para dados com distribuição aproximadamente normal: Uma propriedade que se
verifica se os dados se distribuem de forma aproximadamente normal, ou seja, quando o histograma
apresenta uma forma característica com uma classe média predominante e as outras classes se
distribuem à volta desta de forma aproximadamente simétrica e com frequências a decrescer à medida
que se afastam da classe média, é a seguinte:
Aproximadamente 68% dos dados estão no intervalo .
28
Como se depreende do que atrás foi dito, se os dados se distribuem de forma aproximadamente
normal, então estão praticamente todos concentrados num intervalo de amplitude igual a 6 vezes o
desvio padrão.
A informação que o desvio padrão dá sobre a variabilidade deve ser entendida como a variabilidade
que é apresentada relativamente a um ponto de referência - a média, e não propriamente a
variabilidade dos dados, uns relativamente aos outros.
A partir da definição de variância, pode-se deduzir sem dificuldade uma expressão mais simples, sob
o ponto de vista computacional, para calcular ou a variância ou o desvio padrão e que é a seguinte:
Amplitude: Uma medida de dispersão que se utiliza por vezes, é a amplitude amostral r, definida
como sendo a diferença entre a maior e a menor das observações: r = xn:n - x1:n, onde representamos
por x1:n e xn:n, respectivamente o menor e o maior valor da amostra (x1, x2, ..., xn), de acordo com a
notação introduzida anteriormente, para a amostra ordenada.
Amplitude Inter-Quartil: A medida anterior tem a grande desvantagem de ser muito sensível à
existência, na amostra, de uma observação muito grande ou muito pequena. Assim, define-se uma
outra medida, a amplitude inter-quartil, que é, em certa medida, uma solução de compromisso, pois não
é afetada, de um modo geral, pela existência de um número pequeno de observações demasiado
grandes ou demasiado pequenas. Esta medida é definida como sendo a diferença entre os 1º e 3º
quartis. Amplitude inter-quartil = Q3/4 - Q1/4
Do modo como se define a amplitude inter-quartil, concluímos que 50% dos elementos do meio da
amostra, estão contidos num intervalo com aquela amplitude. Esta medida é não negativa e será tanto
maior quanto maior for a variabilidade nos dados. Mas, ao contrário do que acontece com o desvio
padrão, uma amplitude inter-quartil nula, não significa necessariamente, que os dados não apresentem
variabilidade.
Amplitude inter-quartil ou desvio padrão: Do mesmo modo que a questão foi posta relativamente
às duas medidas de localização mais utilizadas - média e mediana, também aqui se pode por o
problema de comparar aquelas duas medidas de dispersão.
- A amplitude inter-quartil é mais robusta, relativamente à presença de "outliers", do que o desvio
padrão, que é mais sensível aos dados.
- Para uma distribuição dos dados aproximadamente normal, verifica-se a seguinte relação.
Amplitude inter-quartil 1.3 x desvio padrão.
- Se a distribuição é enviesada, já não se pode estabelecer uma relação análoga à anterior, mas
pode acontecer que o desvio padrão seja muito superior à amplitude inter-quartil, sobretudo se se
verificar a existência de "outliers".
29
7 Curva normal e suas propriedades.
Distribuição de Frequência: Quando da análise de dados, é comum procurar conferir certa ordem
aos números tornando-os visualmente mais amigáveis. O procedimento mais comum é o de divisão por
classes ou categorias, verificando-se o número de indivíduos pertencentes a cada classe.
- Determina-se o menor e o maior valor para o conjunto.
- Definir o limite inferior da primeira classe (Li) que deve ser igual ou ligeiramente inferior ao menor
valor das observações:
- Definir o limite superior da última classe (Ls) que deve ser igual ou ligeiramente superior ao maior
valor das observações.
- Definir o número de classes (K), que será calculado usando . Obrigatoriamente deve estar
compreendido entre 5 a 20.
- Conhecido o número de classes define-se a amplitude de cada classe:
- Com o conhecimento da amplitude de cada classe, define-se os limites para cada classe (inferior e
superior)
Exemplo:
- Definir o limite inferior da primeira classe (Li) que deve ser igual ou ligeiramente inferior ao menor
valor das observações: LI: 5,1
- Definir o limite superior da última classe (Ls) que deve ser igual ou ligeiramente superior ao maior
valor das observações: LS:15
- Definir o número de classes (K), que será calculado usando . Obrigatoriamente deve estar
compreendido entre 5 a 20. Neste caso, K é igual a 8,94, aproximadamente, 8.
30
- Com o conhecimento da amplitude de cada classe, define-se os limites para cada classe (inferior e
superior), onde limite Inferior será 5,1 e o limite superior será 15 + 1,23.
Caso especial de uma distribuição simétrica: Quando dizemos que os dados obedecem a uma
distribuição normal, estamos tratando de dados que distribuem-se em forma de sino.
Distribuições Assimétricas: A distribuição das frequências apresenta valores menores num dos
lados:
Distribuições com "caudas" longas: Observamos que nas extremidades há uma grande
concentração de dados em relação aos concentrados na região central da distribuição.
31
68,26% => 1 desvio
95,44% => 2 desvios
99,73% => 3 desvios
Na figura acima, tem as barras na vertical representando os desvios padrões. Quanto mais afastado
do centro da curva normal, mais área compreendida abaixo da curva haverá. A um desvio padrão,
temos 68,26% das observações contidas. A dois desvios padrões, possuímos 95,44% dos dados
compreendidos e finalmente a três desvios, temos 99,73%. Podemos concluir que quanto maior a
variabilidade dos dados em relação à média, maior a probabilidade de encontrarmos o valor que
buscamos embaixo da normal.
Propriedade 1: "f(x) é simétrica em relação à origem, x = média = 0;
Propriedade 2: "f(x) possui um máximo para z=0, e nesse caso sua ordenada vale 0,39;
Propriedade3: "f(x) tende a zero quando x tende para + infinito ou - infinito;
Propriedade4: "f(x) tem dois pontos de inflexão cujas abscissas valem média + DP e média - DP, ou
quando z tem dois pontos de inflexão cujas abscissas valem +1 e -1.
Para se obter a probabilidade sob a curva normal, utilizamos a tabela de faixa central. Exemplo:
As alturas de grupo de crianças são tidas como normais em sua distribuição, com desvio padrão em
0,30m e média em 1,60. Qual a probabilidade de um aluno medir (1) entre 1,50 e 1,80, (2) mais de 1,75
e menos de 1,48?
(1)
z1= (1,50-1,60)/0,30=-0,33
z2= (1,80-1,60)/0,30= 0,67
Então, z1 (0,1293) + z2 (0,2486) = 37,79%
(2)
z1= (1,75-1,60)/0,30=0,30
0,500-0,1915 = 30,85%
(3)
Z1= (1,48-1,50)/0,30 =-0,4
0,500-0,1554 = 34,46%
A curva normal, também conhecida como a curva em forma de sino, tem uma história bastante longa
e está ligada à história da descoberta das probabilidades em matemática, no século XVII, que surgiram
para resolver inicialmente questões de apostas de jogos de azar. O responsável mais direto da curva
normal foi Abraham de Moivre, matemático francês exilado na Inglaterra, que a definiu em 1730, dando
sequência aos trabalhos de Jacob Bernoulli (teorema ou lei dos grandes números) e de seu sobrinho
Nicolaus Bernoulli, matemáticos suícos. Moivre publicou seus trabalhos em 1733 na obra The doctrine
of the chances. O sucesso da descoberta foi rápido e grandes nomes passaram a trabalhar sobre a
curva normal, tais como Laplace, que em 1783 a utilizou para descrever a distribuição dos erros, e
Gauss, que em 1809 a empregou para analisar dados astronômicos. Inclusive, a curva normal é
chamada de distribuição de Gauss.
32
Hoje em dia, a curva normal é um ganho fundamental em ciência, porque a normalidade ocorre
naturalmente em muitas, senão todas as medidas de situações físicas, biológicas e sociais, e é
fundamental para a inferência estatística. Segundo a lei dos grandes números de Bernoulli, em uma
situação de eventos casuais, em que as chances de ocorrência são independentes, obter coroa em
lances de uma moeda de cara e coroa, tem a probabilidade matemática exata de 50% (porque são
somente dois eventos possíveis: cara ou coroa), mas na prática esta probabilidade de 50% é apenas
aproximada.
Quanto maior o número de tentativas, mais exata será a aproximação desse valor. Isso quer dizer
que os erros (desvios) serão menores na medida em que aumenta o número de lances. Desvios
grandes são raros e desvios pequenos frequentes. Portanto, aumentando as tentativas, aumenta o
número de desvios pequenos, prevalecendo cada vez mais sobre os desvios grandes, de tal forma que,
no limite, haverá quase somente desvios pequenos, sendo o desvio 0 (zero) o menor deles e, por
consequência, o mais frequente. Dessa forma, os erros se distribuem simetricamente em torno da
média, formando uma curva simétrica com o pico na média e caindo suavemente à esquerda (erros que
subestimam a média) e à direita (erros que superestimam a média).
Além disso, essa curva simétrica permitiu a Moivre calcular uma medida de dispersão das
observações em torno da média, medida esta chamada posteriormente como desvio-padrão. O nome
curva normal, atribuído por Moivre, existe porque a média representa a norma, isto é, todo valor
diferente da média é considerado desvio, sendo que todos os valores deveriam ser iguais à média.
Em dois casos, deve ser utilizada a distribuição normal:
- Quando a distribuição da própria população de eventos é normal, ou
- Quando a distribuição da população não for normal, mas o número de casos for grande (teorema de
Bernoulli ou o teorema do limite central).
Assim, qualquer que seja a distribuição dos seus dados, se você tiver um número grande de
observações, você pode utilizar a curva normal como uma aproximação adequada para a análise dos
seus dados. O teorema dos grandes números se aplica quando a amostra da pesquisa é aleatória.
33
8 Testes de Hipóteses.
Em estatística, um Teste de Hipóteses é um método para verificar se os dados são compatíveis com
alguma hipótese, podendo muitas vezes sugerir a não validade de uma hipótese. O teste de hipóteses é
um procedimento estatístico baseado na análise de uma amostra, através da teoria de probabilidades,
usado para avaliar determinados parâmetros que são desconhecidos numa população. A expressão
“teste de significancea” foi criada por Ronald Fisher: "Critical tests of this kind may be called tests of
significance, and when such tests are available we may discover whether a second sample is or is not
significantly different from the first."
Um Teste de Hipóteses pode ser paramétrico ou não paramétrico. Testes paramétricos são
baseados em parâmetros da amostra, por exemplo média e desvio padrão. O uso tanto dos testes
paramétricos como dos não paramétricos está condicionado à dimensão da amostra e à respectiva
distribuição da variável em estudo.
Os testes de hipóteses são sempre constituídos por duas hipóteses, a hipótese nula H0 e a hipótese
alternativa H1.
- Hipótese nula (Ho): é a hipótese que traduz a ausência do efeito que se quer verificar.
- Hipóteses alternativas (H1): é a hipótese que o investigador quer verificar.
O valor p, p-valor ou nível descritivo, é uma estatística muito utilizada para sintetizar o resultado de
um teste de hipóteses. Formalmente, o valor-p é definido como a probabilidade de se obter uma
estatística de teste igual ou mais extrema quanto àquela observada em uma amostra, assumindo
verdadeira a hipótese nula.
9 Correlação.
34
diferentes. O mais conhecido é o coeficiente de correlação de Pearson, o qual é obtido dividindo a
covariância de duas variáveis pelo produto de seus desvios padrão. Apesar do nome, ela foi
apresentada inicialmente por Francis Galton.
A correlação falha em capturar dependência em algumas instâncias. Em geral é possível mostrar que
há pares de variáveis aleatórias com forte dependência estatística e que, no entanto apresentam
correlação nula. Para esse caso devem-se usar outras medidas de dependência.
Propriedades Matemáticas
O coeficiente de correlação ρX, Y entre duas variáveis aleatórias X e Y com valores esperados μX e μY
e desvios padrão σX e σY é definida como:
onde E é o operador valor esperado e cov significa covariância. Como μX = E(X), σX² = E(X²) − E²(X)
e , do mesmo modo para Y, podemos escrever também
A correlação é definida apenas se ambos desvios padrões são finitos e diferentes de zero. Pelo
corolário da desigualdade de Cauchy-Schwarz, a correlação não pode exceder 1 em valor absoluto.
QUESTÕES
35
2. A mediana desses valores vale:
A) 6
B) 6,5
C) 7
D) 7,5
E) 8
Sabendo-se que nesse mês a média de chamados de suporte foi de 23 por departamento, o número
de chamados do departamento comercial supera o número de chamados do departamento de finanças
em
A) 14.
B) 15.
C) 16.
D) 17.
E) 18.
http://portalibre.fgv.br/main.jsp?lumChannelId=402880811D8E34B9011D92B6B6420E96,
36
da FGV- Fundação Getúlio Vargas, acessado em 04/12/2010, o cálculo do índice Geral de Preços
(IGP) é feito através da média aritmética ponderada de três outros índices de preços, quais sejam o
índice de Preços ao Produtor Amplo (IPA), o Índice de Preços ao Consumidor (IPC) e o Índice Nacional
de Custo da Construção (INCC). Os pesos de cada um dos índices componentes correspondem a
parcelas da despesa interna bruta, calculadas com base nas Contas Nacionais – resultando na seguinte
distribuição: peso 6 para o IPA, peso 3 para o IPC e peso 1 para o INCC. O IGP de novembro de 2010,
sabendo que os índices registrados no mês foram IPA(1,49%), IPC(0,62%) e INCC(0,24%), foi de
A) 11,04%.
B) 12,35%.
C) 2,35%.
D) 1,45%.
E) 1,104%.
Sabe-se que a média mensal dos salários do porteiro e do segurança é de R$ 1.725,00. Sendo
assim, o maior salário dessa tabela corresponde a
A) R$1.350,00.
B) R$1.555,00.
C) R$1.925,00.
D) R$2.250,00.
E) R$2.500,00.
10. Dados os conjuntos de números A = {-2, -1, 0, 1, 2} e B = {220, 225, 230, 235, 240}, podemos
afirmar, de acordo com as propriedades do desvio padrão, que o desvio padrão de B é igual:
A) ao desvio padrão de A;
B) ao desvio padrão de A, multiplicado pela constante 5;
C) ao desvio padrão de A, multiplicado pela constante 5, e esse resultado somado a 230;
D) ao desvio padrão de A mais a constante 230.
E) N.R.A.
RESPOSTAS
1. RESPOSTA: “C”.
37
Salário homens: SH
Salário mulher:SM
Homens: x+10
Mulheres: x
Substituindo SH e SM:
7600x+38000=4000x+40000+3500x
100x=2000
X=20
Homens:x+10=20+10=30
2. RESPOSTA: “C”.
3. RESPOSTA: “A”.
4. RESPOSTA: “B”.
5. RESPOSTA: “A”.
x=612
38
6. RESPOSTA: “C”.
C-área comercial
C=29
29-13=16
7. RESPOSTA: “E”.
8. RESPOSTA: “D”.
Mmc(2,3)=6
23n=20700
N=900
9. RESPOSTA: “D”.
̅
( ) ( ) ( ) ( ) ( )
√( ) ( ) ( ) ( ) √
̅̅̅̅
√( ) ( ) ( ) ( ) ( ) √ √
Referências
Site SóMatemática
http://www.alea.pt/index.html
http://www.datalyzer.com.br
39