Você está na página 1de 161

Apoena Canuto Cosenza

Introduo s ferramentas quantitativas no estudo em histria e outras


cincias sociais.

So Paulo
Edio do Autor
2014

COSENZA, Apoena Canuto. Introduo s ferramentas quantitativas no estudo em histria e outras


cincias sociais. So Paulo: Edio do autor, 2014. ISBN 978-85-918255-1-6

Sumrio
Alguns usos possveis de ferramentas quantitativas.............................................................................5
Alguns dos possveis usos de ferramentas quantitativas.................................................................7
Coleta de dados e quantificao de variveis................................................................................19
Organizando os dados coletados....................................................................................................25
Ferramentas de apresentao dos dados e a estatstica observacional................................................32
Escolha e produo de grficos.....................................................................................................32
Grfico de Pizza.............................................................................................................................38
Grficos de Barras e Colunas.........................................................................................................42
Grfico de linhas............................................................................................................................43
Grfico de Disperso X-Y..............................................................................................................45
Estatstica observacional................................................................................................................47
Mdia.............................................................................................................................................48
Moda..............................................................................................................................................52
Mediana, quartil, e percentil..........................................................................................................53
Proporo.......................................................................................................................................54
Frequncia......................................................................................................................................55
ndices............................................................................................................................................56
Interpolao pela progresso.........................................................................................................60
Projeo da proporo...................................................................................................................64
Alguns tpicos de estatstica Inferencial............................................................................................68
Teste de Hipteses.........................................................................................................................68
Desvio padro................................................................................................................................71
Funo de densidade de probabilidade..........................................................................................72
Covarincia e Correlao...............................................................................................................78
Regresso.......................................................................................................................................80
Mtodo dos mnimos quadrados ordinrios...................................................................................80
Anlise de regresso......................................................................................................................95
Outros mtodos de clculo de regresso......................................................................................103
Uso de softwares para estatstica inferencial (Gretl)........................................................................111
Instalao......................................................................................................................................111
Preparao dos dados e variveis.................................................................................................111
Amostra Aleatria........................................................................................................................117
Distribuio de frequncia...........................................................................................................117
Mdia e desvio padro.................................................................................................................120
Densidade de probabilidade.........................................................................................................121
Matriz de correlao e grfico de disperso................................................................................123

Mnimos quadrados ordinrios (MQO).......................................................................................126


Anlise do resultado das regresses.............................................................................................128
Regresso sem intercepto.............................................................................................................132
Regresso linear...........................................................................................................................133
Regresso log-linear.....................................................................................................................135
Regresso recproca.....................................................................................................................137
Regresso Quadrtica..................................................................................................................139
Regresso Cbica.........................................................................................................................141
Regresso Polinomial..................................................................................................................144
Regresso com varivel categrica (dummy)..............................................................................145
Regresses alternativas................................................................................................................147
Bibliografia.......................................................................................................................................161

Alguns usos possveis de ferramentas quantitativas.

Atualmente, muitos estudantes de histria passam sua formao inteira sem ter
contato direto com ferramentas de anlise quantitativa. comum que dados quantificados
apaream em alguns trabalhos, mas muitas vezes so apenas informaes ilustrativas. Por
vezes parece que todo trabalho do historiador, ou de outros cientistas sociais, seria deduzir
aquilo que aconteceu. Como se as cincias sociais fossem o reino do logicamente coerente, e
da imaginao.
Essa dicotomia que parece ter sido criada (embora exista muito mais na cabea de
estudantes relapsos do que na realidade) entre anlises quantitativas e qualitativas falsa.
Trata-se de uma armadilha que induz o estudante ao erro. Se o lgico no se verifica no seu
objeto de estudo, possvel que seja necessrio rever sua teoria. No adianta pular etapas, e
decretar seu acerto terico sem que haja evidncias que de fato se trata de um acerto. To
pouco se pode acreditar que, por haver coletado dados numerosos, esses dados descrevem
com perfeio a realidade. Por vezes, entre uma coleta de dados e outra pode haver
informao conflitante. E essa pode ser fruto ou de uma pesquisa viciada, ou de uma realidade
concreta.
Por exemplo, entre 1922 e 1935, o PCB sofreu constantes processos de
desorganizao, observveis pelo volume de cartas internas apontando para perda de direo
das direes regionais e nacionais. Ainda assim, o partido logrou recrutar em funo
geomtrica. Esses dados conflitantes sozinhos no explicam a realidade sem que haja um
exerccio de deduo. Nesse caso, a deduo apontava que o recrutamento crescia em funo
da atuao dos militantes de base, que continuavam a recrutar e se mobilizar, mesmo quando
sua organizao poltica estava debilitada. J a atuao da direo, teria tido dificuldades de se
adaptar e organizar o seu efetivo crescente de militantes.
Mas, ao mesmo tempo, sem verificar esses dados, jamais teramos localizado essa
contradio. O simples exerccio de deduo sobre informaes no trabalhadas pode se
mostrar deficiente.
Ora, a cincia no pode ser apenas dedutiva. Nem tudo que logicamente coerente
5

explica a realidade tal qual ela se deu. Na verdade, comum que mais do que dois modelos
consigam explicar teoricamente um mesmo processo. Tanto um modelo weberiano como um
marxista pode explicar, teoricamente, como teria se dado a industrializao no Brasil. Mas
qual explica melhor?
Da a importncia de se utilizar ferramentas inferenciais. Enquanto a deduo
buscaria a organizao e coerncia lgica para explicar os fenmenos; a inferncia depende
das repeties estatsticas como indcio do que pode ou no ter acontecido. Essa diferena
entre deduo e inferncia classicamente explicada da seguinte forma:
(a) Deduo: como a definio de cachorro de que se trata de um animal de quatro
patas, de tamanho e pelugem variada, deduzo que todo cachorro possui quatro patas,
independentemente de sua cor ou de sua pelugem.
(b) Inferncia: Observou-se na amostra de dados coletados que 99,99% dos cachorros
nasceram com quatro patas. Apenas 0,01% nasceram com um nmero diferente de
patas.
(c) Inferncia como base para deduo: Considerando que 99,99% dos cachorros nascem
com quatro patas, ao se observar um cachorro com trs, provvel que isso tenha sido
fruto de um acidente. No se poderia descartar, no entanto, a possibilidade da
existncia de uma mutao que teria levado a essa diferena.
Para um historiador, isso se refletiria em afirmaes (hipotticas) como: (a) deduo
um partido denominado de Partido Operrio que atuou na dcada de 1990 na USP, seria
composto de filhos da classe trabalhadora, ou ao menos apoiadores dessa; e (b) inferncia
observando a composio de classe dos membros do Partido Operrio, verifica-se que 40% de
seus membros tinham origem operria, enquanto os demais eram estudantes de distintas
camadas que adotaram o programa do Partido.
Como se observa, a inferncia no descarta a deduo. A observao do fenmeno
no basta. necessrio explicar o porqu de aquele fenmeno ter ocorrido. No entanto,
sempre melhor partir de estudos inferenciais, do que da imaginao frtil de cada um.
Para os historiadores isso implica em uma tomada de deciso. Trata-se de optar por
tratar a histria como uma cincia, e no apenas como uma arte. Hoje, assumir essa postura
parece estar fora de moda. Da, talvez, o motivo pelo qual muitos historiadores tm deixado

de estudar as ferramentas quantitativas.

Mas, para os que leem obras de histria, muito clara a diferena entre ser
convencido por que um argumento lgico, e o ser por que os dados apresentados apontam
para aquela informao. Uma coisa escutar que no perodo da Segunda Guerra o Brasil teria
encontrado um cenrio de fortalecimento das exportaes, ao passo que havia escassez para
importao de produtos. Isso pode ser contrariado por argumentos distintos. Por exemplo,
algum poderia afirmar que como a Europa estava em guerra, as exportaes brasileiras
teriam sido prejudicadas.
Outra coisa ler em Celso Furtado, na obra Formao Econmica Brasileira,1 a
tabela da evoluo do intercambio externo brasileiro. Nela ele apontou o crescimento de 100
para 131 na capacidade para importar, entre 1937 e 1945, e de 100 para 90,3 no quantum das
importaes. Esse dado indicaria que teria havido sim melhoria para o setor exportador do
Brasil, e que isso no teria resultado em abundncia nas importaes.
Alguns dos possveis usos de ferramentas quantitativas.
Entre reconhecer a importncia dos dados, e saber trabalh-los, h uma grande
diferena. surpreendente a quantidade de pessoas que ingressam na ps-graduao sabendo
que precisam coletar e trabalhar informaes quantitativas, mas no possuem a mnima ideia
de como fazer isso. Muitas vezes, nem sabem como escolher a forma que os dados devem ser
trabalhados para que ganhem o sentido que pretendem. Isso ocorre mesmo no curso de
Histria Econmica da USP.
Isso um pouco consequncia da falta de repertrio dos pesquisadores. As vezes,
mesmo lendo obras que apresentam formas distintas de trabalho dos dados, por possuir um
olhar destreinado um estudante pode no absorver a ferramenta metodolgica que lhe foi
apresentada. Caberia aos professores ajudar a despertar esse olhar, mas apenas o estudante
pode tomar a deciso de prestar ateno naquilo que escuta e no que l.
Um mesmo conjunto de dados pode ser apresentado, e trabalhado, de formas
diferentes. Ainda, conjuntos diferentes exigem formas distintas de trabalho. Por exemplo, no
1

FURTADO, Celso. Formao Econmica do Brasil. So Paulo: Companhia Editora Nacional, 1970. Pg. 207

se processa de forma idntica os seguintes dados: (a) valores da balana comercial; e (b)
nmero de usinas eltricas em um pas. Ainda, os valores da balana comercial poderiam ser
trabalhados na forma (i) bruta, ou (ii) em forma de ndice.
No intuito de auxiliar a criao de repertrio, sero apresentados como alguns
autores consagrados utilizaram ferramentas quantitativas para auxiliar a investigao de
processos histricos. Com esses exemplos, sero exemplificados: (a) apresentao de dados
brutos; (b) apresentao de dados em ndice; (c) peso relativo; (d) apresentao de dados
divididos em classes (em srie histrica e por perodo); (e) dados em ndice derivado; (f)
mapa temtico; (g) equao de regresso linear; e (h) anlise de resduos e perfil cclico.
(a) Apresentao de dados brutos
Heitor Ferreira Lima, na obra Formao Industrial do Brasil2, apresentou uma tabela
com dados da balana comercial do Brasil, de 1796 a 1807. Os valores apresentados se
tratavam de valores correntes, em mil ris. Ou seja, Ferreira Lima apresentou quanto o Brasil
exportou e importou em mil ris em cada ano. Descrito dessa forma, no possvel detectar se
as variaes das exportaes e importaes oscilaram por mudana no volume comerciado, ou
por conta do preo do que foi comerciado. Sem conhecer previamente o quanto valia um mil
ris em dlares, e qual foi a inflao existente no perodo, pode se tornar difcil afirmar com
exatido se as exportaes foram ou no volumosas. No entanto, essa apresentao trs a
vantagem de (a) expressar as variaes que ocorreram em termos monetrios correntes; e (b)
no causar prejuzo para a anlise dos termos de trocas nominais (exportao/importao).
Note-se que a tabela de Heitor possui dados organizados ano a ano.
(b) Apresentao de dados em ndice.
Na obra Estado e Planejamento Econmico no Brasil (1930 1970), Octavio Ianni
apresentou uma tabela de ndice do Produto Real de Alguns Setores3. A tabela contm dados
em valores reais, ou seja, deflacionados. Descritos dessa forma, a oscilao decorrente em
variao no preo foi eliminada. Ainda, os dados foram indexados a partir de um ano ndice
(1939=100). Dessa forma, o que possvel observar na tabela a posio relativa dos
diferentes setores em relao ao valor agregado que representavam no ano de 1939. Os
2
3

LIMA, Heitor Ferreira. Formao Industrial do Brasil. Rio de Janeiro: Fundo de Cultura, 1961. Pg. 294.
IANNI, Octavio. Estado e Planejamento Econmico no Brasil. Rio de Janeiro: Edio Brasileira, 1980. Pg.
157.

valores apresentados dessa forma prioriza a oscilao real de um ano para o outro. Dessa
forma, se torna mais fcil observar a magnitude das oscilaes. No entanto, dificulta a anlise
do peso proporcional de cada setor em relao ao outro. Por exemplo, de 1939 para 1940, o
valor agregado pela indstria teria crescido 5%, e o do transporte teria crescido 7%. Mas qual
dos dois setores teria apresentado maior valor agregado? Descrito dessa forma, no tem como
saber.

Tabela de Heitor Ferreira Lima

(c) Peso Relativo.


Carlos Estevam Martins, na obra Estado e Capitalismo no Brasil, apresentou uma
tabela dos Emprstimos ao setor privado pelo sistema financeiro 4. Nela, os emprstimos para
o setor privado foi discriminado por instituio fornecedora do crdito. Os valores foram
apresentados na forma de peso relativo (porcentagem) em relao ao total de emprstimos no
ano. Descrito dessa forma, tornou-se possvel verificar que instituio ganhou importncia
como fornecedora de crdito de um perodo para o outro. Pode-se verificar atravs desse tipo
de tabela quanto um item se tornou importante, e qual foi o peso relativo do item. No entanto,
no possvel saber se o valor total (nominal ou real) oscilou para cima ou para baixo. Todos
oss dados ficaram indexados pelo valor total daquele ano, se tornando impossvel verificar as
4

MARTINS, Carlos Estevam. Estado e Capitalismo no Brasil. So Paulo, HUCITEC, 1977. Pg. 102.

oscilaes nesse valor total.

Tabela disponibilizada por Carlos Estevam Martins

(d) Dados divididos em classes.


O Visconde Athos Pagano, na obra Lies de Estatstica, forneceu um exemplo de
apresentao de dados em classe com uma tabela e um grfico sobre os imigrantes entrados
no Estado de so Paulo entre 1872 e 1926. 5 No grfico, Athos forneceu o nmero bruto e o
nmero relativo, em relao ao total de imigrantes. Esse tipo de apresentao possui a
5

PAGANO, Athos. Lies de Estatstica. So Paulo: Prefeitura de So Paulo, 1943. Pg. 103-104.

10

vantagem de permitir mensurar tanto a magnitude como o peso relativo de cada etnia. A
desvantagem que seria necessrio mltiplos grficos para captar a variao das variveis ao
longo do tempo. Esse tipo de apresentao permite adquirir uma noo geral do processo, mas
no auxilia a compreender como esse processo de deu ao longo do tempo.

Grfico de Athos Pagano

Uma alternativa utilizada por Edgard Carone, na obra A Repblica Velha, pode ser
encontrada na tabela Distribuio regional das usinas eltricas segundo a poca de fundao
e a fora dos motores empregados6. Nessa tabela, Carone disps os dados ordenando-os por
6

CARONE, Edgard. A Repblica Velha. Vol 1. So Paulo: DIFEL, 1970. Pg. 401.

11

regio, perodo e potncia. Organizado dessa forma, tornou-se possvel verificar a mudana
ocorrida durante diferentes entrechos. Ainda, tornou-se possvel verificar a importncia
adquirida em cada perodo em nmero de usinas, e potncia das mesmas. A vantagem
evidente que se adquire um quadro mais completo. A desvantagem a dificuldade de leitura
dessa tabela. Carone contornou esse problema disponibilizando esses dados em diferentes
tabelas.

Tabela de Edgard Carone

(e) ndices derivados


Outra forma de trabalhar os dados adquiridos a formao de ndices abstratos
derivados da relao entre duas ou mais variveis. Celso Furtado trabalho com um ndice
desse tipo em sua obra Formao Econmica do Brasil7. Conforme j comentado, na tabela
7

FURTADO, Celso. Formao Econmica do Brasil. So Paulo: Companhia Editora Nacional, 1970. Pg. 207

12

sobre a evoluo do intercmbio externo nos anos da Segunda Guerra Mundial, Celso
apresentou a capacidade para importar. Essa capacidade um valor abstrato adquirido atravs
da seguinte relao: divide-se o ndice dos preos da exportao pelo ndice do preo das
importaes. O resultado multiplicado por cem, atingindo-se o ndice da relao dos preos.
Multiplica-se o centsimo dessa relao pelo centsimo do ndice do quantum das
exportaes. O resultado deve ser multiplicado por cem. Dessa forma atinge-se um ndice
abstrato denominado Capacidade para Importar. Nesse caso especfico, o novo ndice mede o
ganho ou perda da capacidade de importar em relao a um ano de comparao (1937).
Um cientista social que tenha conhecimento de teoria pode criar esse tipo de ndice
atravs da deduo lgica. Assim, a teoria e a deduo podem auxiliar a investigao
inferencial. Se o pesquisador souber o que deseja descobrir, ele pode dividir, multiplicar,
subtrair, etc. para gerar ndices abstratos que descrevam algo sobre o objeto de anlise. Por
exemplo, possvel dividir o nmero de matrias sobre assuntos trabalhistas pelo nmero de
matrias sobre assuntos de poltica geral de um jornal. Com isso, adquiriramos um ndice das
questes sindicais do jornal. Esse nos daria uma noo se um jornal sindical teria abordado
mais temas trabalhistas ou temas da poltica em geral. Ainda, observar-se-ia atravs desse
procedimento se o jornal se tornou mais ou menos preocupado com a poltica geral ao longo
de dado perodo.
A vantagem desse tipo de procedimento que se torna possvel descobrir processos
que no so facilmente verificados a primeiro olhar. A desvantagem que ao criar ndices
desse tipo estamos modificando o dado original. Trata-se portanto de uma abstrao que
depende de pressupostos metodolgicos.

13

Tabela de Celso Furtado

(f) Mapas temticos.


O fato de um pesquisador no ser formado em geografia no desculpa para que no
se use mapas, quando esses possam ajudar a entender o processo a qual se estuda. Estudos
sociais que no tratam de tempo e espao so discusses abstratas sobre processos passados
em lugar nenhum. A menos que se trata de discusso sobre a teoria, deve-se evitar isso.
Fernand Braudel fornece um exemplo de como mapas temticos podem acrescentar
na anlise de um perodo. Na obra Civilizao Material, Economia e Capitalismo, Sculos XV
XVIII, o autor se utilizou de um mapa desenvolvido por Antonietti Guy sobre do sobre o
Banco Greffulhe entre 1789 e 17938. A descrio dos dados na forma escolhida pelo
pesquisador permite detectar a importncia e volume de operaes em cada regio.
Nesse minicurso no aprofundaremos em como construir mapas temticos. Existem
bons cursos de cartografia que suprem essa necessidade. No departamento de Geografia da
USP h um bom curso que permitir os pesquisadores se aprofundarem. Tambm existem
boas apostilas de cartografia que podem auxiliar no estudo do tema.
8

BRAUDEL, Fernand. Civilizao Material, Economia e Capitalismo, Sculos XV XVIII. Vol.2. So Paulo:
Martins Fontes, 1998.

14

Mapa disponibilizado por Fernand Braudel

15

(g) Equao de regresso linear.


A estatstica inferencial oferece muitas ferramentas teis a um pesquisador. Uma
delas a regresso linear. Atravs dessa, possvel atingir uma linha de tendncia, a
elasticidade, e a correlao entre duas ou mais variveis. Na obra Crescimento Econmico no
Brasil, 2003 2010, Vitor Schincariol disponibilizou os resultados de uma regresso linear da
varivel formao bruta de capital fixo explicada atravs das exportaes 9. Os dados
disponibilizados permitem captar indcios de qual teria sido a tendncia do crescimento da
formao bruta de capital fixo em relao s exportaes (crescimento de R$ 1,11 no FBK
para cada R$1,00 acrescido nas exportaes). Ainda, permite verificar uma capacidade
explicativa de 63% da equao. Ou seja, o modelo de Schincariol explicaria 63% de toda
oscilao do FBK ocorrido no perodo. Por ltimo, pode-se verificar um ndice de correlao
de 0,798, ndice alto (visto que varia de -1 a 1).
O uso desse tipo de ferramenta tem uma vantagem enorme: traz um alto grau de
preciso. Atravs dessa ferramenta, Vitor pode captar o que no poderia de outra forma. A
desvantagem que essa ferramenta exige um conhecimento tcnico um pouco maior. Dessa
forma, tanto o pesquisador precisa ter estudado estatstica inferencial, como o leitor precisa
ser explicado do que significam os dados apresentados.

Anlise de regresso linear de Vitos Schincariol.

SCHINCARIOL, Vitor Eduardo. Crescimento Econmico no Brasil, 2003 2010. So Paulo: LCTE Editora,
2012. Pg. 138.

16

(h) Anlise de resduos e perfil cclico.


A partir de uma regresso linear possvel realizar uma anlise de resduos e de
perfil cclico. Muitos pesquisadores j esto familiarizados com esse conceito, mesmo que
no perceba. Os famosos ciclos de Kondratieff nada mais so do que um perfil cclico.
Wilson do Nascimento Barbosa, em sua obra Balano do perodo 1940-1964 na
economia brasileira: uma viso de longo prazo nos oferece uma tabela que permite
compreender como se pode chegar a essa anlise dos resduos (base para um perfil cclico) 10.
Na tabela, o professor disponibilizou os valores observados (dados orginalmente coletados),
os valores ajustados (atravs da regresso linear), e o resduo (diferena entre observado e
ajustado) dos dados referentes a regresso linear com a varivel explicativa renda disponvel e
varivel explicada consumo pessoal, para o perodo de 1940 a 1964.
A tabela permite observar quais anos teria havido crise no consumo pessoal (em
relao renda disponvel), e em qual ano teria havido abundncia de consumo. Os valores
negativos representariam contrao do consumo em relao a renda, enquanto os positivos
representariam expanso. Para atingir um perfil cclico bastaria dividir a coluna resduos pela
coluna observados, e multiplicar o resultado por cem.
A vantagem desse tipo de anlise que se torna possvel observar anos de crise e de
abundncia, mesmo em um cenrio de crescimento econmico contnuo. Esse tipo de estudo
pode ser a diferena entre captar a essncia dos movimentos histricos, ou ficar apenas na
aparncia.
A desvantagem de utilizar essa ferramenta que necessrio saber o significado da
equao de regresso linear utilizada. Ou seja, necessrio ter conhecimento terico do que
uma varivel significa para outra. O aumento do consumo pessoal em relao renda
significa o que? E a retrao? A crise de consumo, descrita dessa forma, uma crise
econmica? Ou se trataria de um perodo de priorizao do investimento em relao ao
consumo? No caso em questo, o que se observou foi a tendncia de poupar ou consumir, e
10 BARBOSA, Wilson do Nascimento. Balano do perodo 1940-1964 na economia brasileira: uma viso de
longo prazo. So Paulo: USP, 1982. Pg. 92.

17

sua variao no tempo. Crises no consumo na verdade indicariam maior tendncia a poupar
no perodo em questo.
Outra desvantagem, que assusta os mais preguiosos, que esse tipo de anlise
trabalhoso. Depende de uma coleta adequada dos dados, de uma organizao adequada. De
uma regresso linear feita de forma correta. Da anlise dos resultados da regresso (para
verificar se o resultado da mesma passvel de anlise dos resduos, ou se geraria resultado
viciado). E por ltimo, do estudo rigoroso parra explicar as oscilaes observadas.
Mas, atualmente os pesquisadores no podem mais utilizar a desculpa que estudos
como esse demanda muito tempo e muita verba. Algumas dcadas atrs, um estudante
precisaria fazer todos os clculos a mo. Isso demandava um tempo enorme. Por vezes,
passava-se uma semana inteira para calcular e conferir uma nica equao. Hoje, com o
auxlio de softwares modernos, um pesquisador pode sozinho calcular dezenas de equaes
em poucos dias.

18

Regresso linear e tabela de Wilson Barbosa.

Coleta de dados e quantificao de variveis.


Uma dificuldade que acomete alguns pesquisadores iniciantes a coleta de dados e
produo de variveis. Por vezes, o estudante possui um repertrio de como ele poderia
utilizar os dados em suas pesquisas. Mas simplesmente no sabe coletar dos dados que
precisa. Ou, ao iniciar a coleta, percebe que os dados no vm prontos para seres trabalhados
diretamente. Nessa seo sero tratadas algumas situaes referentes etapa da coleta de
19

informaes para a pesquisa.


Dados disponveis em outros estudos.
A primeira pergunta que um estudante deve fazer, uma vez que tenha decidido qual
ser o objeto de seu estudo, : J existem dados disponveis em estudos realizados por outros
pesquisadores e outras instituies? A partir da, deve buscar na literatura especializada, e em
instituies e institutos da rea, os dados que deseja.
Por exemplo, se o estudante deseja estudar a poltica econmica de 1964 a 1970,
deve comear buscando no IBGE, FGV, Banco Central do Brasil, e instituies afins. L,
encontrar uma srie de dados j prontos, que s precisam ser organizados para servir ao
estudo pretendido.
Se o tema for um pouco mais obscuro, como por exemplo, o trfico negreiro na
dcada de 1830, deve-se procurar dados na literatura especializada. Iniciar pelos clssicos do
tema sempre uma boa alternativa. Mas no se deve esquecer-se de procurar dissertaes e
teses atuais. Por vezes, algum pesquisador pode j ter coletado os dados desejados. Assim se
poupa tempo, apesar de ter-se de xec-los.
Todo dado coletado deve ser anotado junto a um indicativo de qual foi a fonte
original. No creditar a coleta original de dados ao pesquisador ou instituto responsvel
constitui prtica de plgio. Isso deve ser evitado, a risco de sofrer processo.
Dados esparsos ou inditos.
Se no houver na literatura o dado que se deseja utilizar, isso no o fim do mundo.
Pelo contrrio, indcio que o seu trabalho ter condies, se bem feito, de apresentar
inovaes teis. Nada mais gratificante do que produzir tabela com dados que ainda no esto
disponveis integralmente em lugar nenhum.
Pode haver duas situaes distintas. A primeira quando j existem estudos parciais
sobre o tema. Por exemplo, ao estudar o desemprego em dada cidade entre 1980 e 2000, pode
ser que o historiador se depare com dados de uma fonte para a primeira dcada, e de outra
para a segunda. A questo que devemos lanar : os dados forram coletados segundo a mesma
metodologia?
20

Se no foram, ou se no houver essa informao, quando se for produzir a tabela,


necessrio indicar que se trata de dados de fontes diferentes, e possivelmente coletados com
metodologia distinta. Uma forma de observar discrepncia verificar se h dados para anos
em comum nos diferentes estudos.
Por exemplo, se o instituto (A) possuir dados para os anos 1980 1992; e o (B) para
os anos 1990 2000, uma soluo verificar qual a discrepncia entre os dados entre os
anos 1990 1992. Se no houver, pode-se utilizar os dados diretamente. Se houver,
necessrio aplicar uma espcie de deflator. Por exemplo, se para o instituto (A) os dados
forem 97% do instituto (B), aplica-se esse deflator para todos os anos que h dados do
instituto (B), e no do (A). Dessa forma, gera-se uma srie nova, criada pelo pesquisador.
Note-se que essa srie nova no expressa nem o verificado pelo instituto (A), nem pelo (B).
uma estimativa gerada pelo pesquisador que serve a fins de anlise.
Mas e se no houver dados para todo o perodo? Por exemplo, h para os anos (i)
1980 1989; e (ii) 1991 2000. Nesse caso, uma alternativa realizar duas regresses
lineares, e extrapolar o dado para o ano de 1990. Da retira-se o grau de discrepncia, e gerase o redutor. Note-se, essa alternativa tambm gera uma nova srie de dados, que prpria do
pesquisador. Tratar-se- de uma estimativa proposta.
Uma situao bem diferente quando no h dados agregados disponveis sobre o
tema estudado. Por exemplo, ao estudar a Colmbia na dcada de 1980, o pesquisador pode se
deparar com o problema que no existem bons dados sobre o Produto Interno Bruto calculado
pela tica da demanda. No entanto, h dados sobre alguns dos principais componentes da
mesma. Nesse caso, o pesquisador precisar montar a sua varivel, aplicando a teoria que rege
o tema a ser analisado. Essa srie que ser montada ser tambm uma estimativa do
pesquisador a partir dos dados disponveis.
Existem algumas formas de estimativa de dado no disponvel. Duas bastante usadas
so a interpolao e a extrapolao. Mas pode-se utilizar a formao de ndices a partir de
outros dados, atribuindo-se peso para esses dados. Suponhamos que o pesquisador possua a
informao importao de ps, exportao de caf, mas no o PIB para todo o perodo,
apenas para alguns anos. Nesse caso, pode-se (a) verificar quanto a exportao de caf
representou do PIB nos anos que for possvel; (b) quanto a importao de ps significou do
21

PIB; e (c) interpolar os dados para o PIB atravs do prprio PIB; (d) calcula-se o PIB atravs
das ps e do caf; e (e) atribui-se peso para cada uma das formas de calcular o PIB, e se retira
uma mdia ponderada. Essa forma ser vista com mais detalhe na segunda aula. No entanto,
importante que o pesquisador saiba que mesmo que no se tenha o dado completo, possvel
atingir estimativas verossmeis atravs dos dados que possumos.
Ano
1910
1911
1912
1913
1914
1915
1916
1917
1918

PIB
100

180

400

Ps importadas
30
36
40
44
50
62
73
88
110

Caf exportado
25
29
33
38
44
57
68
72
95

Variveis categricas.
Nem toda pesquisa quantitativa lida puramente com variveis quantitativas. Por
vezes, o pesquisador precisa lidar com variveis categricas, ou qualitativas. Por exemplo, um
estudo sobre composio dos habitantes de um bairro pelo segmento social ao qual pertencem
(segmento A;B;C;D); ou a composio de um partido pela profisso dos membros (operrio;
arteso; comerciante; trabalhador liberal; etc.). No primeiro caso, trata-se de variveis
ordinais, e no segundo de variveis nominais.
Existem diferentes situaes em que esse tipo de varivel pode influir em estudos
quantitativos. Um exemplo clssico o estudo de qual a influncia da religio de uma famlia
em sua propenso a consumir. Dessa forma, as famlias so classificadas pelas variveis
quantitativas Renda e Consumo, e pela categoria Religio. Existem formas na estatstica
inferencial que permitem o clculo desse tipo de problema.
Outra forma de lidar com as variveis categricas dividi-la em variveis
quantitativas. Por exemplo, quantos moradores do segmento A vivem no baixo Y; quantos do
segmento B; quantos do segmento C; quantos do segmento D. Essa contagem pode ser feita
manualmente, ou atravs do uso de softwares.

22

Famlia
f.1
f.2
f.3
f.4
f.5
f.6
f.7

Religio
Catlica
Protestante
Protestante
Judia
Candombl

Religio
Catlica
Catlica
Judia
Protestante
Protestante
Catlica
Candombl

Nmero
3
1
1
1
1

Partido
PCS
PCS
PK
PK
PCS
PCS
PU

Partido
PCS
PCS
PK
PK
PU

A construo de variveis categricas um passo fundamental para a quantificao


de dados qualitativos. atravs dessa ferramenta que uma qualidade se transforma em uma
varivel.
Fichamento analtico e quantificao do abstrato.
At agora, foi tratado de exemplos de estudo em que a necessidade do uso de
ferramentas quantitativas era instintiva. No entanto, para alguns objetos de estudo isso no
ocorre. Um exemplo o estudo sobre as caractersticas de jornais operrios. Seria factvel que
um pesquisador analisasse como eram os jornais do Partido Comunista entre 1922 e 1935 sem
utilizar ferramentas quantitativas. Ou, um exemplo ainda mais drstico, analisar a obra
Histria Sincera da Repblica, de Lencio Basbaum, sem fazer anlise estatstica. Na
verdade, o que choca justamente afirmar que ambos os estudos so passveis de anlise
quantitativa, e que essa ajudar o pesquisador.
Para que isso seja possvel, o estudante ter que recorrer ao fichamento analtico.
Esse tipo de fichamento se caracteriza por dividir a obra em conceitos centrais e verificar as
palavras chaves ligadas a esses conceitos. Com esse intuito, interessante que o fichamento
seja feito de fato em fichas, para facilitar o trabalho.
Cada ficha deve ser dedicada a um nico conceito central. Dentro da ficha, deve-se
inscrever as palavras que apareceram ligados a mesma, e em que paginas. No final da
pesquisa, essas palavras sero contadas. A fim de viabilizar esse estudo, o pesquisador deve
23

anotar ou no livro, ou em uma ficha a parte, que conceito caracteriza cada pargrafo da obra,
ou cada passagem.
Exemplo de anotao
Para que isso seja possvel, o estudante ter que recorrer ao fichamento analtico. Esse

Tema

tipo de fichamento se caracteriza por dividir a obra em conceitos centrais e verificar as

pargrafo:

palavras chaves ligadas a esses conceitos. Com esse intuito, interessante que o

Mtodo

do

fichamento seja feito de fato em fichas, para facilitar o trabalho.

Exemplo de ficha
Ficha do Conceito: Mtodo
Palavras em destaque
Conceitos
Anlise
Porcentagem

Pginas
Pg. 19; pg. 19; pg32; pg. 34; pg. 44; pg. N.
Pg. 19; pg. 44; pg. N.
Pg. 3; 5; 8; 11; 15; 22; 28; 36; n.

Somente no final do estudo essas fichas devero ser organizadas na forma de tabela.
Com esse tipo de estudo possvel verificar quanto da obra dedicada a um dado conceito.
Pode-se verificar tambm que termos aparecem, e ligados a que conceitos. Segue um exemplo
de resultado hipottico organizado na forma de tabela:
Termos
Conceitos
Anlise
Porcentagem
Total
Conceitos
Mtodo
Lgica
Total

Nmero
menes
70
67
34
141
76

de

Conceito chave

Nmero de pargrafos

Mtodo

128

Teoria

80

49
22
147

Aps a coleta e organizao dos dados, torna-se possvel mensurar o que antes era
apenas uma impresso, ou opinio. Por exemplo, para esse autor hipottico, as escolhas
conceituais estariam mais ligadas linha terica do que ao mtodo de trabalho. Ainda, o
prprio mtodo estaria subordinado teoria. No entanto, dito isso, o autor teria se dedicado
mais discusso do mtodo do que da teoria. Isso ficaria claro pelo fato dos pargrafos sobre
teoria representarem apenas 62,5% dos pargrafos sobre mtodo.
24

Organizando os dados coletados.


Para qualquer trabalho futuro necessrio que o pesquisador organize bem os dados
que foram coletados. O descuido quanto a organizao pode levar a perda de horas, ou at
semanas, de trabalho.

Com o intuito de instruir, ou relembrar, os pesquisadores, sero

apresentados alguns passos importantes dessa etapa.


(a) A organizao de tabela
Uma forma de evitar perda de tempo colocar todos os dados coletados diretamente
em tabelas iniciais, denominadas tabelas de referncia. No tem problema que isso resulte em
um nmero grande de tabelas, ou em tabelas com muitas colunas. Desde que tudo esteja bem
organizado. Deve-se evitar tabelas de referncia que sejam confusas. melhor ter muitas
tabelas simples e claras, do que uma grande e de difcil leitura.
Indica-se que a tabela de referncia seja numerada, e contenha o nome das variveis
de qual trata (ou o nome do conjunto de variveis). Por exemplo: Tabela de Referncia 1
Contas Nacionais por valor agregado; Tabela de Referncia 2 Contas Nacionais por
consumo agregado.
Como se sabe, toda tabela composta por linhas (horizontais) e colunas (verticais).
Se desejar indicar o nome da tabela dentro da mesma, deve-se o fazer na primeira linha. Na
segunda linha deve-se destacar o nome das variveis. De preferncia o nome completo. Desta
forma, indica-se: Nmero de imigrantes italianos; e no italianos. Deve-se assinalar de que
forma a varivel est descrita (valores brutos, porcentagem, ndice). Na segunda linha, podese indicar a abreviao atribuda para o nome da varivel. A sim, cabe apontar a abreviao
italianos. A partir da terceira linha, passa-se a preencher os valores referentes.
Caso se trate de uma tabela com variveis em recorte temporal, a primeira coluna
deve ser dedicada para a data referente (ano, ms, semana). Essa varivel deve ser
denominada Data. A segunda coluna deve ser dedicada varivel Tempo. Essa comea no
valor 1. A partir da terceira coluna, o estudante deve preencher as variveis tratadas. Sempre
em uma tabela, todas as colunas devem ser numeradas

25

Tabela de Referncia 1 Produto Interno Bruto por valor agregado


Tempo
ndice do valor ndice do valor ndice

Data
(1)

(2)

Ano
1990
1991
1992

agregado

Ti
1
2
3

pela

agregado

pelos
e

do

valor

Agregado

indstria.

servios

(1990=100)

comrcio.

(1990=100)

(3)

(1990=100)

(5)

indInd
100
105
110

(4)
Indserv
100
110
120

indagro
100
98
102

pela

agropecuria.

Caso se trate de variveis qualitativas (diz-se em recorte transversal) a primeira


coluna deve ser dedicada indicao da varivel de referncia. Por exemplo, a qualidade diz
respeito a entrevistados? A famlias? Etc. A segunda coluna deve indicar o nmero da
amostra. A partir da terceira coluna se preenche o contedo normalmente.
Tabela de Referncia 2 Religio, segmento de renda, e partido
Varivel

de

Amostra

referncia

Religio

Segmento

(2)

(1)

de

Segmento

Partido

renda

de

preferncia

(3)

abreviado

(5)

renda

Famlia
Famlia do Tio

ni
1

Religio
Catlica

Renda
At 2 salrios

(4)
nrend
Ate2

Partido
PJ

Famlia

Catlica

mnimos
De 2 a

2a5

PZ

2a5

PJ

do

Pedro
Famlia
Zizao

de

salrios
do

Budista

mnimos.
De 2 a
salrios
mnimos

Caso esteja se anotando em papel, deve-se evitar colocar mais do que uma tabela por
pgina. As pginas devem ser numeradas. Caso o trabalho esteja sendo feito direto no
LibreOffice Calc, ou software similar (como o Excel), deve-se evitar mais do que duas ou trs
tabelas por planilha, mas de preferncia guardando apenas uma tabela por planilha. Tabelas
que compartilhem a mesma planilha, ou folha, devem ter temas similares. Tanto a folha como
26

a planilha deve ser nomeada de forma que fique claro o contedo disposto ali.

(b) Organizao de pasta de planilhas.


Um conjunto de tabelas e planilhas pode ser organizado em pastas pelo tema geral de
que tratam. Por exemplo, as planilhas PIB por valor agregado e PIB por consumo agregado
poderiam fazer parte da pasta Contas Nacionais. Caso esteja se guardando planilhas em papel
ou em pastas fsicas, essas podem ser divididas em subpastas.
De preferncia, as planilhas dentro de uma mesma pasta devem possuir nomes
claros. Deve-se evitar tanto nomes como contedos redundantes. No aconselhvel colocar
temas muitos distintos em uma mesma pasta. Isso pode dificultar a localizao dos dados no
futuro.

27

(c) Organizao de arquivo de pastas.


As

pastas

de

planilha

devem

ser

organizadas

em

arquivos

prprios.

Preferencialmente, o arquivo deve possuir um tema geral. Todas as pastas que se encaixarem
dentro desse tema podem ser colocadas nesse arquivo. importante que se evite colocar
pastas demasiadamente distintas em um mesmo arquivo. Ajuda muito pouco criar um arquivo
denominado pesquisa, e jogar todas as pastas produzidas durante uma ps-graduao dentro
desse arquivo.
Os documentos em plataforma fsica (papel, pastas de plstico) podem ser guardados
em pastas de arquivo morto (que so vendidas em papelaria). Os documentos virtuais podem
ser guardados em pastas do seu sistema operacional com denominao afim. prefervel ter
arquivos menores significativos a arquivos muito grandes que dificultem a consulta. Dessa
forma, prefervel ter um arquivo de balano de pagamentos e outro de balana comercial, do
que um s arquivo com noventa pastas dentro dele.

28

(d) ndice de tabelas.


Algumas pesquisas geram um volume enorme de tabelas de referncia ou tabelas
intermedirias. Muitas dessas no aparecero no trabalho final. No entanto, enquanto a
pesquisa est em desenvolvimento, esse tipo de material essencial. fundamental que um
pesquisador consiga recuperar instantaneamente os valores e termos para uma varivel que j
foi coletada.
Com essa finalidade, recomenda-se que o estudante mantenha um ndice atualizado
das tabelas que possui. Nesse ndice deve contar o nome da tabela, em que arquivo e pasta ela
se encontra, e quais variveis esto descritas nela. No caso de se tratar de um arquivo fsico,
til produzir dois nveis de ndice: um geral sobre aquele tema de pesquisa (arquivado em
uma pasta a parte), e um para cada arquivo. til que ambos estejam organizados em ordem
alfabtica para facilitar consultas futuras.
ndice geral de tabelas.
Planilha

Pasta

Consumo agregado nominal


trimestral. 1999 2012.

Arquivo:
Contas
Nacionais.
Pasta: Cn trimestral.

Consumo
agregado
trimestral. 1999 - 2012

Arquivo:
Contas
Nacionais.
Pasta: Cn trimestral.

real

PIB por consumo agregado,


anual. 1999 2012.
PIB por valor agregado, anual.
1999 2012.
Valor
agregado
trimestral
nominal. 1999 2012.
Valor agregado trimestral real.
1999 2012.

Arquivo:
Contas
Nacionais.
Pasta: Agregados.
Arquivo:
Contas
Nacionais.
Pasta: Agregados
Arquivo:
Contas
Nacionais.
Pasta: Cn trimestral.
Arquivo:
Contas
Nacionais.
Pasta: Cn trimestral.

Variveis
PIB, consumo das famlias,
gastos do governo, formao
bruta de capital fixo, exportao,
importao. Valores nominais.
PIB, consumo das famlias,
gastos do governo, formao
bruta de capital fixo, exportao,
importao. Valores reais.
PIB, consumo das famlias,
gastos do governo, formao
bruta de capital fixo, exportao,
importao. Valores reais.
PIB, agropecuria, servios,
indstria. Valores reais.
PIB, agropecuria, servios,
indstria. Valores nominais.
PIB, agropecuria, servios,
indstria. Valores reais.

No exemplo acima, na primeira coluna h uma lista de planilhas em ordem


alfabtica. Na coluna do meio esto registrados os arquivos e pastas onde as tabelas foram
guardadas. Na terceira coluna h uma lista de variveis que so tratadas em cada planilha.

29

Essa forma de organizar prioriza a localizao das tabelas, em detrimento das variveis. Uma
alternativa seria produzir um ndice remissivo das variveis.
ndice de tabelas para pesquisa: Contas Nacionais e Setor Externo.
Planilha

Pasta

Consumo agregado nominal


trimestral. 1999 2012.

Cn trimestral

Consumo
agregado
trimestral. 1999 - 2012

Cn trimestral

real

PIB por consumo agregado,


anual. 1999 2012.
PIB por valor agregado, anual.
1999 2012.
Valor
agregado
trimestral
nominal. 1999 2012.
Valor agregado trimestral real.
1999 2012.

Agregados
Agregados
Cn trimestral
Cn trimestral

Variveis
PIB, consumo das famlias,
gastos do governo, formao
bruta de capital fixo, exportao,
importao. Valores nominais.
PIB, consumo das famlias,
gastos do governo, formao
bruta de capital fixo, exportao,
importao. Valores reais.
PIB, consumo das famlias,
gastos do governo, formao
bruta de capital fixo, exportao,
importao. Valores reais.
PIB, agropecuria, servios,
indstria. Valores reais.
PIB, agropecuria, servios,
indstria. Valores nominais.
PIB, agropecuria, servios,
indstria. Valores reais.

O exemplo acima uma verso da mesma tabela, s que adaptada para um arquivo
virtual. Ao invs de descrever onde a tabela se encontra fisicamente, a coluna Pasta contm
um hiperlink para a pasta em questo. No LibreOffice Writer, e programas similares,
bastante fcil criar hyperlinks como esses. Basta selecionar a palavra desejada e selecionar
inserir na barra de ferramenta. . Depois, s selecionar o item hyperlink. O ltimo passo
selecionar o arquivo destino do hyperlink.

30

Esse procedimento descrito em passos ficaria: (1) Monta-se o ndice; (2) selecionase, com o boto esquerdo do mouse, o nome da pasta onde foi guardada a tabela; (3) clica-se
com o boto esquerdo do mouse na aba Inserir; (4) seleciona-se o item Hyperlink; (5) por
ltimo, seleciona-se o arquivo desejado, e clique no OK.

31

Ferramentas de apresentao dos dados e a estatstica observacional.

Aps a coleta e a organizao inicial dos dados, o pesquisador se depara com a tarefa
de processar esses dados. Mesmo quando se pretende apresentar os dados sem qualquer
trabalho estatstico prvio, um pesquisador precisa decidir qual a forma mais adequada de
apresentar os dados. Neste captulo trataremos sobre (1) escolha e produo de grficos no
LibreOffice Calc (e similares); e (2) a estatstica observacional.
Escolha e produo de grficos.
A apresentao grfica dos dados permite visualizar mais facilmente aquilo que
estava antes descrito apenas na forma numrica. Alm de facilitar o trabalho de interpretao
do pesquisador, uma tima forma de apresentar sua pesquisa ao leitor, que passa a poder
acompanhar mais facilmente o raciocnio do autor.
Nessa seo sero apresentados os tipos de grfico: (a) de pizza; (b) barras e colunas;
(c) de linha; e (d) de disperso. Cada um desses possui potencialidades distintas. Abordaremos
apenas algumas dessas potencialidades.

Selecionando o tipo de grfico.


Depois que os dados estiverem organizados, para gerar o grfico bastar selecionar a
tabela. Para isso, clique com o boto esquerdo do mouse e o arraste at cobrir toda a tabela.
Depois disso, basta selecionar o item objetos, na aba inserir. Em seguida, selecione
grfico.

32

Aparecer uma nova janela contendo os tipos de grficos disponveis. Em seguida,


selecione a aba e o tipo de grfico desejado. Uma vez que o tipo de grfico tenha sido
selecionado, ser necessrio informar ao programa se os dados esto organizados por coluna
ou por linha. Para facilitar nosso trabalho, sempre colocamos os dados organizados por
coluna, de forma que as categorias a constarem no eixo das ordinais (eixo X) estejam listados
na coluna A, enquanto cada varivel esteja representada na coluna subsequente.
Para informar ao programa como est organizada sua tabela, basta selecionar o boto
prximo na janela do assistente de gerador de grficos, que apareceu quando comeamos a
criar nosso grfico. A janela mudar para a prxima etapa, onde devemos selecionar se a srie
de dados est em linhas ou colunas (no nosso caso est em colunas), e se a primeira linha e a
primeira coluna representam valores ou se representam rtulos (variveis e categorias).
Sempre buscamos garantir que esse seja o caso, para facilitar a criao de grficos.

33

As vezes, o nome das variveis na tabela no exatamente o mesmo nome que


desejamos colocar para elas no grfico. Se esse for o caso, ao selecionar o boto prximo
do assistente de grficos, haver a oportunidade de se arrumar as informaes sobre as
variveis. Na janela que abrir, selecione a varivel que deseja modificar, no conjunto Srie
de dados. Em seguida, selecione o item Nome, no conjunto Intervalo de dados. Na
lacuna Intervalo para Nome, escreva o novo nome desejado para a varivel, entre aspas.

Uma vez que haja se realizado os passos j descritos, bastar preencher as


informaes referentes aos elementos dos grficos: ttulo, subttulo, ttulo dos eixos, posio
da legenda, e grade dos eixos. Para isso, selecione o boto prximo.

34

Nas lacunas Ttulo; Subttulo; eixo X; e eixo Y, digite o contedo referente.


Selecione a caixa Exibir legenda, e o item embaixo. Na caixa Exibir grades, selecione
Eixo X e Eixo Y. Uma vez que tenha terminado de preencher todas as informaes,
selecione concluir.

Edio do grfico.
Ao gerar um grfico, pode ser que seja necessrio ajustar alguns aspectos dele para
que se tenha um grfico mais claro. Normalmente, existem trs tipos de caractersticas que
precisam ser editadas para que se obtenha um grfico melhor: escala do eixo Y; posio do
eixo X; e cor e forma da representao grfica das variveis.
Para editar o grfico recm criado, clique duas vezes nele. Isso permitir alterar as
informaes contidas no grfico. Em seguida, selecione o elemento que se deseja modifica
clicando duas vezes nele. Por exemplo, caso se deseje alterar a escala do eixo Y, basta clicar
duas vezes no eixo Y.
Ao clicar duas vezes no eixo Y, ser aberta uma janela de edio do eixo. Para alterar
a escala, selecione a aba escala. Um dos problemas mais comuns com a escala automtica
do grfico que os valores mnimos e os mximos podem ser demasiadamente grandes. Isso
gera um grfico em que as oscilaes dos valores se torna de difcil leitura. Para corrigir esse
problema, basta editar manualmente os valores mnimos e mximo do grfico.

35

No item Mnimo, certifique-se que a caixa Automtico no esteja selecionada.


Em seguida, preencha o valor desejado para o valor mnimo. De preferncia, esse valor deve
ser um pouco abaixo do valor mais baixo observado na srie de dados das suas variveis.
Realize procedimento similar para o valor mximo, garantindo que o valor escolhido esteja
um pouco acima do valor mais alto observado entre as variveis.

Caso suas variveis possuam valores negativos e positivos, a posio do eixo X


precisar ser arrumada. O LibreOffice Calc gera grficos com eixo X cruzando no valor zero.
Isso pode fazer com que as categorias do eixo X fiquem assinaladas dentro, ou acima, do
grfico. Em geral, prefervel que as categorias estejam assinaladas abaixo do grfico.
Para corrigir isso, basta clicar duas vezes no eixo X. Uma janela de edio daquele
eixo se abrir. Selecione a aba posicionamento. Nela, altere a caixa Cruza o outro eixo
em para o valor incio, e certifique-se que a caixa colocar rtulos esteja no valor perto
do eixo.

36

Por ltimo, outro problema que pode ser necessrio resolver quanto a cor e forma
da representao grfica das variveis. Grficos coloridos podem ser mais fceis de se ler.
Mas nem sempre a impresso colorida est a disposio dos estudantes. Por isso, deve-se dar
prioridade a grficos em preto e branco, e tons de cinza.
Para alterar a representao de uma varivel, basta clicar duas vezes na linha (ou
coluna) da varivel a ser alterada, uma por uma. Na janela que abrir, selecione a aba ao
linha (ou rea) e altere a cor, certificando-se que ela esteja na gama dos tons de cinza ou
preto. Caso j haja uma varivel em preto, e outra em cinza, altere o item estilo, para
tracejado, por exemplo.

37

Grfico de Pizza.
O grfico de Pizza serve para descrever a participao proporcional de diversas
variveis dentro de um universo amostral. Dessa forma, ele til para descobrir a importncia
relativa geral das categorias que compem um dado estudo.
Por exemplo, pode-se descrever com ele a relao dos estudantes do curso
introduo s ferramentas quantitativas pelo curso de origem. Na prtica, trata-se do melhor
grfico para expressar esse tipo de informao. No entanto, caso quisssemos inserir
informaes adicionais, como nmero mdio de presena por curso de origem, o grfico de
pizza perde sua utilidade.
Para produzir o grfico de Pizza no LibreOffice Calc, os dados devem estar
organizados da seguinte forma: na primeira coluna, insira o nome das categorias. Na segunda,
insira os valores para cada uma das categorias.
Cursos de origem
Histria
Geografia
Cincias Sociais
Outros

Nmero de estudantes
23
18
5
4

Realize o procedimento para gerar grficos. Na janela de seleo de tipo de grfico,


38

selecione a aba pizza. Nela, escolha o item de grfico de pizza simples. Evite utilizar efeitos
grficos (como efeito 3D), que embora paream bonitos, podem atrapalhar a interpretao do
grfico. Realize o procedimento normal para a criao de grficos, conforme j discutido em
seo anterior.

Ser gerado um grfico de pizza simples e colorido. Para modificar a cor e formato
das reas que representam cada uma das variveis, deve-se clicar duas vezes na rea a ser
editada (por exemplo, clicar duas vezes na rea que representa a varivel estudantes de
Histria). Na janela que aparecer, selecione a aba rea. No item preenchimento, haver
uma caixa, que determinar se a rea ser representada por uma cor ou por uma hachura. Ao
selecionar um dos dois, ser possvel modificar a cor, ou o estilo, do preenchimento.

39

Em seguida, ser necessrio inserir os rtulos para o grfico. Um grfico de Pizza


pode se tornar de difcil leitura caso no se insira os valores de cada rea ao lado dela. Para
isso, basta procurar a caixa de edio de informaes do grfico, no canto direito superior do
LibreOffice Calc. Nela, selecione a o nome da srie de dados do grfico de Pizza. Em
seguida, selecione a aba Inserir, na barra de ferramentas, e clique no item rtulo de dados

40

Uma nova janela aparecer. Nela, selecione os itens mostrar valor como nmero e
mostrar categoria. Caso seja interesse do pesquisador, ao invs de mostrar os valores brutos
de cada categoria, mostrar o valor relativo em porcentagem, basta selecionar o item Mostrar
valor como porcentagem. Na caixa posicionamento, certifique-se que esteja selecionado a
opo Fora. No final do procedimento, ter se criado um grfico fcil de se ler, com reas
bem demarcadas e valores de cada categoria a mostra.

41

Nmero de estudantes matriculados no curso de ferramentas quantitativas


2012
Outros 4
Cincias Sociais 5

Histria 23

Geografia 18
Histria

Geografia

Cincias Sociais

Outros

Grficos de Barras e Colunas.


Os grficos de barras e o de colunas possuem caractersticas similares. Trata-se de
grficos com dados organizados com os eixos das ordenadas e das abcissas. Ainda, os dados
so apresentados na forma de colunas (ou barras) para cada categoria. A diferena consiste
que as colunas so aglutinadas em torno do eixo das abcissas, e as barras em torno dos eixos
das ordenadas. Um exemplo de aplicao desses tipos de grficos a apresentao da
composio de um partido pela profisso de seus membros em perodos distintos.
Para gerar esse tipo de grfico os dados precisam estar organizados da seguinte
forma: na primeira linha, insira os valores ndices (ano, amostra, categorias). Na primeira
coluna, deixe a primeira clula sem indicao. A partir da segunda clula, insira o nome das
variveis. Preencha com os valores observados.
1920

1930

1940

1950

Arteso

50

10

Operrio

25

40

30

25

Comerciante

15

30

45

40

Profissional liberal

10

20

25

35

Realize o procedimento para gerar grficos. Na janela de selecione se deseja o

42

modelo de colunas ou de barras. Tanto em um como no outro, recomenda-se o uso do modelo


de itens agrupados, que ser a primeira opo.
Edite o grfico corretamente, de forma a deixar claro o que cada eixo classifica, e
quais so as categorias em anlise. Lembre-se de informar, no momento de criao do grfico,
se a primeira linha da tabela ou no um rtulo de categorias para o eixo X.

Composio do Partido Fictcio


1920 a 1950
60

Porcentagem (%)

50
1920
1930
1940
1950

40
30
20
10
0
Arteso

Operrio

Comerciante

Profissional liberal

Profisso

Grfico de linhas.
O grfico de linhas ideal para verificar a relao entre duas variveis ao longo do
tempo, ao distribudo pelas amostras. Esse tipo de grfico se caracteriza por distribuir as
observaes pontos equidistantes no eixo das abcissas, mas com distribuio em escala nos
eixos das ordenadas. Dessa forma, a apresentao do grfico se faz pela ordem de coleta dos
dados.
Esse tipo de grfico til para descrever o movimento do PIB de um pas ao longo
do tempo, a evoluo da expectativa de vida durante os anos em anlise, etc. Para esse tipo de
grfico, a tabela deve estar organizada da seguinte forma: Na primeira linha, coloque o nome
das variveis. Na primeira coluna, coloque os valores da varivel ndice. Preencha o restante

43

dos valores normalmente.


PIBr

FBKr

1999

897686,37

332143,9587

2000

1013616,03

354765,6114

2001

1143647,74

411713,1865

2002

1262374,30

479702,2348

2003

1462059,30

599444,3123

2004

1840079,88

791234,3491

2005

2256902,59

947899,0881

2006

2893657,54

1244272,744

2007

4202975,65

1765249,772

2008

6422654,37

2825967,924

2009

7166114,35

3439734,887

2010

9223538,17

4427298,321

2011

12753693,04

6121772,658

Seleciona a tabela no LibreOffice Calc. Em seguida, realize o procedimento para


gerar grficos. Escolha o modelo de grfico de linhas simples. Os modelos de grfico de
linhas empilhadas devem ser evitado, por gerar confuso na hora da anlise.

Grfico de linhas com dupla escala.


Por vezes, pode ocorrer das variveis contidas no grfico de linha possuir magnitudes
bem distintas. Uma alternativa para resolver esse problema gerar um grfico de linhas de
dupla escala. Para isso, no LibreOffice Calc existe uma forma fcil de criar grficos com
dupla escala. Basta selecionar uma das variveis e clicar com o boto direito do mouse. Em
seguida, selecione o item formatar srie de dados. Uma janela ser aberta. Nela, selecione a
aba opes, e clique em Eixo Y secundrio.

44

Isso far com que seu grfico de linhas ganhe escala dupla. Ser necessrio inserir o
ttulo do eixo Y secundrio manualmente. Para isso, clique com o boto direito do mouse na
escala do eixo Y secundrio e selecione inserir ttulo do eixo. Surgir uma caixa de texto,
onde deve-se digitar o ttulo do eixo com as informaes da escala secundria.

Grfico de Disperso X-Y.


O grfico de disperso uma ferramenta til para a anlise da relao entre duas
variveis. Ele se caracteriza por descrever os valores de uma varivel no eixo horizontal e de
outra no eixo vertical, respeitando a escala proporcional de cada uma delas. A partir da, as
amostras so pontuadas de acordo com os valores correspondentes para ambas variveis.
45

Isso permite detectar, por exemplo, as caractersticas de relao entre a fora de


trabalho e o produto interno bruto de um dado pas. Ou entre a renda e o consumo das
famlias. Na prtica, sempre que possumos duas variveis quantitativas e desejamos saber
como elas se relacionam, o primeiro passo montar o grfico de disperso.
Para esse grfico, os dados devem estar organizados da seguinte forma: As variveis
devem estar em colunas, alinhadas pelas amostras equivalentes.
Fora de
Trabalho
712
723
734
747
758

PIBr
898
1014
1144
1262
1462

770
780
790
798
802
808
812
817

1840
2257
2894
4203
6423
7166
9224
12754

Selecione a tabela e realize o procedimento para gerar grficos. Selecione o grfico


de disperso simples, e cumpra o restante das etapas de criao de grfico normalmente.

46

Grfico de disperso do Produto Interno Bruto e da Fora de Trabalho

Milhes de dinheiros reais

14000000
12000000
10000000
8000000
6000000
4000000
2000000
0
700

720

740

760

780

800

820

840

Fora de Trabalho hipottica

Estatstica observacional.
Chama-se de estatstica observacional (ou descritiva) aquela voltada para descrio
geral das variveis. Com isso, coloca-se em evidncia alguns dos fenmenos observados na
realidade. Tem-se que, aps a organizao dos dados, o primeiro passo coloca-los na forma
de grfico, para facilitar a observao. Em seguida, retira-se da caractersticas de podem ser
ressaltadas pela estatstica observacional.
Neste captulo sero discutidas algumas ferramentas essenciais, tais como as
caractersticas de medida (mdia, mediana, moda, quartil, e percentil), de comparao
(proporo, frequncia, e ndices), e previso (interpolao pela progresso, e projeo da
proporo).

Usando o LibreOffice Calc para aplicao de frmulas e realizao de clculo.


Nesse captulo discutiremos a definio conceitual de algumas ferramentas da
estatstica observacional. No processo, apresentaremos a frmula (em geral j simplificada) de
cada conceito. A frmula ser sempre trabalhada na forma algbrica, complementada com
exemplos que facilitem o entendimento. Alm disso, ser sempre descrita a frmula a ser
47

utilizada para realizar os clculos atravs do LibreOffice Calc e programas similares.


O LibreOffice Calc um software de planilhas que funciona atravs de clulas
distribudas em coordenadas. As coordenadas so definidas pela linha e pela coluna qual a
clula pertence. Assim, cada clula pode ser descrita diretamente pela sua coordenada (por
exemplo: A1;A2;B1;B2:C32;H20; etc.). As linhas so descritas por nmero, as colunas por
letra. A letra sempre precede o nmero na descrio das coordenadas.
Para inserir uma frmula em uma clula, basta selecionar a clula alvo (aquela em
que se deseja que o resultado seja inscrito). Em seguida, deve-se digitar o termo =. A partir
da, basta digitar a frmula deseja. Por exemplo, para realizar a soma dos valores contidos na
clula A1 com os contidos na clula B2, deve-se digitar: =A1+B2.
Para expandir a frmula de uma clula para o restante da coluna, basta selecionar a
clula, clicar no quadrado do canto inferior direito da mesma, e arrastar at completar a
coluna (ou linha) que se deseja preencher.
Mdia
Existem trs tipos bsicos de mdia: aritmtica, geomtrica, e harmnica. Ainda,
cada uma delas pode ser desdobrada em mdia simples, mdia ponderada, e mdia mvel.
Mdia aritmtica.
A mdia aritmtica igual soma simples dos valores observados divididos pelo
nmero de amostras. Trata-se de uma medida muito utilizada na estatstica, incluindo na
inferencial. A mdia aritmtica de uma varivel observada pode ser denominada Esperana,
por se tratar do valor esperado para uma amostra aleatria.
Os smbolos que so adotados em funes algbricas para descrever a mdia
aritmtica so: AM; M; E(Xi); , sendo Xi e X a denominao de uma varivel. A formula da
mdia aritmtica : M= (X1 + X2 + (...) Xn) / N. Ou . No LibreOffice Calc, a frmula
utilizada seria: = ([coordenada da primeira observao] + [coordenada da segunda
observao] + (...) [coordenada da Ensima observao]) / [nmero de observaes]).
Esse tipo de mdia pode ser utilizado em inmeras situaes. Um exemplo para
48

calcular o nmero de reportagens sobre manifestaes polticas em um jornal durante certo


perodo. Para isso, soma-se o nmero de reportagens sobre o tema, e divide o total pelo
nmero de jornais.

Mdia geomtrica
A mdia geomtrica e o ponto mdio de uma progresso geomtrica. Por exemplo,
caso desejssemos calcular a mdia do PIB anual entre um ano e outro, essa seria uma
ferramenta bastante adequada. A mdia geomtrica pode ser algebricamente representada pelo
smbolo G, ou pela expresso: G(x).
A frmula para calcular G(x) : G(x)= (X1*X2*Xn)(1/n). No LibreOffice Calc, pode
ser calculado pela frmula: =([coordenada da primeira observao] * [coordenada da
segunda observao] * (...) [coordenada da ensima observao]) ^ (1/ [nmero de
observaes]).
Por exemplo, se em dezembro de 2000 o PIB anual de Lugar Nenhum tivesse sido
100, e em dezembro 2001, tivesse sido 130, qual teria sido o PIB a mdia do PIB anual de
Lugar Nenhum no ano? Para isso calculamos a mdia geomtrica: (100*130)^(1/2) = 114,02.

Mdia Harmnica
A mdia harmnica o ponto mdio de uma progresso harmnica. A progresso
harmnica se caracteriza por ser o inverso da progresso aritmtica. Por exemplo: (1/2), (1/3),
(1/4), (1/5), (...) (1/n).
A mdia harmnica pode ser representada pelo smbolo H, e algebricamente pode ser
expressa por H(Xi). A frmula da mdia harmnica : H(Xi) = (n(X1*X2*Xn)) /
(X1+X2+Xn) .(No LibreOffice Calc pode ser calculado pela frmula: = ([nmero de
observaes] * ([coordenada da primeira observao] * [coordenada da segunda observao]
* [coordenada da ensima observao])) / ([coordenada da primeira observao] +
[coordenada da segunda observao] + [coordenada da ensima observao]).
Um exemplo de aplicao para a mdia harmnica o calculo de qual teria sido a
mdia do saldo populacional (diferena entre a populao existente no censo anterior e o

49

novo) entre um censo e outro. Por exemplo: imaginemos que no pas Cavercia foi feito um
censo em 1980 e outro em 1990. Em 1980, o saldo populacional era de 120. Em 1990, o saldo
teria sido 160. Qual teria sido a mdia do saldo populacional decenal para o perodo?
Calculamos: (2*(120*160)) / (120 + 160) = 2*(19200) / (280) = 38400 / 280 = 137,143.
Dessa forma, a mdia do saldo populacional decenal no perodo teria sido 137,143 pessoas.

Mdia mvel
A mdia mvel uma srie de mdias parciais de uma amostra. A mdia seguinte que
abandona a primeira amostra da mdia anterior, e abarca uma amostra adiante. O
procedimento segue at o final da amostragem. uma ferramenta utilizada para construir uma
linha de tendncia de mdia mvel em sries histricas. Essa linha serve para verificar
melhora ou piora na mdia mvel, e anos de desempenho acima da mdia mvel e
desempenho inferior a ela. Trata-se de um instrumento observacional sem alta preciso, mas
que mais preciso do que a mdia simples.
Algebricamente, a mdia aritmtica mvel pode ser representada como E m(nsXi).
Assim, 14Em(Xi) = (X1+X2+X3+X4) / 4; 25Em(Xi)= (X2+X3+X4+X5); NsEm(Xi) = (Xin + (...)
Xis) / (N-S+1). No LibreOffice Calc pode ser calculado pela frmula: = ([coordenada da
ensima observao] + [coordenada da ensima mais um observao] + (...) [coordenada da
esssima observao]) / ([S-N]+1). Procedimentos similares podem ser feitos para calcular a
mdia geomtrica mvel e a mdia harmnica mvel. Bastando reproduzir a frmula
algbrica da mdia, mas partindo da amostra S.
Imaginemos que desejamos calcular a mdia mvel tri-anual do PIB do pas
Manguetnia. Primeiro, montamos uma tabela com os valores do PIB de Manguetnia entre
os anos 2001 e 2013. Depois comeamos a calcular a mdia mvel. Como a amostra comea
em 2001, a primeira mdia mvel que poderemos apresentar ser para o trinio 2001 a 2003.
A segunda para o trinio 2002 a 2004. E assim por diante. No final, teremos a seguinte mdia
mvel. Note que, por se tratar do PIB, foi calculada a mdia geomtrica.

Ano
(a)
2001
2002

PIB de
Manguetnia
(b)
100
110

Mdia geomtrica mvel .


(nsG=(Xn*(...)Xs)^ (1/S-N+1))
(C)
111,20

50

2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013

125
140
150
170
190
205
220
240
265
295
320

124,40
137,95
152,83
169,21
187,78
204,63
221,21
240,97
265,72
292,46
-

Observe que os valores da mdia mvel foram assinalados no segundo ano do


trinio. Isso, pois como sabemos, a mdia representa o valor mdio da amostragem. Portanto,
deve ser inscrito prximo ao ponto mdio da amostragem.

Mdia Ponderada
A mdia ponderada caracteriza-se pela atribuio de pesos para os valores
observados na amostra. Assim, os valores so multiplicados pelo seu peso, de iniciar o clculo
da mdia. Ainda, o nmero de observaes calculado pelo peso das amostras, e no apenas
pelo nmero de amostras. O mais comum que a mdia ponderada seja aritmtica, mas essa
ferramenta pode ser aplicada para qualquer tipo de mdia.
A mdia aritmtica ponderada pode ser descrita como E p(Xi), e sua formula :
Ep(Xi)=

( ( P 1 X 1 ) + ( P 2 X 2 ) + ( ... ) ( Pn Xn ) )
. No LibreOffice Calc, a frmula para o
( P 1+ P 2+ ( ... ) PN ) .

clculo seria: = (([coordenada do valor da primeira observao] * [peso da primeira


observao]) + ([coordenada do valor da segunda observao] * [peso da segunda
observao]) + (...) ([coordenada do valor da ensima observao] * [peso da ensima
observao]) / ([[peso da primeira observao] + [peso da segunda observao] + (...) [peso
da ensima observao]]) . Por exemplo: = ((A1*2)+(A2*3)+(A3*4)) / (2+3+4).
Esse sistema pode ser utilizado para quando temos informaes extras, alm do valor
de cada amostra, que alterem o significado do valor. Por exemplo, se estivssemos calculando
a mdia de um aluno universitrio, poderamos simplesmente somar a nota em cada matria, e
51

dividir pelo nmero de matrias. Mas isso no estaria certo. comum que nas universidades
haja matrias de menor carga e matrias de maior carga de estudo. Em geral, isso descrito
pelo nmero de crditos de cada uma. Dessa forma, ao invs de calcular a mdia a partir das
matrias, multiplicamos a nota de cada uma pelo nmero de crditos. Somam-se as notas
multiplicadas. Por ltimo, divide-se o total das notas multiplicadas pelo total de crditos das
matrias.
Matria
(1)
a
B
C
D
E
Final

Nota (2)
7
8
9
9
5
7,6

Crditos
(3)
4
4
6
5
4
23

Nota total
(4)=(2)*(3)
28
32
54
45
20
179

Mdia ponderada
(5)=(4)/(3)
7
8
9
9
5
7,78

Moda
A moda uma medida de frequncia. Ela a observao mais frequente em uma
amostragem. Para atingi-la, possvel que os valores das observaes tenham que ser
divididos em classe. Isso feito atravs do agrupamento em torno de pontos mdios dos
valores. Por exemplo, se tivssemos as observaes: (1); (5); (6); (7); (11); (13); (14); (17);
(19); (20); (22); (25); (27); (28); (29); (30). Um procedimento seria dividir a amostragem em
torno dos pontos: 0;10;20; 30. Dessa forma teramos as classes: 0 at 5; 5 at 10; 15 at 20; 20
at 25; 25 at 30. O valor exato sempre ser includo na primeira classe em que aparece. No
exemplo, a classe modal ser a de 25 a 30.

Classe (at) (A) Ocorrncias (B)


0a5
5 a 10
10 a 15
15 a 20
20 a 25
25 a 30

2
2
3
3
2
4

52

Mediana, quartil, e percentil.


A mediana, o quartil, e o percentil, so medidas que indicam pontos da populao da
amostra. A mediana o ponto que divide a populao da amostra em dois. O quartil so os
pontos que dividem em quatro. O percentil so os pontos que dividem a populao da amostra
em cem. A mediana pode ou no coincidir com a mdia, depende da curva de densidade da
amostragem.
Observao
(A)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

Valor (B)
1
5
6
7
11
13
14
17
19
20
22
25
27
28
29
30

Por exemplo, se tivssemos a amostragem descrita no quadro acima, a mediana seria


a observao de nmero oito. Ou seja, a mediana seria 17. Observe que a mediana diferente
da mdia. A mdia aritmtica no caso seria 17,125. O quartis da amostragem seria: os pontos
do quartil seriam: Primeiro quartil, 7; ltimo quartil, 25. Diz-se, assim que de 0 a 7 est o
primeiro quartil. De 7 a 17, o segundo quartil. De 17 a 25, o terceiro quartil. De 25 a 30 o
ltimo quartil.
Esse tipo de mdia muito til para os pesquisadores preocupados com a descrio
de populao. Por exemplo, caso fosse realizado um estudo da distribuio da renda de
Manguetnia, um procedimento inicial poderia ser: (a) calcular a renda mdia do pas; (b)
53

calcular a renda da metade mais pobre; (c) calcular a renda do quartil mais rico.
A (a) mdia salarial de Manguetnia seria 283 dinheiros. Mas, a (b) mediana seria
127. Isso significaria que metade da populao de Manguetnia receberia at 127 dinheiros.
J o quartil mais rico (os 25% mais ricos) receberiam mais do que 523 dinheiros.
Renda pessoal de Manguetnia
Primeiro quartil
46
Mediana
127
Terceiro quartil
523
ltimo quartil
961
Mdia= 283

Proporo.
A proporo uma medida de comparao entre dois valores. muito utilizado para
medir a relao entre uma parte de uma amostra e o todo dela. Pode ser utilizado para
comparar um valor precedente com o procedente.
A proporo atingida pela diviso do valor a ser investigado pelo valor com o qual
se deseja comparar. Assim, a frmula da proporo Ur=Xi/Yi. No LibreOffice Calc, a
formula a ser utilizada : = [coordenada da observao investigada] / [coordenada da
observao com qual se compara].
Caso se multiplique por cem, teremos a proporo em porcentagem: 100 * (Xi/Yi).
Por exemplo, caso se deseje descobrir a proporo dos artigos sobre sabotagem no jornal
Provncia de Manguetnia, s dividir o nmero de artigos sobre Sabotagem pelo total de
artigos.
A proporo pode ser feita em comparao com uma amostra anterior (Xi/Xi -1). Por
exemplo, se dividir o PIB anual de Manguetnia de 2012, pelo de 2011, tem-se:
(295/265)=1,1132. Ou seja, o PIB de 2012 foi 1,1132 vezes maior do que o de 2011. Chamase essa proporo de taxa de crescimento, que o nmero por qual se deve multiplicar a
amostra anterior para atingir a seguinte.

Taxa de crescimento percentual


A taxa de crescimento percentual uma medida que deriva da taxa de crescimento.

54

Na forma algbrica, a taxa de crescimento percentual descrita por: ((Xi-Xi-1) / (Xi-1))*100.


No

mesmo

exemplo

de

Manguetnia,

teramos:

((296-265)

265)*100

(0,1132)*100=11,32%. No LibreOffice Calc a frmula a ser utilizada : = (([coordenada da


amostra posterior] [coordenada da amostra anterior]) / ([coordenada da amostra
anterior])*100. Por exemplo: ((A1-A2) / (A2))*100.
Frequncia
A frequncia uma medida de comparao da repetio da populao amostral, ou
da classe de amostras. J foi apresentado um caso de contagem de ocorrncias, quando
tratamos da moda da amostragem hipottica do quadro abaixo.
Classe (at) (A)

Ocorrncias (B)

0a5

5 a 10

10 a 15

15 a 20

20 a 25

25 a 30

A frequncia o nmero de repeties de uma amostra dividido pelo total de


observaes. Algebricamente: Fr(Xi)=s(xi) / n(x). Por exemplo, a frequncia da ocorrncia da
classe

25

30,

na

amostragem

Hipottica

acima,

pode

ser

calculada:

4/

(4+2+3+3+2+2)=4/16=0,25. Assim, a frequncia da classe 25 a 30 de 0,25.

Curva de densidade da amostragem aleatria


0,3

Frequncia

0,25
0,2
0,15
0,1
0,05
0
0a5

5 a 10

10 a 15

15 a 20

20 a 25

25 a 30

Classe

55

Aps calcular a frequncia de todas as amostras, possvel desenhar a curva de


densidade da amostragem. Essa curva serve para auxiliar a visualizar o tipo de distribuio de
probabilidade que pode estar por trs da distribuio de frequncia. Mas esse j um assunto
para estatstica inferencial.
Da diferena entre frequncia e probabilidade.
No se deve confundia frequncia e probabilidade. A frequncia um dado
observado para cada amostragem. J a probabilidade uma caracterstica que determina a
frequncia das ocorrncias. Essa caracterstica no pode ser conhecida com exatido, mas
pode ser abstrata. Da, adquirimos o valor abstrato da probabilidade estimada.
O exemplo clssico utilizado para explicar essa diferena o jogo de cara e coroa.
Nesse jogo, uma pessoa joga uma moeda para o alto. Atribui-se a um dos lados o valor de
cara, e o outro de coroa. Espera-se que a chance de cada lado seja de 50%. Ou seja, a
probabilidade estimada do resultado ser cara de 0,5. No entanto, se jogarmos dez vezes,
pode ser que no caia exatamente 5 caras, mas um nmero diferente. Esse nmero ser a
frequncia observada.
Se jogarmos um nmero grande de vezes, a tendncia que a frequncia se aproxime
cada vez mais da probabilidade real de ocorrncia. Essa probabilidade pode ser estimada
atravs da frequncia e do clculo do desvio padro.
ndices
O uso de ndices muito comum nas cincias sociais, da histria economia. Os
ndices so valores abstratos que podem ser gerados com o intuito de evidenciar aspectos ou
relaes entre as variveis. Existem inmeras formas possveis de gerar ndices. Sero
tratadas apenas algumas delas: (a) ndices de indexao; (b) ndice do deflator; (c) ndices de
comparao composta; e (d) ndice de extremos.

ndice de indexao.
Os ndices de indexao so utilizados para evidenciar o movimento relativo das
56

observaes das amostras em relao a uma observao previamente determinada. Em geral,


utilizado quando as amostras esto organizadas em distribuio temporal. Escolhe-se, nesses
casos, a amostra do meio, para gerar grficos melhores.
A frmula algbrica do index de indexao : In(Xixs)=Xi/Xs, onde Xi qualquer
valor da amostra, e Xs a amostra index escolhida. No LibreOffice Calc pode ser descrito: =
[coordenada da observao da varivel] / [valor da observao index].
Por exemplo: no caso do PIB de Manguetnia de 2001 a 2006, seria possvel indexar
os valores do PIB ao do ano de 2006 (amostra prxima ao meio). O ndice pode ser
apresentado em sua forma bruta, ou em ndice de cem (multiplicado por cem). Descrito dessa
forma, os valores no expressam mais o valor do PIB, mas um ndice do mesmo, que serve
para acentuar os movimentos relativos.

Ano
(A)

PIB de
Manguetnia
(B)

2001
2002

100
110

2003

125

0,74

2004

140

0,82

2005

150

0,88

2006

170

1,00

2007

190

1,12

2008

205

1,21

2009

220

1,29

2010

240

1,41

2011

265

1,56

2012

295

1,74

2013

320

1,88

ndice do PIB de
Manguetnia (2006=1)
(C)
0,59
0,65

ndice de deflator e deflao.


Na histria econmica bem comum o uso de deflatores. Os motivos para isso so
vastos. Mais comumente, trata-se de uma tentativa de estimar o valor real das variveis
econmicas retirando o efeito da inflao. Para gerar valores deflacionados necessrio saber
qual o ndice do deflator. Caso esse no esteja disponvel facilmente (caso do Brasil, onde
no se divulga o ndice do deflator, apenas o deflator implcito), necessrio ou (i) conhecer a
57

inflao (em geral o deflator implcito do PIB); ou (ii) conhecer os valores reais de uma das
variveis macroeconmicas (em geral o PIB). Discutiremos os dois procedimentos.
No caso (i), quando se sabe o deflator implcito do PIB (medida de inflao), o
procedimento para gerar o ndice deve ser feito em trs etapas. Primeiro, deve-se escolher o
ano ndex. Monte uma tabela com o PIB e o deflator implcito do PIB. Crie uma coluna onde
ser inscrito o ndice do deflator do PIB. Para o ano ndex, o ndice do deflator ser 1 ou 100.
Para os anos anteriores, o ndice do deflator deve ser calculado pela formula de
inflacionamento: Xi=(Xi+1) *(1+(Dfi+1/100)), onde Xi a amostra do ano, e Df i o deflator do
ano. Por exemplo, se desejarmos inflacionar o PIB do ano de 2000, utilizaremos o ndice do
deflator e o deflator de 2001.
Para os anos aps o ano ndex, o ndice do deflator ser calculado pela formula:
Xi=(Xi-1*100)/(100+Dfi). Preencha completamente a coluna do ndice do deflator para o
perodo a ser analisado. Em seguida bastar multiplicar o PIB nominal pelo ndice do deflator.
Esse procedimento pode ser utilizado com qualquer tipo de taxa de inflao, desde que ela
seja adequada investigao macroeconmica que se pretende realizar.
PIB de
Ano (A) Manguetnia
(Y) (B)

deflator
implcito (em
porcentagem)
(Df) (C)

ndice
do
deflator
(Xi) (D)

PIB real de
Manguetnia, em
dinheiros de 2006.
(F=D*B)
150,7699

2001

100

5,00

2002

110

4,00

Frmula do ndice do
deflator (E)
(X
)
*(1+(Dfi+1/100))
i+1
1,507699
1,449711 (Xi+1) *(1+(Dfi+1/100))

7,00

1,35487

(Xi+1) *(1+(Dfi+1/100))

169,3588
172,438

159,4682

2003

125

2004

140

10,00

1,2317

(Xi+1) *(1+(Dfi+1/100))

2005

150

13,00

1,09

(Xi+1) *(1+(Dfi+1/100))

163,5

2006

170

9,00

=1

170

2007

190

6,00

1
0,943396

179,2452

2008

205

12,00

0,842318

(Xi-1*100)/(100+Dfi)
(Xi-1*100)/(100+Dfi)

2009

220

17,00

0,71993

(Xi-1*100)/(100+Dfi)

158,3846

2010

240

4,00

0,69224

(Xi-1*100)/(100+Dfi)

166,1376

2011

265

7,00

0,646954

(Xi-1*100)/(100+Dfi)

171,4428

2012

295

9,00

0,593535

(Xi-1*100)/(100+Dfi)

175,0928

0,534717

(Xi-1*100)/(100+Dfi)

171,1094

2013

320

11,00

172,6752

Mas, e se, por algum motivo, no estiver disponvel o deflator implcito, mas estiver
o valor real da varivel? No caso (ii), possvel adquirir o ndice atravs de um procedimento
58

bem simples. E com apenas um passo a mais, ser possvel adapta-lo para que ele fique
indexado ao seu ano index.
Basta dividir o valor real pelo valor nominal. Isso pode ser descrito algebricamente
pela formula: Xi=Yri/Yni. Para alterar o ano index bastar dividir todos os valores do ndice
encontrado pelo valor do ndice do seu ano index (Yri/Yrs). Esse procedimento permitir
recalcular os valores reais de sua varivel.

(A)

Consumo nominal
das famlias de
Manguetnia
(B)

Consumo real das


famlias de
Manguetnia
(dinheiros de 2002)
(C)

ndice do
deflator
Index 1
(D = C/B)

ndice do deflator
index 2006 (E=
D/0,699301)

Consumo real de
Manguetnia (dinheiros
de 2006) (F=B*E)

2001

70

72,94

1,041958

1,49

104,3

2002

77

77,00

1,43

110,11

2003

87,5

80,77

0,923077

1,32

115,5

2004

98

83,61

0,853147

1,22

119,56

2005

105

77,10

0,734266

1,05

110,25

2006

119

83,22

0,699301

119

2007

133

88,36

0,664336

0,95

126,35

2008

143,5

85,30

0,594406

0,85

121,975

2009

0,503497

0,72

110,88

Ano

154

77,54

2010

168

82,24

0,48951

0,7

117,6

2011

185,5

84,32

0,454545

0,65

120,575

2012

206,5

86,64

0,41958

0,6

123,9

2013

224

86,15

0,384615

0,55

123,2

ndices de comparao composta


Os ndices de comparao composta so aqueles que so desenvolvidos atravs da
comparao de mltiplas variveis com outras. Podem ser resultados, tambm, de mltiplas
comparaes entre duplas de variveis. Por exemplo: (i) Bi= (Xi+Zi+Yi) / (Ti+Oi+Ri); ou (ii)
Ki= ((Xi/Yi) * (Zi/Ri)) / (Oi*Ti). A criao de variveis desse gnero depende de uma forte
base terica.
Embora estejamos mais acostumados com ndices de base cem, mais fcil trabalhar
com ndices de base um. A produo de ndices de comparao composta mais fcil se no
tivermos que ficar multiplicando e dividindo os valores por cem.

59

ndice de extremo.
O ndice de extremo aquele que descreve a relao de duas variveis em dois
extremos: 1 representa a presena completa da varivel (A); -1 representa a presena completa
da varivel (B) ; e 0 representa o equilbrio. Existem distintos processos que geram esse tipo
de ndice. Aqui ser discutida apenas a forma mais fcil de gerar esse ndice.
A frmula algbrica que aplicaremos ser apresentada : Ki= (Xi-Yi)/(Xi+Yi). No
LibreOffice Calc, a frmula a ser aplicada ser: =([clula da observao da varivel A] [clula da observao da varivel B]) / ([clula da observao da varivel A] + [clula da
observao da varivel B]).

Varivel A
100
90
80
70
60
50
40
30
20
10
0

Varivel B
0,00
10,00
20,00
30,00
40,00
50,00
60,00
70,00
80,00
90,00
100,00

ndice de extremos hipottico (K


= (A - B) / (A + B))
1
0,8
0,6
0,4
0,2
0
-0,2
-0,4
-0,6
-0,8
-1

Interpolao pela progresso.


Por vezes, pode acontecer de o pesquisador possuir apenas parcelas dos dados sobre
uma srie em investigao. Isso muito comum, em especial em ambientes onde a pesquisa
social no favorecida, e os bancos de dados so deficientes.
Nesses casos, existe alguns procedimentos que podem servir para o pesquisador
completar os dados ausentes com estimativas. Um desses procedimentos o da interpolao
pela progresso. Esses consistem em pressupor uma progresso tpica para a varivel e
reconstru-la seguindo a progresso. Para isso, necessrio apenas ter o ponto de partida, o
ponto de chegada, e o nmero de observaes ausentes. Discutiremos trs das interpolaes
pela progresso mais comuns: (a) aritmtica; (b) geomtrica; e (c) harmnica.
60

Ano (A)
2001

Tempo (Ti)
1

2002

2003

2004

2005

2006

2007

2008

2009

2010

10

2011

11

2012

12

2013

13

PIB de Manguetnia (Xi)


100

320

Interpolao pela progresso aritmtica.


A progresso aritmtica pode ser descrita por: Yi= Xs + B(Ti-Ts), onde s o ponto
de partida da progresso. A frmula algbrica para descobrir B (o valor a ser somado a cada
nova observao), : B= (Xf-Xs) / (Tf-Ts).
No LibreOffice Calc, a frmula para B seria: ([coordenada da clula do valor da
ltima observao] [coordenada da clula do valor da primeira observao]) / ([coordenada
da clula do nmero da ltima observao] [coordenada da clula do nmero da primeira
observao]). A partir da, bastaria construir uma nova tabela, somando o valor encontrado
ao valor da observao precedente.
No exemplo do PIB da Manguetnia, uma interpolao pela regresso aritmtica,
poderia ser calculada: Yi = 100 + B(Ti-Ts). Sendo que B poderia ser calculado: B= (320100) / (13 1) = 220/12=18,33. Portanto, seria: Yi= 100 + 18,33(Ti-Ts).
Ano (A)

PIB de Manguetnia (Xi)

2001

Tempo (Ti)
1

2002

118,33

2003

136,66

2004

154,99

2005

173,32

2006

191,65

100

61

2007

209,98

2008

228,31

2009

246,64

2010

10

264,97

2011

11

283,3

2012

12

301,63

2013

13

320

Progresso pela regresso geomtrica.


A progresso geomtrica pode ser descrita algebricamente pela expresso: Yi= (Xs)
*B(Ti-Ts), sendo s o ponto de partida da progresso. O coeficiente B pode ser calculado
pela frmula:

( XfXs )

( Tf Ts )

, ou: (Xf/Xs) ^ (1/(Tf-Ts).

No LibreOffice Calc, a frmula para B seria: ([coordenada da clula do valor da


ltima observao] / [coordenada da clula do valor da primeira observao]) ^ (1 /
([coordenada da clula do nmero da ltima observao] [coordenada da clula do nmero
da primeira observao])). Uma vez calculado o coeficiente B, bastar multiplicar a
observao precedente por ele.
No exemplo do PIB de Manguetnia, a interpolao pela progresso geomtrica
poderia ser calculada: Yi= 100* B(Xf-Xs), sendo B= (320/100) ^ (1/(13-1) = 32^(1/12) =
1,102. Portanto, seria: Yi= 100 * 1,102(Xf-Xs).
Ano (A)

Tempo (Ti)

2001

PIB de Manguetnia
(Xi)
100

2002

110,2

2003

121,4404

2004

133,8273208

2005

147,4777075

2006

162,5204337

2007

179,0975179

2008

197,3654648

2009

217,4967422

2010

10

239,6814099

62

2011

11

264,1289137

2012

12

291,0700629

2013

13

320

Interpolao pela regresso harmnica.


A progresso harmnica pode ser descrita por 1/Yi = 1/Xs + 1/(B(Ti-Ts). Sendo que
o coeficiente B pode ser calculado pela formula: ((1/Xf)-(1/Xs)) / (Tf-Ts). Ao encontrar
1/Yi, s dividir um pelo resultado.
No LibreOffice Calc, a frmula para B seria: ((1/[coordenada da clula do valor da
ltima observao] (1/ [coordenada da clula do valor da primeira observao])) /
([coordenada da clula do nmero da ltima observao] [coordenada da clula do nmero
da primeira observao]). A partir da, bastar somar o coeficiente B. Observe que ele
possivelmente ser negativo, o que levar a um processo de subtrao.
No exemplo do PIB de Manguetnia, teramos: 1/Yi=1/100 + 1/(B(Ti-Ts). O
coeficiente B seria: ((1/320)-(1/100))/(13-1)= (0,01 - 0,00325) / 12 = -0,0005729. Observe
que B negativo. Assim, a frmula para Yi ficaria: 1/Yi= 0,01 - 0,0005729. Note que para
esse procedimento necessrio realizar o calculo com maior grau de preciso, contendo maior
nmero de casas decimais no clculo da inversa da varivel.
Ano (A)

Tempo (Ti)

Inverso do PIB
(1/Xi)

PIB de Manguetnia (Xi)

2001

0,01

100

2002

0,0094271

106,08

2003

0,0088542

112,94

2004

0,0082813

120,75

2005

0,0077084

129,73

2006

0,0071355

140,14

2007

0,0065626

152,38

2008

0,0059897

166,95

2009

0,0054168

184,61

2010

10

0,0048439

206,45

2011

11

0,004271

234,14

2012

12

0,0036981

270,41

2013

13

0,003125

320

63

Projeo da proporo.
A projeo de proporo outra forma de gerar estimativas para dados ausentes.
Existem duas formas bsicas de projeo de proporo: (i) a simples; e (ii) a ponderada. Para
ambas, necessrio ter algumas amostras da varivel que se pretende estimar e amostras de
outra varivel relevante para a que se pretende estimar.
O mtodo consiste em calcular a mdia da proporo entre as variveis para as
observaes existentes da varivel a ser estimada. A partir da, projeta-se os valores ausentes.

Projeo simples da proporo.


A projeo simples consiste no calculo da estimativa da varivel dependente atravs
de uma nica varivel independente. Esse mtodo pressupe que todos os fatores que
influenciaram a varivel que tem dados disponveis para todos os anos, tambm
influenciaram, em proporo algo similar, a varivel que est se estimando.
A projeo simples da proporo construda em duas etapas. Primeiro, calcula-se a
mdia da proporo entre as duas variveis para os perodos possveis, atravs da frmula,
E(z)=((Xh/Yh) + (Xg/Yg))/2, onde z a mdia da proporo, X a varivel a se estimar,
Y a varivel completa, h a primeira observao para qual X foi observado, e g a
segunda. Em seguida, estimam-se os valores ausentes de X pela formula: Xi=Yi/Zi.
Um exemplo que pode se dar o calculo do PIB de Sojaslndia. Esse pas fictcio
um grande exportador de soja, mas muito desorganizado. Por isso, s h dados para o
calculo do PIB de 2000, 2005 e 2010. No entanto, tm-se os dados da exportao de soja para
todos os anos. Para calcular o PIB de Sojaslndia, produziu-se o quadro:

PIB observado de
Exportao de soja
Ano (A) Sojaslndia (B)
(em dinheiros) (C)
2000
130
2001
2002
2003
2004
2005
200
2006
2007

45
49
54
59
64
70
72
75

PIB Estimado de
Mdia da
Sojaslndia
proporo (D)
(E = C / D)
0,3462
130
0,3481
140,77
0,3481
155,14
0,3481
169,50
0,3481
183,87
0,3500
200,00
0,3357
214,47
0,3357
223,40

64

2008
2009
2010

79
84
90

280

0,3357
0,3357
0,3214

235,32
250,21
280,00

Na coluna (D), os valores em negritos so as propores observadas. Os valores entre


as observaes em negrito foram estimados como a mdia entre os observados anterior e
posterior.

Projeo ponderada da proporo.


A projeo ponderada da proporo uma tcnica que pode ser feita mesmo apenas
com algumas observaes da varivel a ser estimada e uma nica varivel tambm
incompleta, desde que alguns dos valores coincidam. Em geral, ela funciona melhor quanto
mais variveis independentes tivermos.
Nessa tcnica, alm de calcular a proporo mdia entre as observaes, interpola-se
o valor para a varivel (ou variveis) incompleta. Em seguida, calcula-se uma srie de
estimativas para a varivel a ser estimada. Atribui-se um peso a cada uma dessas estimativas,
e calcula-se uma estimativa final pela mdia ponderada das estimativas.
Voltemos ao exemplo de Sojaslndia. Alm dos dados da exportao de soja, os
pesquisadores nativos conseguiram reunir alguns dados sobre a importao de insumos,
construindo a tabela:

ano
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010

PIB observado de
Sojaslndia
130

200

280

Exportao de soja
(em dinheiros)
45
49
54
59
64
70
72
75
79
84
90

Importao de
insumos (em
dinheiros)
44
56
65
69
74
78
83
86

65

O primeiro passo estimar os dados ausentes da importao de insumos, atravs da


interpolao pela progresso. No caso, utilizou-se a progresso geomtrica, pois sabemos que
a importao de insumos tende a crescer de forma geomtrica. Aproveitamos e construmos a
estimativa do PIB de Sojaslndia tambm pela interpolao pela progresso geomtrica, e a
denominamos de Estimativa (Y) do PIB.

ano
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010

Estimativa (Y) do
PIB observado de
Sojaslndia
130,00
141,70
154,45
168,35
183,51
200,00
214,00
228,98
245,01
262,16
280,00

exportao de soja
(em dinheiros)
45
49
54
59
64
70
72
75
79
84
90

Estimativa da
importao de
insumos
44,00
49,64
56,00
60,33
65,00
69,00
74,00
75,97
78,00
83,00
86,00

Em seguida, realizamos o procedimento de estimativa do PIB calculado pela


projeo da proporo da exportao de soja em relao ao PIB, e denominamos essa
estimativa de Estimativa (B) do PIB.

Ano (A)
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010

PIB observado de
Sojaslndia (B)
130

200

280

Exportao de soja
(em dinheiros) (C)
45
49
54
59
64
70
72
75
79
84
90

Mdia da
proporo (D)
0,3462
0,3481
0,3481
0,3481
0,3481
0,3500
0,3357
0,3357
0,3357
0,3357
0,3214

Estimativa (B) PIB


de Sojaslndia
(E = C / D)
130
140,77
155,14
169,50
183,87
200,00
214,47
223,40
235,32
250,21
280,00

66

Em seguida, realizamos um procedimento similar para produzir a estimativa do PIB


atravs das importaes de insumos. Construmos uma tabela e denominamos a nova
estimativa de Estimativa (C) do PIB.

Ano (A)

PIB observado de
Sojaslndia (B)

Estimativa da
importao de
insumos (C)

Mdia da
proporo (D)

2000

130

44,00

0,3385

Estimativa (C) PIB


de Sojaslndia (E
= C / D)
130,00

2001

49,64

0,3417

145,26

2002

56,00

0,3417

163,87

2003

60,33

0,3417

176,55

2004

65,00

0,3417

190,21

69,00

0,3450

200,00

2006

74,00

0,3261

226,94

2007

75,97

0,3261

233,00

2008

78,00

0,3261

239,21

83,00

0,3261

254,55

86,00

0,3071

280,00

2005

200

2009
2010

280

Por ltimo, atribumos um peso arbitrrio a cada uma dessas estimativas. Para
estimativa (Y), atribumos o peso de 0,7; para a (B); atribumos 0,2; e para (C), atribumos
0,1. Construmos uma nova tabela com as estimativas, e calculamos a estimativa final pela
mdia ponderada.

Estimativa (Y) do PIB


observado de
Sojaslndia

Estimativa (B) PIB de


Sojaslndia

Estimativa (C) IB
de Sojaslndia

Estimativa final do
PIB de Sojaslandia
(D = 0,7Y + 0,2B +
0,1C)

2000

130,00

130

130,00

130,00

2001

141,70

140,77

145,26

141,87

2002

154,45

155,14

163,87

155,53

2003

168,35

169,5

176,55

169,40

183,51

183,87

190,21

184,25

200,00

200

200,00

200,00

214,00

214,47

226,94

215,39

228,98

223,4

233,00

228,27

245,01

235,32

239,21

242,49

262,16

250,21

254,55

259,01

280,00

280

280,00

280,00

Ano (t)

2004
2005
2006
2007
2008
2009
2010

67

Alguns tpicos de estatstica Inferencial.

A estatstica inferencial uma disciplina que tem como um de seus objetos de estudo
a investigao da probabilidade. Dessa forma, ela permite: (a) estimar a probabilidade de
ocorrncia dos fenmenos; (b) verificar a correlao entre duas variveis; (c) prever valores
para observaes de acordo com a correlao e a probabilidade de ocorrncia; e (d) verificar
se um fenmeno observado estava de acordo ou no com a probabilidade prevista. Trata-se
portanto do estudo estatstico que permite inferir qualidades sobre os fenmenos estudados, de
acordo com uma srie de modelos.
A estatstica inferencial uma vasta rea de conhecimento, e possui inmeras
ferramentas. Nesse captulo, abordaremos apenas alguns dos tpicos essenciais para o estudo
quantitativo em histria e outras cincias sociais. Buscar-se- apresentar os conceitos
essenciais, com foco na interpretao de resultado.
Teste de Hipteses
Na estatstica inferencial, uma das principais ferramentas o teste de hipteses. Para
estudar um problema, e tirar concluses e indcios a partir do estudo, o pesquisador precisa
antes formular a anlise estatstica na forma de hipteses. O que ser testado estatisticamente
a adequao do fenmeno observado a essas hipteses. Quando esse teste realizado a
partir da frequncia das ocorrncias chama-se o teste de teste de hiptese frequencial. A forma
de lidar com o teste de hipteses separa a estatstica inferencial frequencial da estatstica
inferencial bayesiana.
Teste de hiptese frequencial.
O teste de hiptese frequencial a base para maior parte das ferramentas e dos
estudos estatsticos na cincias sociais. Isso pois ele permite maior grau de generalizao, e
exige menor conhecimento prvio sobre as probabilidades dos fenmenos estudados. Ele se
caracteriza por utilizar o conjunto das ocorrncias observadas indistintamente, formulando
hipteses gerais sobre esse conjunto.
Nesse modelo, o teste de hiptese precisa ser formulado de tal modo que existam

68

apenas duas hipteses por teste. Nele, as hipteses sero classificadas como provveis ou no
provveis. A partir dessas classificao de probabilidade das hipteses, elas devem ser
descartadas (tomadas como falsas), ou confirmadas (tomadas como verdadeiras). Dado a
natureza do teste estatstico, sempre existir a possibilidade de, mesmo aps um teste de
hipteses, tomarmos uma hiptese como falsa quando ela verdadeira na realidade, ou o
contrrio.
Por isso, esse teste formulado de tal modo que uma dessas hipteses s ser
descartada caso sejam atingidos valores to baixos para sua ocorrncia que estatisticamente
ela se torne bastante improvvel. Chama-se esse ponto de valor crtico, ou grau de
confiabilidade. O grau de confiabilidade o inverso da probabilidade do valor crtico.
Em geral, utiliza-se uma hiptese baseada no senso comum, denominada hiptese
nula (H0); e outra que a hiptese a ser investigada, denominada hiptese alternativa (H1). A
hiptese nula deve ser aquela que s descartaremos se ela se apresentar como altamente
improvvel, e a hiptese alternativa aquela que s aceitaremos se tivermos alto grau de
confiabilidade.
O motivo dessa escolha pode seguir dois critrios: (a) embasamento em
conhecimentos prvios; e (b) a necessidade de possuir alta confiana na sua hiptese
alternativa, mesmo que ela corrobore estudos anteriores.
Por exemplo: Um pesquisador est estudando o abismo social de Manguetnia. Neste
estudo, resolve verificar se haveria ou no uma diviso racial no pas. Apesar de ser bvio,
evidente, e bem documentado o racismo naquele pas (onde negros so privados da educao),
ainda assim o pesquisador resolveu formular seu teste de hiptese: (H0) A distribuio de
renda no permite constatar racismo social; e (H1) a configurao social permite constatar o
racismo. Formulado dessa forma, o pesquisador s afirmar que h racismo se ele estiver um
grau de confiana de 95%, evitando dessa forma acusaes de impregnao ideolgica em seu
estudo.
Existem diferentes modelos de distribuio de frequncia utilizados para produzir o
teste de hiptese (modelo t-student, modelo de distribuio normal, modelo gama, etc.). Em
cada um deles, existir uma srie de testes estatsticos possveis que trabalham com
pressupostos especficos, e com condies especficas.
69

Independentemente de qual modelo e qual teste foi selecionado, o resultado do teste


pode ser descrito atravs do p-valor. Esse a probabilidade estimada para a ocorrncia
daquela observao dentro do modelo utilizado, de acordo com a frequncia geral observada.
Esse p-valor varia de zero a um. Zero significa a completa improbabilidade de
ocorrncia do fenmeno, e um a completa probabilidade. O p-valor 0,05 o limite da zona
crtica. Isso significa que para p-valores menores do que 0,05 descartamos a hiptese nula e
acatamos a hiptese alternativa, com um grau de confiabilidade de 95%.
Algebricamente: p-value(Zc)< 0,05.
No caso do estudo do racismo em Manguetnia, o pesquisador observou um p-valor
de 0,00001 para a ocorrncia de negros com renda acima da renda mdia do pas. Nessas
condies, descartou-se a hiptese nula, e aceitou-se como provvel a existncia de racismo
no pas.
Inferncia Bayesiana e teste de hiptese.
A inferncia bayesiana uma rea da estatstica inferencial que se distingue, entre
outras coisas, por lidar de forma diferente com os testes de hiptese. Nos testes bayesianos, ao
invs de adotar um teste de hiptese fixo, e com distribuio de probabilidade fixa, adota-se
um sistema de modificao das hipteses diante de novas evidncias.
O sistema bayesiano permite predies bastante precisas. No entanto, ele depende de
conhecimentos prvios, ou adicionais, sobre o objeto que se estudo. Dada a estrutura desse
tipo de estatstica inferencial, necessrio j conhecer estimativas confiveis da probabilidade
dos fenmenos estudados.
O teste de hiptese no modelo bayesiano pode ser descrito algebricamente: P(H|E) =
(P(E|H) * P(H)) / P(E). Onde: P(H|E) a probabilidade da hiptese H, haja sido confirmada
a evidencie E; P(E|H) a probabilidade da ocorrncia da evidncia E considerando apenas a
hiptese H como verdadeira; P(H) a probabilidade de (H) ser verdadeira); e P (E) a
probabilidade global da ocorrncia da evidncia E.
Esse modelo de teste depende do conhecimento das probabilidades: da ocorrncia
das hipteses gerais; da ocorrncia dos eventos observados no interior de cada hiptese; e da
70

ocorrncia dos eventos no conjunto das probabilidades. Ainda, toma-se essas probabilidades
como fixas. Dessa forma, as novas evidncias no alteram o clculo geral das probabilidades,
apenas das probabilidades para aquele caso em especfico.
Por exemplo: Manguetnia um pais racista que passa por um apartheid velado.
Apesar da populao ser 50% de negros, nas universidades convencionais apenas 5% dos
estudantes so negros. Mas, a populao organizou universidades populares, onde 95% dos
estudantes so negros. Acontece que 90% dos estudantes passaram por universidades
convencionais, e apenas 10% passaram por universidades populares. Se quisssemos verificar
a chance de um estudante ter realizado seus estudos em uma universidade popular,
formularamos convencionalmente o teste de hiptese: (H0) o estudante veio de uma
universidade convencional; (H1) o estudante veio de uma universidade popular. P(H0) =
0,9; P (H1) = 0,1. Observe que j conhecemos a probabilidade de cada uma das hipteses.
No entanto, caso fossemos a uma palestra de um pesquisador genial, e
observssemos que ele negro, poderamos desejar calcular a probabilidade dele ter estudado
em uma universidade popular. Assim, formularamos o problema dentro do modelo bayesiano.
Tomaramos como hiptese nula a de que o estudante pode ter vindo de uma universidade
convencional. O clculo ficaria: P(H0|E) = (0,9 * 0,1) / (0,9 *0,1) + (0,1 *0,9) = 0,09 / (0,09 +
0,09) = 0,09 / 0,18 = 0,5. Ou seja, poderamos dizer que existiria 50% de chance do estudante
ter estudado em uma universidade convencional, e 50% de ter estudado em uma escola
popular.
Desvio padro.
Parcelas considerveis das ferramentas da estatstica inferencial utilizam a mdia, a
frequncia, e o desvio padro das observaes. J vimos o que a mdia e a frequncia das
observaes anteriormente. Nesta seo discutiremos o Desvio Padro. Trata-se de uma
ferramenta fundamental para os clculos de distribuio normal.
O desvio padro uma medida de distncia mdia entre os valores das observaes e
o valor da mdia. Essa medida alcanada atravs do clculo da raiz quadrada da varincia.
Essa, por sua vez, igual mdia dos quadrados das distncias entre a observao e a mdia
da varivel. Algebricamente, a varincia pode ser descrita: var(X) = E ((Xi E(x)) ^ 2). Da,
o desvio padro pode ser descrito: 2 = var(X); ou: = (E((Xi E(x)) ^ 2)) ^ (1/2).
71

Por exemplo, um pesquisador pode verificar a mdia de consumo das famlias em


determinada faixa de renda. A partir dessa mdia, pode-se calcular a varincia e o desvio
padro. Feito isso, possvel tambm calcular a margem percentual de erro. Para isso, basta
dividir o desvio padro pela mdia, e multiplicar o resultado por cem. No caso do consumo
das famlias de Sojaslndia com renda igual a 150 dinheiros, observamos uma mdia de
117,59 no consumo. O desvio padro encontrado foi 5,02. A margem percentual de erro foi de
4,27%. Isso significa que espera-se que uma famlia com a renda de 150 dinheiros em
Sojaslndia gaste de 112,57 a 122,61 dinheiros com o seu consumo mensal.
Observao

Consumo das famlias de


Sojaslndia com renda
igual a 150 dinheiros

Distncia da
observao e da
mdia

Quadrado das
distncias

123,96

6,37

40,63

2
3
4
5
6
7
8
9
10
Dados
estatsticos

123,97
115,00
118,05
112,36
107,86
116,67
121,48
114,75
121,79
117,59
Mdia

6,38
-2,59
0,46
-5,23
-9,73
-0,91
3,89
-2,84
4,20
0,00
Distncia

40,67
6,69
0,21
27,33
94,70
0,84
15,14
8,07
17,63
25,19
Varincia

5,02
Desvio padro

Funo de densidade de probabilidade.


No estudo da estatstica inferencial os clculos da probabilidade dos eventos um
passo fundamental. Infelizmente, para a maior parte dos fenmenos, no possvel conhecer
previamente a probabilidade. Nesse sentido, necessrio estimar a probabilidade de
ocorrncia dos fenmenos. Uma forma de estimar a probabilidade atravs da mdia e do
desvio padro. A partir da constatao dessas duas medidas, pode-se traar uma curva de
probabilidade da ocorrncia dos valores em torno da mdia esperada. Ou seja, a probabilidade
dos erros em torno da mdia.
Uma vez produzida a curva de densidade de probabilidade, ser possvel calcular a
probabilidade de ocorrncia para o fenmeno observado, seja ele pontual ou limtrofe (por

72

exemplo, pode-se calcular a probabilidade da ocorrncia do consumo de 70 dinheiros para


uma famlia de renda 100, ou calcular a probabilidade para o consumo de 60 a 80 dinheiros
para renda 100).
Das diversas funes de densidade de probabilidade, uma considerada a mais
comum no estudo do comportamento das variveis no estudo das sociedades. Trata-se da
funo de densidade Normal. Alm da funo de densidade normal, discutiremos algumas de
suas relacionadas: a qui-quadrado; a t-student; e a distribuio F.
Distribuio normal
A distribuio normal se caracteriza pela distribuio das amostras em torno da
mdia dos valores das mesmas segundo seu desvio padro. Esse modelo pressupe que os
desvios em relao mdia se distribuem igualmente entre os valores abaixo e acima da
mdia. Algebricamente, denomina-se a normal: X ~ N (,2), onde a mdia, e 2 a
varincia.
No exemplo abaixo, observa-se uma distribuio normal com desvio padro 1, e
mdia 0. Na forma algbrica, descreve-se: (X~N(0,1)). Esse tipo de distribuio normal
denomina-se padronizada. A varivel aleatria normal padronizada calculada pela
expresso: Z= (X- ) / ) ~ N (0,1)
A padronizao um instrumento utilizado para estimar a probabilidade dentro da
distribuio normal. Os softwares de estatstica dispensam a padronizao e calculam
diretamente a funo normal da varivel.

73

Essa curva de probabilidade significa que quanto mais prximo o valor estiver da
mdia, maior ser a probabilidade do valor ocorrer. Quanto mais distante da mdia, menor a
chance. No exemplo, a chance de ocorrer qualquer valor de -5 a -3,5 seria apenas de
0,000233. J a chance de ocorrer entre -0,5 e 0,5 seria de 0,38295.
Distribuio qui-quadrada.
A distribuio qui-quadrada uma variao da distribuio normal. Ela resulta da elevao ao
quadrado de uma varivel normal padronizada, N (0,1). A distribuio qui-quadrado pode ser
denominada algebricamente por: V ~ 2gl, O clculo algbrico para V : V = Z21 + Z22 + (...)
Z2gl. A mdia de V pode ser descrita por: E(V) = E(2gl) = gl. A varincia de V pode ser
descrita por e var(V)= var(2gl) =2gl. Ou seja, a mdia e a varincia da varivel qui-quadrado
depende dos graus de liberdade. O grau de liberdade de uma varivel igual ao nmero de
observaes menos o nmero de observaes comprometidas. Tem-se que o nmero de
observaes comprometidas igual ao nmero de variveis independentes no processo
estatstico.

74

No exemplo, forneceu-se trs curvas calculadas pela funo de densidade de


probabilidade qui-quadrada. A primeira com cinco graus de liberdade, a segunda com quinze
graus, e a terceira com quarenta graus. Observa-se que com menos graus de liberdade, as
probabilidades se acumularam em valores mais prximos de zero. Conforme o nmero de
graus de liberdade foram aumentados, a distribuio se desdobrou cada vez mais
simetricamente e mais distante do valor zero.
O teste qui-quadrado muito utilizado na anlise da estatstica inferencial. Observe
que ele calcula a probabilidade da ocorrncia dos valores do quadrado dos erros, e no dos
erros. Essa caracterstica importante para a leitura desse tipo de curva de densidade.

Distribuio t-student.
A distribuio t uma variao da normal. Ela pode ser calculada atravs da diviso
de uma varivel normal padronizada Z pela raiz quadrada de uma varivel aleatria qui
quadrado, dividida pelo seus graus de liberdade. Dessa forma, descreve-se: t= Z / (V/gl) ~ tgl.
A distribuio t possui mdia E(tgl) = 0; e varincia Var(tgl) = gl/(gl-2). Desse modo, quanto
maior a quantidade de graus de liberdade da varivel, mais prximo da distribuio normal a
distribuio t estar. Esse tipo de modelo muito utilizado nos testes estatsticos do
comportamento das variveis.

75

Distribuio F
A curva de densidade de uma distribuio f relaciona duas variveis qui-quadro
mutuamente independentes, cada uma dividida pelo seu grau de liberdade. Dessa forma,
descreve-se F= (V1/gl1) / (V2/gl2) ~F(gl1, gl2). A razo dos graus de liberdade no numerador com
os graus de liberdade do denominador define a forma da curva. Como, no estudo em histria,
costuma-se recorrer estatstica inferencial justamente para estudar a relao entre duas
variveis ou mais, a distribuio f costuma aparecer. Em especial na anlise de regresso.

Calculo da probabilidade
Uma vez que seja calculada a mdia, o desvio padro, e a curva da densidade de
probabilidade, torna-se possvel calcular a estimativa da probabilidade de um dado valor em

76

relao mdia. Existem duas situaes mais comuns: (a) quando desejamos descobrir a
probabilidade da ocorrncia de um valor especfico; e (b) quando desejamos descobrir a
probabilidade da ocorrncia de um intervalo de valores. Essas possibilidades sero
demonstradas utilizando a distribuio normal.
Probabilidade da ocorrncia de um valor
A probabilidade da ocorrncia de um valor pode ser calculada atravs da verificao
facilmente. Na distribuio normal padronizada, ela ser aproximadamente igual a p(Z) sendo
Z = (Xi-) / ~ N(0,1). Onde Xi o valor da varivel que desejamos verificar; a mdia, e
o desvio padro. Para verificar p(Z), basta consultar uma tabela do p-valor de Z.
Alternativamente, existem programas capazes de calcular de forma bastante precisa o p-valor
das observaes, descartando o processo de padronizao.
Observao
(A)

Consumo das famlias de


Sojaslndia com renda igual a
150 dinheiros
(B)

p-valor (distribuio normal)


(C)

123,96

0,035527334

123,97

0,035437573

115

0,069567096

118,05

0,079137628

112,36

0,046186112

107,86

0,012145832

116,67

0,078147137

121,48

0,058859397

114,75

0,067718378

10

121,79

0,056002278

Probabilidade da ocorrncia de um intervalo de valores.


A probabilidade da ocorrncia de um intervalo de valores pode ser calculada atravs
da densidade de probabilidade acumulada (ou p-valor da cauda direita). Essa densidade
acumulada expressa a probabilidade de ocorrer qualquer valor at o limite superior
estabelecido. Por exemplo, a densidade de probabilidade acumulada de 123 para o consumo
das famlias entendida como a chance de ocorrer qualquer valor at o mximo de 123 para o
consumo das famlias. Essa oportunidade ser denominada de p-valor da cauda direita da
77

observao limite.
Pode-se atravs da cauda direita, encontrar o p-valor para um intervalo de valores.
Para isso, utiliza-se a frmula de integrais:

. Ou seja, probabilidade de

ocorrer do valor a at o valor b igual a densidade de probabilidade acumulada de b


menos a de a.
Observao

Consumo das famlias de


Sojaslndia com renda igual
a 150 dinheiros

p-valor da cauda direita


(distribuio normal)

123,96

0,897765968

123,97

0,898120793

115

0,302949466

118,05

0,536505369

112,36

0,148744632

107,86

0,026296547

116,67

0,42729429

121,48

0,780800742

114,75

0,285786272

10

121,79

0,798606286

Mdia

117,59

Desvio padro

5,02

No exemplo, foi fornecido os p-valores da cauda direita para as observaes do consumo das
famlias de Sojaslndia. A partir desses valores, possvel formular a seguinte pergunta: qual
a probabilidade de uma famlia de renda 150 dinheiros consumir de 107,86 a 115 dinheiros
mensalmente, e poupar o resto? Para isso calcula-se: (p-valor da cauda direita de 115) (pvalor da cauda direita de 107,86) = 0,30295 0,026297 = 0,27665. Assim, haveria 0,27665 de
probabilidade de uma famlia consumir apenas de 107,68 a 115 dinheiros, se sua renda fosse
150.
Covarincia e Correlao.
Em geral, os historiadores e os pesquisadores nas diversas cincias sociais, recorrem
estatstica inferencial para investigar problemas que envolvem mais de uma varivel. O
primeiro passo na investigao da relao entre duas ou mais variveis a verificao do
78

desenho de disperso e da covarincia. J foi discutido como gerar um grfico de disperso,


que fundamental na verificao da natureza das relaes entre as variveis. Nesta seo, ser
discutida a covarincia e a correlao.
A covarincia uma medida de como as variveis variam conjuntamente. Ou seja,
mede se h relao e qual o tamanho dessa relao entre as oscilaes observadas em uma
varivel e as oscilaes observadas em outra para observaes pareadas.
A covarincia pode ser descrita pela formula: cov(X,Y) = E((X-E(X)) * (Y-E(Y)).
Ela , portanto, igual a mdia dos desvios da varivel X em relao sua media, multiplicados
pelos desvios da varivel Y em relao sua mdia. O sinal positivo na covarincia representa
uma relao direta, enquanto um sinal negativo representa a relao inversa.
Como o valor da covarincia depende da magnitude das variveis, em geral utiliza-se
um ndice de correlao. Esse ndice pode ser descrito pela formula: corr(X,Y) = cov(X,Y) /
(((var(X) * var (Y)) ^ (1/2)), ou =

. O resultado dessa equao variar entre

um (1) e um negativo (-1). Nessa correlao, o valor 1 significar correspondncia direta total
entre as variaes nas variveis, e -1 representar a correspondncia inversa total entre as
variaes nas variveis.
Ano

ano

PIB real em milhes de dolares


dlares (yuans constantes de
2005, dlares a preo de
mercado)
pibr

Formao bruta de capital


real em milhes de dlares
(yuans de 2005, dlares de
mercado corrente)
fbkr

1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011

897686,37
1013616,03
1143647,74
1262374,30
1462059,30
1840079,88
2256902,59
2893657,54
4202975,65
6422654,37
7166114,35
9223538,17
12753693,04

332143,9587
354765,6114
411713,1865
479702,2348
599444,3123
791234,3491
947899,0881
1244272,744
1765249,772
2825967,924
3439734,887
4427298,321
6121772,658

Covarincia
6.915.568.485.895,48
Correlao
0,999200307

79

No exemplo, ao calcular a correlao entre PIB real da China e Formao Bruta de


Capital real da China, entre 1999 a 2011, encontramos um alto ndice de correlao, indicando
correspondncia quase total entre as variaes em uma e em outra.
Regresso
A regresso uma ferramenta de muita utilidade nos estudos em histria e em
cincia sociais. Ao determinar uma varivel dependente (uma varivel que pretendemos
explicar atravs das variaes nas demais variveis), e variveis independentes (as variveis
explicativas que selecionaremos), possvel gerar um modelo de regresso. Essa ferramenta
permite (a) descrever o comportamento da relao entre duas variveis por um modelo; (b)
prever valores esperados para varivel dependente (valores previstos, ou ajustados); (c)
verificar as oscilaes dos valores observados e os valores desejados, criando um perfil
cclico; e (d) descobrir a elasticidade entre a varivel independente e a varivel dependente.
Existem diversos mtodos de clculo para as regresses. Abordaremos alguns desses
mtodos nesse captulos.
Mtodo dos mnimos quadrados ordinrios.
O mtodo dos mnimos quadrados considerado o melhor preditor no tendencioso
desde que alguns pressupostos sejam assegurados. Esses pressupostos (que devem ser
verificados a cada regresso) so: (a) a varivel dependente se submete mesma equao de
estimao para todas as observaes; (b) Os erros, ou resduos (diferena entre os valores
observados e os valores esperados), so distribudos de acordo com a distribuio normal ao
redor dos valores esperados; (c) os erros possuem varincia constante, expressando
homocedasticidade; e (d) os erros no so autocorrelacionados (um erro anterior no
influencia a ocorrncia de um erro posterior.
Partindo desses pressupostos, o mtodo dos mnimos quadrados produz uma linha de
tendncia que representa a menor distncia entre o quadrado dos erros e a prpria linha de
tendncia. Para traar essa linha, existem alguns modelos que so considerados mais comuns:
(a) linear; (b) log-linear; (c) recproco; (d) quadrtico; (e) cbico; e (f) polinomial. Ainda,
qualquer um desses modelos passvel da insero de uma varivel categrica para
80

modificao de observaes pontuais (modelo com dummy). A escolha do modelo deve


respeitar a forma que a curva de disperso das variveis assume.
Para os modelos linear e log-linear, sero descritos o procedimento para calcular
manualmente, afim de permitir melhor visualizao do que o mtodo dos mnimos
quadrados. No entanto, para os demais modelos, ser dado foco na descrio das curvas
geradas pelo modelo e na interpretao de resultado.
Modelo linear.
O modelo linear descrito pela frmula Yi=A+B(Xi). Ou seja, qualquer valor
ajustado de Y pode ser descrito pela soma de um coeficiente A, denominado intercepto (ou
constante), com um coeficiente B de Xi. O coeficiente B deve ser multiplicado pelo valor
correspondente de X, para a amostra i. Esse modelo produz uma relao linear, seja positiva
ou negativa. Para esse modelo, o coeficiente B expressa diretamente a elasticidade de Y em
relao a X.

A equao da regresso linear calculada da seguinte forma: monta-se uma tabela


contendo as colunas: (I) varivel dependente; (II) varivel independente; (III) mltiplo da
varivel dependente pela independente; (IV) quadrado da independente; e (V) valor ajustado.
tempo (I)

tipibr (III = II * I)

ti^2 = (IV = I ^2)

PIBr ajustado

ti

PIB real em milhes de dlares


(yuans constantes de 2005,
dlares a preo de mercado)(II)
pibr

tipibr

titi

ajustPIBr

1
2

897686,37
1013616,03

897686,3749
2027232,065

1
4

81

3
4
5
6
7
8
9
10
11
12
13
91

1143647,74
1262374,30
1462059,30
1840079,88
2256902,59
2893657,54
4202975,65
6422654,37
7166114,35
9223538,17
12753693,04
52538999,34

3430943,22
5049497,209
7310296,491
11040479,29
15798318,14
23149260,35
37826780,83
64226543,73
78827257,82
110682458
165798009,5
526064763,01

9
16
25
36
49
64
81
100
121
144
169
819,00

() Somatrio

Em seguida, deve-se produzir as matrizes:


A=

II (52538999,34)
III (526064763,01)
N (13)
I (91)

I (91)
IV (819)
I (91)
IV (819)

B=

N (13)
I (91)
N (13)
I (91)

II (52538999,34)
III (526064763,01)
I (91)
IV (819)

Resolvendo essa matriz teremos: A = ((IV (819) * II (52538999,34)) (III


(526064763,01) * I (91))) / ((N (13) * IV (819)) (I (91) * I (91))); e B = ((N (13) *
III (526064763,01)) (II (52538999,34) * I (91))) / (((N (13) * IV (819)) (I (91) * I
(91))).
No nosso caso: a = -2046683,422; b = 869734,987. Assim, Y = -2046683,422 +
(869734,987* ti). A partir da completamos a tabela:
tempo (A)

tipibr (C = A * B)

(D= ti^2 = (A ^2))

PIBr ajustado (F)

ti

PIB real em milhes de dlares


(yuans constantes de 2005,
dlares a preo de mercado)(B)
pibr

tipibr

titi

ajustPIBr

1
2
3
4

897686,37
1013616,03
1143647,74
1262374,30

897686,3749
2027232,065
3430943,22
5049497,209

1
4
9
16

-1176948,435
-307213,4481
562521,539
1432256,526

82

5
6
7
8
9
10
11
12
13
91,00

1462059,30
1840079,88
2256902,59
2893657,54
4202975,65
6422654,37
7166114,35
9223538,17
12753693,04
52538999,34

7310296,491
11040479,29
15798318,14
23149260,35
37826780,83
64226543,73
78827257,82
110682458
165798009,5
526064763,01

25
36
49
64
81
100
121
144
169
819,00

2301991,513
3171726,5
4041461,487
4911196,475
5780931,462
6650666,449
7520401,436
8390136,423
9259871,41

Note que os valores ajustados ficaram bem distantes dos valores observados. Isso se
deu por termos utilizado uma regresso linear para descrever uma relao geomtrica.
Modelo log-linear
O modelo log-linear expressa uma relao exponencial, ou geomtrica. Sua formula
Log10(Yi) = A + B(ti). Para gerar o valor ajustado a partir dessa equao, bastara elevar o
nmero dez pelo resultado. Assim, Yi=10 ^ log10(Yi). Nesse modelo, o coeficiente B
representa o quanto o aumento na varivel independente gera de aumento no logaritmo da
dependente. A elasticidade do modelo log-lin ser igual a (10^B)Xi, e ser o multiplicador a
ser aplicado em (10 ^ A). Ou seja, ser igual a taxa de crescimento da independente em
relao a dependente.

Para calcular manualmente, realizamos o mesmo processo aplicado regresso


linear. No entanto, no lugar do valor da varivel dependente, utilizamos do logaritmo dez
83

dela. No final elevamos dez ao valor ajustado da varivel.


PIB real em
milhes de
dlares (yuans
constantes de
2005, dlares a
preo de
mercado)
(A)
pibr

Tempo
(B)

Log10 do
PIB real
chins
(C)

Tipibr
(D)

Ti^2
(E)

Ajustado
(F)

PIBr ajustado e
deslogaritmizado
(G)

ti

lpibr

tilpibr

titi

ajust

ajustPIBr

897686,37
1013616,03
1143647,74
1262374,30
1462059,30
1840079,88
2256902,59
2893657,54
4202975,65
6422654,37
7166114,35
9223538,17
12753693,04
Somatrio

1,00
2,00
3,00
4,00
5,00
6,00
7,00
8,00
9,00
10,00
11,00
12,00
13,00
91,00

5,95
6,01
6,06
6,10
6,16
6,26
6,35
6,46
6,62
6,81
6,86
6,96
7,11
83,72

5,95
2027232,06
3430943,22
5049497,21
7310296,49
11040479,29
15798318,14
23149260,35
37826780,83
64226543,73
78827257,82
110682458,03
165798009,48
525167082,59

1,00
4,00
9,00
16,00
25,00
36,00
49,00
64,00
81,00
100,00
121,00
144,00
169,00
819,00

5,84
5,94
6,04
6,14
6,24
6,34
6,44
6,54
6,64
6,74
6,84
6,94
7,04

695476,76
874795,22
1100348,31
1384056,94
1740915,68
2189785,19
2754389,11
3464567,85
4357855,74
5481464,77
6894779,88
8672497,51
10908573,49

Para o exemplo do PIB real da China calculado pelo tempo, os coeficientes


encontrados foram: A = 5,742; e B = 0,0996. Dessa forma, a elasticidade encontrada foi:
10^B=1,258. Ou seja, uma taxa de crescimento igual a 1,258. O modelo log-linear se
demonstrou melhor do que o modelo linear, para o caso do PIB real da China explicado pelo
tempo, no perodo de 1999 a 2011.
Modelo recproco.
O modelo recproco descrito pela frmula: Yi= A + B (1/Xi). Esse modelo descreve
uma relao harmnica entre as variveis. O aumento de um na varivel inversa de Xi gerar
o aumento de B na varivel Yi. Dessa forma, a elasticidade ser descrita por: - (1/B). Observe
que a elasticidade ter o sinal invertido em relao B. Para realizar o clculo da regresso,
bastar substituir Xi pela sua inversa.

84

Esse modelo deve ser aplicado para variveis que apresentam curva de disperso
harmnica. Isso significa que a varivel Xi causa alto impacto na varivel Yi na primeira
parcela das observaes. No entanto, conforme as observaes avanam para os prximos
valores, o impacto de Xi em Yi diminuiria. Dessa forma, quando o coeficiente b for
negativo, observa-se uma curva com valores crescentes, com desacelerao no crescimento da
curva ao longo das amostras. Caso o coeficiente b seja positivo, observar-se- uma curva
cadente. Isso ocorre, como destacamos, por que o coeficiente b ter sinal invertido.

Modelo quadrtico.
A regresso quadrtica descrita por: Yi=A + B (Xi) + C (Xi 2). Assim, o aumento de
um no valor de Xi gerar o incremento de B, mais C multiplicado pelo quadrado de Xi. Nesse
sentido, no se pode mais falar em elasticidade apenas do coeficiente B. O modelo passa a ser
descrito por dois coeficientes para uma nica varivel independente original. O que se
85

observa, portanto, a existncia de duas foras distintas descritas na relao de uma varivel
dependente com uma independente. Essas foras so representadas pelo coeficiente B e pelo
coeficiente C, e tem seu impacto calculado por B*xi, e C * xi2.
Esse modelo se ajusta melhor a trs tipos de desenhos para o grfico disperso. Eles
so descritos por: (1) coeficiente B e C com sinais iguais; (2) coeficiente B negativo e C
positivo; e (3) coeficiente B positivo e C negativo.

No exemplo acima, observa-se um grfico resultante de um modelo quadrtico com


os coeficientes B e C com sinais iguais, sendo ambos positivos. O que se observa que para
as primeiras observaes, o modelo apresenta crescimento muito prximo do linear, o que
causado pelo impacto maior do coeficiente B do que do C. No entanto, conforme o quadrado
de Xi aumenta, o crescimento passa a ser mais impactado pelo coeficiente C. Da resulta a
acelerao do crescimento de Yi, representado pela varivel qpBc.

86

No exemplo acima, verifica-se um grfico do modelo quadrtico com o coeficiente B


negativo e o coeficiente C positivo. Observa-se que para as primeiras observaes, a curva de
tendncia foi cadente. A partir de determinado ponto, a curva se tornou positiva. Isso ocorre
por que C * Xi se tornou maior do que B * Xi. Caso B fosse positivo, e C negativo,
observaramos o inverso. Na primeira parte da curva, ela seria ascendente. Na segunda parte,
se tornaria cadente.

Modelo cbico
O modelo cbico pode ser descrito pela frmula Yi=A + B Xi + C Xi + D Xi. Esse
modelo expressa trs foras distintas no impacto da varivel Xi em relao a Yi. Dessa forma,
87

um aumento de um na varivel Xi ter o impacto determinado pelo coeficiente B, pelo


coeficiente C multiplicado pelo quadrado de Xi, e pelo coeficiente D multiplicado pelo cubo
de Xi. Isso significa que a elasticidade de Xi no pode ser medida apenas pelo coeficiente B.
Esse modelo pode gerar diferentes tipos de desenhos grficos, determinados pelas condies:
(1) os trs coeficientes possuem sinais iguais; (2) o coeficiente D possui sinal contrrio ao
sinal de B e C; (3) O coeficiente C possui sinal contrrio ao de B e D; (4) o coeficiente B
possui sinal contrrio ao de C e D.

No exemplo acima, observa-se um grfico para a curva de tendncia gerada pelo


modelo cbico com todos os coeficientes positivos. Observa-se que para as primeiras
observaes o crescimento foi pequeno. A medida que as observaes foram avanando, a
velocidade de crescimento aumentou. Observe que nesse modelo, na segunda metade do
grfico a curva apresentou crescimento acentuado.

88

No grfico acima, h a curva de tendncia produzida pelo modelo cbico com


coeficientes B e C positivos, e D negativo. O que se observa uma curva em S. Essa curva
descrita por um crescimento pequeno na primeira parte, um aumento do crescimento na
parte do meio, e uma perda de velocidade do crescimento at se transformar em crescimento
negativo na ltima parte. Isso ocorre pois para a primeira parcela da curva, o coeficiente B
teve maior importncia, o que aproxima o modelo do linear. Na segunda parte, o coeficiente C
ganhou destaque, aproximando a curva ao desenho da curva do modelo cbico. Na ltima
parte. O coeficiente D, que era negativo, ganhou mais importncia.

No grfico acima, verifica-se o desenho de uma curva gerada pelo modelo cbico
com o coeficiente B negativo, e C e D positivos. Observa-se que na primeira parte do grfico,
a curva de tendncia foi cadente. A partir de dado momento, essa curva se tornou ascendente
com alta taxa de crescimento, resultante do efeito dos coeficientes C e D.

89

No grfico acima, h uma curva de tendncia gerada pelo modelo cbico com
coeficientes B e D positivos, e C negativo. O que pode-se observar um crescimento menos
acelerado na primeira parte do grfico, e mais acelerado na segunda parte. Isso ocorre pois o
coeficiente C dificilmente se torna mais importante do que os demais fatores. Dessa forma,
ele apenas molda o crescimento de forma a reduzi-lo, mas sem o tornar negativo.
Modelos com dummy.
Por vezes, ao verificar a curva de disperso das variveis, observa-se que um
conjunto de observaes apresentou valores em posio distinta do esperado. Isso significa
que, em algumas observaes, a varivel possuiu comportamento singular, no obedecendo a
equao de estimao da regresso. Isso seria uma violao do pressuposto de que a varivel
dependente se submeteria igualmente equao em todas as observaes. Existem duas
possibilidades de lidar com essa situao. A primeira utilizar uma varivel categrica de
constante, o segundo utilizar uma varivel categrica de inclinao.
Categrica de constante.
Caso o comportamento anormal da varivel independente no viole a linha de
tendncia, apenas gere um recuo (para cima ou para baixo em relao ao eixo vertical),
pode-se utilizar uma varivel categrica de constante. Por exemplo, pode ser que devido a
uma conjuntura negativa, a produo de gros tenham apresentado desempenho pior durante
quatro anos, em relao ao restante da dcada. Mas, mesmo nesse trinio, a produo pareceu
manter sua tendncia esperada. Nesses casos, pode-se utilizar uma varivel categrica
90

(dummy) para indicar que algumas das observaes possuem caracterstica especial. O
modelo linear com dummy, por exemplo, pode ser descrito pela formula: Y = A + B Xi + C
dm, onde dm igual a 0 para os anos sem a presena do modificador, e igual a 1 para os anos
com modificador.
Xi
1
2
3
4
5
6
7
8
9
10

Dummy
0
0
0
0
1
1
1
1
0
0

Na tabela acima, est disponvel uma demonstrao de como devem ser organizados
os dados para o clculo do efeito da Dummy em um software de computador. No exemplo, as
observaes de nmero 5 a 8 apresentaram o efeito dummy.

No grfico acima, est a linha de tendncia gerada pelo modelo linear com dummy. A
frmula encontrada foi: Yi= A + B Xi C dm = 0 + 1 Xi 2 dm. Observe que as observaes
5; 6; 7; e 8 apresentaram um recuo igual a C em relao ao ponto que deveriam estar caso no
91

houvesse o efeito da varivel categrica dummy. No entanto, mesmo com o recuo, a tendncia
continuou a respeitar a linha gerada por Yi = A + B Xi.
Categrica de inclinao.
Caso as observaes com comportamento singular violem a linha de tendncia,
apresentando coeficiente angular prprio, uma alternativa o uso de uma varivel categrica
de inclinao. Por exemplo, o pas Cavercia viveu uma guerra civil de trs anos. Como se
sabe, uma guerra civil tende a forar uma reorganizao, ao menos temporria, da economia
do pas. Ao verificar a curva de disperso, verificou-se que os anos da guerra civil (anos 5, 6 e
7) apresentaram comportamento singular para o crescimento do PIB do pas. Para gerar uma
regresso que permitisse captar esse comportamento, foi utilizada uma varivel categrica de
inclinao.
Ti (A)

Dummy (B)

1
2
3
4
5
6
7
8
9
10

0
0
0
0
1
1
1
0
0
0

Categrica de inclinao (dummy * ti)


(dmti) (C)
0
0
0
0
5
6
7
0
0
0

Na tabela acima, os dados foram organizados de forma a permitir a formulao de


uma categrica de inclinao. Na primeira coluna, est a varivel independente Ti. Na
segunda coluna, est a varivel categrica dummy. Na terceira, est a varivel categrica de
inclinao, gerada pela multiplicao da dummy pela independente. A partir desses dados,
gerou-se uma regresso log-linear para o PIB de Cavercia. A frmula para log-linear com
varivel categrica de inclinao pode ser descrita: Log10(Yi) = A + B Ti + C dmti. Atravs
desse processo, gerou-se a curva de tendncia abaixo.

92

Observe que os anos 5, 6, e 7 apresentaram taxa de crescimento distinta dos demais


anos. No ano 8, a curva voltou para o ponto onde deveria estar. A partir de ento, a taxa de
crescimento voltou ao esperado.
Modelos polinomiais.
Chama-se de modelos polinomiais aqueles que contm uma variante da varivel
independente (Yi) como varivel dependente (Yi* z). Esse tipo de modelo permite clculos
com alta preciso para verificao de Yi. No entanto, devido a sua natureza, no ser mais
possvel extrapolar valores para a varivel dependente, visto que ela faz parte do clculo para
seu prprio resultado.
Um modelo polinomial de alta preciso pode ser descrito por: Yi = A + B Xi + C
log10(Yi) + D (log10(yi) * Xi) + E Xi. Esse modelo pode ser utilizado para produzir perfis
cclicos de alta preciso, especialmente quando a varivel independente Xi o fator tempo.
Por exemplo, para calcular o perfil cclico do PIB real da China entre 1999 a 2011, montamos
previamente a seguinte tabela que serviu de base para o clculo da regresso polinomial:

93

Ano
(A)

ano
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011

Tempo
(B)

ti
1
2
3
4
5
6
7
8
9
10
11
12
13

PIB real em milhes


de dlares (yuans
constantes de 2005,
dlares a preo de
mercado)
(C)

Log do Produto Interno


Real Bruto
(D)

Log de pib
multiplicado pelo
tempo
(E)

Quadrado de ti
(F)

pibr
897686,3749
1013616,032
1143647,74
1262374,302
1462059,298
1840079,882
2256902,591
2893657,543
4202975,648
6422654,373
7166114,347
9223538,169
12753693,04

lpibr
5,953124633
6,005873471
6,058292276
6,101188145
6,164964987
6,264836677
6,353512815
6,461447132
6,623556874
6,807714552
6,855283734
6,964897549
7,10563596

lpibrti
5,953124633
12,01174694
18,17487683
24,40475258
30,82482494
37,58902006
44,47458971
51,69157706
59,61201186
68,07714552
75,40812107
83,57877059
92,37326748

titi
1
4
9
16
25
36
49
64
81
100
121
144
169

Em seguida, foram calculados os valores ajustados (esperados) para o PIB real da


China atravs da regresso polinomial, com o auxlio de um software de computador. No
grfico abaixo h o desenho grfico do PIB real observado comparado com o desenho grfico
do valor ajustado. No eixo das ordenadas est o valor em milhes de dlares, no eixo das
abscissas est o ano referente. Observa-se que os valores ajustados e os valores observados se
aproximam bastante.

94

Anlise de regresso.
Alm da equao de ajuste e da construo da srie ajustada, a anlise estatstica da
regresso permite gerar uma srie de informaes pertinentes. Os dados gerados dessa forma
so denominados resultados da anlise de regresso. Nesta seo, sero abordados: (a)
anlise dos coeficientes; (b) dados de adequabilidade da regresso; (c) testes de normalidade e
heterocedasticidade; (d) teste de autocorrelao dos erros; e (e) anlise dos resduos.
Anlise dos coeficientes.
O principal componente da anlise de coeficientes j foi discutido na seo anterior.
Trata-se dos valores de cada coeficiente. No entanto, a anlise de coeficiente abarca outros
dados pertinentes. Sendo eles: (i) o desvio padro; e (ii) estatstica t e teste p. da estatstica t.
O (i) desvio padro do coeficiente expressa o quanto a varivel dependente
observada oscilou em torno da varivel independente. Assim o desvio padro do coeficiente
permite encontrar o intervalo esperado para a varivel dependente. Por exemplo: se o
coeficiente B de uma regresso linear for 5, com desvio padro de 1, espera-se que o aumento
de 1 em Xi gere um aumento de 4 a 6 na varivel Yi. Tem-se que o desvio padro do
coeficiente pode ser no mximo at metade do valor do coeficiente. Caso contrrio,
provvel que a varivel independente no tenha poder explicativo para a varivel dependente.
O (ii) teste t do coeficiente um teste da distribuio t dos desvios encontrados para
o coeficiente. Esse teste permite calcular com maior preciso se a varivel independente
possui ou no capacidade explicativa para a varivel dependente dentro do modelo proposto.
(Ou seja, se na sua equao, a varivel atrelada quele coeficiente significativa para o
clculo de Yi).
Alguns softwares calculam o p-valor do teste t dos coeficientes. Nesses casos, o pvalor permitir testar as hipteses: H0, a varivel independente no significante; e H1, a
varivel independente significante. Caso o p-valor seja inferior a 0,05, descarta-se H0 e
aceita-se H1.

95

Dados de adequabilidade da regresso


Existem alguns dados de adequabilidade que so muito utilizados para avaliar a
regresso, constam entre eles: (i) Graus de Liberdade, (ii) R e R ajustado, e (iii) teste f e pvalor do teste f.
Os (i) Graus de Liberdade medem quantas observaes no comprometidas a sua
regresso possui. Quanto menor os graus de liberdade, menor tende a ser a variabilidade dos
dados e possivelmente seus coeficientes representaro mais aquilo que ocorreu nos anos
observados e menos uma tendncia abstrata retirada da repetio dos dados. Os graus de
liberdade so calculados pela subtrao do nmero de observaes contidas nos dados
analisados pelo nmero de variveis independentes contidos em sua regresso.
O (ii) R , em uma regresso linear, igual ao quadrado da correlao entre as duas
variveis. Ele uma medida que expressa a capacidade explicativa da regresso. Dessa forma,
diz-se que a regresso explica as oscilaes na varivel dependente em R vezes cem, em
porcentagem. Por exemplo, uma regresso com R igual a 0,68 tem capacidade explicativa de
sessenta e oito por cento sobre as oscilaes da varivel dependente. O R ajustado um
ajuste que busca dar maior preciso no clculo da capacidade explicativa da regresso.
Sempre que o modelo utilizado haja includo mais do que uma varivel independente, o R
ajustado ser importante. Isso ocorre por que o R antes do ajuste tende a supervalorizar a
regresso conforme novos elementos so adicionados ao clculo.
O (iii) teste f um teste da regresso utilizando a distribuio f como base. Isso
permite verificar se a regresso, com a capacidade explicativa igual a R, significativa ou
no. O p-valor do teste f permite o teste de hiptese: H0, a regresso no significativa para o
R ajustado encontrado; e H1, a regresso significativa dentro da capacidade explicativa
expressa por R ajustado. Caso o p-valor do teste f seja inferior a 0,05 descartamos H0, e
aceitamos H1.
Testes de normalidade e heterocedasticidade.
O mtodo dos mnimos quadrados possui alguns pressupostos para que ele seja o
melhor mtodo de estimao da regresso, conforme j comentado. Entre esses pressupostos
constam: que os erros da regresso so distribudos de acordo com a densidade de distribuio

96

normal; e que h homocedasticidade nos erros. Ou seja, que os erros possuem mdia zero e
desvio padro constante.
Esses pressupostos precisam ser testados para verificar se so vlidos, Para isso se
realiza os testes de normalidade e de heterocedasticidade dos erros. Existem distintos tipos de
testes de normalidade, e distintos tipos de teste de heterocedasticidade.
Os testes de normalidade verificam se os desvios se distribuem normalmente, com
mdia zero e varincia 2. Eles costumam ser realizados com as hipteses: (H0) a distribuio
dos erros segue a distribuio normal; (H1) a distribuio dos erros no segue a distribuio
normal. Caso o p-valor do teste de normalidade seja inferior a 0,05, descarta-se H0, o que
significa que no seguro pressupor a normalidade.
Cada tipo de teste de normalidade d foco a um tipo de violao da normalidade.
Alguns desses tipos de violao so: (i) os erros so mais comuns para cima ou para baixo do
que para seu inverso, mas possuem valores menores para o lado mais comum (erros positivos
pequenos e constantes, erros negativos grandes e raros); (ii) os erros se aglutinam distantes da
reta de tendncia, ao invs de prximos a ela; e (iii) os erros de alguma das observaes
fogem demasiadamente do valor previsto, distorcendo a densidade dos desvios em relao ao
modelo de densidade normal.
Os testes de heterocedasticidade buscam verificar se a varincia dos erros foi
constante. Eles em geral so feitos com as hipteses: (H0) os erros possuem varincia
constante (portanto no so homocedsticos); e (H1) os erros no possuem varincia
constante (so heterocedsticos). Caso o p-valor dos testes seja inferior a 0,05, descarta-se a
(H0), no sendo seguro pressupor a homocedasticidade dos erros.
Existem diferentes testes de heterocedasticidade, cada um busca testar um tipo
possvel de no constncia da varincia. Dois desses tipos so: (i) os erros apresentam
variao conjuntural, se distanciando da reta de ajuste para algum nmero de amostras, e se
aproximando em outros; e (ii) os erros apresentam estocasticidade, se tornando maiores ou
menores com o avanar das amostras.

97

No grfico acima, h um modelo produzido pela regresso linear para o consumo das
famlias de Manguetnia, explicado pela renda das famlias. Observa-se no grfico que o
consumo das famlias adquire maior varincia a partir da renda familiar de 140 dinheiros. No
exemplo, h heterocedasticidade dos erros, e os erros no assumiram distribuio normal.
Aconselha-se que as verificaes dos testes de normalidade e heterocedasticidade
sejam feitas em conjunto. A no normalidade e a heterocedasticidade dos erros influenciam
um a outra. usual que testes que apresentem a no normalidade tambm apresentem
heterocedasticidade de algum tipo.
Uma vez detectada a no normalidade ou a heterocedasticidade dos erros, existem
diferentes procedimentos que podem ser aplicados. O primeiro passo deve ser identificar
possveis causas para o resultado dos testes. Isso deve ser feito gerando um grfico de
comparao da varivel original e a varivel ajustada. Assim, a natureza dos erros deve ficar
evidente.
Diante disso, o pesquisador dever interpretar o sentido dos resultados dos testes,
trabalhando com duas hipteses a serem consideradas: (1) a no adequao dos pressupostos
fruto da no adequao da regresso pelo mtodo dos mnimos quadrados; ou (2) a violao
dos pressupostos foi fruto da natureza da relao entre a varivel dependente e varivel
independente, ou de conjunturas que modificaram essa natureza. Por exemplo, no caso do
consumo das famlias de Manguetnia o aumento da varincia na segunda metade resultou da

98

natureza entre a renda familiar e o consumo familiar: quanto menor a renda, menos opes de
consumo a famlia possui, no podem nem economizar, e nem realizar gastos abusivos.
Quanto maior a renda, maior a possibilidade da famlia adequar seus gastos a um perfil
prprio.
Caso se acate a hiptese (2), o pesquisador ter que investigar e explicar o que
causou essa violao dos pressupostos. No caso da aceitao da hiptese (1), ser necessrio
utilizar outro mtodo de regresso: a regresso generalizada.
Autocorrelao dos erros.
O teste da autocorrelao dos erros fundamental para garantir a validade da
regresso. A autocorrelao dos erros ocorre quando um erro anterior pode ajudar a prever o
erro seguinte. Existem dois tipos de autocorrelao dos erros: a autocorrelao direta; e a
autocorrelao inversa. A direta ocorre quando um erro positivo anterior leva a um provvel
erro positivo posterior, e um erro negativo leva a um provvel erro negativo. A autocorrelao
inversa ocorre quando um erro positivo leva a um provvel erro negativo seguinte.

No grfico, h os gastos do governo de Sojaslndia. Em preto est a linha de ajuste


gerada por uma regresso linear com varivel dependente os gastos do governo, e com a
varivel independente tempo. O que se observa que a distncia entre o valor observado e o
valor esperado (erro, ou resduo), igual ao inverso do erro do ano anterior. Isso indcio de
uma autocorrelao inversa dos erros. Para ter certeza, pode-se recorrer testes de
99

autocorrelao.
O principal deles o teste Durbin-Watson (DW). Ao realizar esse teste, gera-se um
valor DW. Tem-se que esse valor no deve ser abaixo do R 2 da regresso, nem ultrapassar
muito o valor 2,5. Caso o DW seja baixo de mais, ou alto demais, deve-se entender que os
erros da regresso possivelmente so autocorrelacionados, e o mtodo dos mnimos quadrados
no o mais adequado.
No entanto, alguns softwares especializados calculam o p-valor do Durbin-Watson,
permitindo o uso de critrios mais objetivos para a deciso sobre se h provvel
autocorrelao ou no. O teste do p-valor de Durbin-Watson feito com as hipteses: (H0)
no h autocorrelao dos erros; e (H1) h autocorrelao dos erros. Caso o p-valor seja
inferior a 0,05, ou superior a 0,95, deve se descartar H0, e considerar que no seguro
assumir o pressuposto da no autocorrelao.
Para os estudos sociais, mesmo com um p-valor inferior a 0,05 para o teste do
Durbin-Watson, no se deve descartar de imediato a regresso. Caso o DW seja superior a R 2,
possvel que a autocorrelao dos erros resulte de um fenmeno histrico que precisa ser
explicado, e no de uma regresso inadequada.
Aconselha-se a seguinte metodologia de avaliao do Durbin-Watson: Caso o valor
de DW esteja entre o R2 da regresso e 2,5, s se deve considerar a regresso inadequada caso
o p-valor seja inferior a 0,005, ou superior a 0,995. Caso o DW seja inferior ao R 2, ou superior
a 2,5, deve-se considerar a regresso inadequada se o p-valor do Durbin-Watson for inferior a
0,05 ou superior a 0,95.
Uma vez que a autocorrelao dos erros haja sido detectada, h duas formas de
proceder. Se a autocorrelao for direta (se DW for pequeno), ser necessrio realizar uma
regresso generalizada pelo mtodo do AR. Se a autocorrelao for inversa, ser necessrio
realizar a dessazonalizao verossmil da regresso.
Anlise dos resduos.
Uma vez que os testes dos pressupostos da regresso hajam sido realizados,
possvel realizar a anlise dos resduos. Ao historiador, pode ser to importante explicar essa

100

tendncia quanto entender como as variveis se distanciaram de suas tendncias. A anlise dos
resduos consiste justamente em subtrair os valores ajustados atravs da regresso dos valores
observados da varivel dependente. Dessa forma, os resduos (ou erros) podem ser descritos:
e= YOi - YAi, onde e o smbolo dos resduos (erros); YOi o valor observado na varivel
dependente Yi; e YAi o valor ajustado gerado pela regresso.
Perodo
(1)

Produto Interno
Bruto real da
China. (yuans
constantes de
2005, dlares a
preo de
mercado)
(2)

ano
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011

pibr
897686,3749
1013616,032
1143647,74
1262374,302
1462059,298
1840079,882
2256902,591
2893657,543
4202975,648
6422654,373
7166114,347
9223538,169
12753693,04

Formao Bruta
de Capital real
da China.
(yuans
constantes de
2005, dlares a
preo de
mercado)
(3)
fbkr
332143,9587
354765,6114
411713,1865
479702,2348
599444,3123
791234,3491
947899,0881
1244272,744
1765249,772
2825967,924
3439734,887
4427298,321
6121772,658

PIB real da China


ajustado.
(4)

Resduos da
comparao
do Valor
Ajustado
com PIB real
observado
(5)

Valor Ajustado
996627,4496
1042728,166
1158781,756
1297336,789
1541359,435
1932208,777
2251476,198
2855456,73
3917156,975
6078796,856
7329593,915
9342151,636
12795324,66

Resduos
-98941,07469
-29112,13339
-15134,01567
-34962,48658
-79300,13654
-92128,89589
5426,393078
38200,81371
285818,6729
343857,5162
-163479,568
-118613,4663
-41631,61875

Na tabela acima, h o clculo dos resduos da regresso linear com o Produto


Interno Bruto real da China como varivel dependente, e a Formao Bruta de Capital real da
China como varivel independente. Para calcular os resduos, inserimos na tabela os valores
observados do PIB real da China (na segundo coluna), e os valores ajustados atravs da
regresso (terceira coluna). Os valores observados foram subtrados do valor observado,
gerando a coluna de resduos.
Lembre-se que, para a regresso log-linear ser necessrio deslogaritimizar os
valores ajustados antes de subtra-los dos valores observados na varivel original. Para isso,
bastar elevar o nmero dez ao valor ajustado. A maioria dos softwares, ao ser utilizado para

101

gerar a regresso log-linear, gerar o resduo dos logaritmos, e no o resduo das variveis
deslogaritimizadas.
A partir dos resduos, pode-se calcular o perfil cclico da varivel dependente
explicada pela independente. Para isso, basta dividir os resduos da regresso pelos valores
observados da varivel dependente. Isso expressar a distncia relativa entre os valores
observados e os ajustados. Assim, ser possvel perceber o impacto das oscilaes,
expressando quando a varivel dependente apresentou desempenho inferior ao esperado,
tendo como base o desempenho da varivel independente.

No grfico acima, h a representao do perfil cclico do PIB real chins calculado


pela Formao Bruta de Capital real da China, entre 1999 e 2011. No eixo das ordenadas, est
a distncia relativa entre os valores observados e os valores ajustados. No eixo das abscissas,
est o ano referente. No exemplo, o perfil cclico permite perceber: (a) como o perfil cclico
possui tendncia ascendente, pode-se inferir que o PIB real chins teria crescido mais
rapidamente do que a formao bruta de capital da China; (b) que dos anos 1999 a 2005, o
desempenho do PIB real esteve abaixo do esperado, e de 2006 a 2008 esteve acima do
esperado. Isso significa que o perodo de 2005 a 2008 foi marcado por crescimento acelerado
e resposta rpida da economia aos estmulos de investimento; e (c) a crise de 2008 afetou o
desempenho da economia chinesa, causando dificuldade dos investimentos em gerar o
crescimento experimentado no perodo anterior.
Esse exemplo serve para demonstrar como possvel tirar informaes significativas
do perfil cclico de uma regresso. Atravs dele, possvel confirmar ou mesmo adquirir
102

novas interpretaes, e estabelecer a periodizao adequada a seu estudo.


Outros mtodos de clculo de regresso.
Alm do mtodo dos mnimos quadrados ordinrios, existem outros mtodos que
podem ser usados para produzir regresses. Nesta seo sero discutidos os mtodos: (1)
generalizados e corrigidos; (2) de dessazonallizao; (3) o do aparentemente no relacionado;
(4) da regresso em duas etapas; e (5) modelo logstico.
Em histria, no recomendvel o uso excessivo de correes estatsticas. Isso
porque elas tendero a considerar fenmenos histricos como parte do modelo, ao corrigir o
erro estatstico. Isso especialmente verdade para os modelos generalizados e corrigidos. A
anlise do que ocorreu em determinado perodo ficar, dessa forma, mais difcil de ser
realizada. Deve-se, portanto, ser bastante criterioso para corrigir o problema.
muito melhor, para o historiador, tentar identificar se o que perturbou o modelo
estatstico foi um comportamento anormal em uma amostra, ou ao conjunto de amostras. Ao
se identificar onde est a pertubao, pode-se testar se possvel corrigi-la manualmente,
inserindo no modelo uma varivel dummy ou uma varivel categrica de inclinao. Isso
permitir ao historiador perceber: (a) se a pertubao se concentrou nas amostras corrigidas;
e (b) qual foi a magnitude aproximada da pertubao, medida pelo coeficiente da varivel
dummy ou da categrica.
A correo atravs dos modelos generalizados ou corrigidos s deve ser utilizada
caso o interesse seja detectar com preciso o comportamento geral da varivel,
desconsiderando oscilaes conjunturais. Para economistas, esses modelos so bastante
importantes, para a verificao dos modelos econmicos propostos para o comportamento
esperado das variveis estudadas.
Os mtodos de modelos generalizados e corrigidos.
Existem diversos tipos de modelos generalizados. A generalizao da regresso
uma alternativa quando os erros da regresso no apresentam distribuio normal. A
generalizao tambm pode ser aplicada para corrigir a heterocedasticidade ou a
autocorrelao positiva dos erros. Para fins didticos, sero separados: os (i) modelos
generalizados com modelo de disperso diferente da normal; dos (ii) modelos de correo dos
103

pressupostos.
Os modelos generalizados.
Quando os erros da regresso no apresentam disperso normal, necessrio ajustar
o modelo para adequ-lo a funo de disperso que melhor descreva os erros. Essa deciso
parcialmente guiada por decises arbitrrias, provenientes do conhecimento do tipo de
varivel e tipo de problema que est se tratando. No entanto, possvel realizar a
generalizao buscando maior adequao da distribuio dos erros j observados em uma
regresso linear anterior. Para isso, necessrio primeiro identificar o tipo de disperso que os
erros descrevem. Com esse intuito, aconselha-se produzir um grfico dos resduos,
organizados em ordem crescente e classificados em classes de tamanhos iguais. A partir da
forma desenhada pela distribuio dos erros, utiliza-se o modelo mais adequado.
O tipo de distribuio de erro ao qual a equao da regresso vai ser ajustada
denominado famlia da regresso generalizada. Ainda, o modelo generalizado possui uma
funo de ligao, que determina qual a funo dos coeficientes (se linear, se
exponencial, inverso, etc).
A vantagem dos modelos de regresso generalizados que permite a formao de
regresses bastante precisas. A desvantagem que a anlise de regresso tende a gerar menos
dados para o pesquisador.
Os modelos de correo dos pressupostos.
Quando

os

erros

esto

distribudos

normalmente,

mas

apresentam

ou

heterocedasticidade ou autocorrelao dos erros, uma alternativa a realizao de regresses


de correo dos pressupostos. Existem dois modelos que so extremamente teis: o modelo de
heterocedasticidade corrigida e o modelo AR.
A regresso de heterocedasticidade corrigida possui finalidade bvia: gerar uma
regresso abrandando os pressupostos de heterocedasticidade. Ela gera clculos alternativos
para os coeficientes e para os desvios padres, o que resulta em outros valores para o teste t
dos coeficientes, e p-valores para variveis independentes. Essa alterao causa ajustes no
clculo geral da curva, mas no causa ajustes pontuais nela. Ainda, pode resultar na

104

necessidade de aceitar que a varivel independente no tenha significncia garantida para o


clculo da varivel dependente.
A regresso AR utiliza um sistema de defasagem das observaes para corrigir a
autocorrelao positiva dos erros. As observaes que apresentam carter estocstico so
modificadas por um coeficiente r. A magnitude da alterao desses dados pode ser
mensurada pelo Rho estatstico da regresso. O Rho varia de zero (0) a um (1), sendo que zero
significa a no alterao da regresso original, e um significa forte alterao da regresso. O
problema do sistema AR que ele perde uma observao, visto que a interao entre a
varivel Ti e Xi defasada para Yi e Xi-1.
Mtodos de dessazonalizao.
A dessazonalizao uma ferramenta muito utilizada para facilitar a leitura do
comportamento das variveis econmicas. O intuito dessa ferramenta e eliminar as variaes
caractersticas de estaes. Ou seja, a autocorrelao negativa dos erros. Esse tipo de
autocorrelao leva a uma mudana da base de comparao para a anlise da varivel. Por
exemplo, se a cada dois anos h eleies, e os gastos do governo aumentam durante o ano
eleitoral, a base de comparao dos aumentos dos gastos no pode ser de um ano para o outro,
mas sim a cada dois anos. Dessa forma, os anos com eleio seriam comparados com os
demais anos com eleio, e os sem eleio seriam comparados com os anos sem eleio.
Existem duas formas gerais de dessazonalizao: (a) sazonalizao do ajuste; e (b) a
dessazonalizao dos dados originais. O primeiro deve ser usado para gerar uma cura de
tendncia que leve em conta os fatores sazonais. Assim, a anlise dos resduos enfatizar as
oscilaes alm das esperadas pelo fator sazonal.
O segundo mtodo consiste na produo de dados ajustados que anule a oscilao
sazonal, mantendo apenas a oscilao resultante de outros fatores. Observe que, caso seja feita
uma anlise de resduo por esse mtodo, os resduos sero justamente as oscilaes sazonais.
Existem diferentes mtodos para gerar modelos de dessazonalizao. Um deles o
uso de variveis categricas que indiquem a que estao a observao pertence. Para isso,
cria-se uma varivel dummy para cada estao, e calcula-se a regresso utilizando o modelo
dos mnimos quadrados ordinrios com varivel categrica. Isso gerar uma regresso
105

sazonalizada, o que permitir a anlise dos resduos de forma mais coerente. A frmula gerada
por esse processo ser: Yi= A + B Xi + Csa + Dsb (...), onde sa e sb sero as variveis
categricas da estao. Pode-se utilizar tantas variveis categricas de estao quanto for
necessrio.
Para gerar a varivel dependente dessazonalizada, basta realizar uma regresso sem
intercepto com varivel categrica, mas constando apenas as variveis dummies como
variveis dependentes. O valor ajustado que ser encontrado ser o fator sazonal da varivel
dependente. Bastar subtrair o valor ajustado do valor observado. Isso resultar na
dessazonalizao da dependente. A frmula dessa regresso ser: Yi = A Sa + B Sb + C Sc
(...).
Outro mtodo, mais preciso, o mtodo Arima. Esse mtodo utiliza coeficientes
tethas e phis, podendo distinguir fatores sazonais de no sazonais. Isso, na prtica, permite
uma sazonalizao flexvel para o ajuste. Esse modelo gera valores bastante realistas para a
regresso. Infelizmente, o procedimento complexo, e sugere-se o uso de programas de
computadores para realizar os clculos. Tambm para esse mtodo, o procedimento para gerar
variveis dessazonalizadas e predies sazonalizadas so diferentes.
Para gerar variveis dessazonalizadas, recomenda-se o uso do mtodo de anlise pelo
X-Arima (utilizado pelo software X-12-Arima), que identifica o fator sazonal e o difere
automaticamente das oscilaes no sazonais. Esse mtodo gerar uma curva de ajuste mais
tensionada, eliminando as oscilaes sazonais na produo de valores ajustados.
Para realizar uma projeo sazonalizada, recomenda-se a adequao manual da
regresso de Arima. Essa adequao deve ser feita pela definio do nmero de componentes
tethas e phis sazonais e no sazonais que sero levados em conta para a realizao da
regresso Arima. Isso feito pela determinao arbitrria dos componentes AR (que
determina o nmero de variveis phis), MA (que determina o nmero de componentes tethas),
e de defasagem para comparao entre a varivel dependente e a independente, considerando
tethas e phis. Uma composio que costuma gerar ajustes bastante precisos : Um AR no
sazonal, zero de defasagem no sazonal, um MA no sazonal, um AR sazonal, zero de
defasagem sazonal, e um MA sazonal. Essa combinao conhecida como (Arima: 1,0,1;
1,0,1). No exemplo abaixo, h um grfico da regresso do Produto Nacional Bruto real
106

brasileiro, calculado em pelo mtodo Arima (1,0,1 ; 1,0,1). A varivel independente utilizada
foi a Formao Bruta de Capital Fixo real do Brasil. O perodo analisado contempla o ltimo
semestre de 1999, at o ltimo semestre de 2011. No grfico contam os valores ajustados e os
valores observados (efetivos).
pnbr efetivo e ajustado
700000

ajustado
efetivo

650000

pnbr

600000

550000

500000

450000

400000
2000

2002

2004

2006

2008

2010

2012

O mtodos de regresso dos aparentemente no relacionados.


Existe um mtodo de regresso especial que permite a construo de um modelo com
duas variveis dependentes distintas. O mtodo de regresso dos aparentemente no
relacionados (de sigla SUR, do nome em ingls Seemingly Unrelated Regression) permite a
produo de duas regresses distintas, mas que possuem covarincia nos erros. Esse mtodo
adequado quando as duas variveis dependentes no relacionadas esto expostas aos mesmos
conjuntos de foras no mensuradas que resultam nos erros aleatrios.
Por exemplo, o pas de Sojaslndia era uma antiga colnia de Manguetonia. Quando
ainda era colnia, o pas era utilizado para produo de soja para exportao. Naquelas
circunstncias, Manguetnia no produzia dados sobre a produo interna de Sojaslndia.

107

Mas existem dados disponveis sobre as fazendas de soja.


Um pesquisador coletou os dados para dez fazendas de Sojaslndia. Entre os dados
consta a quantidade de soja vendida (em dinheiros), os gastos em insumos, e os gastos em
fora de trabalho. Ele pretende atravs desses dados produzir uma curva para o desempenho
das fazendas, e avaliar qual delas possuam modelos de maior produtividade.
Apesar de no haver relao direta entre os componentes da regresso de cada uma
das fazendas, elas estariam expostas a foras conjunturais similares (crises econmicas,
decretos de Manguetnia, etc.). O uso do mtodo SUR gera, para esses casos, regresses mais
realistas, sendo capaz de verificar a covarincia dos erros para cada uma das regresses. A
prpria reta de ajuste levar em conta essa covarincia dos erros.
Mtodo das regresses em duas etapas (tsls)
Existem ocasies onde uma regresso possui um componente que pode ser explicado
por outra regresso. Quando isso ocorrer, na prtica existe um modelo com mais de uma
regresso, e nelas existem variveis endgenas (variveis que aparecem em ambas as
regresses). Nessas ocasies, a realizao de duas regresses em separado gera um modelo
viciado. Isso por que os erros contidos nas variveis endgenas aparecero nas duas
regresses, gerando a superestimao dos erros.
Para superar esse problema, utiliza-se o mtodo das regresses em duas etapas (ou
TSLS, do ingls, Two steps least squares). Esse consiste na diviso do modelo em duas
etapas. Na primeira, as variveis endgenas so calculadas. Na segunda, as regresses
desejadas so calculadas. Para que esse mtodo seja possvel, necessrio que a seguinte
condio seja satisfeita: que haja ao menos o nmero de regresses menos um de variveis
identificadas (no endgenas). Essa condio pode ser expressa por: NVid> M-1.
Por exemplo, Manguetnia contratou um pesquisador para calcular o impacto do
aumento dos gastos do governo na renda nacional. O problema consiste no duplo efeito desses
gastos: por um lado gera aumento da renda, por outro, pode levar ao aumento das
importaes, o que causa queda na poupana nacional.
O pesquisador formulou os dois seguintes modelos: Yi = A Ci + B Ii + D Gi + F Xi +

108

Z Mi; Si = J Ii + K Gi + T Xi + U Mi. Onde: Yi a renda nacional; Ci o consumo das


famlias; Ii o investimento das empresas; Gi o gasto do governo; Xi a exportao; Mi a
importao; e Si a poupana nacional. Como se pode verificar, as duas equaes
compartilham as variveis Ii, Gi, Xi, Mi. No entanto, as variveis Yi, Ci, e Si no so
compartilhadas. Ou seja, o nmero de variveis identificadas supera o nmero de equaes
menos 1. Nessas condies, o pesquisador utilizou o mtodo de regresso em duas etapas.
Isso permitiu um clculo mais realista para o impacto dos gastos do governo, reduzindo a
superestimao dos erros.
Os mtodos probabilsticos e o modelo probit.
Em algumas circunstncias, os pesquisadores lidam com variveis dependentes que
so qualitativas. Quando isso ocorre, o uso das regresses tradicionais pode se tornar invivel.
No entanto, existem mtodos probabilsticos (binrios ou multinominais), que permitem a
formulao de regresses que calculam a probabilidade da varivel dependente explicada por
certas variveis independentes. Um dos modelos mais utilizados o modelo Logit. Ele
suficientemente dinmico, possui poucos pressupostos, e gera resultados bastante precisos.
Por exemplo, Cavercia entrou em uma nova guerra civil. A comunidade
internacional est inquieta, pois na ltima guerra civil, o governo de Cavercia utilizou armas
qumicas para acabar com os rebeldes. Em poucos meses aps o incio desse novo conflito j
surgiram boatos do uso de armas de destruio em massa. Manguetnia contratou um cientista
para avaliar se Cavercia est ou no utilizando armas qumicas.
Para calcular a probabilidade do uso de armas em destruio em massa, o
pesquisador utilizou os dados da ltima guerra civil. Ele produziu a seguinte tabela contendo
as informaes dos nmeros de mortos nos conflitos, o nmero de soldados do governo que
estavam na regio, e se foi ou no utilizado armas de destruio em massa.

109

Yi
(1= uso de armas qumicas)
(A)
1
0
0
0
1
0
1
1
0

Di
(rebeldes mortos)
(B)
15
23
34
51
100
114
171
256
384

Si
(soldados do governo na regio)
(C)
45
68
50
151
50
250
100
90
700

O pesquisador gerou o seguinte modelo: P(Yi) = A Di + B Si, onde P(Yi) a


probabilidade de ter havido uso de armas qumicas; Di o nmero de mortos; e Si o nmero
de soldados governistas na regio. O resultado da regresso foi: P(Yi) = 0,0471 Di 0,040 Si.
Embora a regresso tenha atingido 90% de taxa de acerto, outros testes de regresso (p-valor
dos coeficientes acima de 0,05 e R ajustado de 0,395) apontaram para necessidade de cautela
no uso do modelo.

110

Uso de softwares para estatstica inferencial (Gretl).

Hoje em dia existem inmeros softwares de estatstica. A maior parte possui algumas
funes de estatstica inferencial. No entanto, poucos programas de computador possuem o
conjunto das funes necessrias ao cientista social. Dos que possuem, apenas um nmero
pequeno de fcil uso para o estudante no especialista em informtica. Atualmente, trs se
destacam: O Minitab; O Software Action; e o Gnu Regression, Econometrics and Time-series
Library (Gretl). Abordaremos nesse capitulo apenas o Gretl, que gratuito, e pode ser
utilizado em qualquer sistema operacional.

O que o Gretl.
O Gretl um software de estatstica inferencial gratuito. Trata-se de um programa
bastante completo e verstil. Possui uma ferramenta de importao de dados para resgatar
tabelas de variveis de outros softwares. A desvantagem dele que os grficos que ele gera
no possuem apresentao to diversificada quanto os do Excel e similares. Uma soluo
possvel utilizar os dois softwares, o Gretl para os clculos, e outro para apresentao. Aqui
utilizaremos como exemplo a combinao Gretl e Excel. Mas o procedimento similar para
outros softwares complementares, como o Libre Office.
Instalao
A instalao do Gretl simples. Basta baixar o instalador adequado para sua
plataforma no site http://gretl.sourceforge.net/pt.html. Lembre-se de baixar os pacotes de
suplemento. Alguns so bastante teis. Rode o instalador. Em seguida, instale os suplementos.
Os prprios instaladores configuraro o programa, sendo necessrio apenas estabelecer a
pasta destino do programa. Instale os suplementos na mesma pasta onde o Gretl foi instalado
(em geral Arquivos de Programas, ou Arquivos de Programas 86X).
Preparao dos dados e variveis.
O Gretl um programa desenvolvido especialmente para estatstica inferencial.
Dessa forma, no suporta ferramentas dinmicas de cmputo e apresentao de dados. Cada
planilha de trabalhos arquivar apenas variveis numricas, e distribudas em amostras pr111

definidas. Dessa forma, toda planilha de trabalho do Gretl possui nmero de amostra
estabelecida no momento de sua criao. Isso significa que o pesquisador j deve ter
preparado em outro lugar uma planilha prvia. Isso pode ser feito a mo ou no computador.
Existem duas formas de gerar a planilha de trabalho no Gretl. A primeira a criando
diretamente no software. A segunda a importando de outro programa. Para o primeiro,
clique em arquivo, e em seguida em Novo conjunto de dados. Assim que o fizer, surgir
uma nova janela perguntando qual o tamanho da amostra.

Digite o tamanho desejado e clique em ok. Surgir uma nova janela perguntando se
a planilha de dados estar organizada em dados de corte, em srie temporal, ou em painel.
Caso se trate de dados em corte transversal, assinale dados de corte. Caso se trate de
conjuntos de amostragens em dois ou mais grupos de corte, assinale painel. Caso seja uma
srie de dados coletadas e organizadas pela varivel tempo, assinale srie temporal. As sries
temporais podem ser de diferentes tipos (anuais, trimestrais, mensais, etc.). Se voc escolher
serie temporal, em seguida dever especificar que tipo, e qual a data de incio da srie.

112

Depois que voc terminar de criar a base da planilha de dados, dever criar as
variveis. Para isso, clique com o boto direito do mouse na rea em branco do programa.
Selecione a opo definir nova varivel.

113

Surgir uma nova janela. Escreva o nome da varivel pretendida. Aparecer uma
planilha de trabalho. Nela, voc ter que digitar manualmente o valor de cada amostra. Isso
ter que ser repetido para cada varivel. Atravs desse mtodo, as ferramentas de copiar e
colar no podero ser utilizadas. Por isso, recomenda-se o uso da ferramenta de importao
de dados.
Para importar dados do LibreOffice Calc e ferramentas similares, ser necessrio
realizar dois passos prvios de preparao: (a) preparar uma planilha de variveis; (b) salvar
em extenso compatvel com o Gretl.
(a) No seu arquivo do LibreOffice Calc, onde esto os dados que pretende importar,
gere uma planilha intitulada gretl. Nela, coloque as variveis desejadas, colocando apenas
um nome resumido de rtulo. O nome da primeira varivel deve estar na primeira clula da
planilha (A1). No pode haver colunas ou clulas com dados em branco entre as colunas
114

preenchidas. As variveis categricas devem estar assinaladas na forma de nmeros, pois o


Gretl no trabalha com variveis textuais (aconselha-se que seja criada uma planilha que
contenha o significado de cada valor-categrico para as variveis. Dessa forma, o pesquisador
poder a consultar para lembrar que nmero significa o que).

(b) Quando for salvar o arquivo, selecione salvar como. Verifique se o formato do
documento do documento est assinalado como Documento Aberto (.ods). Se no estiver,
assinale. Caso o seu programa seja um similar do LibreOffice Calc (por exemplo, o Excel),
verifique as opes de salvamento, e busque um formato compatvel com o Gretl.

115

Exportando resultados do Gretl para o Excel ou similares.


Como o Gretl no possui boas ferramentas de apresentao final de dados, uma
possibilidade utilizar um pequeno truque para exportar os resultados obtidos nas anlises
estatsticas. Trata-se de uma transferncia de dados em duas etapas. Ao abrir uma janela de
resultados de anlise, selecione todo o seu contedo e use o comando do teclado Ctrl+c.
Aparecer uma janela perguntando em qual formato deseja realizar a cpia. Selecione RTF.

Abra o LibreOffice Calc (ou similar), e abra o arquivo onde deseja salvar os
resultados. Em uma planilha em branco, selecione a primeira clula e efetue o comando
colar (ctrl + v). Nomeie a planilha de acordo com a anlise estatstica de qual surgiu os
resultados coletados. Salve o arquivo.
116

Amostra Aleatria.
O Gretl possibilita criar uma amostragem aleatria com um nico comando. Uma vez
que as variveis tenham sido inteiramente carregadas ou criadas no Gretl, basta clicar na aba
Amostra, e selecionar o item sub-amostra aleatria. Uma nova janela ser criada. Digite
na lacuna o tamanho da amostragem aleatria que se pretende gerar. Assim que der ok, o
universo amostral ser reduzido para o nmero selecionado, e os valores sero selecionados
atravs de um algarismo que simula a aleatoriedade.

Caso deseje retornar o tamanho da amostragem para a original, desfazendo a escolha


aleatria, basta selecionar o comando Restaurar intervalo completo na mesma aba de
Amostra.
Distribuio de frequncia.

A ferramenta de averiguao de distribuio de frequncia do Gretl trabalha apenas


com uma varivel por vez. Para ativ-la, basta selecionar a varivel a ser averiguada, e clicar
117

na aba Varivel. Nela, haver um item chamado distribuio de frequncia. Ao clicar


nele, aparecer uma nova janela. Nessa, haver trs opes. A primeira ser a de realizar a
distribuio de frequncia. As outras duas ser a de testar modelos de densidade de
probabilidade com a distribuio encontrada.

Uma forma de realizar a distribuio de frequncia com duas variveis cruzadas,


limitar a amostragem analisada. Dessa forma, ser possvel verificar a frequncia de uma
varivel A considerando apenas os valores pr-definidos da varivel B. Para facilitar a
explicao, ser utilizado um exemplo. Na pesquisa sobre os temas tratados pelos artigos nos
Boletins da Sociedade Geogrfica Italiana (feita pelo autor), primeiro foi construda uma
tabela onde constavam os temas de cada artigo e em que ano o artigo foi publicado.
No Gretl, essas duas variveis foram intituladas ano, uma varivel quantitativa; e
tema, uma varivel categrica. O intuito era gerar uma nova tabela constando cada um dos
temas como uma varivel quantitativa. Dessa forma, teramos a informao de quantos artigos
foram publicados sobre cada tema.
Para isso, primeiro foi necessrio reduzir a amostra da primeira tabela a cada um dos
anos averiguados. Isso foi feito selecionando o item restringir, baseado em critrios na aba
118

amostra. Na janela que surgiu, foi digitado o seguinte comando: ano=1870. Esse
comando foi o critrio estabelecido, composto pelo nome da varivel a ser utilizada de base
para restrio, e pelo valor critrio. Dessa forma, a amostragem foi reduzida apenas para as
amostras cujo valor da varivel ano era igual a 1870.

Em seguida, selecionamos a varivel a ser verificada (tema). Atravs do comando de


distribuio de frequncia, obtivemos os dados sobre a quantidade de vezes que cada tema foi
repetido em 1870. Em uma tabela do LibreOffice Calc, colocamos os valores encontrados.
Isso foi repetido para cada ano, at completarmos a seguinte tabela:

119

Ano

Cami
-nho

Carto
grafia

Cient
-fico

Clim
a

Comr- Cultur
cio
a

Hidro
Demo- Mapea- Milita Problegrafia grafia Lngua mento r
mas
Recursos

Poltica

1870

1871

1872

1873

1874

1875

1876

1877

1878

1879

25

11

1880

89

36

1881

50

1882

61

1883

51

14

11

1884

53

12

1885

83

14

12

1886

32

13

1887

33

1888

47

10

20

10

18

14

12

1889

57

12

14

11

14

Mdia e desvio padro.


A mdia e o desvio padro de uma varivel podem ser verificados facilmente atravs
do Gretl. Para isso, selecione a varivel que se pretende investigar. Na aba Varivel,
selecione o item Estatsticas Descritivas. Surgir uma nova janela. Nela, constar o valor da
mdia, da mediana, dos valores mnimos e mximos, o desvio padro, e outras caractersticas
da varivel.

120

Sugere-se que o resultado adquirido seja salvo em algum programa de apresentao


de dados (como o LibreOffice Calc ou similar). Isso pode ser feito atravs do mtodo j
exposto (selecionando todo o contedo, e o copiando para um editor de texto. Em seguida, o
copie para o editor de dados de sua preferncia).
Densidade de probabilidade.
A densidade de probabilidade pode ser calculada atravs da (a) densidade de
probabilidade (p-valor para a observao), que expressa a probabilidade da ocorrncia de um
valor pontual; e (b) da probabilidade da cauda direita (p-valor da cauda direita para a
observao), que a probabilidade acumulada de ocorrncia de qualquer valor inferior at o
valor observado testado.
Atravs do p-valor da cauda direita, pode-se calcular a probabilidade da ocorrncia
de intervalos de valores. Por exemplo, se desejarmos saber qual era a oportunidade que um
dado boletim anual da Sociedade Geogrfica Italiana possuir de 30 a 60 artigos sobre a
frica, podemos fazer o seguinte. Calcula-se o p-valor da cauda direita parra 60 artigos, e em
seguida para 30 artigos. Subtrai-se o resultado encontrado para 60 artigos pelo resultado
encontrado da cauda direita para 30 artigos. O resultado ser o p-valor para o intervalo entre
30 e 60 artigos. Esse procedimento til para saber se um valor observado estava dentro de
um intervalo provvel ou improvvel.

121

O teste de normalidade pode ser feito de duas formas diferentes no Gretl. A primeira
consiste no uso do comando teste de normalidade, da aba Variveis (lembre-se de
selecionar previamente a varivel que deve ser analisada). O segundo, consiste no uso do
comando de distribuio de frequncias testado contra a curva normal.
Para realizar o segundo mtodo, selecione a varivel a ser investigada. Em seguida,
selecione o comando Distribuio de frequncia, na aba Variveis. Na janela que surgir,
selecione o item testar contra a distribuio normal.

O comando gerar um grfico e uma janela de resultados. No final da janela de


resultados, constar o teste de normalidade, com o p-valor do mesmo. Lembre-se que o pvalor deve estar acima de 0,05 para que no se possa descartar a possibilidade da distribuio
ser de fato normal.
Caso a varivel tenha distribuio normal provvel, possvel realizar testes para
verificar a probabilidade dos valores. Caso no tenha, ser necessrio identifica o tipo de
distribuio que foi encontrado antes de prosseguir.
O teste de probabilidade precisa ser feito com valores individuais, no Gretl. Para
isso, selecione a aba Ferramentas. Nela, selecione o item localizar p-valor. Na janela que
surgir, selecione a aba normal (ou a equivalente ao teste que se deseja realizar). Preencha
as lacunas com os dados estatsticos sobre a varivel analisada (mdia e desvio padro). Em
122

seguida, digite o valor observado que se deseja verificar. No exemplo, escolhemos o valor 94,
que era o valor da varivel total (total de artigos sobre a frica nos boletins da Sociedade
Geogrfica Italiana entre 1870 e 1889), para o ano de 1882.

O teste fornecer a cauda direita do teste de p-valor. Ou seja, fornecer a


probabilidade de resultados para valores iguais ou maiores do que o testado. Caso o
pesquisador deseje encontrar o p-valor aproximado para aquela observao em especfico,
basta calcular o p-valor para o valor anterior e o superior ao observado, de modo que o valor a
ser investigado represente a mdia entre os dois (para a estimativa do p-valor de 94, calcula-se
o para 93 e 95). Em seguida, basta subtrair um p-valor da cauda direita pelo outro. Ser
atingida uma estimativa aproximada do p-valor desejado.
Matriz de correlao e grfico de disperso.
As matrizes de correlao e grficos de disperso resultam de comandos diferentes
no Gretl. Recomenda-se que o pesquisador primeiro produza as matrizes de correlao das
variveis, e s depois verifique os grficos de disperso das variveis desejadas.
Para criar a matriz de correlao, selecione a aba ver e clique no item Matriz de
Correlao. Na nova aba, selecione as variveis que deseja que tenham suas correlaes
testadas. Para isso, clique na varivel e depois na seta verde. Repita esse procedimento com
cada varivel.

123

Assim que der ok, ser gerada uma janela com os resultados da matriz. Nela, haver
a relao das correlaes Paerson das variveis (onde 1 ser correlao direta total, e -1 a
correlao inversa total). Essa matriz permitir ao pesquisador identificar facilmente a
existncia da correlao, mas no a natureza da mesma.

ti
1,0000

Coeficientes de correlao, usando todas as observaes 1999 - 2011


5% valor crtico (bilateral) = 0,5529 para n = 13
pibr
fbkr
iedr
ft
0,9015
0,8948
0,9148
0,9857
1,0000
0,9992
0,8283
0,8176
1,0000
0,8167
0,8083
1,0000
0,9060
1,0000
consr
0,8957
0,9997
0,9989
0,8253
0,8103
1,0000

ti
pibr
fbkr
iedr
ft

ti
pibr
fbkr
iedr
ft
consr

Para verificar a natureza da relao entre duas variveis e, portanto, identificar qual o
melhor modelo de regresso a ser aplicado, ser necessrio criar um grfico de disperso das
variveis. O Gretl apenas pode gerar um grfico desse tipo por vez. No entanto, possui um
mecanismo que permite testar diferentes modelos regressores no prprio grfico.
124

Para gerar o grfico selecione a aba ver. Clique no item Grfico das variveis, e
nele selecione X-Y em disperso. Surgir uma nova janela. Nela, selecione as variveis a
serem testadas. Aconselha-se que a varivel do eixo X seja a varivel independente
(explicativa), e no eixo Y a varivel explicada, de acordo com a regresso que se pretende
testar. Por exemplo, se desejar verificar em uma regresso a ser realizada o quanto o
investimento estrangeiro direto (IED) pode explicar o PIB da China, no grfico de disperso
das variveis deve-se colocar o IED no eixo X. Isso permitir perceber que tipo de desenho o
PIB chins adquiriu em relao ao investimento estrangeiro.

Atravs desse comando, ser gerado o grfico de disperso com uma linha de
tendncia calculada pelo modelo linear. No entanto, essa linha de tendncia pode no ser a
mais adequada para descrever a relao entre as variveis. Caso o modelo linear no parea
adequado, possvel gerar outras linhas de tendncia. No canto inferior direito da janela do
grfico haver um smbolo de um papel e um lpis (smbolo de editar). Ao clicar nele, surgira
uma janela de controle do grfico. Na aba principal, existir um item denominado linha de
ajustamento. Selecione outro modelo e clique em ok. A linha de tendncia ser atualizada
no grfico. Repita esse procedimento at achar o modelo mais adequado (aquele que aparentar
expressar de melhor forma o movimento dos pontos do grfico).

125

Mnimos quadrados ordinrios (MQO)


Ambos os programas so capazes de gerar regresses utilizando o mtodo dos
Mnimos quadrados ordinrios. Atravs desse, pode-se gerar modelos (a) linear ser intercepto;
(b) linear; (c) log-linear; (d) recproco; (e) quadrtico; (f) cbico; (g) polinomial; (h) regresso
com varivel categrica (dummy).
Para produzir uma regresso atravs do mtodo MQO no Gretl, basta selecionar a
aba Modelo, e clicar no item Mnimos Quadrados Ordinrios (MQO). Aparecer uma
nova janela. Nela, as variveis da planilha de trabalho aparecero esquerda. Selecione a
varivel dependente desejada (aquela que queremos explicar atravs do modelo), e depois
clique na seta azul. Isso far a varivel desejada ser transferida para a lacuna da varivel
dependente. Em seguida, selecione a varivel independente pretendida (a que desejamos
utilizar como explicadora), e clique na seta verde. Esse procedimento deve ser repetido at
que todas as variveis independentes desejadas constem no quadro de Regressores. Note
que nesse quadro haver uma varivel denominada const. Trata-se da constante, ou
intercepto, gerada no modelo.
126

Assim que terminar de escolher a varivel dependente e as variveis independentes,


bastar clicar no OK. Isso far com que uma nova janela seja gerada. Na nova janela,
selecione a aba testes. Realize os testes de heterocedasticidade (teste White e o BreuschPagan), e o teste de normalidade. As janelas que aparecero podem ser fechadas. O resultado
desses testes ser gerado na janela principal de resultados da regresso. Em seguida, realize o
teste do p-valor do durbin-watson (que tambm se localiza na aba testes). A janela do pvalor do durbin-watson no deve ser fechada at que a etapa de anlise da regresso esteja
concluda.

127

Anlise do resultado das regresses.


Embora seja possvel utilizar o modelo dos mnimos quadrados ordinrios para gerar
diferentes modelos de regresso, a anlise da regresso para todos os modelos similar. A
diferena que existe apenas quanto ao significado dos coeficientes, e eventualmente na
forma de gerar perfis cclicos.
Uma vez que a regresso tenha sido gerada pelo mtodo dos mnimos quadrados
ordinrios, surgir a janela de resultados. Assim que os testes de hetorecedasticidade,
normalidade, e p-valor do durbin-watson tenham sido realizados, a janela de resultados
conter as seguintes informaes: (a) modelo de regresso, nmero de observaes, e varivel
dependente da regresso; (b) tabela de coeficientes; (c) caractersticas estatsticas da
regresso; e (d) resultado dos testes de normalidade e heterocedasticidade.
O grupo (a) de informaes conter os dados bsicos de identificao do modelo de
regresso. Note que o modelo ser identificado pelo Mltiplos Quadrados Ordinrios,
independentemente de qual modelo de regresso desse mtodo tenha sido utilizado (no caso,
128

linear sem intercepto).


O grupo (b) de informaes conter os coeficientes encontrados para a equao da
regresso, o desvio padro de cada coeficiente, a razo-t, e o p-valor da razo t. Lembre-se
que para que a possibilidade da varivel independente no ter qualquer capacidade explicativa
sobre a varivel dependente seja seguramente descartada, o p-valor do coeficiente deve ser
inferior a 0,05. Ainda, cada modelo de regresso deve ter seus coeficientes analisados da
forma especfica adequada.
O grupo (c) trar uma srie de dados da anlise da regresso. Deles, deve-se atentar
para trs, em especial. O (1) primeiro ser o R2 e o R2 ajustado. O (2) segundo o p-valor do
teste F da regresso. Caso o p-valor seja inferior seja inferior a 0,05, descarta-se a hiptese do
regressor no expressar uma relao provavelmente existente. O (3) terceiro o DurbinWatson, que o teste de autocorrelao dos resduos da regresso.
Antes de avanar na leitura dos resultados, aconselha-se verificar o durbin-watson e
seu p-valor. Conforme j mencionado, caso o DW seja inferior ao R 2, ou tenha o p-valor
muito inferior a 0,05, possvel que a regresso seja espria. Nesse caso, ser necessrio
realizar uma nova regresso, usando a generalizao pelo sistema AR. Em geral, se o DW for
superior ao R2, se aceita a regresso, mesmo com p-valor inferior a 0,05. E caso o DurbinWatson seja inferior ao R2, e o p-valor for superior a 0,05, tambm possvel aceitar a
regresso. Lembre-se que para adquirir o p-valor do Durbin-Watson, ser necessrio acionar
a aba testes, e selecionar o item p-valor do Durbin-Watson.

129

Para verificar os valores observados, os esperados, e os resduos, selecione a aba


Anlise. Nela, clique em mostrar efetivo, ajustado, resduos. Aparecer uma nova janela.
Recomenda-se que o contedo dela seja salvo em um documento de apresentao (Excel). Ela
trar os valores observados da varivel dependente, o esperado pela regresso (ajustado), e os
resduos (diferena entre o observado e o ajustado). Os valores dos resduos que
representarem desvios superiores ao desvio esperado estaro assinalados com um asterisco ao
lado.
Para gerar um perfil cclico para qualquer modelo exceto o log-linear, volte para
janela de resultado da regresso. Nela, selecione a aba salvar, e clique em resduos.
Aparecer uma janela. Nela, escreva o nome da varivel (preferencialmente um nome que
facilite a identificao da varivel). Em seguida, preencha a lacuna de descrio com um
texto, explicando que se trata dos resduos da regresso realizada.

130

Ao dar ok, uma nova varivel contendo os resduos aparecer na planilha de


trabalho. Clique com o boto direito do mouse em qualquer local dentro da planilha de
trabalho. Selecione definir nova varivel. Uma janela aparecer. Nela, digite o seguinte
comando: [nome da varivel a ser gerada]=([nome da varivel de resduos]/[nome da varivel
observada original])*100. Caso a varivel observada possua alguma amostra com valor igual
a zero, uma alternativa utilizar o comando [nome da varivel a ser gerada]=([nome da
varivel de resduos]/([nome da varivel observada original]+1))*100. Por exemplo:
pccomtotal=(rescomtotal/(comercio+1))*100. Note que o uso do artifcio de somar um aos
valores observados da varivel dependente gera uma estimativa modificada do perfil cclico.
Com isso, geram-se distores para o perfil cclico das amostras observadas que tinham
valores entre um e dois. No entanto, essas distores so menores do que caso no se somasse
um.

131

A varivel que ser gerada ser o perfil cclico com valores em porcentagem. Pode-se
gerar um grfico, clicando com o boto direito nela e selecionando o item grfico de srie
temporal (caso se trate de uma srie temporal). Uma alternativa clicar duas vezes na
varivel, e copiar o contedo para um software de apresentao de dados.
Regresso sem intercepto
A regresso linear sem intercepto costuma ser usada para verificar o movimento
esperado de uma parte de uma varivel descritiva pelo todo, como o estudante deve recordar.
Esse tipo de regresso pode ser til para o estudo do comportamento, por exemplo, de um tipo

132

de reportagem em relao ao total de reportagens de uma revista. Nesse modelo, o coeficiente


da varivel deve ser entendido como a proporo da varivel dependente em relao
independente. A frmula da regresso sem intercepto Y= aXi.
Para gerar a regresso sem intercepto no Gretl, basta selecionar a aba Modelo, e
clicar no item Mnimos Quadrados Ordinrios (MQO). Aparecer uma nova janela. Nela, as
variveis da planilha de trabalho aparecero esquerda. Selecione a varivel dependente
desejada (aquela que queremos explicar atravs do modelo), e depois clique na seta azul. Em
seguida, selecione a varivel independente pretendida (a que desejamos utilizar como
explicadora), e clique na seta verde. Por ltimo, no quadro de Regressores selecione a
varivel const, e clique na seta vermelha.

Regresso linear
A regresso linear se caracteriza por: (1) possuir um valor constante (intercepto) de
qual a regresso parte; (2) o aumento da varivel dependente se d em progresso aritmtica.
A formula da regresso ficaria Yi = a + bXi + cZi (...). Dessa forma, os coeficientes
133

representariam: A ser o intercepto, ou ponto de partida da regresso; B ser o coeficiente


para o aumento em um na varivel independente Xi; C ser o coeficiente para o aumento em
um na varivel independente Zi.
Para gerar a regresso pelo modelo linear, selecione o item Mnimos Quadrados
Ordinrios, na aba modelo. Na janela de definies do modelo, selecione a varivel
dependente, e clique na seta azul, e depois selecione a varivel independente e clique na seta
verde. Caso se deseje produzir um modelo com mais de uma varivel independente, basta
selecionar a varivel que se deseja adicionar no modelo e clicar novamente na seta verde.
Lembre-se que o item const (constante) tambm deve estar presente no quadro de
regressores.

134

Regresso log-linear.
A regresso log-linear utilizada para descrever o crescimento geomtrico de uma
varivel dependente em relao s independentes. Por exemplo, o crescimento do PIB em
relao ao tempo pode ser geomtrico. Para realizar esse procedimento atravs do mtodo dos
mnimos mltiplos quadrados, ser necessrio transformar a varivel dependente em
logaritmo, ao passo que a varivel independente deve ser mantida inalterada. O problema
desse modelo que todos os valores para a dependente sero referentes ao logaritmo da
mesma. Da resulta que os valores ajustados precisam ser deslogaritmizados antes de serem
analisados. Ainda, para possibilitar uma anlise mais palatvel dos resduos, eles precisaro
ser recalculados na forma deslogaritimizada.
Para preparar previamente a varivel logartmica da varivel dependente no Gretl,
clique com o boto direito em qualquer lugar dentro da planilha de trabalho e selecione
definir nova varivel. Uma alternativa selecionar a aba acrescentar, e clicar no item
definir nova varivel. Na janela que aparecer, digite o comando [nome da varivel
dependente logaritmizada] = log10([nome da varivel dependente original].

Em seguida, selecione a aba modelo e clique no item Mnimos Quadrados


Ordinrios. Selecione como varivel dependente a varivel logartmica gerada. Selecione a
varivel independente, mantendo a const (constante) no quadro de regressores. Clique em
ok. Na janela de resultados da regresso que aparecer, realize os testes de normalidade, de
heterocedasticidade e do p-valor do durbin-watson, atravs da aba testes.

135

Para gerar o perfil cclico da regresso log-linear, deve-se clicar na aba salvar e
selecionar o item valores ajustados. Na janela que aparecer, escreva o nome desejado para
a varivel ajustada. No quadro descrio, descreva que se trata do ajuste do logaritmo da
varivel dependente explicado pela varivel independente.

136

Em seguida, clique com o boto direito do mouse na planilha de trabalho e selecione


definir varivel. Escreva o seguinte comando: [nome do perfil cclico da varivel] =
(([nome da varivel dependente original no logaritmizada] (10^[nome do ajuste da
regresso]))/[nome da varivel dependente original no logaritimizada])*100. Ser gerada
uma varivel contendo os valores do perfil cclico. Pode-se gerar o grfico do perfil cclico
atravs do Gretl ou atravs de um programa de apresentao de dados.

Regresso recproca.
A regresso recproca caracterizada pela relao da varivel dependente com a
inversa da independente. Dessa forma, a equao da regresso ficaria descrita: Y = a +
b*(1/Xi). Por isso, o sinal do coeficiente ser invertido em relao dependente no invertida.
Por isso, a elasticidade ser descrita por -1/B.
Para preparar a regresso recproca pelo mtodo dos mnimos quadrados ordinrios,
ser necessrio produzir previamente a varivel inversa da varivel independente (1/Xi).
Para gerar a inversa da varivel independente, utilize o comando definir nova
varivel. Na janela de comando que aparecer, digite: [nome da varivel inversa da varivel
independente] = 1/[varivel independente].

137

Em seguida, selecione o comando mnimos quadrados ordinrios. Na janela de


especificao do modelo, selecione a varivel dependente normalmente. Como varivel
independente, selecione a varivel recm-gerada (o inverso da varivel independente).

Os resultados da regresso aparecero na janela de resultados. Lembre-se de produzir


os testes de heterocedasticidade, de normalidade, e do p-valor do durbin-watson.
138

pcftinpibr
0,6
0,4
0,2
0
-0,2
-0,4
-0,6
-0,8
1999

2001

2003

2005

2007

2009

2011

ajftinpibr
8,2e+008
8e+008
7,8e+008
7,6e+008
7,4e+008
7,2e+008
7e+008
1999

2001

2003

2005

2007

2009

2011

No exemplo, observa-se o perfil cclico e os valores ajustados para a regresso


recproca da varivel dependente fora de trabalho economicamente ativa da China
explicada pela varivel independente Produto Interno Bruto real da China.
Regresso Quadrtica.
A regresso quadrtica expressa a existncia de duas foras de presso com
velocidade de crescimento diferentes em uma varivel independente em relao varivel
dependente. Em termos de frmula, ficaria descrito: Y= a + bXi + cXi 2. Dessa forma, um
aumento de um na varivel independente tem o duplo impacto, equivalente a bXi, e a cXi 2.
Nesse modelo, em geral, ocorre que para as primeiras observaes, bXi tende a ter maior peso
relativo. A partir de determinado ponto, cXi2 tende a ganhar maior importncia relativa.
Para gerar a regresso quadrtica a partir do mtodo dos mnimos quadrados, ser
necessrio preparar previamente a varivel do quadrado da independente.
Para prepara a o quadrado da varivel independente, no Gretl, utilize o comando
definir nova varivel. Nele, digite a equao: [nome da varivel independente ao
139

quadrado] = [nome da varivel independente] ^ 2. Por exemplo, ider2 = iedr ^2.


Em seguida, utilize o comando de mnimos mltiplos quadrados. Na janela que
surgir, selecione sua varivel dependente. No quadro de regressores, insira tanto a varivel
dependente simples como a quadrtica.

Ser gerada a janela de resultado da anlise da regresso. Realize normalmente os


testes de heterocedasticidade, normalidade, e p-valor do durbin-watson.

140

No exemplo, a regresso quadrtica com o PIB real chins como varivel dependente
e o investimento estrangeiro direto na china como varivel independente, a equao de
regresso atingida foi: pibr = 2,11327e+06 (48,2533*iedr) + (0,000628879 * (iedr^2)).
Regresso Cbica
A regresso cbica um modelo que busca expressar a existncia de trs foras
distintas em uma mesma varivel independente sobre uma varivel dependente. Cada uma
dessas foras possui sua prpria velocidade de crescimento. A frmula pode ser descrita da
seguinte forma: y= a + bXi + cXi2 + dXi3.
Portanto, para produzir esse modelo atravs do mtodo dos mnimos quadros
ordinrios, ser necessrio gerar previamente a varivel do quadrado da independente, e a

141

varivel do cubo da independente.


Para gerar uma regresso cbica no gretl, basta seguir os mesmos procedimentos
descritos para regresso quadrtica. No entanto, ser necessrio gerar adicionalmente a
varivel do cubo da varivel independente. Isso pode ser feito inserindo a frmula: [nome da
varivel independente cbica] = [nome da varivel independente] ^ 3, na janela gerada pelo
comando definir nova varivel.
Na janela de definies da regresso, ser necessrio garantir que as seguintes
variveis constem na lista dos regressores: (1) const (a constante); (2) a varivel
independente; (3) o quadrado da independente; e (4) o cubo da independente.

142

Na janela de resultado da anlise da regresso que surgir, lembre-se de realizar os


testes de heterocedasticidade, de normalidade, e p-valor do durbin-watson.
No exemplo, foi realizada uma regresso cbica com a varivel dependente balana
de pagamentos real chinesa (BPr) e varivel dependente investimento estrangeiro direto real
na China. E equao ficou: BPr = 233617 - (13,8591 * iedr) + (0,000237 * (iedr ^2)) (9,2375e-10 * (iedr^3)).

Para gerar o perfil cclico, o procedimento o mesmo do utilizado para regresses


lineares. Note que no nosso exemplo o p-valor para todos os coeficientes da regresso cbica
143

foi acima de 0,05. Isso significa que, apesar do poder explicativo da regresso, no possvel
afirmar que as variveis independentes de fato sirvam como explicativas para a varivel
dependente.
Regresso Polinomial.
O estudante deve lembrar que existem diferentes modelos de regresso polinomial,
mas indicasse o seguinte modelo: yi= a + bzi + c*log(xi) + d(zi 2) + e(log(yi) * xi). Dessa
forma, seria necessrio gerar previamente as variveis independentes: (i) log da varivel
dependente (xi) ; (ii) quadrado da varivel dependente (zi); (iii) log da dependente vezes a
independente observada.
Devido a essa composio da frmula de regresso polinomial, os coeficientes no
serviro mais como simples preditores, visto que algumas das variveis so valores
modificados dos valores observados da varivel dependente. Dessa forma, para saber quanto
seria o valor esperado pela regresso polinomial, necessrio saber qual foi o valor realmente
observado. No entanto, esse modelo permite realizar regresses de alta preciso, e detectar as
mudanas sutis na varivel dependente. Isso permite detectar crises e perodos de abundncia,
mesmo partindo de patamares realistas para a previso econmica, por exemplo.
Para gerar as variveis necessrias para a regresso polinomial, no Gretl, utiliza-se
do comando definir nova varivel. A lista de frmulas para as variveis : [logaritmo da
dependente] = log10([varivel dependente] ; [quadrado da independente] = [varivel
independente] ^ 2 ; [logaritmo da dependente vezes a independente] = (log10([varivel
dependente]) * [varivel independente]).
Ao acionar o modelo de mnimos quadrados ordinrios, ser necessrio garantir que
as seguintes variveis constem no quadro de regressores: const(constante); [varivel
independente] ; [logaritmo de independente] ; [quadrado da independente] ; [logaritmo da
dependente vezes a independente].

144

Regresso com varivel categrica (dummy).


A regresso com varivel categrica serve para assinalar que algumas das
observaes possuem caracterstica diferente das demais. Atravs desse mecanismo, pode-se
ressaltar o impacto de um perodo de guerra em uma dada economia, por exemplo. A frmula
para esse modelo : y= a + bXi +c(dummy). Assim, para as observaes em que a varivel
categrica est presente, acrescenta-se um determinado valor referente ao coeficiente da
categrica.
Para gerar uma regresso com varivel categrica no Gretl, basta utilizar a o mtodo
de mnimos quadrados ordinrios, e inserir a varivel categrica no quadro de regressores. No
entanto, no Gretl, a varivel categrica precisa ser binria. Ou seja, deve conter os valores
zero, para quando a varivel no estiver presente, e um, para quando ela estiver presente.
145

Caso haja mais de duas categorias, ser necessrio utilizar mltiplas variveis categricas para
emular o mesmo efeito.

Na janela de resultados da anlise de regresso, lembre-se de realizar os testes de


heterocedasticidade, normalidade, e do p-valor do durbin-watson. No Gretl, o coeficiente da
varivel crise ser assinalado como se tratasse de uma varivel qualquer. No entanto, como o
valor da varivel categrica ser igual a zero para quando a categoria no estiver presente, o
coeficiente s precisar ser somado para os anos em que a categoria estiver.
No exemplo, realizamos uma regresso com a varivel dependente Produto Interno
Bruto real da China explicado pela independente Formao Bruta de Capital real da China,
entre 1999 e 2011. Acrescentamos uma varivel categrica denominada crise, que possui
valor zero at o ano de 2008. A partir de 2009, a categrica crise adquiriu valor um,
146

assinalando que se tratavam dos anos aps a crise mundial.


Pelo modelo, o que se observou foi que a crise teve impacto negativo na previso do
PIB atravs da formao bruta de capital. O impacto negativo teria sido na ordem de
seiscentos e onze mil dlares reais. Isso significa o PIB real da china cresceu cerca de
seiscentos e onze mil dlares reais a menos do que deveria, se considerado o desempenho da
Formao Bruta de Capital fixo real da China.

Regresses alternativas.
O Gretl possue mtodos de regresso alternativos ao mtodo dos mnimos quadrados
ordinrios. O Action possui a ferramenta de regresso generalizada. O Gretl possui uma gama
maior de ferramentas, mas no inclui (como ferramenta rpida) a de generalizao pela
147

adoo de funes de densidade para os erros que no seja a Normal.


Alguns mtodos alternativos de clculo da regresso so bastante teis ao
pesquisador das cincias sociais. Nesta seo apresentaremos os mtodos: (a) Regresso
Logit; (b) Ar; (c) Arima-x-12; (d) AR-1; (e) heterocedasticidade corrigida; (f) Aparentemente
No Relacionada (SUR); e (g) mnimos quadrados em duas etapas (TSLS).
Regresso Logit

Para gerar uma regresso logit, no Gretl, necessrio selecionar a aba Modelo. Em
seguida, selecione o item Varivel Limitada Dependente. Nele, selecione modelo Logit.
Por ltimo, escolha o tipo de varivel dependente (binria, ordenada, ou multinomial.

Na janela que abrir, selecione a sua varivel dependente. No quadro dos regressores
certifique-se que todas as variveis independentes desejadas foram selecionadas. Retire a
varivel const do quadro. Selecione os itens erros robustos, e p-valores. Por ltimo,
aperte ok.
Isso far aparecer o quadro do resultado da anlise de regresso. No quadro, esto
disponvel os coeficientes, o p-valor dos coeficientes, o R2 da regresso, o p-valor do teste F, e
o teste de adequao da regresso.

148

X-12-Arima. Dessazonalizao de uma varivel.


O mtodo do X-12-Arima um mtodo de dessazonalizao bastante preciso. Tratase de um mtodo muito utilizado pelos rgos estatsticos oficiais para retirar os efeitos
sazonais presentes em variveis trimestrais. Esse tipo de procedimento til aos historiadores
e outros pesquisadores das cincias sociais em poucas situaes. Duas delas mais recorrentes
so: (i) quando se pretende realizar uma regresso com defasagem, em um modelo com
variveis trimestrais; e (ii) quando a varivel dependente mais influenciada pelas oscilaes
anuais do que trimestrais.
Um exemplo da situao (i) seria o estudo sobre o impacto das exportaes em um
trimestre nos investimentos no trimestre seguinte. Nesses casos, necessrio produzir um
ajuste dessazonalizado, que substituir os dados observados originais; um exemplo da
situao (ii) seria a proposio de uma funo consumo dos trabalhadores, com dados
trimestrais, onde eles so mais influenciados pelo seu rendimento real em comparao com o
149

ano anterior, do que com o trimestre anterior. Nesses casos possvel realizar a regresso com
ajuste sazonalizado, possibilitando a anlise dos resduos

Para dessazonalizar a varivel no gretl, basta a selecionar e clicar na aba varivel.


Em seguida, selecione o item Anlise X-12-Arima. Isso far aparecer uma nova janela.
Nela, selecione os itens Detectar e corrigir valores extremos; automtico; gerar grfico;
mostrar resultados completos; e Executar X-12-Arima diretamente. Por ltimo, selecione
o item srie sazonalmente ajustada, e digite o nome da varivel dessazonalizada.
Sero geradas duas janelas. A primeira conter os grficos do ajuste de
dessazonalizao. A segunda conter as informaes do clculo realizado. Ainda, ser gerada
a srie dessazonalizada na planilha de variveis.

150

X-12-Arima. Sazonalizao do ajuste.


Outra opo a realizao de uma regresso com o ajuste sazonalizado. Para gerar
esse modelo de regresso, basta selecionar o item Arima, dentro do item Serie Temporais
da aba modelos.

151

Na janela que aparecer, selecione sua varivel dependente, e insira as independentes


no quadro de regressores. Na seo No-Sazonal e na seo Sazonal, selecione o valor
um (1), para Ordem AR e Ordem MA, e valor zero (0) para Diferena. Selecione os
itens inserir uma constante, e usar X-12-Arima.

152

Na janela que surgir, realize os testes de normalidade e autocorrelao, com


defasagem quatro. No quadro de resultados, constaro os valores tetha e p Phi. Essa regresso
ser bastante realista, o que torna a anlise de coeficientes pouco significante. No entanto,
permite uma anlise bem apurada dos resduos da regresso.

153

Modelo AR(1)
O modelo AR(1) muito utilizado para corrigir a autocorrelao positiva de erros de
regresses geradas pelo mtodo dos mnimos quadros ordinrios. No gretl, para gerar essa
regresso, basta seleciona o item AR(1), dentro de Series Temporais, da aba modelos.
Esse comando gerar uma janela muito similar quela do mnimos quadrados
ordinrios. Alm de selecionar a varivel dependente e as independentes, deve-se selecionar
um dos modelos de clculo para o fator r (de correo da autocorrelao dos erros).
Recomenda-se o modelo Cochrane-Orcutt. Caso esse no seja capaz de gerar a regresso,
154

recomenda-se o modelo Huldreth-lu.

Na janela que aparecer, realize o teste de normalidade. Entre os dados da anlise de


regresso, constar o coeficiente rho da regresso. Quanto mais prximo de um (1), maior foi
a influncia dos coeficientes r no clculo da reta de ajuste da regresso.

155

Modelo da Heterocedasticidade Corrigida


Quando h heterocedasticidade nos erros, mas no h grandes desvios em relao
funo de distribuio Normal, possvel utilizar o modelo da heterocedasticidade corrigida.
No gretl, isso pode ser feito selecionando o item heterocedasticidade corrigida, do item
outros modelos lineares, da aba modelos. No Gretl, o restante dos procedimentos desse
modelo so idnticos ao do mtodo dos mnimos quadrados ordinrios. A nica exceo que
no ser possvel fazer testes de heterocedasticidade e de autocorrelao dos erros.

156

Mtodo da regresso dos Aparentemente No Relacionados (SUR).


Outra ferramenta disponvel no Gretl a do modelo dos Aparentemente No
Relacionados. Esse utilizado para calcular duas regresses que aparentemente no possuem
fatores em comum, mas que podem possuir covarincia nos erros. Isso ocorre, em geral,
quando ambas so expostas ao mesmo conjunto de foras no mensuradas. Para acionar essa
funo, basta selecionar o item Equaes Simultneas, dentro da aba modelos.

Isso far surgir uma nova janela. Ser necessrio digitar as equaes desejadas. Isso
deve ser feito da seguinte forma: (a) digite o termo equation; (b) digite o nome da varivel
dependente para primeira regresso; (c) digite o nome das variveis independentes dela

157

(includo o termo const para constante, se houver); (d) aparte enter e digite o termo
equation; (e) digite o nome da varivel dependente da segunda regresso; e (f) digite o
nome das variveis independente da segunda regresso. Se houver uma terceira regresso,
basta inserir mais uma equao, utilizando o termo equation na linha seguinte. Antes de dar
ok, verifique se na caixa estimador, est selecionado o item Regresso Aparentemente
No Relacionadas.

Ao dar ok, aparecer uma janela onde constar o resultado das duas regresses.
Alm dos dados dos coeficientes calculados, levando em conta a covarincia dos erros, a
janela fornecer a correlao dos erros das duas regresses. Observe que a correlao zero
significar a inexistncia de correlao dos erros, o que significa que o mtodo SUR no
adequado. Note que apenas a segunda equao conter um R 2. Isso ocorre porque o R2 da
regresso ser compartilhado por todo o modelo, valendo para as duas regresses.

158

Mnimos quadrados em duas etapas (tsls).


Quando, ao tratar duas ou mais regresses dentro de um modelo dinmico de
regresses, se houver variveis que so compartilhadas por aquelas, necessrio utilizar o
modelo de Regresses em duas etapas. Isso ser possvel se houver ao menos certo nmero de
variveis no compartilhadas (nmero igual ou superior ao nmero de regresses do modelo,
menos um).
No Gretl, para produzir um modelo em duas etapas, basta selecionar o item
equaes simultneas, dentro de modelos. Na janela que aparecer, basta selecionar
mnimos quadrados em dois estgios, dentro do item estimador. Em seguida, deve-se
preencher a caixa de equaes. Cada uma das equaes devem ser escrita com o termo
equation as precedendo. O primeiro termo da equao ser a varivel dependente. Caso se
deseje que a regresso contenha um intercepto, deve-se incluir o termo const entre as
variveis dependentes.

159

A anlise de regresso atravs dos mnimos quadrados em dois estgios muito


similar ao do mtodo das regresses aparentemente no relacionadas. A nica diferena que
a covarincia dos erros no ser mais um pressuposto necessrio.

160

Bibliografia
BARBOSA, Wilson do Nascimento. A CRISLIDA: Aspectos Histrico-Econmicos do Fim
da Escravido no Brasil, 1850-1888. USP: 1993.
BARBOSA, Wilson do Nascimento. Balano do perodo 1940-1964 na economia brasileira:
uma viso de longo prazo. So Paulo: USP, 1982.
BRAUDEL, Fernand. Civilizao Material, Economia e Capitalismo, Sculos XV XVIII.
Vol.2. So Paulo: Martins Fontes, 1998.
CARONE, Edgard. A Repblica Velha. Vol 1. So Paulo: DIFEL, 1970.
FURTADO, Celso. Formao Econmica do Brasil. So Paulo: Companhia Editora Nacional,
1970.
HILL, R. Carter; GRIFFITHS, William E.; JUDGE, George G. Econometria. Saraiva, 2003.
IANNI, Octavio. Estado e Planejamento Econmico no Brasil. Rio de Janeiro: Edio
Brasileira, 1980.
LIMA, Heitor Ferreira. Formao Industrial do Brasil. Rio de Janeiro: Fundo de Cultura,
1961.
MARTINS, Carlos Estevam. Estado e Capitalismo no Brasil. So Paulo, HUCITEC, 1977.
PAGANO, Athos. Lies de Estatstica. So Paulo: Prefeitura de So Paulo, 1943.
SCHINCARIOL, Vitor Eduardo. Crescimento Econmico no Brasil, 2003 2010. So Paulo:
LCTE Editora, 2012.
Stios de Internet
http://gretl.sourceforge.net/

161