Você está na página 1de 27

Jorge Duarte

Antonio Barros
Organizadores

Mtodos e Tcnicas de Pesquisa em Comunicao

Material do Portal Atlas

SO PAULO
EDITORA ATLAS S.A - 2012

Sumrio
26 - ANLISE E MINERAO DE TEXTOS E DADOS, 3
O desenvolvimento de bases e anlises de dados e textos nas organizaes, 4
Coleta e armazenagem: os supermercados de dados, 5
Tratamento e preparao de dados e textos: condio de qualidade, 5
Minerao de dados, 6
Exemplos de aplicaes inteligentes de minerao de dados, 7
Relacionamento com clientes, 7
Fraldas e cerveja, 7
Minerao de textos, 7
Exemplos prticos de minerao de textos, 9
Coorte 2 (25 a 34 anos), 11
Coorte 5 (mais de 55 anos), 11
Desenvolvimento de produtos (transferncia, tecnologia, negcios), 11
O nvel dos especialistas, 13
Competncias em risco, 14
Uma aplicao na comunicao, a midiametria, 14
A base clipping, 15
Resultados, 16
Caractersticas das coberturas, 16
O esforo dos centros de pesquisa, 19
Anlise das palavras chaves e temas, 21
Concluso, 23
Referncias bibliogrficas, 24
Anexo 1, 26

Mtodos e Tcnicas de Pesquisa em Comunicao | Duarte | Barros 2

26 - Anlise e minerao de textos e dados


Roberto Penteado1
H uma tendncia universal para uma superoferta de informao. Naisbitt (Apud Faria e
Quoniam, 2002) foi quem melhor resumiu esta situao: estamos afogados em informao mas sedentos
de conhecimento. Faria e Quoniam (2002) assinalam que a cada ano o conhecimento humano dobra
de volume. Por ano se editam, no mundo, mais de 700 mil livros - quase 2 mil por dia - e de 100 a 300
mil revistas cientficas trazendo perto de 10 milhes de novos artigos cientficos. So geradas mais de 1
milho de patentes por ano. J na Internet existiam mais de 2,5 bilhes de pginas com 550 bilhes de
documentos linkados, acima de 8 mil bases de dados disponveis para acesso e se contava em centenas as
diferentes ferramentas de busca.
Esta realidade cria um dilema e uma necessidade que contribuem para o inevitvel desenvolvimento
da anlise e minerao de textos e dados nas organizaes.
O dilema diz respeito s diferenas entre a informao disponvel e a informao necessria: a
informao disponvel abundante, incompleta, duvidosa, pblica e confusa. J a informao necessria
sinttica, completa, confivel, confidencial e precisa (Faria e Quoniam, 2002). O uso da informao
disponvel limitado. Quanto mais bruta estiver a informao, mais lentamente o Decisor pode se
apropriar dela. Enquanto para tirar sentido da informao bruta pode-se levar mais de um dia, a informao
estratgica processada e validada pode ser entendida e apropriada pelo Decisor em apenas um minuto.
Quoniam (2001) afirma que esta deve ser a informao certa, na hora certa, entregue na forma certa,
pessoa certa e deve resultar na deciso certa. O uso que determina seu real valor. Se a informao no
for usada, seu valor zero.
A necessidade refere-se ao fato de que, para permanecerem viveis e saudveis, as organizaes
devem dominar metodologias e tcnicas e ter recursos humanos e materiais capazes de realizar as
operaes exigidas para criar a informao necessria. Por isso, Levet (2001, p. 38) afirma que no
mais o acesso informao que a mola do crescimento e do emprego mas a aptido dos atores em
transformar, compreender, interpretar e utilizar a informao. E isto foi reconhecido pela comunidade
internacional nas normas de qualidade ISO. A norma ISO 14000, de 1996, cria um sistema de gesto
ambiental que requer registro e anlise de informaes sobre legislao ambiental, processos e produtos,
subcontratantes e fornecedores, situaes de crise e capacidade de reao, alm de aspectos ambientais
significativos.
Dou (1999) identifica que as organizaes precisam se antecipar em relao aos concorrentes.
Carecem, portanto, de uma informao do presente ou do futuro prximo e devem us-la o mais rpido
possvel. O que est em jogo sua capacidade de analisar, em tempo real, o mximo de informaes possveis
e estabelecer, a partir desta massa, um nmero significativo de inteligncias econmicas, financeiras,
jurdicas, diplomticas, culturais, sociais, cientficas e polticas. Perceber, antes dos concorrentes, sinais
fracos, indicando uma oportunidade de negcio ou uma tecnologia e agir neste sentido pode resultar em
grandes vantagens competitivas.
Estas metodologias e tcnicas para construir, associar, tratar e utilizar informaes para fins
1 Roberto Penteado jornalista profissional h 33 anos e trabalha na Embrapa. Cursou Relaes Internacionais, no Instituto de Estudos Polticos de Paris, Mestrado em Comunicao de Massa, na Universidade da Flrida e o Diploma de Estudos Aprofundados em Inteligncia Competitiva, na Universidade du Sud, Toulon-Var. Doutor em Cincia da Informao e da Comunicao pela Universidade du Sud Toulon-Var.

Mtodos e Tcnicas de Pesquisa em Comunicao | Duarte | Barros 3

operacionais, de pesquisa, de agregar valor ou de conquista comercial (Dou, 1999) so o principal objeto
deste artigo. Referem-se a um processo bem definido que tem sua produtividade ampliada com as novas
tecnologias de armazenagem de dados, surgidas nas ltimas dcadas, e no dispensa a preparao e
reformatao dos dados e textos antes das anlises, realizadas em duas vertentes, a minerao de dados e
a minerao de textos.

O desenvolvimento de bases e anlises de dados e textos nas organizaes


Uma das melhores descries grficas do processo de minerao de dados e de textos para gerar a
informao necessria foi feita por Faria e Quoniam (2002, p. 10). No caso, eles se referem ao Ciclo de
Inteligncia. Veja na Figura 1.

Como chegar informao necessria ?

Aplicao,
Avaliao e
Atualizao

Disseminao

Diagnstico

Planejamento

Tratamento,
Coleta e
Anlise e
Armazenagem
Sntese

FIGURA 1: O processo de gerao da informao necessria: o Ciclo da Inteligncia (Faria e Quoniam, 2002)

Trata-se de um processo de seis etapas: Diagnstico; Planejamento; Coleta e Armazenagem;


Tratamento, Anlise e Sntese; Disseminao; Aplicao, Avaliao e Atualizao. No cabe neste
artigo dar uma explicao detalhada sobre todas estas etapas at mesmo porque as denominaes so
autoexplicativas. O leitor deve saber, no entanto, que este um processo geral, a ser utilizado para cada
operao de minerao e anlise de dados e textos. Duas observaes so necessrias: a primeira, sobre a
etapa de Coleta e Armazenagem, e a segunda, sobre o Tratamento.

Mtodos e Tcnicas de Pesquisa em Comunicao | Duarte | Barros 4

Coleta e Armazenagem: os supermercados de dados


Quoniam (1999) alerta que, na conquista da informao necessria, uma das primeiras providncias
seria a integrao de todas as informaes em um sistema nico para informao inteligncia. Esta
necessidade de integrar informaes foi um dos fatores que contriburam para o desenvolvimento de um
novo conceito de organizao de dados, os supermercados de dados (Datawarehouse-DW). Sua origem foi
nas grandes cadeias de lojas de departamentos dos Estados Unidos (EUA). Para ficarem um degrau acima
da concorrncia, elas montaram supermercados de dados, as datawarehouses, agregando bases de dados
financeiros, jurdicos, polticos, administrativos, recursos humanos, comerciais, tcnicos e cientficos,
entre outros. Em termos tcnicos, o supermercado de dados representa um espao computacional onde as
informaes reunidas nos sistemas operacionais se tornam disponveis para acesso online. So criados dois
ambientes separando, em computadores diferentes, os sistemas online operacionais e os sistemas online
analticos.
A orientao do supermercado de dados (DW) para a deciso, por meio de uma interface amigvel
e amplamente disponvel. A palavra-chave democratizao do acesso aos dados. Para Nbrega (2001, p.
286), o DW significa conceder autonomia ao usurio para que ele prprio obtenha seus relatrios, sem
precisar encomend-los ao pessoal de informtica.

Tratamento e preparao de dados e textos: condio de qualidade


A etapa de tratamento e preparao dos dados e textos influi diretamente na qualidade e na
confiabilidade das anlises. Jambu (2000, p. 68) assinala que a taxa mais ou menos elevada de dados
faltantes (que deveriam ter sido informados mas no foram) ou incoerentes determina a maior ou menor
qualidade do resultado. Qualquer anlise que incorpore uma grande quantidade de dados faltantes produz
resultados errneos em cadeia e, no final desta cadeia, o Decisor no saber mais em que confiar.
A regra de ouro da minerao de dados e textos que minerar lixo d lixo. Em consequncia, esta
etapa intermediria de tratamento, preparao, limpeza e, alguns ainda acrescentam, enriquecimento dos
dados, essencial.
Em geral, as bases de dados no so desenvolvidas para permitir anlises. A nfase, na maioria delas,
permitir uma rpida recuperao da informao. So raros os casos em que dados recuperados de uma
base podem ser diretamente utilizados pelos softwares de anlise (Quoniam et al., 1993; Mogee, 1997).
Muitas vezes, a estrutura da informao recuperada no compatvel com o padro necessrio para o uso
dos softwares e tambm preciso incorporar dados externos. Ento, antes de analisar, preciso preparar e
integrar dados de diferentes origens e bases, padronizar nomes, agrupar conceitos e reorganizar campos,
entre outras opes. Existem ferramentas de software especficas para isto. Veja mais detalhes no exemplo
adiante e no Anexo 1.
A preparao, tratamento e limpeza dos dados demanda, via de regra, a maior parte do tempo gasto
num processo de tratamento automatizado da informao. Leeds (2000) estima que na preparao
dos dados so gastos at 60% de todo o esforo empreendido no tratamento automatizado de dados.
Antes da preparao, cerca de 20% do tempo total seria dedicado identificao das necessidades de
informao. Aps a preparao, 10% do tempo vai para o tratamento dos dados e outros 10% para a
anlise dos resultados e assimilao do conhecimento.

Mtodos e Tcnicas de Pesquisa em Comunicao | Duarte | Barros 5

Minerao de dados
Para Jambu (2000, p. 8) minerao de dados (Datamining-DM) um processo que combina vrios
mtodos matemticos, estatsticos ou com origem em algoritmos, para determinar uma soluo para um
problema, em um universo decisional. Porter (2003, p. 3) descreve outra caracterstica do processo: no
geral, ao minerar dados, tratamos de extrair informaes teis de quaisquer tipo de dados. No entanto, o
mais comum utilizarmos dados numricos e, portanto, quantitativos. Exige, assim, bom conhecimento
de Estatstica. Esta caracterstica geral influi na escolha das ferramentas para minerar dados, que so
tambm orientadas para o tratamento quantitativo. Mais detalhes no Anexo 1.
Sulaiman e Souza (2001, p. 267) citam cinco formas de gerar resultados via minerao de dados:
regras associativas; hierarquias de classificao; padres sequenciais; padres de sries temporais;
categorizao e segmentao.
1) Regras associativas; elas visam encontrar itens em uma transao que podem determinar a
presena de outros itens na mesma transao. Exemplo: quem compra leite e po tambm costuma
comprar manteiga.
2) Hierarquias de classificao; criam um modelo baseado em dados conhecidos e ajudam a explicar
o porqu de uma dada classificao e tambm permitem classificar novos dados a partir de uma
classificao existente. Exemplo: criar limites para concesso de crdito baseados no histrico de
transaes de crdito anteriores (Sulaiman e Souza, 2001, p. 267).
3) Padres sequenciais; indicam comportamentos ou sequncia de comportamentos. Exemplo:
sempre que uma mulher jovem compra sapatos de couro, comprar cintos e bolsas nos prximos
trinta dias (Sulaiman e Souza, 2001, p. 268).
4) Padres em sries temporais; mostram ocorrncias similares num espao de tempo. Aos dados
acima, acrescenta-se a estao do ano: no inverno, mulheres jovens compram sapatos de couro,
bolsas e cintos. No vero este padro se inverte para sandlias, bolsas e chapus.
5) Categorizao e segmentao; renem registros com caractersticas semelhantes. Exemplo: um
grupo de consumidores pode ser classificado como pouco comprador, medianamente comprador
ou muito comprador para um produto determinado.
Em geral trabalha-se em minerao de dados buscando identificar perfis dos diferentes usurios
ou clientes e seus diversos padres de consumo ou de comportamento. Em seguida, trabalhando por
segmentos, pode-se identificar o perfil dos melhores clientes; os produtos e servios consumidos por ou
caractersticas de cada segmento de clientes; os padres de consumo de produtos, como e quando dois ou
mais produtos ou caractersticas se associam ou se agrupam numa nica compra ou evento e tambm o
padro de consumo/comportamento de uma regio, bairro, idade ou sexo.
Jambu (2000, p. 93) lista os campos de aplicao tpicos da minerao de dados:
estudos de caso, melhoria da qualidade e da eficincia do
negcio, satisfao do cliente, satisfao dos empregados,
relacionamento com o cliente, marketing dirigido, marketing
local, indicadores de negcios, previso, tendncias, monitorar
concorrncia, compras, tecnologia da informao, controle de
gastos, faturamento e processos de gesto.

Mtodos e Tcnicas de Pesquisa em Comunicao | Duarte | Barros 6

Exemplos de aplicaes inteligentes de minerao de dados


No Brasil existem casos clssicos como os sistemas de minerao de dados criados para administrar
as carteiras de clientes de instituies financeiras e de operadoras de telefonia fixa e celular que resultaram
em importantes melhorias do servio e aumentos de receita.

Relacionamento com clientes


A Telemar uma das maiores empresas de telecomunicaes da Amrica Latina, com uma cobertura
de 64% do territrio brasileiro em 16 dos 27 estados, oferecendo servios de telefonia fixa, celular,
Internet, banda larga, dados corporativos, centros de contato e telefonia interurbana, implantou uma
datawarehouse para integrar sua base de cerca de 25 milhes de clientes (Balaj, 2005a). Segundo Balaj
(2005b, p.24-27), o sistema permitiu aumentar vendas, diminuir os desligamentos e reduzir custos. Entre
2003 e 2005, a participao da empresa no mercado de banda larga passou de 7% para 25%. A empresa
tambm foi capaz de antecipar o potencial de crescimento do mercado de telefonia mvel, mantendo a
expanso da base de clientes (p.26). A participao dos novos servios (mvel, dados, banda larga e longa
distncia), em oposio aos servios tradicionais (fixo, redes e telefones pblicos), no total das receitas
aumentou de 30% em 2003 para 39% em 2005, mesmo com um crescimento real das receitas no ltimo
ano da ordem de 9% (p.27).

Fraldas e cerveja
Este outro caso clssico. Foi descoberto que o perfil do consumidor de cerveja era semelhante ao
do consumidor de fraldas: homens casados com 25 a 30 anos que compravam os dois produtos nas sextasfeiras, perodo da tarde/noite. A Wal-Mart - loja de departamentos que j existe no Brasil - decidiu ento
colocar as gndolas de fraldas ao lado das de cervejas. Resultado; as vendas de fraldas e cervejas cresceram
30% nas sextas-feiras.
Procter & Gamble - P&G (Reynolds, 1992, p. 344)

Esta multinacional de produtos de consumo utiliza um servio da empresa de pesquisa de mercado


Nielsen que recolhe dados de todos os produtos que passam pelos scanners das caixas registradoras dos
supermercados associados. Esses dados permitem estimar o consumo e verificar preo em cada regio
geogrfica dos EUA. Com eles, a P&G monitora a concorrncia e cruza com seus relatrios de venda. Extrai
indicadores como a sua participao no mercado, por produto, por regio. Os resultados so monitorados
com lupas j que uma mudana de 1% em um grande mercado significa dezenas de milhes de dlares a
mais ou a menos, em volume de vendas.

Minerao de textos
A minerao de textos surgiu e desenvolveu-se a partir de trabalhos de alguns precursores como
Derek de Solla Price, Henry Small, Antony van Raan, Donald Swanson, Henry Dou e Alan Porter, em
textos estruturados, em oposio a textos no estruturados ou livres. Ou seja, usar bases de dados internas

Mtodos e Tcnicas de Pesquisa em Comunicao | Duarte | Barros 7

ou externas, como a Dialog2, Pascal3 ou Francis, com uma estrutura de registros indicando, por exemplo,
autor, ttulo, data de publicao, palavras-chave, e delas extrair informaes sobre evoluo e
desenvolvimento de atividades cientficas, gesto, avaliao e produtividade de atividades de C&T,
construir indicadores (citao), redes (comunidades) e monitorar inovaes, tecnologias e concorrentes.
Uma ressalva fundamental: todas estas informaes so de domnio pblico ou podem ser
compradas em bases de dados pblicas. Dou (1999) e Quoniam (1999) explicam que mais de 85% das
informaes necessrias esto disponveis e so acessveis de uma forma legal e tica. Aqueles que so
capazes de recolh-las, analis-las e administr-las adquirem uma vantagem competitiva em relao a
seus concorrentes. Da a denominao de inteligncia competitiva. Trata-se de uma atividade inovadora
que nada tem a ver com espionagem. A legalidade justamente o divisor de guas entre inteligncia
competitiva e espionagem. Quando se trata de informaes obtidas de forma ilegal e antitica este
o domnio dos espies. Quando se trabalha, de uma forma tica, com informaes legais e pblicas e se
consegue delas extrair informaes relevantes e estratgicas o domnio o da inteligncia competitiva.
Espionagem no compensa. No vale a pena ir atrs de informaes no pblicas de forma ilegal quando
se pode utilizar o estoque de informaes pblicas.
Os trabalhos de minerao de textos se inscrevem em campos como bibliometria, cientometria,
infometria, midiametria, museometria e webometria. Tratam de diferentes aspectos da informao
e de sua qualidade. Sua principal matria-prima a palavra. Esta pode representar, entre outras coisas,
um conceito ou tema, um indivduo, uma organizao, ou ainda um conjunto de temas, indivduos
ou organizaes. Os mtodos de anlise envolvem estatsticas unidimensionais (quantos so e o que
significam os valores/palavras), estatsticas bidimensionais (como e quanto mede a relao entre dois
valores/palavras), estatsticas multidimensionais (como so e quanto medem as relaes entre vrias
variveis/palavras) e estatsticas probabilsticas (detectar comportamentos emergentes ou atpicos, ou
ainda como se comportaro estas variveis/palavras). A maior diferena para a minerao de dados que,
como a matria-prima so as palavras, os programas tradicionais de estatstica (que tratam basicamente
de nmeros) no so confortavelmente aplicados. Por isso, vrios softwares surgiram para cumprir funes
especficas da anlise como a explorao, posicionamento, estruturao e prospeco de textos estruturados.
A maioria destes programas surgiram na dcada passada e tm origem no sistema operacional DOS. Em
verso Windows existem, pelo menos, trs softwares, VantagePoint4, Matheo Analyser5 e WinIDAMS6. Os
dois primeiros permitem a integrao das funes de tratamento bibliomtrico, tratamento estatstico e
representao grfica num nico ambiente. O terceiro faz parte de uma famlia de softwares desenvolvida
pela Unesco e disponibilizada gratuitamente - IsisAscII/WinISIS/GenIsisWeb/WinIDAMS - que
permite, respectivamente, a importao, gerao, disponibilizao na Internet e anlise de bases de dados
e de textos.
2 A Dialog, do grupo Thomson, do Canad, o maior servidor de dados do mundo (http://www.dialog.com/). Sediado na Carolina do Norte (EUA)

ela foi criada ainda antes da Internet, em 1966, por Roger Summit. Foi o primeiro sistema de recuperao de informaes online do mundo. A
Dialog rene 900 bases com mais de 1,4 bilho de registros, cerca de12 Terabytes de informao. Uma boa parcela do conhecimento mundial
est disponvel l para 20 milhes de clientes em uma centena de pases
3 A Pascal uma base de dados multidisciplinar e multilngue. Cobre as Cincias, as Tecnologias e a Medicina. A Francis cobre as reas de
Cincias Humanas e Sociais. Ambas so produzidas pelo Institut de lInformation Scientifique et Technique da Frana (INIST-CNRS). Por
serem multilngues, suas coberturas so mais variadas do que a Dialog, que uma base em Ingls.
4 O VantagePoint foi lanado em 2000 pela Search Technology Inc.
5 A famlia do Matheo Analyser, lanado em 2003, inclui tambm o Matheo Patent para anlises especficas em bases de patentes (no caso, a
base de patentes EPO - European Patent Office, acessvel gratuitamente pela Internet). As patentes renem informaes nicas, no encontradas em nenhum outro lugar. Por exemplo: (a) que empresas esto realizando trabalhos de ponta; quem so os lderes; (b) que indivduos
esto realizando trabalhos de ponta; (c) que pases esto frente de uma tecnologia; (d) quanto tempo as empresas levam para utilizar uma
patente; quanto tempo de P&D necessitam para se transformar em lucro; (e) que tecnologias esto crescendo ou decaindo; onde o dinheiro de
P&D est sendo aplicado entre os lderes da indstria; e (f) relacionamento entre empresas ligadas a P&D similares ou produzindo os mesmos
produtos; relacionamento de pesquisa entre empresas subsidirias. Veja exemplo na Figura 4.
6 O WinIDAMS da Unesco foi lanado em 1998 e vem sendo aperfeioado dentro do conceito software livre. Est na verso 1.2 (2004). Est

disponvel em Ingls, Francs e Espanhol.

Mtodos e Tcnicas de Pesquisa em Comunicao | Duarte | Barros 8

Exemplos prticos de minerao de textos


Os exemplos a seguir envolvem diversas etapas da minerao de textos: preparao e limpeza,
construo de indicadores unidimensionais, bidimensionais e construo de redes (multidimensionais)
com o objetivo de extrair a informao necessria. Os softwares utilizados so Infotrans (IuK), Dataview7
e Matrisme (U.Marseille/CRRM/LePont) e Excel (Microsoft).
O primeiro exemplo foi extrado do artigo - Da criao de bases de dados ao desenvolvimento de
sistemas de inteligncia para a organizao (Penteado, Dou, Boutin e Quoniam, 2003) - apresentado no 4
Workshop Brasileiro de Inteligncia Competitiva e Gesto do Conhecimento. A anlise combina uma base
de dados interna, com informaes do setor de pessoal da Embrapa8 e uma base pblica, um repositrio de
competncias de pesquisadores da Embrapa, o Guia de Fontes9. Ela tem a seguinte estrutura:
NOME : JOSE IVO BALDANI
DATN. : 12/2/1953
FORM : AGRONOMIA, 1976; MESTRADO: CINCIA DO SOLO, UNIVERSIDADE FEDERAL RURAL DO RIO DE
JANEIRO, 1984; DOUTORADO: CIENCIA DO SOLO, UNIVERSIDADE DO TEXAS A&M - ESTADOS UNIDOS, 1990.
APSQ : BIOLOGIA MOLECULAR; BACTRIAS FIXADORAS DE NITROGNIO; CONTROLE BIOLGICO; GRAMNEAS
PROD. : BIOINSETICIDAS, BIOFERTILIZANTES, BIOTECNOLOGIA
UNID. : EMBRAPA AGROBIOLOGIA

Os campos documentais so os seguintes:


NOME = Nome
DATN = Data de nascimento
FORM = Formao
APSQ = rea de pesquisa
PROD = Produtos e temas em que trabalha
UNID = Unidade (Centro de Pesquisa) da Embrapa

Um primeiro tratamento foi a criao do campo COOR - Coorte, a partir da data de nascimento.
Penteado, et al. (2003) dividiram este campo em 5 Coortes: N 1 menos de 25 anos - N 2 entre 25 e 34
anos - N 3 entre 35 e 44 anos - N 4 entre 45 e 54 anos - N 5 mais de 55 anos. Separaram ainda o ano
de nascimento de cada pesquisador no campo ANON.
Uma segunda reformatao foi realizada no campo FORM - Formao. Ele indica, a partir do nome
do pesquisador, sua formao mas no, por exemplo, quais se formaram nas mesmas Universidades. Desta
forma, Penteado et al. (2003) partiram o campo FORM em Tipo de Diploma; Ano de Obteno; Lugar de
Obteno; Pas de Obteno. A base reformatada ficou assim:

7 O Dataview e o Infotrans so softwares que funcionam em DOS


8 Empresa Brasileira de Pesquisa Agropecuria.
9 Disponvel em <http://www.embrapa.br/embrapa/pesquisadores/>.

Mtodos e Tcnicas de Pesquisa em Comunicao | Duarte | Barros 9

NOME : JOSE IVO BALDANI


DATN : 12/2/1953
COOR : 4
ANON : 1953
FORM. : AGRONOMIA

formao inicial

QDFORM :1976 data da formao inicial


MESTRADO : CINCIA DO SOLO tipo de diploma e especialidade
QDMEST :1984 data de obteno do diploma
UNIVMEST : UNIVERSIDADE FEDERAL RURAL DO RIO DE JANEIRO Universidade de obteno
DOUTORADO : CINCIA DO SOLO
DOUEST : 1990
UNIVDOU : UNIVERSIDADE DO TEXAS A&M
PAIS DOU : ESTADOS UNIDOS pas de obteno do diploma
APSQ : BIOLOGIA MOLECULAR; BACTERIAS FIXADORAS DE NITROGENIO; CONTROLE BIOLGICO; GRAMNEAS
PROD : BIOINSETICIDAS, BIOFERTILIZANTES, BIOTECNOLOGIA
UNID : EMBRAPA AGROBIOLOGIA

A partir desta preparao, diversas anlises foram efetivadas num nico campo, por exemplo, ANON
- Ano de Nascimento, que gerou a pirmide de idade da Embrapa ou cruzando-se dois ou mais campos,
Coorte e Unidade, para analisar as diferenas do perfil de idade dos pesquisadores nos diferentes Centros
de Pesquisa.
Veja, na Figura 2, a pirmide de idade dos pesquisadores da Embrapa. O maior nmero de
pesquisadores (o ponto culminante da pirmide) tem idade entre 51 e 55 anos.

19
27
19
30
19
33
19
36
19
39
19
42
19
45
19
48
19
51
19
54
19
57
19
60
19
63
19
66
19
69
19
73

100
90
80
70
60
50
40
30
20
10
0

Mtodos e Tcnicas de Pesquisa em Comunicao | Duarte | Barros 10

FIGURA 2: A pirmide de idade dos pesquisadores da Embrapa.

Coorte 2 (25 a 34 anos)


Em quatro Centros de Pesquisa o nmero de pesquisadores mais jovens significativamente
superior mdia:
EMBRAPA UVA E VINHO
EMBRAPA INFORMTICA AGROPECURIA
EMBRAPA RORAIMA
EMBRAPA ACRE

Coorte 5 (mais de 55 anos)


Em trs Unidades, o nmero de pesquisadores seniores significativamente superior mdia.
EMBRAPA AMAZONIA ORIENTAL
EMBRAPA CLIMA TEMPERADO
EMBRAPA SEDE

exceo da Sede, onde Penteado et al. (2003) indicam que natural encontrar pessoas com mais
idade, a anlise indica locais onde pode-se prever a necessidade de contratar pesquisadores a mdio prazo.

Desenvolvimento de produtos (Transferncia de tecnologia, negcios)


O campo PROD revela quais produtos ou atividades podem ser transferidas pelos pesquisadores,
quais so suas competncias, ou seja, a capacidade geral de transferncia de tecnologia da Embrapa. Este
campo diferente do campo APSQ (reas de pesquisa) que indica o conhecimento fundamental.
Penteado et al. (2003) criaram uma matriz quadrada reunindo todos os pares de termos contidos no
campo PROD. Tal matriz foi trabalhada em um software bibliomtrico especializado, o Matrisme,
que a transformou num mapa (Figura 3).

Mtodos e Tcnicas de Pesquisa em Comunicao | Duarte | Barros 11

FIGURA 3: Representao geral da rede de competncias econmicas por produtos trabalhados pela Embrapa Amaznia Oriental.

Este mapa pode ser interpretado nos nveis macro, mdio (um ou mais grupos) e micro (ns em cada
grupo). Pode-se analisar a configurao de um grupo, sua densidade, a conectividade de um indivduo/
produto, a centralidade de um n da rede, a intensidade das ligaes de um grupo e os istmos de ligao
entre dois ou mais grupos (ex. pimenta-do-reino). O fato de dois domnios estarem ligados significa que
existe pelo menos um pesquisador que domina aquelas competncias. Tais mapas so bastante teis,
no s para um trabalho de transferncia, ou para responder a uma demanda. Indicam tambm, quando
associados a sries temporais, a evoluo de um campo cientfico durante dcadas, e ainda, quando cruzadas
as competncias com os locais de trabalho, a distribuio de um campo cientfico - quais organizaes
trabalham com quais reas e assim por diante (Polity e Rostaing, 1997).
A mesma tcnica pode ser utilizada na anlise de patentes. Eric Boutin (2001) descreve, por exemplo,
como de um universo de 400 patentes selecionadas num banco de dados pblico se extraiu os inventores
(IN) e estes foram relacionados, em seguida, numa matriz quadrada de colaboraes que resultou, ao final,
numa rede de inventores. Veja na Figura 4.

Mtodos e Tcnicas de Pesquisa em Comunicao | Duarte | Barros 12

FIGURA 4: Representao geral do processo de criao da informao necessria, no caso, a rede de inventores de
turbinas gs da Rolls Royce (Boutin, 2001).

O nvel dos especialistas


A Figura 3 pe em evidncia a capacidade de resposta da Embrapa mas no determina com quais
especialistas. Assim, Penteado et al. (2003) executaram um tratamento bibliomtrico por pares, associando
o campo NOME ao campo PROD, conforme o quadro abaixo:

NOME

COMPETNCIA

ADRIANOVENTURIERI

ZONEAMENTO

ADRIANOVENTURIERI

SENSORIAMENTOREMOTO

ADRIANOVENTURIERI

LEVANTAMENTOSFLORESTAIS

ADRIANOVENTURIERI

ANLISEAMBIENTAL

ALFREDOKINGOOYAMAHOMMA

SISTEMASAGROFLORESTAIS

ALFREDOKINGOOYAMAHOMMA

SILVICULTURA

ALFREDOKINGOOYAMAHOMMA

PIMENTA-DO-REINO

ALFREDOKINGOOYAMAHOMMA

ECOLOGIA

ALFREDOKINGOOYAMAHOMMA

AGROFLORESTA

ALTEVIRDEMATOSLOPES

ARROZRECURSOSGENTICOS

ALTEVIRDEMATOSLOPES

ARROZMELHORAMENTO

ANGELAMARIALEITENUNES

PIMENTA-DO-REINO

ANGELAMARIALEITENUNES

FRUTICULTURAPRAGAS

ANGELAMARIALEITENUNES

CUPUAU

ANGELAMARIALEITENUNES

CONTROLEDEPRAGAS

Mtodos e Tcnicas de Pesquisa em Comunicao | Duarte | Barros 13

Uma lista
Umacomo
lista como
esta pode
esta pode
ser classificada
ser classificada
por por
ordem
ordem
alfabtica
alfabtica
tanto
tanto
nana
coluna
coluna
COMPETNCIA
COMPETNCIA
como na coluna NOME ee permite
permite oo acesso
acessorpido
rpidos
smulticompetncias
multicompetnciasde
deuma
umaorganizao.
organizao.Ela
Ela
pode ajudar a definir quem participa de uma negociao ou lidera uma operao de transferncia.

Competncias em risco
Um cruzamento da Coorte 5 (Pesquisadores mais experientes) com o campo PROD (Figura 5) indica
quais competncias esto em risco de se perderem, em funo da futura aposentadoria de seus detentores.
No caso, as trs primeiras foram: pastos e forrageiras, economia agrcola e fruticultura. Tal anlise permite
uma gesto mais fina das equipes de pesquisa (Penteado e Quoniam, 2001).

Competncias dos com mais de 55 anos (em risco)


40
30
20
10
0

pastos econom
sistema
bovinos\ controle
soja\ma
fruticultu
bovinos\ sement
bovinos\
e
ia
s de
pastage
de
nejo e
nutricao
ra
leite
es
produca
ns
pragas
forrageir agricola
tratos

caju

desenv irrigaca milho\m difusao planeja


olviment
oe
anejo e
de
mento
o rural drenage tratos tecnolo estrateg

25 a 34

35 a 44

23

20

10

12

45 a 54

38

21

32

18

25

16

17

11

19

14

27

11

10

55 acima

30

18

17

14

12

12

11

10

FIGURA 5: Competncias em risco na Embrapa (Penteado e Quoniam, 2001).

Uma aplicao na comunicao, a midiametria


A aplicao desta metodologia de anlise de textos na anlise dos meios de comunicao de massa
permite gerar tendncias e determinar as preferncias dos diversos veculos, assim como fazer estudos
prospectivos sobre a evoluo histrica de um tema, um produto, um poltico ou uma empresa na mdia e
retirar desta anlise concluses para orientar e aperfeioar um relacionamento, em suma criar laos mais
profundos e relaes melhores e mais produtivas do sujeito de pesquisa com a mdia.
A funo de Clipping, de acompanhar o que sai na imprensa, est presente em organizaes nos
cinco continentes. O objetivo especfico das anlises midiamtricas aqui demonstradas de verificar
o desempenho de uma organizao, no caso, a Embrapa, na mdia impressa e eletrnica e identificar a
poltica editorial destes jornais de maneira a qualificar, ampliar e melhorar esta cobertura.

Mtodos e Tcnicas de Pesquisa em Comunicao | Duarte | Barros 14

A base Clipping
A criao e a alimentao da Base de Dados de Clipping o diferencial apresentado por este trabalho.
So as seguintes as variveis analisadas no Banco de Dados de Clipping:

1. Ttulo da matria (TIT)


2. Data da matria (DTP)
3. Nome do Veculo (VEI)
4. Estado do Veculo (UF)
5. Assunto ou Tema (classificado segundo lista de palavras-chaves controladas pela Embrapa) (TEM)
6. Gnero jornalstico de cada matria (notcia, editorial, reportagem, entrevista, artigo, nota de
opinio, nota informativa, carta do leitor, crnica) (GEN)
7. Tipo e qualidade da presena da Organizao na matria (Capa/1 Pgina, Manchete de pgina,
Ttulo, Destaque no texto (Lead), Citao, Rodap/Legenda) (PRE)
8. Fonte mencionada na matria (dirigente, chefe de centro, pesquisador, outros empregados, no
citada) (FON)
9. Pgina de publicao (par, mpar, 2 pginas, 3 pginas, 4 ou + pginas) (PAG)
10. Tratamento grfico, nmero de elementos presentes (1 elemento - texto, 2 elementos - texto e
foto ou ilustrao, 3 elementos - texto, foto/ilustrao e box, 4 elementos - texto, foto, ilustrao
e box, 5 ou mais elementos) (CGR)
11. Unidade(s) da Embrapa(s) mencionada(s) (UD)
12. Palavras-chave da matria (PCH)

Mtodos e Tcnicas de Pesquisa em Comunicao | Duarte | Barros 15

Veja na Figura 6, um exemplo de uma pgina do clipping antes da digitalizao.

FIGURA 6: Pgina digitalizada do Clipping Eletrnico

Resultados
Para este artigo, os registros do clipping dos anos de 2003 e 2004, num total de 16.999 foram
reformatados no software Infotrans10 e analisados no software VantagePoint11. A base pode se categorizada
em diversas dimenses. Por exemplo, a matriz Veculos/Unidades indica a poltica de publicao dos jornais
ou das unidades. A matriz Veculos/Ano de Publicao indica a evoluo da cobertura da organizao, por
jornal no tempo, a Veculos/Palavras Chave indica qual jornal prefere ou prioriza qual tema, a Veculos/
Gnero indica qual jornal d mais editorial, artigo, reportagem ou noticias por exemplo e a matriz Veculos/
Presena indica qual jornal d mais espao nobre. Estas so algumas amostras da riqueza das anlises
permitidas pelo cruzamento das diversas variveis desta base de clippings.

Caractersticas das coberturas


Dos 20 veculos que mais publicaram sobre a Embrapa e suas unidades, 13 reduziram e 7
aumentaram a quantidade de matrias de 2003 para 2004, entre estes o Estado de S. Paulo (de 366 para
374), o Jornal de Braslia (de 244 para 311), o Popular (de 216 para 301), a Gazeta-MT (de 152 para
192), Zero Hora (de 119 para 173) e a Tarde (de 116 para 128). Eles esto marcados por um asterisco.
As caractersticas de cada veculo esto assinaladas em cinza. Por exemplo, O Estado de S. Paulo
um jornal nacional e pertence regio Sudeste. A notar ainda que o primeiro veculo especializado
10 Da IUK GmbH - <http://www.ever-germany.de/start.aspx>.
11 Da Search Technologies - <http://thevantagepoint.com>.

Mtodos e Tcnicas de Pesquisa em Comunicao | Duarte | Barros 16

em agronegcio aparece em dcimo nono lugar. No incio dos anos 1990 a Embrapa publicava a
maioria de suas notcias em veculos especializados em agronegcio. Veja os detalhes na Figura 7:
2003 2004

Jornais
nacionais

Total Veculo

366

374

740

O Estado de S. Paulo*

304

293

597

Correio do Povo

244

311

555

Jornal de Brasilia*

Principais
jornais

Journais AgroneCentro-Norte Nordeste


Sudeste
estaduais
gcio
Oeste

1
1

310

225

535

Diario da Amazonia

216

301

517

O Popular*

308

197

505

Gazeta Mercantil

152

192

344

A Gazeta-MT*

183

154

337

Folha do Estado

64

240

304

Diario da Manha*

10

159

144

303

Diario do Nordeste

11

152

141

293

Meio Norte

12

119

173

292

Zero Hora*

13

153

133

286

Estado de Minas

1
1

14

162

124

286

O Estadao

15

158

97

255

Folha de Rondonia

16

140

112

252

Correio Braziliense

17

117

128

245

A Tarde*

18

124

114

238

Folha de S. Paulo

19

125

104

229

Globo Rural

20

120

108

228

O Progresso

Sul

1
1

1
1

FIGURA 7: Evoluo de 2003 para 2004 dos veculos que mais publicaram.

Quando o volume de matrias publicadas em 2003 e 2004 pela Embrapa analisado sob
a tica do Tipo de Presena Editorial, houve um crescimento em todos os itens em especial de
89,1% das citaes em manchetes e de 34,3% em primeiras pginas. Veja os detalhes na Figura 8:
# Registros

Tipo de presena

2003

2004

9744

Citao

4414

5330

20,7

2053

Ttulo

904

1149

27,1

1820

Destaque no texto (Lead)

783

1037

32,4

808

Rodap/Legenda

378

430

13,7

232

Capa/1a Pgina

99

133

34,3

133

Manchete de pgina

46

87

89,1

14790

Total

7967

9028

13,3

2209

Campo Vazio

1343

862

-55,8

FIGURA 8: Tipo de Presena Editorial por Ano.

Evoluo semelhante foi registrada para o tipo do tratamento grfico. Observa-se que 57% das
matrias tm mais de um elemento grfico o que bastante desejvel em termos de tratamento editorial
dado organizao. Indica que a Embrapa recebe um tratamento distinto. A notar ainda que as matrias
Mtodos e Tcnicas de Pesquisa em Comunicao | Duarte | Barros 17

com quatro elementos ou mais tiveram um aumento significativo. Estes valores esto marcados em
negrito na Figura 9.
# Registros

Tipo de tratamento grfico

2003

2004

6374

1 elemento (texto)

3062

3312

8,1

5132

2 elementos (texto + foto/ilustracao)

2385

2747

15,1

1335

3 elementos (texto + foto/ilustracao + box)

519

816

57,2

593

4 elementos (texto + foto + ilustracao + box)

208

385

85

1354

5 ou mais elementos

451

903

100,2

14788

Total

7967

9028

13,3

Campo Vazio

1342

865

-55,1

2211

FIGURA 9: Tipo de tratamento grfico por Ano.

Continuando a analisar tratamento grfico agora por veculo verificamos que os quatro veculos
que do melhor tratamento grfico s matrias publicadas sobre a Embrapa so Jornal de Braslia
e O Estado de S. Paulo, dois jornais, e Panorama Rural e Globo Rural, duas revistas. Tambm
merecem meno como grandes veculos da Embrapa as revistas Cultivar, Balde Branco, DBO
Rural, Suinocultura Industrial, Rural, Agroanalysis, A Granja, Bahia Agrcola e Veja (24).
E os jornais O Popular, Estado de Minas, A Tarde, Folha de S. Paulo, Correio Braziliense
e O Globo, entre outros. Os veculos especializados em agronegcio, como esperado, esto bem
representados entre aqueles que do o melhor tratamento editorial s informaes da Embrapa.
# Registros

Veculo

1
2
elemento elementos

3
elementos

4
5 ou mais
elementos elementos

555

Jornal de Brasilia

185

167

102

30

71

740

O Estado de S. Paulo

298

282

62

28

64

150

Panorama Rural

15

51

20

10

54

229

Globo Rural

55

109

19

36

225

DBO

69

78

22

12

36

161

Cultivar

22

54

19

13

36

517

O Popular

270

162

32

17

31

110

Balde Branco

21

39

31

286

Estado de Minas

93

136

20

28

10

245

A Tarde

81

98

25

14

25

11

238

Folha de S. Paulo

132

49

22

23

12

73

Suinocultura Industrial

13

16

11

22

13

344

A Gazeta-MT

161

118

30

21

14

252

Correio Braziliense

127

68

23

13

21

15

61

Agroanalysis

11

16

10

20

16

60

Revista Rural - SP

12

15

20

17

141

O Globo

51

52

16

19

18

92

A Granja

37

17

18

19

38

Cultivar Grandes Culturas

13

18

20

27

Bahia Agricola

17

FIGURA 10: Veculos que do melhor tratamento grfico s matrias da Embrapa.

Mtodos e Tcnicas de Pesquisa em Comunicao | Duarte | Barros 18

O esforo dos centros de pesquisa


Quantificando o esforo editorial dos centros de pesquisa e da Sede nos dois anos estudados
constatamos que 12 centros apresentaram queda na quantidade de matrias publicadas e 28 centros
ampliaram o nmero de matrias publicadas. A Embrapa Soja (901), Embrapa Trigo (624) e Embrapa
Pecuria Sudeste (604) so as unidades que mais publicaram matrias na imprensa no perodo estudado.
A tabela veculos por unidade de pesquisa permite duas vises: Com a primeira, ordenada na forma
decrescente do nmero de matrias por Unidades, identificamos os jornais que publicam mais matrias
de uma unidade especfica. As matrias da Sede da Embrapa, por exemplo, so publicadas no Estado de
S. Paulo (355), Gazeta Mercantil (342), Correio do Povo (290), Dirio da Amaznia (232) e O Popular
(203). A lista de jornais preferidos da Embrapa Soja diferente; Folha de Londrina (82), Jornal de
Londrina (58), Cultivar (36), Estado de S. Paulo (30) e Correio do Povo (24). Veja os detalhes na Figura 11:
Sede
Embrapa

# Registros

Veculo

# Registros Veculo

740

O Estado de S. Paulo

355

123 Folha de Londrina

82

505

Gazeta Mercantil

342

69

58

597

Correio do Povo

290

161 Cultivar

40

535

Diario da Amazonia

232

740 O Estado de S. Paulo

30

517

O Popular

203

597 Correio do Povo

25

252

Correio Braziliense

197

150 Panorama Rural

25

303

Diario do Nordeste

194

128 Gazeta do Povo

24

344

A Gazeta-MT

182

337 Folha do Estado

23

555

Jornal de Brasilia

180

39

Anuario Brasileiro da Soja - RS

22

10

337

Folha do Estado

176

10

36

Informativo Meridional

22

11

292

Zero Hora

170

11

517 O Popular

21

12

238

Folha de S. Paulo

166

12

344 A Gazeta-MT

21

13

286

Estado de Minas

155

13

42

Mercosul

19

14

222

O Liberal

155

14

32

Jornal Coamo

19

15

190

Folha de Boa Vista

146

15

238 Folha de S. Paulo

17

16

178

Valor Economico

144

16

555 Jornal de Brasilia

16

17

293

Meio Norte

137

17

92

A Granja

16

18

193

Tribuna do Brasil

130

18

60

Revista Rural - SP

16

19

202

Diario do Comercio e Industria

128

19

38

Cultivar Grandes Culturas

16

20

255

Folha de Rondonia

126

20

505 Gazeta Mercantil

Jornal de Londrina

Soja

14

FIGURA 11: Unidades da Embrapa por Veculos - viso 1.

Estas matrizes podem ser utilizadas por um centro de pesquisa para criar uma lista de veculos mais
importantes, para definir prioridades para pautas ou para escolher a quem mandar um press-release. Com
uma viso exclusiva do centro, o gerente de comunicao pode acompanhar a evoluo da cobertura em
cada veculo e proceder a correes ou a mudanas de nfase. No caso, ele deve se esforar para eliminar os

Mtodos e Tcnicas de Pesquisa em Comunicao | Duarte | Barros 19

espaos vazios. Veja o exemplo da lista de veculos da Embrapa Soja durante o segundo semestre de 2004
na Figura 12.
# Registros Veculo

dez/04 nov/04 out/04

set/04 ago/04 jul/04

82

Folha de Londrina

58

Jornal de Londrina

25

Correio do Povo

24

Gazeta do Povo

23

Folha do Estado

21

A Gazeta-MT

21

O Popular

19

Mercosul

14

Diario da Amazonia

10

12

Diario do Comercio e Industria

2
2

FIGURA 12: Evoluo da cobertura por veculo por centro. Exemplo, Embrapa Soja.

Uma outra viso dos dados pelo nmero de matrias publicadas por jornal. Assim,
identificamos os centros de pesquisa preferidos de cada jornal. O Estado de S. Paulo, por exemplo,
publica praticamente a metade da produo da Embrapa Monitoramento por Satlite (CNPM) e
mais Embrapa Pecuria Sudeste (CPPSE), Embrapa Soja (CNPSO), Embrapa Recursos Genticos
e Biotecnologia (Cenargen) e Embrapa Gado de Corte (CNPGC). Veja os detalhes na Figura 13:
#
Veculo por Centro de pesquisa
Registros
7990

O Estado de
S. Paulo

Embrapa Sede

355

197

Monitoramento por Satelite

104

604

Pecuaria Sudeste

35

901

Soja

30

443

Recursos Geneticos e Biotecnologia

29

325

Gado de Corte

19

389

Suinos e Aves

16

199

Milho e Sorgo

16

455

Gado de Leite

15

462

Cerrados

14

FIGURA 13: Unidades da Embrapa por Veculos - viso 2.

Mtodos e Tcnicas de Pesquisa em Comunicao | Duarte | Barros 20

Anlise das palavras-chave e temas


A anlise das palavras chave pode indicar, entre outras coisas, os assuntos preferidos dos diversos
veculos e orientar, por este meio, a proposio de pautas e sugestes de reportagens pelos centros de
pesquisa. Um tema polmico como os transgnicos (488) a stima palavra-chave mais citada dentre
todos os jornais. Quando examinamos cada jornal em particular h uma variao que pode nos trazer
informaes preciosas. Ns isolamos os quinze primeiros veculos que publicaram mais matrias sobre
transgnicos. O Estado de S. Paulo e Folha de S. Paulo, dois jornais nacionais se posicionaram nos
primeiros lugares. Ns tambm calculamos a porcentagem que as notcias sobre transgnicos representam
em relao ao nmero total de matrias publicadas por cada um destes 15 veculos. Encontramos uma
grande varincia, de 14% para a Gazeta do Povo jornal de um estado fortemente agrcola como o Paran,
a 2% para o Jornal de Braslia, do Distrito Federal. Eles esto marcados em cinza na Figura 14.
#
Registros

Veculos /
Palavras
chave

O Estado
de S.
Paulo

Folha
de S.
Paulo

492

transgenicos

35

20

19

19

18

18

16

16

16

13

12

12

12

11

11

Total

740

238

505

597

128

178

141

222

292

165

141

252

344

517

555

4,6

8,4

3,7

3,1

14

10,1

11,3

7,2

5,4

7,8

8,5

4,7

3,5

2,1

Gazeta
Mercantil

Correio
do Povo

Gazeta
do Povo

Valor
O
O Globo
Economico
Liberal

Zero
Hora

O Povo

Jornal
do
Brasil

Correio
A GazetaO
Braziliense
MT
Popular

Jornal
de
Brasilia

FIGURA 14: Veculos por Palavras-chave (transgnicos) por nmero de notcias.

O prximo passo foi ordenar a lista dos 15 veculos pela importncia que eles concedem a este tema
representada pelas maiores percentagens relativas ao nmero total de notcias publicadas. Uma pequena
surpresa surgiu. Ao lado da Gazeta do Povo apareceram O Globo, Valor Econmico, Jornal do
Brasil e Folha de S. Paulo, trs jornais nacionais e um especializado em economia. Seu interesse pelos
transgnicos de duas a quatro vezes maior do que o dos jornais do final da lista. Eles foram marcados em
cinza na Figura 15.
Valor
Economico

Jornal
do
Brasil

Folha
de S.
Paulo

O
Povo

16

18

12

20

13

16

16

12

35

19

12

19

11

11

128

141

178

141

238

165

222

292

252

740

505

344

597

517

555

14

11,3

10,1

8,5

8,4

7,8

7,2

5,4

4,7

4,6

3,7

3,5

3,1

2,1

#
Registros

Veculos /
Palavras
chave

492

transgenicos

18

Total
%

Gazeta
O
do Povo Globo

O
Zero
Correio
Liberal Hora Braziliense

O Estado
Gazeta
de S.
Mercantil
Paulo

A
Correio
Jornal
O
Gazeta-do
de
Popular
MT
Povo
Brasilia

FIGURA 15: Veculos por Palavras-chave (transgnicos), importncia relativa das notcias.

Ns observamos que os veculos do final da lista so de estados com uma forte agricultura. A
questo colocada ento foi. Ser que h uma valorizao do tema transgnicos por veculos de um estado
em particular?
Decidimos ento comparar as coberturas dos trs principais estados da regio Sudeste (RJ, SP e
MG), dos dois principais da regio Sul (RS e PR) e dois estados da regio Centro-Oeste (MT e GO). Nos
seus territrios so plantados mais de 75% da produo agrcola nacional. Veja os detalhes na Figura 16.

Mtodos e Tcnicas de Pesquisa em Comunicao | Duarte | Barros 21

# Registros
439

RJ

5109

SP

709

585

2491

731

613

MG

PR

RS

MT

GO

10

11

12

producao

transgenicos

biotecnologia

tecnologia

soja

pesquisa

projeto

clone

sementes

cultivo

gestao

biosseguranca

35

34

22

21

19

19

17

11

11

11

producao

soja

tecnologia

projeto

pesquisa

leite

evento

transgenicos

agronegocio

safra

produtividade

mercado

477

340

272

263

234

212

203

171

134

108

108

107

producao

leite

soja

milho

cafe

transgenicos

mercado

projeto

pesquisa

sementes

frutas

tecnologia

27

25

75

50

39

28

soja

producao

ferrugem

pesquisa

tecnologia transgenicos

24

24

21

19

17

17

agronegocio

safra

trigo

evento

biotecnologia

projeto

145

44

28

28

27

25

24

22

22

20

17

16

producao

soja

evento

trigo

pesquisa

safra

seminario

projeto

tecnologia

mercado

transgenicos

sementes

229

201

146

121

119

91

87

85

78

63

62

60

producao

soja

pesquisa

evento

tecnologia

algodao

ferrugem

cultura

mercado

projeto

plantio

transgenicos

71

60

36

35

31

31

26

22

22

22

21

19

soja

producao

pesquisa

tecnologia

algodao

leite

cerrado

cultura

frutas

contatos

safra

transgenicos

46

42

28

26

21

20

20

19

18

17

16

16

FIGURA 16: Veculos por Estado e Palavras-chave.

A resposta da Figura 16 cristalina. Na cobertura das notcias de pesquisa agropecuria da Embrapa,


os veculos do estado do Rio de Janeiro concedem aos transgnicos uma relevncia especial, bastante
diferente daquela dos outros estados analisados. Uma observao geral sobre a publicao total de notcias
por estados. So Paulo abriga cinco centros de pesquisa da Embrapa, Rio Grande do Sul quatro, Rio de
Janeiro trs, Paran dois, Minas Gerais dois e Gois um. O estado do Mato Grosso no tem nenhum
centro mas se coloca num merecido terceiro lugar quanto quantidade de notcias publicadas sobre a
Embrapa. Este um forte indicador de uma grande valorizao da cincia e da tecnologia e das inovaes
agropecurias em Mato Grosso que est se tornando tambm o principal estado agrcola do Brasil.

Mtodos e Tcnicas de Pesquisa em Comunicao | Duarte | Barros 22

Concluso
Estas metodologias, tcnicas e ferramentas de anlise e minerao de textos e de dados so
utilizadas para processar a enorme massa de informaes disponvel no dia a dia em uma organizao
e criar inteligncia, identificar as informaes mais estratgicas que permitiro e capacitaro uma
organizao a melhor cumprir sua misso. Um ponto importante que estas informaes esto presentes
nas organizaes. Com as metodologias e ferramentas apropriadas podem se tornar inteligncia
organizacional e competitiva.
Uma parcela significativa e no medida das bases de dados das organizaes foram criadas para
recolher e guardar informaes com a gerao de relatrios predefinidos durante o processo de criao e
montagem da base. Tais fases tm uma funo operacional importante nas organizaes. A esta funo
operacional deve adicionar-se, no entanto, uma funo de anlise que permite a criao de sistemas de
inteligncia mais eficientes com a opo de reunir em um nico ambiente computadores, dados internos
e externos, metodologias e ferramentas especficas para a finalidade de anlise.
Os resultados da base Clipping demonstram com convico a eficincia do sistema de trabalho
de comunicao da Embrapa para a divulgao de seus trabalhos cientficos. Eles estabelecem tambm
metodologias e ferramentas de anlise para gerar inteligncia sobre os meios de comunicao de massa e
o comportamento de seus editores, fazer o monitoramento de coberturas da imprensa e auditorias sobre
o trabalho de comunicao. Estas metodologias e ferramentas permitem tambm traar a evoluo de
um tema, de um produto, de uma pessoa ou de todo um setor da economia na mdia, por um perodo
determinado.
Uma ressalva deve ser feita. possvel que o nmero total de notcias sobre os transgnicos em todos
os veculos seja muito maior do que aquele registrado neste artigo porque ele inclui apenas as notcias
deste universo que mencionam a Embrapa. Estes resultados no representam o comportamento geral
dos veculos quanto a temas especficos. Eles refletem o comportamento dos veculos com referncia a um
tema especfico na cobertura da Embrapa.
No entanto, acreditamos que a generalizao destas metodologias e a criao de bases Clipping
diversificadas podero dar ao estudo do jornalismo e de sua prtica diria em todo o mundo, s relaes
pblicas, comunicao empresarial, ao marketing e tambm ao segmento de consultorias de mdia,
metodologias e ferramentas que permitem dar um salto de qualidade e de produtividade em muitas das
anlises de mdia realizadas. Instrumentos para criar laos mais profundos e proveitosos, relaes mais
profundas e melhores entre as organizaes e sujeitos de todas as afiliaes com a mdia e seus editores.

Mtodos e Tcnicas de Pesquisa em Comunicao | Duarte | Barros 23

Referncias Bibliogrficas
BALAJ, Srgio T. (2005a). Telemar Boots Sales and Satisfaction with Powerful Performance if Informatica
PowerCenter.

DMReview.

September

2005.

Disponvel

em

<http://www.dmreview.com/article_sub.

cfm?articleID=1035576>. Acesso em 25 out. 2005.


BALAJ, Srgio T. (2005b). Telemar Projeto Business Intelligence em DW. In: Inteligncia organizacional 2005
Rio de Janeiro. Brasil, Rio de Janeiro: IDETI, 24-25 Out. 2005.
BOUTIN, E., A cadeia de tratamento da informao do CRRM. In: SEMINRIO TECNOLOGIAS PARA
TRATAMENTO DA INFORMAO NA EMBRAPA. Embrapa/Cendotec/CRRM/LePont/Universidade de Toulon
et du Var, Braslia - DF, 10 a 14 de dezembro de 2001.
DOU, H., Sistemas de Inteligncia Competitiva. In: Curso de Especializao em Inteligncia Competitiva.
Braslia: MCT/INT, CNPq/IBICT, UFRJ/ECO, 1999.
FARIA, L. I. L. ; QUONIAM, L., Ferramentas para Estudos Prospectivos - Tutorial. In 3 WORKSHOP
BRASILEIRO DE INTELIGNCIA COMPETITIVA E GESTO DO CONHECIMENTO, So Paulo - SP, 16 a 18
de setembro de 2002.
JAMBU, M., Introduction au Dataminig: Analyse intelligente des donnees. Frana. Paris: Editions Eyrolles,
2000, 120p.
LEEDS, S., Data Mining: Beware of the shaft. Direct Marketing. Jan. 2000. Disponvel em: <http://www.tmiassoc.
com/articles/shaft.htm>. Acesso em 10 jul. 2002.
LEVET, J. L., LIntelligence Economique: mode de pense, mode daction. Frana, Paris: Economica, 2001,
155p.
MOGEE, M. E., Patents and technology intelligence. In: ASHTON, W.B.; KLAVANS, R.A., Keeping abreast of
science and technology: technical intelligence for business, Battelle Press, p.560, 1997.
NOBREGA, R. G., Data Warehousing. In: TARAPANOFF, K., Inteligncia Organizacional e Competitiva. Braslia:
Editora Universidade de Braslia, p.285-302, 2001.
PENTEADO, R.; DOU, H.; BOUTIN, E.; QUONIAM, L., Da criao de bases de dados ao desenvolvimento
de sistemas de inteligncia para a organizao. In: 4 WORKSHOP BRASILEIRO DE INTELIGNCIA
COMPETITIVA E GESTO DO CONHECIMENTO, Salvador - BA, 20 a 22 de outubro de 2003.
PENTEADO, R.; FARIA, L. I. L.; VIEIRA, J. L.; KURIHARA, M. H.; AVILA. A. F. D.; QUONIAM, L., Aplicao
da bibliometria na construo de indicadores sobre a produo cientfica da Embrapa. In: 3 WORKSHOP
BRASILEIRO DE INTELIGNCIA COMPETITIVA E GESTO DO CONHECIMENTO, So Paulo - SP, 16 a 18
de setembro de 2002.
PENTEADO, R.; QUONIAM, L., Aplicao da bibliometria na anlise estratgica das competncias da Embrapa.
In: 2 WORKSHOP BRASILEIRO DE INTELIGNCIA COMPETITIVA E GESTO DO CONHECIMENTO,
Florianpolis - SC, 03 a 05 de outubro de 2001.
POLITY, Y.; ROSTAING, H., Cartographie dun champ de recherche partir du corpus des thses de doctorat
soutenues pendant 20 ans: Les sciences de linformation et de la communication en France: 1974-94. In: Actes
du Colloque: Les systmes dinformations labores (SFBA), Ile Rousse, Frana, 14 a 16 junho de 1997.

Mtodos e Tcnicas de Pesquisa em Comunicao | Duarte | Barros 24

PORTER, A. L., Text Mining for Technology Foresight. In: Futures Research Methodology-V2.0, The Millennium
Project. American Council for the United Nations University, CD-ROM, 2003.
QUONIAM, L. et al. Bibliometric analysis of patent documents for R&D management. Research Evaluation, v.
3, n 1, p. 13-18, avr. 1993.
QUONIAM, L., Datamining. In: Curso de Especializao em Inteligncia Competitiva. Braslia: MCT/INT, CNPq/
IBICT, UFRJ/ECO, 1999.
QUONIAM, L. Datamining, teoria e prtica. In: SEMINRIO TECNOLOGIAS PARA TRATAMENTO DA
INFORMAO NA EMBRAPA. Braslia: EMBRAPA, CRRM/LePont, Cendotec, dec. 2001.
REYNOLDS, G. W., Information systems for managers. Estados Unidos, St. Paul: West Publishing Co, 1992.
SULAIMAN, A. e SOUZA, J. M., Data Mining Minerao de dados. In: TARAPANOFF, K., Inteligncia
Organizacional e Competitiva, Braslia: Editora Universidade de Braslia, p.265-278, 2001.
SWANSON, D. R., ASIST Award of Merit acceptance speech: on fragmentation of knowledge, the connection
explosion, and assembling other peoples ideas, Bulletin of the American Society for Information Science and
Technology, v. 27, n 3, 2001.

Mtodos e Tcnicas de Pesquisa em Comunicao | Duarte | Barros 25

Anexo 1
Algumas ferramentas de minerao de dados e textos
Preparao
de dados

Infotrans - http://www.ever-germany.de/start.aspx
Folio Search and Replace- http://www.nextpage.com/publishing/folio/
Dataview - <http://crrm.u-3mrs.fr/commercial/software/dataview/dataview.html>
Matrisme - <http://lepont.univ-tln.fr/page_perso/boutin.htm>

Minerao
de textos

Temis - <http://www.temis-group.com/>
Matheo Anayzer, Matheo Patent - <http://www.matheo-software.com>
VantagePoint - <http://thevantagepoint.com>
WinIDAMS - <http://www.unesco.org/webworld/idams/>
Data Mining, Technology Watch - <http://www.alphaworks.ibm.com/tech>
SAS Enterprise Miner - <http://www.sas.com/>

Minerao
de dados

SPSS Clementine - <http://www.spss.com/>


Oracle Mining Suite - <http://www.oracle.com/>
Gomining - <http://www.godigital.com.br>
Weka - <http://www.cs.waikato.ac.nz/~ml/weka/>

Mtodos e Tcnicas de Pesquisa em Comunicao | Duarte | Barros 26