Escolar Documentos
Profissional Documentos
Cultura Documentos
TESE DE DOUTORADO
Rio de Janeiro
2015
Orientadores:
Prof. Marcos Roberto da Silva Borges, Ph.D.
Profa. Maria Luiza Machado Campos, Ph.D.
Rio de Janeiro
2015
__________________________________________________________
__________________________________________________________
__________________________________________________________
__________________________________________________________
__________________________________________________________
__________________________________________________________
__________________________________________________________
AGRADECIMENTOS
Aos Professores e orientadores cientficos desta tese, Marcos Roberto da Silva
Borges e Maria Luiza Machado Campos, pelo apoio e conhecimentos transmitidos durante o
desenvolvimento, e tambm pelo compromisso assumido e empenho que dedicaram a este
trabalho. Agradeo ainda, pela anlise de cada captulo, as sugestes, os esclarecimentos e
comentrios, sempre oportunos, que espero ter sabido aproveitar, e claro, por acreditarem em
mim desde o incio desta longa, porm velocssima jornada.
Universidade Federal Rural do Rio de Janeiro (UFRRJ) e meus companheiros de
departamento, por acreditarem em meu projeto e permitirem que eu pudesse estabelecer e
dedicar-me parcialmente s minhas pesquisas de doutorado.
Aos incansveis Professores Jorge Xavier da Silva e Maria Hilde de Barros Goes,
meus gurus, amigos, grandes incentivadores, maiores responsveis por hoje eu trilhar a vida
acadmica, com muita satisfao e motivao em converter o conhecimento adquirido em
benefcios para nossa sociedade. Serei eternamente grato aos conhecimentos transmitidos,
de inestimvel valor.
Aos professores John Breslin e Maciej Dabrowiski, do Digital Enterprise Research
Institute/National University of Ireland (DERI/NUIG), na cidade de Galway, Repblica da
Irlanda, que abraaram minha pesquisa e pelos ensinamentos e orientaes de grande valia,
das quais pude absorver novas e valiosas contribuies para este trabalho. Por toda simpatia,
ateno e colaborao na disponibilizao de dados fundamentais aos experimentos
realizados no trabalho, quando lhes foram solicitados e tambm pelas crticas construtivas
durante nossas sesses de acompanhamento da pesquisa.
Ainda em Galway - simptica cidade que me acolheu durante quase um ano - meus
cumprimentos so extensivos aos colegas do grupo Social Software, contribuindo sempre
com boas dicas e referncias. No esquecendo tambm dos companheiros estrangeiros e
brasileiros que l estiveram e partilharam comigo alguns momentos descontrados: meus
companheiros da equipe de vlei da NUIG, Nicholas Ciuferri e Petre Stefanov; e meus
companheiros de pesquisa no DERI, Joo Carlos Pereira, Andr Freitas e Bianca Pereira.
Estendo meus agradecimentos Coordenao de Aperfeioamento de Pessoal de
Nvel Superior (CAPES), que me apoiou financeiramente durante o estgio de doutorado
sanduche no exterior e tornou este projeto possvel.
Estas
RESUMO
MARINO, Tiago Badre. Tratamento de Informaes Geradas a Partir de Fontes de
Colaborao Heterogneas para Apoio Resposta em Emergncias. 2015. 195 f. Tese
(Doutorado em Informtica). Instituto de Matemtica, Instituto Trcio Pacitti, Universidade
Federal do Rio de Janeiro, Rio de Janeiro, 2015.
O envolvimento de cidados no enfrentamento de crises no mais novidade. O advento de
novas tecnologias de informao e comunicao aliado popularizao de dispositivos
mveis criam oportunidades para o aumento da gerao de informao contextual originada
atravs da participao social. No passado a escassez de dados constitua uma das principais
barreiras impostas aos gestores pblicos no processo de tomada de deciso. Hoje a situao
se inverte, quando o desafio est em gerenciar um excesso de dados, totalmente dinmicos
e provenientes de distintas fontes: sensores remotos ambientais, redes sociais, equipes de
campo, imagens de satlite, mdia. Em um ambiente de emergncia, a preocupao no mais
se d em coletar dados para exercer uma melhor leitura do ambiente afetado, mas sim em
saber organizar, integrar, classificar e separar o que de fato til ao gestor da emergncia
para cada fase de resposta. Entretanto, para organizar e integrar necessrio promover um
diagnstico inicial sobre o conjunto de dados disponibilizados por cada fonte de
informaes. necessrio, por exemplo, identificar em cada fonte considerada, quem, onde,
quando, em que situao a informao foi originada. Deve-se tambm compatibilizar o
formato de dados das fontes de modo a possibilitar comparaes, agrupamentos e o
estabelecimento de associaes de informaes correlatas. Em suma, preciso estruturar e
organizar a informao processada de modo que, quem venha a consumi-la disponha de boas
condies para determinar se tal informao ou no til para a tomada de deciso.
Portanto, este estudo tem por objetivo a concepo e experimentao de uma arquitetura de
tratamento da informao colaborativa que considera os aspectos da complexidade do
ambiente no contexto de emergncias e, a partir da coleta e integrao de informaes
originadas de fontes heterogneas, busca promover o enriquecimento do conhecimento
contextual atual e, desta forma, apoiar a deciso dos gestores da resposta a emergncias.
ABSTRACT
MARINO, Tiago Badre. Processing Information Generated from Heterogeneous
Collaborative Sources to Support Emergencies Response. 2015. 195 p. Thesis (Doctor in
Computer Science). Instituto de Matemtica e do Ncleo de Computao Eletrnica da
Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2015.
The involvement of citizens supporting crisis situations is not new. The advent of new
information and communication technologies coupled with the popularization of mobile
devices raises opportunities for increasing generation of contextual information originated
through social participation. Formerly, lack of data was one of the main barriers to public
managers in the decision-making process. Nowadays the situation is reversed as the
challenge is to manage data in excess, dynamic and originated from different sources:
remote sensors, social networks, response field teams, satellite images, media. During an
emergency response situation, a main concern is no longer to collect data for a better
understanding of the affected environment, but in knowing how to organize, aggregate and
separate what is actually useful to the manager on each emergency response phase.
However, for this to happen, it is necessary to identify data structure and meaning (metadata)
associated to each information resource (SMS, e-mail, social networks, environmental
sensors, information originated from field agents, etc.). For each source, it is necessary to
identify who, where, when, and under which circumstances the information has been
originated. It also contemplates matching of data format of information sources, in order to
allow comparisons, clustering procedures and associations among correlated information. In
summary, it is necessary to structure and organize the acquired information so that
consumers are able to determine whether or not such information is useful for decision
making. Therefore, this research aims to design and experiment an architecture for treatment
of collaborative information that considers environmental complexity aspects in the context
of emergencies and, by collecting and integrating information derived from heterogeneous
sources, aims to enrich current contextual knowledge and thus support decision makers
during emergency responses.
Lista de Figuras
Figura 1.1. Sequncia das diferentes fases de um evento emergencial e a diviso setorial dos
grupos de trabalho da equipe UNDAC durante respostas a desastres. Adaptado de OCHA
(2012)...................................................................................................................................... 25
Figura 1.2. Mapa conceitual dos tipos de conhecimentos que apoiam a fase de resposta de
uma emergncia. Adaptado de Diniz et al. (2005) ................................................................. 26
Figura 1.3. Cenrio clssico de resposta a emergncias: dificuldades de acesso, comunicao
e aquisio de informao ...................................................................................................... 28
Figura 1.4. Agentes de aquisio de dados ambientais e meios de comunicao hoje
disponveis no apoio a construo do conhecimento contextual atual ................................... 30
Figura 2.1. Porcentagem da populao usuria de smartphones por pas. Fonte:
OurMobilePlanet.com............................................................................................................. 41
Figura 2.2. Mashup de colaborao social atravs das redes sociais para o apoio a desastres
(ESRI, 2013) ........................................................................................................................... 44
Figura 2.3. As redes sociais propagam informaes com rapidez: pouso de emergncia do
avio da empresa US Airways no Rio Hudson, em janeiro de 2009. Informao publicada
apenas 10 minutos aps o pouso de emergncia da aeronave.
Fonte: Publicao no
Fonte: Plataforma
SocialCol............................................................................................................................... 153
Figura 7.7. Exemplo de publicaes extradas da base de dados experimental para o clculo
do ndice de Correlao e deciso quanto ao agrupamento em histria na plataforma
SocialCol. Fonte: Plataforma SocialCol. .............................................................................. 153
Figura 7.8. Disposio cronolgica das publicaes de uma histria em forma de Linha do
Tempo na plataforma experimental SocialCol. Fonte: Plataforma SocialCol. .................. 154
Figura 7.9. Interface para identificao de atributos quantitativos em publicaes na
plataforma experimental SocialCol. Fonte: Plataforma SocialCol. ..................................... 155
Figura 7.10. Identificao de conflitos de informaes em uma histria na plataforma
SocialCol. Fonte: Plataforma SocialCol. Fonte: Plataforma SocialCol. ............................. 155
Figura 7.11. Interface para a resoluo de conflitos supervisionada na plataforma
experimental SocialCol. Fonte: Plataforma SocialCol. ....................................................... 156
Lista de Quadros
Quadro 1.1. Benefcios e desvantagens de monitoramento voluntrio. Adaptado de Gouveia
e Fonseca (2008) ..................................................................................................................... 32
Quadro 3.1. Quadro quantitativo de referncias sobre atributos da qualidade de dados.
Adaptado de Amaral (2003) ................................................................................................... 61
Quadro 4.1. Caracterizao de distintas fontes de informao colaborativa segundo aspectos
de disponibilidade e estrutura de dados, formatao, frequncia de publicao e
confiabilidade do emissor ....................................................................................................... 68
Quadro 5.1. Fontes de informao e aspectos relacionados ao tratamento da informao
colaborativa abordados pelas principais referncias de apoio consultadas ............................ 87
Quadro 5.2. Exemplo de mensagens apresentadas em seu texto original (no estruturado) e
sua representao estruturada, gerada automaticamente. Adaptado de Purohit et al. (2013)
.............................................................................................................................................. 105
Quadro 6.1. Fontes de informaes e suas respectivas referncias documentao API .... 120
Quadro 6.2. Exemplo de entradas e resultados do processamento de publicaes no processo
[CFD] Compatibilizar Formato de Data ........................................................................... 127
Quadro 6.3. Definies das propriedades dos Sistemas Complexos e suas respectivas
associaes com os elementos da arquitetura de soluo e o ambiente de emergncia ....... 143
Lista de Grficos
Grfico 6.1. Comportamento da distribuio do ndice de Correlao Espacial (C esp) segundo
diferentes formulaes .......................................................................................................... 132
Grfico 7.1. Distribuio da quantidade de publicaes associadas s classes do evento aps
o processamento de [CLA] Classificar na experimentao. Fonte: Plataforma SocialCol.
.............................................................................................................................................. 169
Grfico 7.2. Distribuio da quantidade de pares de publicaes correlacionadas agrupadas
por intervalos de valores do ndice de Correlao, aps o processamento de [EPC]
Encontrar Publicaes Correlatas na experimentao. Fonte: Plataforma SocialCol........ 170
Grfico 7.3. Resultado processamento de [AGR] Agrupar em Histrias na experimentao:
quantidade de histrias formadas e sua distribuio em funo da mdia do ndice de
Correlao entre as publicaes que compem cada histria. Fonte: Plataforma SocialCol.
.............................................................................................................................................. 170
Grfico 7.4. Participao das fontes de informaes em histrias.
Fonte: Plataforma
SocialCol............................................................................................................................... 171
Grfico 7.5. Tempo de processamento de uma publicao para cada etapa de tratamento
estabelecida na arquitetura de soluo. Fonte: Plataforma SocialCol. ................................ 172
Grfico 7.6. Tempo total, em minutos, para o processamento da base de dados experimental
segmentado pelos processos da arquitetura. Fonte: Plataforma SocialCol.......................... 172
Lista de Siglas
3G
Terceira Gerao
4G
Quarta Gerao
API
CAS
CENACID
CSCW
CSCWD
DARPA
DCMI
DDD
ETL
GPS
GPRS
HTML
IP
Internet Protocol
LAGEOP
Laboratrio de Geoprocessamento
LBS
LOD
LOV
MOAC
Management of a Crisis
NLP
ONG
Organizao No Governamental
ONU
OCHA
PHP
REST
RDF
SIG
SIM
SIOC
SMS
SMOB
Semantic MicroBlogging
UFRJ
UFPR
UNDAC
URL
USGS
VICON
Vigilncia e Controle
W3C
XML
Fase de Comunicao
[COL]
Coletar Publicaes
[FED]
Requisitar Feedback
[PREP]
Fase de Pr-Processamento
[AAV]
[VTF]
[CFD]
[CFC]
[VID]
Verificar Idioma
[CLA]
Classificar
[HIST]
Fase de Histrias
[EPC]
[AGR]
Agrupar em Histrias
[CONF]
Fase de Conflitos
[ICO]
[RCO]
Resolver Conflito
[RCOL]
[MIAQ]
[MTRA]
Traduzir (Colaboradores)
[MGEO]
Geolocalizar (Colaboradores)
[MCFD]
20
Sumrio
1
Introduo ..................................................................................................................... 24
1.1
1.2
1.2.1
1.2.2
1.2.3
1.3
Motivao ........................................................................................................... 28
1.4
1.5
Hiptese .............................................................................................................. 34
1.6
Objetivos ............................................................................................................. 35
1.6.1
Geral.................................................................................................................... 35
1.6.2
Especficos .......................................................................................................... 35
1.7
Metodologia ........................................................................................................ 36
1.8
1.9
2.2
2.3
2.4
Emergncias..................................................................................................................... 54
3.1.1
3.1.2
3.1.3
Adaptabilidade .................................................................................................... 56
3.1.4
Multi-escalas ....................................................................................................... 57
3.1.5
Feedback ............................................................................................................. 58
3.1.6
Imprevisibilidade ................................................................................................ 58
21
3.1.7
Heterogeneidade ................................................................................................. 59
3.2
3.2.1
3.2.2
3.3
4.2
4.3
4.4
4.5
4.6
4.7
Comunicao ...................................................................................................... 83
4.8
4.9
5.2
6.1.1
6.1.2
6.2
6.2.1
22
6.2.6
6.3
6.3.1
7.1.1
7.1.2
7.1.4
7.1.6
7.2
7.2.1
7.2.2
23
7.2.3
7.2.4
7.2.5
7.2.6
7.2.7
7.3
7.3.1
7.3.2
7.3.3
7.3.4
7.3.5
7.3.6
8.2
190
Apndice E Histrico de contatos por e-mail para a solicitao das bases de dados . 191
Apndice F Diagrama Entidade-Relacionamento (DER) do repositrio de coleta e
processamento da plataforma experimental SocialCol .................................................. 195
24
1 Introduo
1.1
UNDAC - http://www.unocha.org/
25
Figura 1.1. Sequncia das diferentes fases de um evento emergencial e a diviso setorial dos grupos de trabalho
da equipe UNDAC durante respostas a desastres. Adaptado de OCHA (2012)
1.2
26
Figura 1.2. Mapa conceitual dos tipos de conhecimentos que apoiam a fase de resposta de uma emergncia.
Adaptado de Diniz et al. (2005)
27
28
Motivao
No passado a escassez de dados e a limitao da acessibilidade e comunicao
Figura 1.3. Cenrio clssico de resposta a emergncias: dificuldades de acesso, comunicao e aquisio de
informao
29
Segundo Miranda (1999, p.285), os dados representam um conjunto de registros qualitativos ou quantitativos
conhecidos que, organizado, agrupado, categorizado e padronizado adequadamente, transforma-se em
informao, isto , um conjunto de dados organizados de modo significativo, sendo subsdio til tomada de
deciso.
30
Figura 1.4. Agentes de aquisio de dados ambientais e meios de comunicao hoje disponveis no apoio a
construo do conhecimento contextual atual
31
O recurso humano, por sua vez, apesar de sua limitao fsica, dispe da capacidade
de interagir com o ambiente devido a sua habilidade de raciocnio lgico. Sendo assim, o
recurso humano capaz, especialmente em ambientes de alto dinamismo e imprevisibilidade
(como o caracterizado pelas emergncias), de perceber uma determinada situao, avaliar,
elaborar alternativas de ao, decidir, agir e analisar os efeitos de sua ao. De forma
recursiva, pode iniciar uma nova iterao, levando em conta a evoluo da situao
provocada pelos efeitos de suas aes anteriores. Desta maneira, considerando as vantagens
e limitaes relativas a cada tipo de agente, conclui-se que ambos podem produzir resultados
mais efetivos quando operam de forma combinada e complementar.
Com relao aos novos meios de comunicao representados na Figura 1.4, as
oportunidades de colaborar so ampliadas pela Computao Mvel e Ubqua3.
Equipamentos portteis, telefonia celular, redes sem fio e objetos inteligentes expandem os
limites dos locais e dos momentos nos quais um indivduo pode exercer colaborao, pois
possibilitam o uso de informaes de sua localizao e tornam os ambientes cada vez mais
interativos, modificando sua relao com o espao urbano e abrindo espao para a oferta de
servios colaborativos inovadores (FILIPPO et al., 2011).
No segmento das redes sociais, a tecnologia aliada popularizao cada vez maior de
dispositivos mveis e pesados investimentos em infraestrutura e middleware4, abrem as
portas para um enorme volume de informaes, agora, submetidas a partir de qualquer
localidade geogrfica. As redes sociais, dentre outros inmeros meios de comunicao,
podem ento ser aproveitadas como verdadeiros instrumentos de colaborao entre cidados
de uma comunidade afetada por eventos emergenciais (DAVID; MACIEL, 2011).
Gouveia e Fonseca (2008) descrevem alguns benefcios e desvantagens decorrentes
do monitoramento ambiental baseado no apoio voluntrio, conforme o Quadro 1.1.
Segundo Weiser (1991), a Computao Ubqua a terceira era da computao: aps a era da computao de
grande porte (vrios usurios compartilham um computador) e a era dos computadores pessoais (cada usurio
usa seu prprio computador), a era da Computao Ubqua a dos dispositivos de tamanho reduzido (cada
usurio usa vrios dispositivos).
4
No contexto de desenvolvimento e execuo de sistemas colaborativos, middleware um software para
facilitar o desenvolvimento e execuo de sistemas distribudos. Consiste numa infraestrutura para dar suporte
a diversas caractersticas desejveis para a implementao dos sistemas colaborativos: interoperabilidade,
integrao, portabilidade, escalabilidade e suporte a diferentes modos de colaborao.
32
Quadro 1.1. Benefcios e desvantagens de monitoramento voluntrio. Adaptado de Gouveia e Fonseca (2008)
Aspecto
Dado
Benefcios
Enriquecimento da base de
informaes contextual.
Desvantagens
Carncia de credibilidade dos dados.
Metadados so escassos.
Baixo grau de estruturao.
Devido falta de conhecimento
especfico e treinamento a informao
geogrfica no sempre compatvel aos
dados recolhidos por outros.
Apresentao do Problema
evidente que o aumento das possibilidades e circunstncias de gerao de
informaes ambientais pode trazer muitos ganhos, como a economia de recursos, ampliao
da capacidade de monitoramento e, consequentemente, o enriquecimento da base de
conhecimento.
Entretanto, necessrio controlar e organizar este novo vasto e heterogneo volume
de dados. Deve-se, por exemplo, avaliar o conjunto de dados disponveis em cada uma das
NIMBY um acrnimo ingls (de Not In My Back Yard, que significa "no em meu quintal", em portugus)
uma expresso usada por urbanistas e profissionais da rea norte-americanos, para descrever a oposio a
certos projetos polmicos ou que possam ser prejudiciais ao entorno (como construo ou expanso de
estruturas ou zonas tais como aeroportos, uma estrada movimentada, um grande centro comercial ou um aterro
sanitrio).
33
fontes de dados utilizadas, ou seja, compreender seus metadados6. preciso identificar, por
exemplo, para cada fonte, quem, onde, quando, em que situao o dado foi originado e,
principalmente, apresentar na forma mais clara e organizada possvel para que quem o
consuma disponha de melhores condies para determinar se este ou no til, e a
colaborao seja de fato efetiva para sua tomada de deciso.
Por exemplo, a identificao da procedncia da informao colaborativa7 (tipo de
fonte de comunicao, identificao e meios de contato com o responsvel pela informao)
imprescindvel. Ainda que no se julgue sua qualidade ou sua utilidade, preciso sinalizar
e diferenciar o que uma informao oficial (originados por agentes oficialmente envolvidos
na resposta) do que no . Muitas vezes, por mais que se preste a colaborar com a resposta
emergncia por boa f, um cidado pode envolver seus sentimentos e interesses pessoais a
fim de ser prioritariamente atendido, mesmo que seu apelo no seja a prioridade dentre
muitas outras que possam existir. Este indivduo est limitado apenas ao conhecimento de
seus problemas, enquanto a equipe de comando possui uma viso holstica do cenrio de
emergncia, alm de agir com imparcialidade e dispor de uma gama maior de informaes,
sendo, portanto, capaz decidir melhor a reais prioridades de atendimento.
Esta imprevisibilidade devido atuao de cidados como colaboradores pode
comprometer a eficcia do apoio resposta. Trata-se de uma tpica caracterstica de um
sistema complexo (MITCHELL, 2009) e que deve ser considerada e modelada em uma
soluo que se prope a apoiar a tomada de deciso baseada em informaes colaborativas.
Sob o ponto de vista tecnolgico, distintas fontes de informaes implicam em um
elevado grau de heterogeneidade envolvendo distintos conjuntos de dados e protocolos de
transmisso (BENBYA; MCKELVEY, 2006).
operao de cada uma dessas fontes e criar um protocolo comum de captura e organizao
dos dados, alm de ser capaz de se adaptar (outra propriedade dos sistemas complexos) ao
provvel futuro surgimento de novas tecnologias.
preciso analisar em cada informao coletada, por exemplo, se a gama de dados
disponvel suficientemente completa e clara para seu processamento e tambm para o
Metadado - dados que descrevem os dados, ou seja, so informaes teis para identificar, localizar,
compreender e gerenciar os dados. Quando documentamos os metadados e os disponibilizamos, estamos
enriquecendo a semntica do dado produzido, agregando seu significado real, e dando suporte atividade de
administrao de dados executada pelo produtor desse dado.
7
A informao colaborativa aquela gerada a partir da colaborao social.
34
Hiptese
Mecanismos de coleta e tratamento de informaes devem ser capazes de lidar com a
35
formatos de representao dos dados. Devem ainda ser capazes de se adaptar eventual
agregao de novas fontes de informaes ao sistema.
O estabelecimento de associaes entre informaes correlatas pode corroborar e
expandir o conhecimento sobre determinadas investigaes. Entretanto, tais associaes
podem tambm evidenciar conflitos, sendo necessrio criar mecanismos para detect-los e
resolv-los.
As situaes problemticas ilustradas atravs dos exemplos no final da seo anterior
esto diretamente relacionadas com atributos da qualidade da informao, como a
completude, atualidade, compatibilidade e clareza, conforme enumerados por Amaral (2003)
na seo 3.2. Desta forma, presume-se que a construo de uma abordagem de soluo que
atue na resoluo destes problemas, consequentemente implicar na melhoria da qualidade
da informao coletada.
1.6
Objetivos
1.6.1 Geral
Este trabalho tem por objetivo desenvolver uma arquitetura de coleta e tratamento de
informaes colaborativas, originadas a partir de fontes heterogneas.
A arquitetura
36
Fase de Prototipao
feedbacks
em
busca
de
complementariedade,
confirmao
ou
1.7
conhecimento contextual atual das equipes de comando a partir de uma vasta gama de
informaes relevantes ao contexto, hoje existentes, porm dispersas e no estruturadas,
especialmente diante de um cenrio catico, em constante transformao, onde a grande
demanda por decises pressionada por um curto espao de tempo.
37
da
complexidade
identificado
(adaptao,
imprevisibilidade,
dinamismo,
Contribuies da Tese
A tese busca contribuir com a concepo de uma arquitetura que considera os
38
Organizao do Trabalho
Este trabalho est organizado da seguinte forma:
O Captulo 2 aponta os principais fatores contribuintes para o aumento massivo do
39
40
41
por cento dos proprietrios acessam a Internet todos os dias atravs do dispositivo e setenta e
trs por cento nunca saem de casa sem ele.
A pesquisa tambm aponta que noventa e dois por cento dos usurios de smartphones
acessam as redes sociais, sendo cinquenta e oito por cento ao menos uma vez ao dia. Em
escala mundial, a adeso ainda maior, passando da faixa de cinquenta por cento da
populao de pases de primeiro mundo (vide Figura 2.1). A mdia mundial da populao
com acesso a smartphones de quarenta e cinco por cento.
Figura 2.1. Porcentagem da populao usuria de smartphones por pas. Fonte: OurMobilePlanet.com8
42
10
11
Twitter - http://www.twitter.com
Facebook http://www.facebook.com
43
12
13
http://irevolution.net/bio/
Flickr - http://www.flickr.com
44
Figura 2.2. Mashup de colaborao social atravs das redes sociais para o apoio a desastres (ESRI, 2013)
45
Figura 2.3. As redes sociais propagam informaes com rapidez: pouso de emergncia do avio da empresa US
Airways no Rio Hudson, em janeiro de 2009. Informao publicada apenas 10 minutos aps o pouso de
emergncia da aeronave. Fonte: Publicao no microblog Twitter do usurio Janis Krums14
Tal como ocorrido no caso apresentado acima, as redes sociais, munidas de interfaces
amigveis e prticas ao usurio, podem intermediar a colaborao entre cidados e equipes
envolvidas na resposta aos eventos emergenciais, e trazer ao comando da resposta uma viso
diferenciada, sob a tica do prprio cidado.
2.2 Colaborao nas Mdias Oficiais
Agncias de comunicao vm tambm se adaptando e adotando novos
procedimentos para aquisio de contedo e se beneficiando com a gerao de informao
atravs da colaborao social. Hoje, equipados com dispositivos mveis, jornalistas so
capazes de redigir e submeter notcias, enriquecidas por contedo multimdia (vdeos, fotos),
diretamente do local do evento para a redao, em tempo consideravelmente reduzido. A
tecnologia agora acessvel a qualquer cidado por um baixo custo torna-se uma importante
aliada para garantir o ineditismo de sua matria jornalstica.
Outra tendncia a respeito da gerao de informao por agncias de comunicao
o incentivo submisso de transmisses e documentaes de fatos importantes, praticamente
em tempo real, produzidos pelos prprios leitores colaboradores (HERAVI; MCGINNIS;
HERAVI et al., 2012). Neste caso, a colaborao ocorre com elevada frequncia, pois
ambas as partes envolvidas so beneficiadas:
14
http://twitpic.com/135xa
46
Figura 2.4. a) Portal VC NO G1: aproveitamento da colaborao comunitria para a divulgao de matrias
jornalsticas. Fonte: Globo.com15; b) Portal Digital Journal: utilizao de informaes obtidas a partir da
colaborao social para a publicao de notcias16
15
Portal VC no G1 - http://g1.globo.com/vc-no-g1/
Digital Journal - http://www.digitaljournal.com/
17
Ushahidi - http://www.ushahidi.com/
18
Ushahidi Haiti - http://www.ushahidi.com/2012/01/12/haiti-and-the-power-of-crowdsourcing/
16
47
No caso
48
total de 25.186 (alcanando o pico de 2.000 mensagens em um dia) mensagens SMS, e-mails
e comunicaes atravs de redes sociais, resultando em 3.596 registros considerados
suficientemente relevantes para serem mapeados na plataforma (HEINZELMAN, J.;
WATERS, 2010).
Notificaes sobre pessoas debaixo de escombros, emergncias mdicas e
necessidades especficas, tais como alimentos, gua e abrigo foram recebidos, tratados e
mapeados quase que em tempo real por um grupo internacional de voluntrios.
Segundo
19
http://www.state.gov/secretary/20092013clinton/rm/2010/01/135519.htm
49
Figura 2.5. Mapa de crise do projeto Ushahidi/Haiti: mapeamento categorizado sobre incidentes relevantes
submetidos pela populao haitiana aps o terremoto do Haiti (2010). Adaptado de Ushahidi20
2.4
Consideraes Complementares
Os exemplos concretos apresentados neste captulo evidenciam o quanto a
20
http://community.ushahidi.com/index.php/deployments/deployment/haiti-crisis-map
Crowdsourcing De acordo com o dicionrio Merriam-Webster o termo designa a prtica de obter os
servios necessrios, ideias ou contedo solicitando contribuies de um grande grupo de pessoas e,
especialmente, da comunidade on-line ao invs de empregados ou fornecedores tradicionais.
21
50
51
3 Sistemas Complexos
O termo complexidade vem do latim, complexus, que significa entrelaado ou
torcido junto.
Se um determinado
domnio complexo ele ser, por definio, resistente anlise (FILHO, 2003a).
Como praxe, a metodologia normalmente adotada no estudo de um fenmeno natural
consiste em analis-lo por etapas, dividindo-o em partes menores e investigando-se cada
uma delas isoladamente. No caso especfico de sistemas lineares, em que o desempenho do
todo a superposio dos efeitos de cada uma de suas partes formadoras, o estudo em
separado suficiente para uma avaliao global do sistema.
Entretanto, a estratgia anterior torna-se inoperante nos casos em que o
comportamento global do sistema marcadamente distinto daquele obtido considerando-se
unicamente a soma de suas partes, ou ignorando a influncia recproca de seus elementos
constituintes. Assim, em razo de seu comportamento acentuadamente sistmico, as
propriedades destes sistemas s podem ser identificadas durante o seu comportamento
coletivo. Tais sistemas so, por conseguinte, denominados complexos (FILHO, 2003b).
A conscincia da existncia de fenmenos que no podem ser reduzidos s suas
partes em separado conduziu ao holismo, que pode ser visto como uma corrente de
pensamento oposta ao reducionismo. O holismo (do grego holos que significa inteiro ou
todo) a ideia de que as propriedades de um sistema no podem ser explicadas apenas pela
soma dos seus componentes, seja se tratando de seres humanos ou outros organismos. O
sistema como um todo determina como se comportam as partes.
Segundo Ferreira (2013), o holismo expressa a teoria segundo a qual o homem um
todo indivisvel, e que no pode ser explicado pelos seus distintos componentes (fsico,
52
Tais
53
pela interao entre partes); criticalidade auto-organizada (estado crtico, na fronteira entre a
ordem e o caos, em que a mais leve perturbao pode causar uma reao em cadeia; por
exemplo, um simples floco de neve desencadeando uma avalanche); estrutura fractal
(formatos que no se tornam mais simples quando observados em escalas cada vez menores).
A Figura 3.1 ilustra a dinmica das transformaes ocorrentes em um sistema
complexo adaptativo - o meio ambiente: cidados so entidades constituintes do meio
ambiente que exercem interaes interpessoais e tambm com as demais entidades presentes
em seu meio, de modo a deflagrar eventos modificadores e causar contnuas transformaes
(evolues) no ambiente no qual esto inseridos.
Figura 3.1. Identificao de elementos e interaes de um sistema complexo adaptativo: o meio ambiente
As
54
Neste
22
Operador dialgico - H contradies que no podem ser resolvidas. Isso significa que existem opostos que
so ao mesmo tempo antagnicos e complementares. (MARIOTTI, 2010, p. 150).
55
As partes, conectadas por uma rede de relaes, geram conjuntamente uma unidade
coletiva comumente chamada sistema. Molcula, clula, ecossistema, cidade, colnia de
formigas, crebro, computador, ser humano, cidade podem ser considerados como um
sistema ou unidade coletiva. Cada sistema possui suas regras internas. Ao inserir um novo
elemento, este passa a estar sujeito s leis prprias desse sistema (PRADO, 2011). Um
estrangeiro, ao entrar em um pas, fica sujeito s leis da jurisdio deste pas. Uma protena,
ao ser absorvida por uma clula fica sujeita dinmica da clula e assim por diante.
Em sistemas colaborativos que apoiam a resposta a emergncias, as entidades
geradoras de informaes (equipes de campo, cidados, mdia, agncias de governo) so
partes conectadas com a comunidade consumidora (equipes de comando e controle, gestores
polticos). Todo dilogo (interao) conecta sempre um emissor com um ou mais receptores
por meio da comunicao.
56
57
58
3.1.5 Feedback
Uma estrutura de feedback um lao causal, uma cadeia de causas e efeitos que
forma um anel. Dentre essas estruturas, a mais simples o feedback de reforo, tambm
conhecido como efeito bola-de-neve ou ciclo vicioso. A principal caracterstica do
feedback de reforo ser auto-amplificador. Quanto mais complexo um sistema (seres
vivos, por exemplo) maior o nmero de estruturas de feedback que apresenta. Tem sido
observado que sistemas que apresentam feedback tendem a desenvolver propriedades
completamente novas. Este fenmeno denomina-se emergncia e as novas propriedades
do sistema so ditas propriedades emergentes (PALAZZO, 1999).
No contexto de informao colaborativa para apoio a emergncias, os feedbacks de
reforo so mecanismos teis ao analista de informaes para requisitar aos cidados
colaboradores e agentes de campo a complementao de eventuais informaes incompletas,
atualizadas e/ou passveis de confirmao, promovendo, consequentemente, a evoluo e o
enriquecimento da base de conhecimento contextual (Figura 3.3).
Figura 3.3. Evoluo da base de conhecimento contextual atravs de ciclos de feedbacks de reforo
3.1.6 Imprevisibilidade
Segundo Mitchell (2009), possvel identificar que um ambiente complexo
formado por diversos tipos de agentes os quais interagem entre si de uma maneira no
previsvel. H um controle central moderado usando regras simples de operao que do
origem a um comportamento complexo. As informaes so trocadas de diferentes formas e
se adaptam evoluo da situao.
Conforme j observado na subseo 3.1.3, em situaes de crise, comandantes das
frentes de resposta precisam tomar decises em meio a um ambiente de tenso, incertezas e
59
Adicionalmente, a
60
arquitetura de uma soluo integradora precisa lidar com a heterogeneidade das fontes,
identificando e propondo solues especficas a cada uma de suas particularidades, como: a
escassez de informao, anonimato do informante, alm dos diferentes conjuntos, estruturas
e protocolos de acesso aos dados relativos a cada meio de informao.
Alm disso, a heterogeneidade tambm se faz presente na forma da apresentao do
contedo informativo como, por exemplo, em casos da presena de multilinguismo (Figura
3.4c). Desastres de grandes propores podem demandar a ajuda internacional. Nestes
casos, o idioma nativo local pode ser diferente do idioma de comunicao adotado pelas
equipes de resposta internacional (geralmente o ingls). Heizelman e Waters (2010) relatam
desafios de multilinguismo enfrentados no tratamento da informao colaborativa durante o
apoio humanitrio ao terremoto ocorrido no Haiti, em 2010.
61
As questes levantadas neste captulo abordam alguns dos requisitos que devem ser
identificados e abordados no processamento de informaes provenientes de fontes
heterogneas. Tais requisitos sero enumerados atravs de um diagnstico preliminar sobre
diferentes tipos de fontes de informaes, e suas respectivas solues sero propostas e
experimentadas no prosseguimento deste trabalho.
3.2
1
X
X
X
2
X
X
X
X
X
X
X
3
X
X
X
X
X
X
X
X
4
X
X
X
5
X
X
X
X
X
X
X
X
X
X
X
X
X
X
7
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
6
X
X
X
X
Referncia
9 10 11 12 13 14 15 16 17 18
X X X X X X X X X
X
X
X X X X X X
X X X
X X X X
X
X X X X X
X X X
X
X X
X
X
X X
X
X
X X
X
X
X X X
X
X
X X X
X
X
X X
X X
X
X
X X
X
X X
X
X X
X
X
X
X X
8
X
X
X
X
Total
17
14
14
10
9
9
8
8
7
6
6
5
5
5
5
4
4
4
4
62
23
CENACID/UFPR - http://www.cenacid.ufpr.br
Relatrio da misso disponvel em http://www.cenacid.ufpr.br/morretes1000/
25
LAGEOP/UFRJ - http:// www.lageop.ufrj.br
24
63
Em outras
26
64
um sistema complexo, bem como algumas de suas propriedades. A Unidade Coletiva, por
exemplo, exprime a necessidade de analisar a qualidade da informao de maneira que suas
dimenses (ou atributos) estejam sempre correlacionadas.
Ao analisar isoladamente as
65
Consideraes Complementares
Este captulo se dedicou a uma compilao sobre a conceituao dos sistemas
66
Nvel de estruturao dos dados: a informao pode ser destrinchada sob uma
estrutura padronizada?
67
68
Quadro 4.1. Caracterizao de distintas fontes de informao colaborativa segundo aspectos de disponibilidade e estrutura de dados, formatao, frequncia de publicao e
confiabilidade do emissor
FONTE
ASPECTO
Disponibilidade
de
Dados
* opcional
SMS
Chamada Telefnica
Data/Hora
contato
Telefone emissor
Data/Hora envio
Nome emissor*
Telefone emissor
Local Evento
Mensagem
Formulrio
estruturado prdefinido
Sensor Ambiental
Data/Hora envio
E-mail emissor
Nome emissor
Assunto
Mensagem
Arquivos anexos
Data/Hora aferio
Localizao
Parmetro(s)
monitorado(s)
Valor(es)
do(s)
parmetro(s)
monitorado(s)
Alto
Alto
Para
cada
Atendente pode Baixo
Baixo
parmetro
Nvel de
cadastrar
Texto livre Texto livre
monitorado(s) h
Estruturao
informao
em
identificao de
identificao de
especificao
dos Dados
formulrios
atributos
atributos
tcnica
e
estruturados prdificultada
dificultada
protocolos para
definidos
leitura dos dados
Cidade/regio Cidade,
poucos
Cidade/regio
DDD
casos, pelo IP
Sensores
DDD
Pode
ser Pode
ser
estticos:
Extrao da
Nome
da
informado
no
informado
no
localizao
Localizao e
localidade pode
corpo
da
corpo
da
precisa e fixa
Georreferenciaser
informado
mensagem
mensagem
Sensores mveis:
mento
pelo
emissor Erros de digitao Erros de digitao
podem informar
durante
a
ou
abreviaes
ou
abreviaes
posio corrente
chamada
dificulta extrao
dificulta extrao
em cada leitura
automatizada
automatizada
Redes Sociais
Data/Hora envio
Localizao*
Apelido emissor
Mensagem
Multimdia*
URL*
Agente de Campo
Data/Hora
Nome agente
Mensagem
Formulrio
estruturado prdefinido
Alto
Baixo
Organizado
em
Texto livre
formulrios pridentificao de
estruturados
atributos
segundo
dificultada
vocabulrios de
domnio
Localizao
Localizao
precisa
precisa quando
Usurio habilita
munidos
de
Posio usurio
dispositivos GPS
pode diferir do
integrados a seus
local do evento
dispositivos
de
Extrao por Proc.
cadastro
de
Ling. Natural do
informaes (hoje
texto apresenta
comum)
baixa eficincia
69
FONTE
ASPECTO
Chamada Telefnica
Limite de
Caracteres e
Apresentao
do Contedo
No h limite de
caracteres
Receptor
pode
filtrar apenas o
que relevante
da conversa com
o emissor
Necessita atuao
humana
(atendente) para
cadastrar o relato
Informao
Complementar
(arquivos,
multimdia)
No h
Frequncia de
Colaborao
SMS
Sensor Ambiental
Redes Sociais
Agente de Campo
Twitter - Limite de
Espao limitado
caracteres (140
(160 caracteres)
Informao
No h limite de Informao
chars) conciso
por mensagem
precisa, objetiva,
caracteres
por
estruturada
versus qualidade
Pode segmentar a
j filtrada pelo
mensagem
Apenas valores de
da descrio
informao
em
agente de campo
Apresentao em
parmetros pr- Abreviaes: kd,
vrias mensagens
Geralmente
formato
HTML
definidos
vc, tc dificultam
Dificuldade
de
estruturada
permite uso de Estrutura
da Demais redes no
digitao
pode
segundo
recursos grficos
mensagem prtm limite de
inibir a escrita e
formulrios
avanados para
definida
caracteres
comprometer
objetivos
melhor
(protocolo para Tags auxiliam a
qualidade
da
proposta
da
apresentao
leitura)
classificao e a
informao
misso de campo
identificao do
(abreviaes)
tema abordado
SMS - Indisponvel
MMS - Fotos, Vdeos
e udios
URLs, Qualquer
arquivo digital
Multimdia
(quando sensores
audiovisuais)
URLs, Multimdia
(fotos, udios e
vdeos)
Qualquer arquivo
digital
Por
demanda
(custos e alocao
Imprevisvel
Imprevisvel
Imprevisvel
Imprevisvel
Definida
pelo
de pessoal)
Mais frequente Mais frequente Mais frequente
Mais frequente
usurio
Incurses
prximo data de
prximo data de
prximo data de
prximo data de
No
requer
definidas
de
ocorrncia
do
ocorrncia
do
ocorrncia
do
ocorrncia
do
esforo humano
acordo com a
evento
evento
evento
evento
necessidade do
Comando
70
FONTE
ASPECTO
Chamada Telefnica
SMS
Comunicao
Dependente de
Dependente de
rede
telefnica
rede
telefnica
fixa ou mvel
mvel operante
operante
Confiabilidade
da Fonte
Mdia
Expe
a
informao
do
nmero
telefnico
do
emissor
Pode retornar o
contato telefnico
para buscar mais
detalhes
Mdia
Possvel requisitar
durante
a
chamada
Annima
em
alguns casos. Ex.:
denncias
Desfavorvel
E-Mail
Dependente de
disponibilidade de
Internet
Geralmente opera
sobre
rede
telefnica fixa ou
mvel
Possibilidade de
operar
sobre
outras tecnologias
(satlite, rdio)
Baixa
No se conhece
nenhum detalhe
pessoal acerca do
contato
A partir do e-mail
possvel buscar
o perfil em outras
fontes da Internet
Conta pode ser
falsa/recente
Sensor Ambiental
Redes Sociais
Agente de Campo
Dependente de Dependente de
disponibilidade de
disponibilidade de
Internet
Internet
Independe
de
Geralmente opera Geralmente opera
infraestrutura de
sobre
rede
sobre
rede
rede
de
telefnica fixa ou
telefnica fixa ou
telefonia/Internet
mvel
mvel
Comunicao por
Possibilidade de Possibilidade de
rdio/pessoal
operar
sobre
operar
sobre
(alcance limitado)
outras tecnologias
outras tecnologias
(satlite, rdio)
(satlite, rdio)
Baixa
Alta
Perfil pode ajudar
Equipamento
a verificar sua
calibrado
reputao: tempo
Seus
dados
na rede, posts,
representam
rede
de
leituras
relacionamento,
instantneas
e
localidade, etc.
precisas
do
Perfil pode ser
ambiente
falso/recente
Razovel
Alta
Agentes oficiais
Pressupe-se alto
grau
de
confiabilidade
Sujeitos a erros
humanos: escrita,
leitura,
inexperincia,
fadiga
Favorvel
71
72
Ainda com relao ao conjunto de dados disponibilizados por mensagens atravs das
redes sociais, as tags27, eventualmente inseridas pelo autor da publicao, representam
palavras-chave que podem auxiliar na classificao com relao ao assunto tratado no corpo
da mensagem e/ou contedo multimdia.
Nos e-mails, a interpretao do campo assunto - preenchido pelo emissor com a
finalidade de representar um indicativo sobre o tema tratado na mensagem - pode apontar
mais facilmente a classificao temtica da mensagem recebida.
Os dispositivos de sensoriamento remoto basicamente disponibilizam a data, hora e
o valor do(s) parmetro(s) monitorado(s), informao suficiente para o propsito de sua
atividade. Em se tratando de sensores estticos, a informao da localizao espacial pode
ser registrada no momento de sua instalao no ambiente monitorado. Para sensores de
posicionamento dinmico, sua posio corrente poder ser obtida em tempo real, a cada nova
leitura de dados.
Agentes de campo podem disponibilizar dados de acordo com a necessidade da
aquisio. Com relao aos colaboradores oficialmente envolvidos na resposta emergncia
(equipes de campo), suas atividades de coleta de dados so demandadas de acordo com as
necessidades da equipe de comando. Sendo assim, alm das informaes pessoais do agente,
data e hora da coleta, o conjunto de dados disponveis varia em funo do setor de sua
atividade de resposta (sade, segurana, infraestrutura, logstica, etc.).
Podem ser
27
Tags corresponde a um conjunto de palavras-chave atribudas por usurios, a contedos publicados na web
(textos, imagens, vdeos, etc.). A atribuio de tags cria estruturas classificatrias que aumentam o
desempenho dos mecanismos automatizados de busca e recuperao (VOSS, 2007).
73
representam campos livres, no estruturados e podem apresentar qualquer tipo de contedo,
sem um padro de escrita definido e at mesmo com erros de ortografia.
Existem hoje propostas de estruturao de contedo em microblogs atravs da
anotao semntica, como o Semantic MicroBlogging (SMOB)28 (PASSANT et al., 2010).
Entretanto, para viabilizar a ideia necessrio que usurios publiquem atravs de uma
interface personalizada, que possibilite a anotao semntica do contedo medida que vo
digitando o texto de sua publicao. Alm disso, requer o domnio e a promoo de uma
campanha pela adeso de uma nova ferramenta, esbarrando na resistncia diante da
praticidade e agilidade oferecida pelas aplicaes originais das redes sociais mais populares.
Sensores ambientais apresentam alto nvel de estruturao de dados. Os dados
registrados por estes dispositivos representam leituras do ambiente segundo parmetros
previamente definidos por seus proprietrios. Uma vez calibrados, os valores registrados
estaro sempre dentro de um intervalo conhecido pelo consumidor do dado. Por exemplo,
para sensores de temperatura de um ambiente externo, o sensor registrar sempre valores
referentes temperatura corrente do ambiente monitorado, segundo a escala definida durante
a calibrao (graus Celsius, Farenheit, Kelvin ou uma escala arbitrria).
Agentes de campo tambm podem trabalhar com alto nvel de estruturao de dados,
atravs do preenchimento de formulrios contendo campos previamente estruturados pelo
consumidor da informao (MARINO et al., 2012). Desta maneira todos os agentes oficiais
espalhados em atividades de campos trabalham de forma estruturada e padronizada (Figura
4.1), facilitando a triagem dos dados capturados, atendendo objetivamente s necessidades
das equipes de gesto da informao e, consequentemente, aumentando a efetividade da
colaborao.
28
74
Figura 4.1. (a) Avaliaes de deslizamentos por equipes de campo em Terespolis RJ; (b) Plataforma de
coleta e envio remoto de dados estruturados em formulrios eletrnicos atravs dispositivos mveis (MARINO
et al., 2012)
4.3
capazes de determinar a localizao corrente do usurio com exatido mtrica. Outro ponto
positivo que o sistema GPS autnomo, ou seja, independe da disponibilidade de sinal de
telefonia mvel para operar normalmente.
No caso de contatos telefnicos, a extrao automatizada da localizao da origem
da chamada, apesar de tecnicamente possvel, no pode ser publicada por motivos bvios de
preservao da privacidade do informante. Uma consulta na base de clientes das operadoras
telefnicas possibilita a identificao do endereo de instalao de cada terminal fixo. Por
meio da aplicao de ferramentas de geocodificao30 possvel converter o endereo de
porta do assinante em suas respectivas coordenadas geogrficas, com razovel preciso.
No caso das chamadas provenientes de dispositivos celulares, a operadora pode
determinar o posicionamento corrente do assinante atravs de tcnicas de triangulao da
29
http://www.iplocation.net/
Geocodificao o processo de converso de endereos (como "1600 Amphitheatre Parkway, Mountain
View, CA") em coordenadas geogrficas (como latitude 37.423021 e longitude -122.083739. Fonte: Google
Maps API - https://developers.google.com/maps/documentation/geocoding/?hl=pt-br#Geocoding
30
75
intensidade do sinal emitido pelo dispositivo mvel e recebido pelas estaes rdio-base
(ENEH JOY NNENNA, 2012).
Todavia, apesar da determinao da localidade de origem de um contato telefnico
ser tecnicamente possvel, existem questes de privacidade que devem ser respeitadas. A
privacidade do informante deve ser preservada de acordo com seu desejo e, sendo assim, sua
localizao pode ser divulgada apenas sob seu consentimento.
31
76
Figura 4.2. Atributos de uma publicao da rede social Twitter: destaque da informao das coordenadas
geogrficas do local corrente do emissor no momento da publicao
importante perceber que duas posies geogrficas distintas podem estar associadas a esta
mensagem: 1) a localidade do usurio no momento da publicao da mensagem; 2) e a
localidade do evento ao qual o emissor se refere em sua publicao.
Em condies ideais estas duas posies se equivalem, ou seja, quando o emissor
publica a informao diretamente da localidade do evento ao qual o mesmo se refere. Porm,
h ocasies em que a localidade de origem da publicao no coincide com a localidade a
qual a informao se refere.
77
redes sociais mais populares, no microblog Twitter apenas 1% das publicaes
disponibilizam a informao da geolocalizao do usurio. Alm disso, para esta pequena
parcela, esta informao sempre se refere posio do usurio no momento de sua
publicao, muitas vezes diferente da localidade a qual a mensagem se refere (aquela que de
fato importa para a emergncia).
Os casos exemplificados a seguir ilustram circunstncias que ocasionam tal fato:
Figura 4.3. Diferena entre a localizao geogrfica corrente do informante e o evento ao qual ele se refere em
uma informao colaborativa publicada atravs de uma rede social
78
A rede social Facebook oferece uma interface simples e objetiva para que o usurio
atribua uma localidade geogrfica a sua publicao. Neste caso, diferentemente do microblog
Twitter, a informao da localidade adquirida no conjunto de dados da publicao se refere
exatamente ao objeto do assunto, conforme pode ser verificado no exemplo ilustrado pela
Figura 4.4.
Figura 4.4. Insero da informao da localidade do evento relatado em uma publicao na rede social
Facebook34
colocado com relao s redes sociais, o equvoco gerado pela diferena entre a localidade
da publicao e a localidade do evento descrito no dever ocorrer, uma vez que os agentes
devem ser instrudos a coletar as coordenadas no momento em que esto analisando e
coletando informao no local de interesse.
Para contatos originados por e-mail, ferramentas gratuitas disponveis na web
viabilizam a identificao da localizao do emissor a partir do IP registrado no cabealho da
mensagem.
34
https://www.facebook.com/about/location
79
conforme o exemplo a seguir. Uma mensagem enviada por um usurio localizado no Brasil,
atravs do navegador web, a partir de uma conta do provedor Gmail35, agrega no cabealho
da mensagem o IP dos servidores da empresa Google, em San Jos Califrnia EUA. A
Figura 4.5 apresenta o resultado do exemplo citado.
Figura 4.5. Teste de localizao do emissor do e-mail a partir do IP do cabealho da mensagem na ferramenta
WolframAlpha36
35
36
80
4.4
81
caracteres. A partir de anlises sobre o comportamento dos usurios da rede social Twitter
durante distintos eventos emergenciais ocorridos nos Estados Unidos, Hughes e Palen (2009)
verificaram em suas amostras que 50% das mensagens verificadas continham URLs com a
funo de complementar a informao. Diante desta constatao as pesquisadoras concluem
que as emergncias apresentam altas demandas por informaes que no podem ser
expressas por apenas 140 caracteres.
Mesmo quando no limitados quantidade de caracteres nas inmeras demais redes
sociais, seus usurios so envolvidos por um ambiente de conciso e informalidade. Por isso
tendem naturalmente a escrever de modo coloquial e sem riqueza de detalhes, o que acaba
empobrecendo e comprometendo a qualidade informao. Por um lado, existe um ganho em
termos de rapidez e atualizao da informao. Por outro, a informao deficiente no que
diz respeito a sua clareza, estruturao e completude.
A mesma ateno deve ser tomada com relao s mensagens oriundas do servio
SMS, que limita ao usurio apenas em 160 caracteres.
82
No que tange os meios de comunicao caracterizados pelo baixo nvel de
estruturao, elevado grau de coloquialismo e alta frequncia de paralinguismos (como o email, SMS e as redes sociais), a aplicao de mtodos de anlise de sentimentos pode apoiar
a compreenso do humor e emoo do emissor em sua publicao.
No cenrio de
Frequncia de Colaborao
Segundo Gouveia, Cristina e Fonseca (2008), o nvel de comprometimento voluntrio
83
colaborativa proporcional data da deflagrao da crise, sendo mais efetiva especialmente
nas duas primeiras semanas.
No caso dos sensores ambientais, a frequncia de atualizao pode ser configurada
remotamente pelo consumidor da informao. Outra vantagem que o monitoramento
dispensa a ao humana, e consequentemente, reduzindo a margem de erro das aferies,
dispensando gastos com treinamento, mobilizao pessoal e polticas de incentivo e
recompensa ao trabalho realizado, alm de estender sua capacidade a monitorar locais
inabitveis, como reas de altitudes ou temperaturas extremas e alta radioatividade.
Com relao aos agentes oficiais de campo, a frequncia de colaborao regulada
de acordo com a necessidade da equipe de comando. Porm, neste caso, diferentemente dos
sensores ambientais, demanda esforos humanos, dispndio de tempo e dinheiro em
treinamentos e deslocamento de equipe, alm da atuao ser restringida sua capacidade de
acessibilidade. Por outro lado, o raciocnio humano prov ao agente a capacidade de realizar
tarefas mais complexas do que os sensores, sendo estes ltimos, ideais para monitoramentos
repetitivos, de longa durao e em locais de difcil acesso.
4.7
Comunicao
Conforme abordado na motivao de trabalho (subseo 1.3), diante de cenrios de
37
84
reestruturao e manuteno emergencial dos servios primordiais sociedade: logstica,
nutrio, abrigos de emergncia, gerenciamento e coordenao de campo, sade, proteo,
agricultura, telecomunicao, recuperao rpida, educao e gua e saneamento (OCHA,
2012).
Especificamente no grupo das telecomunicaes, a UNDAC conta com parceiros
como a Organizao No Governamental francesa Telecoms sans Frontires (TSF)38. A
Organizao mobiliza recursos materiais e humanos para o estabelecimento e a manuteno
de uma rede comunicao provisria no local, at que a normalidade seja reestabelecida.
Em um caso real, durante a fase de recuperao aos deslizamentos na regio serrana
do Rio de Janeiro, em 2011, a companhia concessionria de telefonia fixa e mvel local
distribuiu cartes SIM (Subscriber Identity Module) para aparelhos celulares e habilitou
todos os terminais de utilizao pblica da regio (populares orelhes) a realizarem
chamadas gratuitas para terminais fixos e celulares daquela mesma companhia, enquanto a
condio de normalidade no fosse reestabelecida. A iniciativa facilitou a comunicao
entre a populao envolvida no desastre, que buscava notcias sobre a localizao e as
condies de seus entes prximos.
Logicamente que uma soluo embasada na colaborao atravs de meios de
comunicao necessita do pleno funcionamento destes servios para que o trfego dos dados
seja possvel. Mesmo assim, verifica-se que, dada importncia das comunicaes para a
sociedade e as equipes de reposta crise, mesmo quando os danos causados sobre a rede so
de grande magnitude, muitos esforos so dedicados ao gil reestabelecimento e sua
manuteno durante a fase de resposta.
4.8
Confiabilidade da Fonte
Quando a colaborao se origina a partir de um contato telefnico, o carter de
38
85
Contudo, exemplos de casos como o Disque-Denncia (2014) e Munro (2013)
demonstram que iniciativas de prestao de informaes a partir de contatos telefnicos
(considerando tambm as mensagens SMS) evidenciam um alto grau de confiabilidade. A
iniciativa de um cidado expor seu nmero de telefone, algo pessoal, indica uma atitude
deliberada de cooperao atravs da prestao de uma informao verdadeira. Portanto,
mesmo isento de uma investigao mais minuciosa sobre a origem e reputao do
informante, pode-se sugerir um razovel grau de confiabilidade pela informao prestada
quando originada a partir de um destes dois meios de comunicao.
Com relao s redes sociais, o perfil descritivo do usurio pode ser til para a
anlise de sua reputao, como dados sobre a sua localidade de origem, data de cadastro na
plataforma, quantidade de publicaes, rede de relacionamentos, histrico de atividades e
interaes com outros usurios da rede.
Assumindo que os procedimentos de instalao e calibragem de sensores ambientais
ocorram de forma adequada, sua confiabilidade considerada alta, por tratar-se de
dispositivos automatizados que realizam leituras do ambiente com elevado grau de preciso
e margem de erro controlada.
Agentes de campo so colaboradores oficialmente treinados e exclusivamente
dedicados. Para estes profissionais pressupe-se elevado grau de confiabilidade com relao
credibilidade dos dados por estes coletados. Contudo, tais indivduos ainda esto sujeitos a
eventuais erros de interpretao inerentes ao envolvimento do fator humano, como a fadiga,
inexperincia, erros de escrita ou leitura, alm de imprecises resultantes da subjetividade de
suas anlises qualitativas.
4.9
Consideraes Complementares
Este captulo apresentou um diagnstico sobre as caractersticas e limitaes
86
5 Trabalhos Relacionados
Cada vez mais grupos e fruns vm trabalhando e promovendo discusses
sistemticas acerca da importncia dos sistemas colaborativos para apoio a emergncias e
como a evoluo tecnolgica pode contribuir para a interao e a explorao da participao
social nas polticas pblicas.
Alguns exemplos destas iniciativas so: CSCWD39 - Conference on Computer
Supported Cooperative Work in Design, CRIWG40 - Conference on Collaboration and
Technology, CSCW41 - Computer-Supported Cooperative Work, SMILE42 - Workshop on
Social Media and Linked Data for Emergency Response, ISCRAM43 - International
Conference on Information Systems for Crisis Response and Management.
Com base nestas iniciativas, este captulo relata os produtos da pesquisa na literatura
sobre o estado da arte, em busca de abordagens que promovam a investigao e solues
relativas s demandas e os desafios envolvidos na captura e no tratamento de informaes
para o apoio deciso no contexto de emergncias.
5.1 Quadro Sntese da Pesquisa ao Estado da Arte
O Quadro 5.1 apresenta o conjunto de referncias bibliogrficas mais relevantes,
levantado atravs da pesquisa relativa ao estado da arte, relacionando-as com os tipos de
fontes de informaes examinados. O quadro tambm aponta quais aspectos relacionados ao
tratamento da informao gerada em situaes de emergncia (apresentados no Captulo 4)
foram abordados por cada autor.
39
CSCWD - http://www.cscwd.org/
CRIWG - http://www.criwg.org/
41
CSCW - http://cscw.acm.org/
42
SMILE - http://linkedscience.org/events/smile2014/
43
ISCRAM - http://www.iscramlive.org/
40
87
Quadro 5.1. Fontes de informao e aspectos relacionados ao tratamento da informao colaborativa abordados pelas principais referncias de apoio consultadas
Referncia
SOS (2008)
DISQUE-DENNCIA (2014)
Fontes de Informao
Contato
Telefone
SMS
X
X
X
X
Redes
Sociais
HEINZELMAN e WATERS
(2010)
X
X
X
X
X
Classificao
X
X
X
HOWARD (2013)
FININ et al. (2010)
TANG et al. (2011)
CORDEIRO et al. (2011)
Frequncia
Colaborao
Confiabilidade
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
Interoperabi
lidade
X
X
X
X
X
X
X
X
CHARIKAR (2002)
AGGARWAL e ZHAI (2012)
Agrupamento
Traduo
Geolocalizao
MARINO, NASCIMENTO e
BORGES (2012)
Agente Estruturao
Sensor
Campo
de Dados
X
X
X
X
X
X
X
X
X
X
X
X
X
X
88
O Quadro 5.1 evidencia um maior volume de abordagens que atuam sobre as redes
sociais frente s demais fontes de informaes.
89
A agncia aponta alguns fatos que contriburam positivamente para a reduo do
tempo de resposta a um chamado:
1) Desenvolvimento da capacidade de localizar a origem de cada chamada mvel. No
ano de 2007, uma parceria com operadoras de telecomunicaes possibilitou a
determinao da posio geogrfica de qualquer chamada mvel dentro do pas.
Quando uma chamada telefnica celular atendida pela central (o que representa
70% das origens dos contatos), um servio automtico imediatamente solicita uma
requisio a todas as operadoras locais, informando o nmero do terminal mvel
como parmetro.
O nmero de
90
em situaes de emergncias. Internamente a agncia introduziu um nmero nacional de
informao para filtrar e aliviar a presso sobre chamadas no emergenciais ao servio 112.
Uma iniciativa bem sucedida de colaborao vigente no Brasil o DisqueDenncia44, um servio voltado para denncia atravs de contatos telefnicos, a partir da
informao prestada pelo cidado. Com respeito premiao por colaboraes efetivas, a
eficincia do Disque Denncia impulsionada por polticas de recompensas a informaes
que comprovadamente resultem no sucesso do objeto de investigao.
Ao longo de 17 anos de existncia foram 1,8 milhes de denncias atravs do canal.
O recorde dirio registrado pelo servio desde sua criao foi de 1.136 denncias em apenas
um dia, em 26 de novembro de 2011, quando as foras policiais ocupavam a comunidade do
Complexo do Alemo, na cidade do Rio de Janeiro (DISQUE-DENNCIA, 2014).
Marino, Nascimento e Borges (2012) apresentam um estudo de caso aplicado a
avaliaes de riscos iminentes e danos causados por deslizamentos de terra, decorrentes de
um longo e intenso perodo de chuvas ocorridas na regio serrana do estado do Rio de
Janeiro, em janeiro de 2011. O trabalho apresenta a plataforma computacional Vigilncia e
Controle - Vicon/SAGA45, um Sistema de Informao Geogrfica (SIG) que apoia a coleta
e o gerenciamento de informaes em respostas a emergncias.
A plataforma viabiliza o registro de dados gerados durante vistorias de campo atravs
do preenchimento de formulrios estruturados, personalizados para diferentes classes de
informao (exemplo: avaliao de deslizamento de terra, pessoa resgatada, estrada
bloqueada). Para cada registro possvel tambm anexar imagens, vdeos e qualquer outro
arquivo digital, conforme ilustrado na Figura 5.1.
44
45
91
Figura 5.1. Plataforma Vicon/SAGA: mdulo autnomo de entrada de dados por meio de dispositivos mveis
(MARINO et al., 2012)
92
Figura 5.2. Linha do tempo referente ao perodo de coleta de mensagens e ocorrncia dos eventos monitorados
por Hugues e Palen. Adaptado de Hugues e Palen (2009)
93
sociedade. A quantidade de tweets coletados para os eventos dos furaces foi
consideravelmente maior do que as publicaes relativas s convenes. A espacializao
das publicaes coletadas aponta um significativo aumento do volume de publicaes dentro
das regies diretamente atingidas pelos furaces, enquanto as convenes proporcionaram
um impacto mais focalizado no entorno das cidades que sediaram tais eventos.
Heinzelman e Waters (2010) relatam alguns benefcios e desafios resultantes do uso
da plataforma Ushahidi (introduzida na subseo 2.3) na fase de resposta ao terremoto
ocorrido no Haiti, em janeiro de 2010. A iniciativa propiciou a cooperao entre haitianos e
as organizaes envolvidas na resposta da emergncia, culminando no envolvimento dos
cidados locais no processo de deciso.
Segundo o relatrio, os desafios mais significativos ocorreram na verificao e
triagem do grande volume de mensagens colaborativas e solicitaes de ajuda recebidas
pelos canais de colaborao estabelecidos com a populao afetada pelo desastre.
94
95
retorno para solicitar diretamente ao informante uma eventual complementao ou
confirmao da informao, simplesmente respondendo ao SMS recebido.
Durante a
resposta ao desastre, graas a acordos firmados com as empresas de telefonia mvel local,
mensagens SMS enviadas ao nmero de atendimento Ushahidi eram gratuitas.
Como identificar rapidamente informaes imprecisas, tendenciosas ou incompletas?
Estes so alguns desafios perseguidos pela equipe Ushahidi em busca de um processamento
mais rpido e eficiente. A partir da experincia adquirida e motivados pela melhoria da
eficincia da colaborao social durante respostas a emergncias, sua equipe de
colaboradores prope algumas medidas como:
1) Criao de redes de informantes de confiana: relatrios podem ser
automaticamente processados, quando recebidos a partir de uma fonte confivel
(como o caso das equipes de campo). Informaes provenientes da colaborao
social podem ser comparadas com informaes confiveis (fontes oficiais e relatrios
j validados).
2) Treinamento de voluntrios: treinamento de grupos de voluntrios comunitrios
para a gerao de informaes completas e acuradas durante situaes de crises, alm
de atuarem como verificadores, demandando pelas equipes de comando. A exemplo
dos agentes das equipes de campo, esses cidados podem atuar como validadores de
informaes, aumentando desta maneira a rede de informantes confiveis.
Os desafios relatados e as medidas propostas pelos autores so pertinentes ao
conjunto de requisitos envolvidos na problemtica desta pesquisa. Reforam ainda mais a
necessidade da criao de mecanismos de feedbacks que viabilizem a comunicao de
retorno para fins de distribuio de demandas e confirmaes aos colaboradores (oficiais e
no oficiais).
Os mecanismos de identificao e agrupamento por similaridade tambm so
fundamentais para o aumento da completude, uma vez que pode congregar diferentes
pedaos de informao sobre uma mesma histria. Os agrupamentos podem tambm apoiar
a validao de cada nova informao colaborativa, ao compar-la com informaes
correlatas j validadas e/ou provenientes das redes de informantes de confiana.
Alm disso, necessrio sinalizar a provenincia e o estgio de validao de cada
informao durante seu processamento, de maneira que o sistema disponha das melhores
96
condies para comparar e determinar autonomamente seu grau de confiabilidade. Um
sistema de reputao tambm pode ser estabelecido e atualizado a cada nova colaborao
recebida a fim de identificar os informantes e as fontes mais confiveis e ativas, como os
intermediadores de informaes caracterizados por Hughes e Palen (2009).
Tais
46
SwiftRiver - http://ushahidi.com/products/swiftriver-platform
97
confivel? Existe algum conhecimento prvio capaz de apontar o quo til e confivel seja a
informao proveniente deste colaborador?
Sob o aspecto da confiabilidade do emissor, o estudo sugere um esquema de
formao de reputao dinmica em funo da evoluo do evento e das colaboraes
recebidas. A cada tipo de classe de colaborador atribuda uma pontuao de reputao
inicial, que evolui e se transforma ao longo do tempo, com base em suas interaes e nos
novos contedos recebidos e avaliados pelos gestores de informaes. Enquanto agentes
oficiais podem inicialmente receber a mais alta pontuao de reputao, os cidados
colaboradores devem construir e aumentar seus ndices de reputao medida que geram
novas contribuies (informaes ou execuo de tarefas de apoio) relevantes ao comando
da resposta.
Sob os aspectos positivos do aproveitamento da colaborao social, os autores
defendem que a informao compartilhada demonstra ser:
98
Acessvel: o que significa que o processo tambm pode trabalhar com at mesmo
o tipo mais simples de telefone celular, por exemplo, com o uso de mensagens de
texto SMS (GEOSMS, 2013).
Estas
plataformas podem ser aproveitadas na arquitetura proposta neste trabalho como meios
prticos para a coleta de dados originados a partir de sensores ambientais.
47
Xively - https://xively.com/
99
Caragea et al. (2011) avaliam distintos mtodos de classificao automtica sobre um
conjunto de dados constitudo por mensagens SMS e publicaes atravs da rede social
Twitter, obtido a partir da plataforma Ushahidi durante o apoio ao terremoto do Haiti, em
2010. O experimento teste parte da construo de mecanismos automatizados para o
acoplamento na plataforma desenvolvida pelo grupo de pesquisa, denominada EMERSE 48 Enhanced Messaging for the Emergency Response Sector (arquitetura apresentada na
Figura 5.4-a).
Figura 5.4. (a) Arquitetura da plataforma EMERSE; (b) Mdulo de entrada de dados para iPhone. Adaptado de
Caragea et al. (2011)
48
49
EMERSE - http://emerse.ist.psu.edu/
Google Translate - https://developers.google.com/translate/
100
compreender melhor a situao de emergncia. No entanto, a classificao automtica ainda
constitui o aspecto mais desafiador plataforma EMERSE. Apesar da classificao de
mensagens de texto poder ser realizada com pouco esforo por um ser humano, ainda
constitui uma difcil tarefa para computadores.
Frente a este desafio motivador, a equipe fez uso da base de dados Ushahidi/Haiti,
que inclui cerca de 3.500 relatos, dos quais metade foi originada atravs de mensagens SMS.
Na ocasio da resposta ao desastre, em 2010, cada um desses relatos foi manualmente
classificado pela equipe de colaboradores de acordo com sua demanda especfica, por
exemplo, emergncia mdica, edificao colapsada, requisio de abrigo, etc..
Para fins de avaliao de desempenho da classificao, quatro diferentes mtodos
classificatrios automticos foram experimentados: Bag of Words (MCCALLUM; NIGAM,
1998), Feature Abstraction (SILVESCU et al., 2009), Feature Selection (KIRA; RENDELL,
1992) e Latent Dirichlet Allocation (LDA) (BLEI et al., 2003). Os resultados demonstram
que o mtodo Feature Abstraction superou significativamente outros mtodos enquanto a
eficcia de classificadores baseados em Support Vector Machine (SVM) variou
significativamente dependendo da categoria a ser codificada.
Cameron et al. (2012) descrevem esforos correntes em parceira com o governo
australiano para detectar, avaliar, organizar e compartilhar mensagens coletadas a partir do
microblog Twitter que possam ser de interesse para a coordenao de crise. A plataforma,
denominada ESA-AWTM (acrnimo para Emergency Situation Awareness Automated
Web Text Mining), permite que mensagens relevantes publicadas pela populao atravs das
redes sociais possam ser identificadas e aproveitadas para agregar conhecimento a partir de
diferentes vises da transcorrncia de um incidente de carter emergencial.
Os principais objetivos da plataforma ESA-AWTM so: o fornecimento de
evidncias de atividades indicadoras da ocorrncia de incidentes; a notificao quase em
tempo real de incidentes ocorridos; relatos em primeira mo acerca dos impactos causados
por estes incidentes; e o monitoramento do grau de envolvimento e da evoluo do
comportamento da comunidade a um aviso de emergncia.
A plataforma vem sendo experimentada pelo escritrio de coordenao de crises
australiano durante casos reais de emergncia, a fim de verificar e aperfeioar sua
efetividade no apoio deciso. Alguns aspectos da plataforma apresentada pelos autores se
101
assemelham a elementos constituintes da arquitetura proposta neste trabalho, merecendo,
portanto uma anlise mais detalhada acerca dos mesmos. So eles:
Classificao:
um
mdulo
classificador
automtico
identifica
publicaes
102
Rogstadius et al. (2013) apresentam a plataforma CrisisTracker50, um sistema online
que captura e agrupa relatos coletados do microblog Twitter durante eventos de grande
escala. A plataforma rastreia automaticamente mensagens atravs de conjuntos de palavraschave e constri histrias atravs do agrupamento dos tweets relacionados com base na sua
semelhana lexical com as demais publicaes do grupo.
A publicao tambm apresenta resultados da implantao de um experimento piloto
acerca do monitoramento da guerra civil sria, ao longo de oito dias, durante o ms de
setembro de 2013. Na ocasio, o experimento processou, em mdia, 446.000 tweets por dia,
agrupando-os em histrias atravs da combinao de processadores automatizados com
reviso colaborativa (humana) atravs de crowdsourcing.
Conforme os problemas de extrao da geolocalizao j abordados na seo 4.3, o
experimento piloto apresenta uma notvel dificuldade em extrair a geolocalizao de
mensagens originadas pelo Twitter. Uma anlise sobre o conjunto de dados experimental
constata que apenas 1% das publicaes apresenta a informao da localidade geogrfica.
Alm disso, dado ao fato da informao da geolocalizao estar relacionada posio
corrente do usurio no momento da publicao, mesmo quando disponvel tal informao
dever ser investigada. Caso seja detectada sua distino em relao localidade a qual a
informao se refere, esta dever, portanto, ser descartada.
Apesar dos graduais avanos no desenvolvimento de tcnicas de classificao e
estruturao automatizada de contedo textual, os resultados de experimentaes sobre
textos de pequeno comprimento (tpicos das redes sociais) mostram ser significativamente
inferiores e deficientes do que quando aplicados sobre artigos de notcias e publicaes
melhor formadas e com maior extenso.
Segundo Rogstadius e Kostakos (2011), a computao humana baseada na
colaborao (em ingls, crowd-sourced human computation) uma tcnica na qual um
processo computacional desempenha a sua funo por externalizao de determinadas etapas
para os seres humanos. Tais tarefas so realizadas muitas vezes a partir da colaborao das
multides, onde o processamento pode ser distribudo entre um grupo de pessoas.
A tcnica prtica para lidar com problemas computacionais que so facilmente
resolvidos por seres humanos, mas ainda de alto custo e baixo desempenho para os
50
CrisisTracker - http://ufn.virtues.fi/crisistracker/
103
computadores, como a classificao de imagens (AHN, VON; DABBISH, 2004), a gesto do
conhecimento (KUZNETSOV, 2006), e resoluo de problemas de negcios (VUKOVIC,
2009).
O
desempenho
das
multides
depende
em
grande
parte de incentivos
(ROGSTADIUS et al., 2000), tais como financeiros (KAUFMANN; VEIT, 2011), jogos e
entretenimentos (AHN, VON; DABBISH, 2004; COOPER et al., 2010) e apelos pelo bemestar social (KUZNETSOV, 2006). Voluntrios motivados tm se mostrado mais propensos
do que as multides pagas para produzir resultados de alta qualidade (ROGSTADIUS et al.,
2000). A plataforma Micromappers (HOWARD, 2013) um recente exemplo concreto
desta bem sucedida soluo hbrida, baseada na combinao homem-mquina.
Purohit et al. (2013) propem mtodos de aprendizagem de mquina51 para
automaticamente identificar e associar as necessidades (demandas) e ofertas (material) de
recursos de emergncia publicados atravs das mdias sociais, de modo a acelerar e
aperfeioar sua distribuio durante os esforos de recuperao. Os mtodos ainda levam
em conta a priorizao das necessidades em funo da localizao geogrfica das partes
envolvidas, disponibilidade de recursos, premncia das necessidades e da credibilidade da
informao. Um cenrio motivacional para a soluo ilustrado atravs da Figura 5.5.
51
104
Figura 5.5. Cenrio exemplo para coordenao das ofertas e necessidades atravs das mdias sociais. Adaptado
de Purohit et al. (2013)
Desta forma, por exemplo, uma solicitao expressa atravs da mensagem estamos
coordenando uma unidade de roupas e alimentos para as famlias afetadas pelo tornado em
Oklahoma. Se voc quiser fazer uma doao, entre em contato conosco pode ser associada
com uma oferta manifestada atravs mensagem tenho diversas roupas que gostaria de doar
para as vtimas do tornado em Oklahoma. Algum sabe onde/como posso proceder?.
No entanto, conforme j abordado na seo 4.4, o contedo publicado atravs das
redes sociais, e-mails e mensagens SMS apresenta baixo nvel de estruturao de dados, o
que dificulta ainda mais a determinao da relevncia e confiabilidade da informao. Tratase um ambiente caracterizado por informalidades e repleto de informaes incompletas,
ambguas e ainda envolvido por tons de sarcasmos, opinies, anedotas e boatos.
No caso do microblog Twitter, por exemplo, seu limite de 140 caracteres pode ser
visto como um fator positivo, uma vez que incentiva a conciso. Por outro lado, pode
tambm prejudicar a qualidade da informao, pois reduz o contexto que pode ser explorado
por algoritmos baseados no processamento de linguagem natural. Alm disso, o volume de
mensagens durante uma crise bastante elevado, o que implica numa sobrecarga de
processamento e no aumento da complexidade em tarefas de identificao e extrao de
contedo til sobre mensagens irrelevantes e fora de contexto.
105
A abordagem se baseia na estratgia de converter automaticamente textos simples em
registros semi-estruturados52, conforme o exemplo apresentado no Quadro 5.2. A estrutura
flexvel de modo a permitir a anotao de outros metadados relevantes eventualmente
presentes nas mensagens processadas, como hora, local e autor.
Quadro 5.2. Exemplo de mensagens apresentadas em seu texto original (no estruturado) e sua representao
estruturada, gerada automaticamente. Adaptado de Purohit et al. (2013)
Solicitao/
Oferta
Tipo
Recurso
Texto Original
(no estruturado)
Representao Estruturada
{RESOURCE-TYPE={class=Money,
{Digite REDCROSS
para 90999 para doar
Solicitao
Dinheiro
U$ 10 para ajudar
pessoas furaco
Sandy. #SandyHelp}
{Algum sabe sobre
como se voluntariar
Oferta
Voluntrio
para oportunidade
para trabalho
voluntrio para o
confidence=0.9},
IS-REQUEST={class=Yes,
confidence=0.95}, IS-OFFER={class=No,
confidence=0.9},
TEXT=Digite...#SandyHelp}
{RESOURCE-TYPE={class=Volunteer,
confidence=0.99},
IS-REQUEST={class=No, confidence=0.98},
IS-OFFER={class=Yes, confidence=1},
TEXT=Algum...Sandy?}
furaco Sandy?}
52
Um registro semi-estruturado um item de dados que no segue um modelo de dados formal (estrutura),
como o utilizado por um banco de dados relacional, mas inclui marcadores para separar distintos elementos
semnticos (PUROHIT et al., 2013).
106
Experimentaes avaliativas apontam uma eficincia de correspondncia de 72% em relao
a outros mtodos de pesquisa tradicionais comparados.
Tsur, Littman e Rapporort (2013) apresentam um algoritmo preciso e eficiente para o
agrupamento de publicaes do microblog Twitter. O mtodo de agrupamento dividido em
duas etapas distintas: 1) agrupamento sequencial de dados anotados por usurios atravs das
hashtags; 2) agrupamento online de um fluxo de tweets. A partir dos agrupamentos mais
estveis alcanados graas semi-classificao atravs das hashtags, os conjuntos
alcanados na primeira etapa se prestam para o agrupamento online de um fluxo de
mensagens, contendo ou no hashtags.
53
54
107
tambm destacam que o agrupamento de mensagens por similaridade pode alcanar
melhores resultados quando palavras irrelevantes ao contexto so previamente identificadas
e suprimidas. Por exemplo, termos comuns tais como a, no podem ser muito teis para
melhorar a qualidade de agrupamento. Alm disso, a ponderao de palavras-chave como
nomes de pessoas e locais tambm podem refletir positivamente sobre os resultados do
agrupamento.
Mtodos como Feature Selection Methods operam sobre a seleo de um
subconjunto de elementos mais relevantes da informao. O pressuposto central que
algumas informaes contm muitos elementos redundantes ou irrelevantes que no
fornecem contedo til, acarretando apenas em rudo e aumento do custo de processamento.
Portanto, essencial selecionar tais caractersticas de forma eficaz de modo que estas
palavras ruidosas sejam identificadas e removidas antes da aplicao dos mtodos de
comparao e agrupamento.
Howard (2013) relata os esforos do grupo chefiado por Patrick Meier - pesquisador
renomado no campo de Mapeamento de Crises (em ingls, Crisis Mapping) no
desenvolvimento e experimentao de ferramentas voltadas ao apoio do trabalho
humanitrio aps o desastre causado pelo Tufo Haiyan, em novembro de 2013 nas
Filipinas. Meier e sua equipe aproveitam o poder de gerao de informaes das mdias
sociais para melhorar a velocidade e a eficcia dos esforos de socorro.
A plataforma Micromappers55, ilustrada na Figura 5.6, conta com a colaborao
social atravs da Internet para rapidamente classificar publicaes e fotos coletadas atravs
do monitoramento do microblog Twitter. Voluntrios de todo o mundo podem classificar os
tweets capturados, segundo uma das seguintes classes (definidas por solicitao da UNDAC
para apoiar sua misso de resposta): no relevante, pedidos de ajuda, danos de
infraestrutura, pessoas desalojadas, texto no em ingls, relevante, outros.
55
Micromappers - http://www.micromappers.com/
108
Figura 5.6. Plataforma MicroMappers: interface colaborativa para anlise e classificao das mensagens e
imagens capturadas do microblog Twitter
109
somente quando trs voluntrios distintos classificarem a mensagem analisada da mesma
forma que esses dados seguiro para a prxima etapa de tratamento.
Em segundo lugar, uma fora-tarefa de voluntrios da Rede Humanitria Digital (em
ingls, Digital Humanitarian Network56) analisa os resultados em um segundo nvel de
controle de qualidade para garantir a preciso e relevncia das mensagens.
Adicionalmente, para iniciar a colaborao necessrio criar um breve cadastro na
plataforma. Desta forma possvel calcular a reputao de cada usurio, alm de estabelecer
um ranking de apontamento dos maiores e mais efetivos colaboradores.
Finin et al. (2010) descrevem a experincia com o uso das plataformas MTurk57
(Amazon Mechanical Turk) e CrowdFlower58 no auxlio anotao de entidades nomeadas
extradas de publicaes do microblog Twitter. Trata-se de servios de crowdsourcing,
especializados na distribuio de tarefas pequenas e repetitivas, a serem executadas
remotamente por colaboradores espalhados pelo mundo.
A plataforma CrowdFlower, por exemplo, permite aos usurios cadastrar tarefas e
distribu-las aos colaboradores espalhados pelo mundo, preservando a qualidade do resultado
do trabalho executado a partir de mecanismos de verificao de assertividade e estratgias de
premiao por produtividade e efetividade. Colaboradores cadastrados na plataforma podem
consultar a base de trabalhos disponveis e ingressar nas atividades de colaborao que mais
lhes interessarem.
Para cada trabalho disponvel, o sistema aloca automaticamente um conjunto de
tarefas para os colaboradores.
56
110
o produto de suas atividades executadas poder ser descartado e, ele ainda poder ser
removido do trabalho. A plataforma tambm permite que colaboradores com histrico de
reputao continuamente positiva possam atuar como moderadores, isto , supervisores das
atividades desempenhadas por outros colaboradores no trabalho.
Tang et al. (2011) defendem que a colaborao pode ser mais efetiva quando envolve
polticas de premiaes. Esta foi a estratgia adotada pela equipe do Massachusetts Institute
of Technology (MIT), da Universidade de Stanford, nos Estados Unidos, vencedora do
concurso, Red Balloon Challenge59.
A competio organizada pela DARPA buscou examinar o papel da Internet e das
redes sociais como meios de propagao da informao e colaborao em massa diante de
cenrios que envolvam extensas reas geogrficas. Alm disso, a competio procurou
explorar a criatividade da montagem de aes prticas para solucionar problemas de ampla
escala em reduzido espao de tempo (cenrio este que nos remete s situaes de
emergncias).
Dez equipes participaram do desafio, com a meta de localizar dez bales vermelhos
espalhados em diferentes localidades do territrio norte-americano (sempre prximos a
locais habitados e rodovias) e notificar DARPA no menor tempo possvel. As redes
sociais foram usadas como ferramentas de intercomunicao e tambm para recrutar pessoas
que pudessem prover informaes teis para a busca dos bales.
A equipe vencedora adotou uma tcnica semelhante ao marketing em multinvel 60
para recrutar participantes. O dinheiro do prmio foi distribudo de forma proporcional,
contemplando desde o colaborador que avistou o balo (que receberia a maior poro do
prmio), reduzindo metade para cada nvel superior de informante que propagava a
informao, at chegar equipe MIT, conforme ilustrado na Figura 5.7.
Como o valor do prmio para a equipe vencedora seria de quarenta mil dlares, foi
estipulado o oramento de quatro mil dlares de recompensa por balo. Sendo assim, o
informante seria recompensado com dois mil dlares e, para cada informante subsequente, a
metade do valor da recompensa recebido pelo informante anterior, desta maneira, garantindo
que o oramento por balo no fosse excedido.
59
60
111
Figura 5.7. Estratgia da equipe vencedora do desafio Red Ballon Challenge: poltica de recompensa baseada
em marketing multinvel para recrutar participantes
112
Com relao ao compartilhamento da informao, a iniciativa de dados abertos
interligados (LOD - Linked Open Data) permite a interconexo de dados, utilizando padres
no contexto da abordagem de web semntica.
61
62
113
elementos
camadas
de usurio, aplicao
Figura 6.1. Arquitetura para coleta e tratamento de informaes colaborativas no apoio deciso em ambientes
de emergncia
114
O ambiente externo da camada de aplicao composto pelos meios de
comunicao que atuam como canais de comunicao para a colaborao social, como as
redes sociais, mensagens de SMS, e-mails, contatos telefnicos, dentre outros que
eventualmente podero ser integrados ao sistema.
Nesta mesma camada, representando as fontes oficiais de informao colaborativa,
encontram-se as aplicaes destinadas ao cadastro e submisso de informaes coletadas
pelas equipes de campo durante suas incurses, alm dos sensores de monitoramento
ambiental, disponibilizados e gerenciados pelas equipes de resposta.
No ambiente interno da camada de aplicao encontram-se os componentes das fases
de coleta e processamento da informao colaborativa: [COMU] Comunicao, [PREP] PrProcessamento, [HIST] Histrias e [CONF] Conflitos. Seus papis desempenhados dentro
da arquitetura sero detalhados nas sees seguintes deste captulo.
A camada de armazenamento constituda, no ambiente externo, por repositrios
de dados externos, como os bancos de dados das redes sociais e outras bases das quais a
arquitetura poder extrair informaes, estruturadas de acordo com suas respectivas fontes
de origem.
O ambiente interno da camada de armazenamento composto por dois repositrios: o
repositrio de coleta e processamento armazena as publicaes coletadas pela plataforma,
alm de registrar os resultados dos processos de tratamento da informao, ocorridos na
camada de aplicao; o vocabulrio de referncia congrega termos selecionados a partir de
vocabulrios populares, teis para a identificao e associao dos atributos semanticamente
comuns, entre as distintas fontes de informaes do sistema.
Cada termo do vocabulrio de referncia tambm est associado a um termo
correspondente extrado de vocabulrios de ontologias de domnio em Linked Open Data.
Este mapeamento viabilizar o processo de anotao semntica para fins de
compartilhamento da informao tratada.
A Figura 6.2 apresenta um workflow que ilustra a sequncia de um ciclo de
processamento da informao colaborativa dentro da arquitetura proposta, representando as
interaes entre os agentes e os processos envolvidos na gerao, coleta e tratamento da
informao em um cenrio de emergncias.
115
As setas em formato de curva no sentido horrio que sobrepem os diagramas na
Figura 6.1 e na Figura 6.2 orientam o ciclo de processamento da informao no sistema.
Um ciclo de processamento representa o percurso total da informao, desde o momento
em que ela foi gerada, passando pelas fases de [COL] Coleta, [PREP] Pr-processamento,
[HIST] Agrupamento de Histrias, [CONF] Deteco de Conflitos, at a deciso final do
analista de informaes por descart-la, encaminhar ao comando superior ou buscar
complementaes atravs da requisio de feedback [FED].
116
Figura 6.2. Workflow: agentes, processos e interaes envolvidas no ciclo operacional de gerao, coleta e
tratamento da informao colaborativa no contexto de emergncias
117
colaborador publica uma informao por meio de uma das fontes de informaes disponveis
para coleta.
Por iniciativa do cidado, ao testemunhar um fato relevante (de acordo com o seu
ponto de vista) relacionado ao evento emergencial, o cidado decide relatar seu
testemunho atravs de um canal de comunicao.
63
Segundo Santos e Schwabe (2004, p.7), fase um agrupamento de processos de software fortemente
relacionados conduzidos em algum tipo de ordem.
118
O escritrio de comando solicita aos voluntrios que confirmem o nmero de
119
As redes sociais disponibilizam interfaces amigveis, objetivas e so altamente
eficientes quanto disseminao da informao, devido aos seus mecanismos prticos de
compartilhamento e as interligaes existentes entre seus usurios.
Tais caractersticas
Ambiente Interno
As subsees a seguir descrevem as fases operacionais e seus processos constituintes,
ambientes do sistema. As subsees seguintes descrevem o papel dos dois processos que
viabilizam o fluxo da informao do ambiente externo para o ambiente interno, e vice-versa.
120
6.2.1.1
Fonte Informao
http://developers.facebook.com/docs/reference/api/
YouTube
https://developers.google.com/youtube/
Flickr
Instagram
http://www.flickr.com/services/api/
http://instagram.com/developer/
https://dev.twitter.com/docs/api/1/get/search
Xively
https://xively.com/dev/docs/api/quick_reference/
Vicon
http://www.viconsaga.com.br/help/?s=api
121
administrador do sistema, com base na dinmica de atualizao especfica de cada fonte de
informao. A cada nova interao de coleta, o processo consulta o repositrio de dados da
fonte de informao e extrai somente as publicaes mais recentes, ou seja, aquelas que
possuam data de criao posterior data da ltima coleta realizada.
Filtragens por meio de palavras-chave relacionadas ao evento emergencial podem ser
aplicadas s consultas com a finalidade de reduzir e tornar o conjunto retornado mais
refinado e livre de contedo intil. Tal medida tambm implica na reduo do tempo de
resposta s consultas das bases de dados externas e do processamento interno da arquitetura.
Todo contedo extrado das fontes de informaes colaborativas condensado e
encaminhado para a prxima etapa, dando incio fase de pr-processamento da publicao.
6.2.1.2
64
122
cidados colaboradores e seus agentes de campo a fim de demandar tarefas e requisitar
informaes de feedbacks.
Os mecanismos de feedbacks fecham um ciclo no sistema, denominado ciclo de
maturao da informao (ilustrado na Figura 6.11), onde cada nova interao pode
promover a evoluo da base de conhecimento atravs da prpria colaborao social.
Uma requisio de feedback apresenta os seguintes parmetros:
1. O qu?
1.1. Nulo: quando uma informao nova requisitada. Trata-se apenas uma campanha
em busca de uma nova informao acerca de um local, uma pessoa ou um evento
especfico. Neste caso, seu retorno entrar no sistema como uma nova publicao e
percorrer normalmente as etapas o ciclo de processamento;
1.2. Publicao: quando a requisio est relacionada a uma publicao especfica do
repositrio de coleta e processamento, em busca de complementariedade ou da
resoluo de conflitos.
2. Para quem?
2.1. Nulo: para todos (broadcast);
2.2. {Usurios}: para um determinado grupo de informantes, em funo da proximidade
geogrfica, grau de confiabilidade da fonte, frequncia de colaborao.
Um
123
Os retornos buscam respostas quantitativas e objetivas para que o processamento
automatizado do resultado obtenha o melhor desempenho possvel e dispense a necessidade
do encaminhamento para o processamento supervisionado (manual), o que elevar o tempo
de tratamento da mensagem e, consequentemente, depreciar seu grau de atualidade.
Os casos a seguir ilustram exemplos de requisies objetivas de feedback:
[Requisio 1234] Informe NUMERICAMENTE quantas pessoas esto
desalojadas no seu bairro? Para N pessoas, responda conforme o seguinte exemplo:
[1234] N
[Requisio 5678] - Est chovendo no Caleme? Para SIM, responda conforme o
seguinte exemplo: [5678] SIM
6.2.2 [PREP] Fase de Pr-Processamento
Cada publicao coletada submetida a uma sequncia semi-automatizada de
processos de associaes, converses, seleo de atributos quantitativos e classificao. As
subsees a seguir descrevem o papel de cada processo envolvido nesta fase operacional da
arquitetura.
6.2.2.1
124
Figura 6.3. Vocabulrio de referncia para associao de atributos equivalentes e anotao semntica de
publicaes coletadas
atributo
representado
527527879572459520.
pelo
campo
key,
que
assume
valores
como
publicao em sua fonte de origem, alm de evitar que o processo [COL] Coletar
Publicaes capture contedo duplicadamente.
O vocabulrio de referncia congregar termos responsveis por identificar e associar
atributos semanticamente equivalentes, provenientes das distintas fontes de informaes
presentes no sistema. Alm disso, o vocabulrio serve como referncia no processo de
anotao semntica para fins de compartilhamento segundo o modelo aberto e interopervel
125
Linked Open Data, aproveitando termos selecionados de vocabulrios de domnio populares,
como o SIOC65, MOAC66, DBpedia67, WGS8468, DCMI69.
Uma vez definidas (de forma manual, no momento da incluso da nova fonte na
arquitetura) as associaes entre o vocabulrio de referncia e o conjunto de atributos da
fonte de informaes, o processo [AAV] Associar Atributos ao Vocabulrio mapear
automaticamente cada atributo da informao coletada com o seu respectivo termo
equivalente do vocabulrio de referncia.
Estas associaes permitiro a interligao das distintas fontes agregadas ao sistema,
atravs dos atributos semanticamente equivalentes, conforme ilustrado na Figura 6.4. Alm
disso, o mapeamento proporciona a organizao dos dados sob uma estrutura uniforme,
facilitando sua identificao nas etapas subsequentes do tratamento.
Figura 6.4. Processo [AAV] Associar Atributos ao Vocabulrio: os atributos das informaes coletadas a
partir de diferentes fontes so mapeados e associados com base no vocabulrio de referncia
6.2.2.2
http://www.sioc-project.org/
http://observedchange.com/moac/ns/
67
http://dbpedia.org/
68
http://www.w3.org/2003/01/geo/
69
http://dublincore.org/
66
126
encaminhado ao devido tratamento. Desta forma, ao retornar um feedback, o colaborador
dever ser instrudo a inserir o identificador no corpo da mensagem. O exemplo a seguir
ilustra uma situao de requisio e retorno de feedback devidamente identificados:
REQUSIO: Requisio 1234 - Prezado Colaborador, o comando precisa saber a
quantidade atualizada de desabrigados no bairro Caleme. Para N desabrigados, responda
conforme o seguinte exemplo: [1234] N.
RETORNO: [1234] 10
Conforme representado no workflow da Figura 6.2, caso se trate de um feedback de
complementao ou de inconsistncia, o valor retornado ser extrado e, ento considerado
em uma nova rodada de verificao na fase de processamento [CONF] Conflitos
(encaminhamento representado pelo conector (1) no workflow).
As requisies de feedbacks buscam retornar respostas quantitativas e objetivas para
que o processamento automatizado do resultado obtenha o melhor desempenho possvel.
Porm, considerando as ocasies em que as respostas so geradas por seres humanos, em
alguns casos o processamento poder extrair um valor invlido ou inesperado.
Diante de um eventual insucesso na tentativa de extrao automatizada, a resposta
poder ser encaminhada fase de [RCOL] Reviso Colaborativa (encaminhamento
representado pelo conector (2) no workflow), para o processamento supervisionado por
colaboradores, a exemplo de abordagens apresentadas no Captulo 5 (FININ et al., 2010;
HEINZELMAN, J.; WATERS, 2010; ROGSTADIUS; KOSTAKOS, 2011; HOWARD,
2013).
De forma alternativa ou complementar, uma nova requisio de feedback tambm
pode ser enviada a um novo grupo de usurios, em funo da proximidade e/ou nvel de
confiabilidade da fonte de informao. Por exemplo, uma nova requisio para os agentes
de campo mais prximos da localidade de interesse.
6.2.2.3
dados. Hoje, diversas abordagens e ferramentas do tipo ETL (Extract, Transform, Load) j
se especializam no tratamento de problemas desta natureza (CORDEIRO, 2015).
127
Todavia, ao propor uma arquitetura de soluo flexvel ao elevado grau de
heterogeneidade caracterstico do ambiente de emergncias, a compatibilizao de dados
indispensvel para a construo de procedimentos de tratamento generalistas, isto , no
comprometidos com as especificidades dos distintos meios de gerao de informao.
Para resolver este requisito de integrao, aps o processo [AAV] Associar
Atributos ao Vocabulrio identificar o atributo correspondente data de gerao da
informao (associado ao termo Post.When.dtPosted do vocabulrio de referncia), o
processo [CFD] Compatibilizar Formato de Data interpreta a data de publicao,
convertendo-a segundo o padro adotado pelo sistema.
A especificao prvia do administrador sobre o formato padro de data apresentado
pela fonte de informao originadora auxilia o autmato na tarefa de interpretao da ordem
sequencial dos valores dia, ms, ano, hora, minuto e segundo, dentro do
atributo temporal processado. Os exemplos retratados no Quadro 6.2 ilustram valores de
entradas e resultados deste processamento:
Quadro 6.2. Exemplo de entradas e resultados do processamento de publicaes no processo [CFD]
Compatibilizar Formato de Data
Fonte
Info
Atributo Data
P.When.dtPosted
Valor Original
do Atributo
Resultado de [CFD]
YYYY-MM-DD
HH:MM:SS
time
2010-03-28T07:16:17.510Z
2010-03-28 07:16:30
created_time
2014-10-29T16:49:11+0000
2014-10-29 16:49:11
date_received
1/16/10 20:46
2010-01-16 20:46:00
datetaken
2010-03-04 04:03:01
2010-03-04 04:03:01
created_on
22/01/2010 14:35
2010-01-22 14:35:00
128
o formato dos atributos referentes s coordenadas de localizao da publicao, associados
aos termos Post.Where.dblLatitude e Post.Where.dblLongitude do vocabulrio de referncia.
Em caso de insucesso na compatibilizao de formatos ou mesmo da inexistncia de
valores associados aos atributos (como o caso das mensagens SMS), o processamento ser
encaminhado para um segundo nvel de tratamento, onde mtodos de linguagem natural
buscam extrair o nome da localidade geogrfica dentro do corpo do texto da publicao
(associado ao termo Post.What.strMessage) e geocodific-lo70 a fim de obter as coordenadas
geogrficas relativas ao local objeto da informao processada.
No caso de novo insucesso aps o tratamento em segundo nvel, a falha ser
sinalizada e a mensagem encaminhada para o georreferenciamento por meio do
processamento
colaborativo
supervisionado
[MGEO]
Geolocalizao
Manual
70
Geocodificao o processo de converter endereos (por exemplo, Av. Presidente Vargas, 20, Centro, Rio
de Janeiro) em coordenadas geogrficas (por exemplo, latitude 21,423021 e longitude -43,083739).
71
Google Translate API - https://developers.google.com/translate/
129
disponveis ainda no apresentam boa efetividade na traduo completa de contedos que
apresentam elevado grau de coloquialismo (abreviaes, elementos de paralinguagem, erros
de gramtica), como o caso caracterstico da colaborao popular em situaes de
emergncias, conforme abordado na seo 4.4.
No workflow projetado para a arquitetura, aps detectar automaticamente o idioma da
publicao, basta compar-lo com o idioma oficial adotado pela equipe de resposta. Em
caso de compatibilidade do idioma, a publicao poder seguir para a prxima etapa de
tratamento. Caso contrrio, para evitar o descarte prematuro de informaes potencialmente
teis, seguir as abordagens propostas por Heinzelman, e Waters (2010) e Munro (2013). Os
autores sugerem o encaminhamento de publicaes em outros idiomas para a traduo por
colaboradores especializados, como voluntrios locais ou quaisquer outros indivduos
conhecedores do idioma local. Assim, a publicao seguir para o processo [MTRA]
Traduo Manual da fase de reviso colaborativa (representado no workflow pelo conector
(5)).
6.2.2.6
[CLA] Classificar
A exemplo das dimenses tempo (quando) e espao (onde), a dimenso taxonmica
72
73
130
resultado da varredura sobre a publicao. Desta forma, basta que ambos os termos ocorram
conjuntamente, em qualquer posio no texto analisado para que seja associado classe.
O classificador tambm verifica a ocorrncia das palavras-chave em subpartes dos
termos constituintes do contedo textual varrido. Desta forma, a utilizao de radicais de
palavras (procedimento conhecido como stemming74) como palavras-chave pode produzir
um resultado classificatrio mais efetivo. Por exemplo, ao se deparar com a ocorrncia do
termo roads durante a varredura do contedo textual da publicao, o classificador
atribuir a classe Collapsed Structures, uma vez que o termo roads contm a palavrachave cadastrada road.
6.2.3 [HIST] Histrias
Os procedimentos aplicados at este estgio assumem um papel fundamental na
adequao dos dados requeridos para o processamento das etapas subsequentes. Por esta
razo foram congregados em uma fase operacional denominada pr-processamento.
Deste ponto em diante, as estratgias adotadas para o estabelecimento de correlaes,
identificao e tratamento de conflitos dentro de grupos de informaes correlatas,
constituem o cerne da contribuio deste trabalho.
6.2.3.1
74
Stemming - http://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html
131
Figura 6.5. ndice de Correlao: comparao pareada entre publicaes armazenadas no repositrio de coleta e
processamento e a publicao ingressante no processo [EPC] Encontrar Publicaes Correlatas
Onde:
assume um comportamento
no-linear
(representada no grfico pela linha amarela). Neste caso, o ndice decresce rapidamente para
distncias euclidianas pequenas, enquanto que, para distncias maiores, o ndice se aproxima
lentamente do valor zero.
Por outro lado, a formulao expressa atravs da equao acima apresenta uma
distribuio inversamente proporcional distncia (representada no grfico pela linha de
verde), com comportamento linear e, portanto, em conformidade com a proposio que a
define (o grau de correlao entre duas publicaes inversamente proporcional
distncia entre elas).
132
Grfico 6.1. Comportamento da distribuio do ndice de Correlao Espacial (C esp) segundo diferentes
formulaes
publicaes exceda o valor dMAX, ser assumido que ambas encontram-se demasiadamente
distantes e, portanto, o ndice de Correlao Espacial ser igual a zero.
Alm de atuar como um balizador de proporcionalidade para solucionar o problema
representado no Grfico 6.1, o parmetro dMAX tambm cumpre funo de aumentar a
eficincia do sistema, uma vez que evita processar e correlacionar publicaes
demasiadamente distantes.
Ctempm,n - ndice de Correlao Temporal (Quando): de forma anloga ao ndice de
Correlao Espacial, presume-se que quanto menor for o intervalo de tempo entre duas
publicaes, maior a probabilidade de ambas se referirem a uma mesma histria. Esta
proposio pode ser expressa atravs da seguinte equao:
{
Onde:
133
)
)
Onde:
]
[
Onde:
retratam um evento.
134
Desta maneira, no correto atribuir apenas um momento especfico e pontual no tempo
para representar existncia do hospital no ambiente. Por outro lado, a temporalidade da
informao referente a uma solicitao de ajuda para um cidado ferido (evento) perdura
apenas durante o intervalo de tempo (alguns minutos ou horas) entre a data do evento
causador de seu ferimento e o momento em que ele fora socorrido.
Figura 6.6. Representao ilustrativa dos distintos perodos de validade temporal para informaes relativas a
eventos e entidades
Portanto, para os casos em que ao menos uma das publicaes comparadas represente
a instncia de uma entidade (condio para que o parmetro [EVENTm,n] seja igual a zero), a
dimenso temporal ser desconsidera e, a equao ser balanceada de modo a quantificar o
correlao equitativamente, apenas em funo das componentes espacial e taxonmica das
informaes comparadas (50% de contribuio para cada dimenso).
De acordo com a formulao proposta, mesmo para os casos em que a informao
apresente deficincia em alguma das trs dimenses, o ndice de Correlao no ser
integralmente anulado.
135
6.2.3.2
histria75 Hm. Para a histria Hm, a publicao Pm denominada Publicao Raiz, uma vez
que o processo compara o clculo do ndice de Correlao, um a um, entre esta publicao e
todas as demais j armazenadas no sistema. Um ndice de Correlao Mnimo (
),
75
Por conveno terminolgica neste trabalho, ser assumido que uma Histria corresponde ao agrupamento
de publicaes com elevado grau de correlao entre si.
76
Uma relao binria simtrica se a relao de a com b implica na relao de b com a (REISSWITZ, 2009).
136
Figura 6.7. Anotao semntica da publicao tratada segundo o padro RDF: informao sobre os atributos
temporal, espacial e taxonmico e suas correlaes com outras publicaes armazenadas no repositrio de
coleta e processamento
conjunto de publicaes que constituem uma histria. Desta maneira, como requisito de
processamento, necessrio identificar preliminarmente a ocorrncia dos atributos
quantitativos em cada publicao coletada.
A identificao dos atributos quantitativos realizada por colaboradores na etapa
representada pelo processo [MIAQ] Identificar Atributos Quantitativos, na fase [RCOL]
Reviso Colaborativa do workflow. Logicamente que procedimentos mais sofisticados,
baseados no processamento de linguagem natural podero substituir este processo, para fins
de elevao da autonomia do sistema.
137
A Figura 6.8 ilustra um cenrio exemplo da ocorrncia de conflitos de incongruncia
de valores entre atributos comuns dentro de uma histria.
Figura 6.8. Exemplo de atributos conflitantes entre publicaes que constituem uma histria
6.2.4.2
conflitos de forma autnoma, optou-se por uma abordagem de tomada de deciso semiautomatizada, ou seja, supervisionada por humanos.
A deciso por adotar uma abordagem simplista para a soluo de conflitos deu-se
fundamentalmente por motivos de priorizao em concentrar o tempo disponvel nesta
pesquisa para dedicar-se mais cuidadosamente nos mtodos de grupamento (descritos na
subseo 6.2.3), que constituem o cerne da contribuio e inovao da arquitetura de soluo
proposta. Contudo, alternativas de resoluo automtica de conflitos sero sugeridas no
captulo de concluses, como propostas de continuidade e aprimoramento desta pesquisa.
Ao identificar um conflito de atributos, o analista de informaes ser acionado.
Conforme a situao ilustrada na Figura 6.10, uma interface objetiva lhe prover recursos
visuais e indicadores relacionados s publicaes, fontes e colaboradores envolvidos no
conflito, de modo a apoiar o encaminhamento do problema sinalizado.
138
Figura 6.9. Analista de informaes analisa o conflito e decide pelo encaminhamento da situao
139
Portanto, em termos de volume de dados e escalabilidade, acredita-se que a adoo
de uma estrutura de bancos de dados relacional seja suficientemente capaz de armazenar e
recuperar os dados coletados e tratados nesta arquitetura.
6.3
elementos da arquitetura.
Figura 6.10. O Conhecimento Combinado que apoia as Equipes de Deciso uma propriedade emergente da
conjugao dos Conhecimentos Pessoal Anterior, Formal Anterior e Contextual Atual. Adaptado de Diniz et al.
(2005)
140
de inconsistncias na informao anteriormente capturada. Em resposta s requisies,
novas colaboraes so prestadas, processadas e avaliadas, promovendo o enriquecimento da
base de conhecimento contextual.
Figura 6.11. Feedbacks propiciam o enriquecimento e a evoluo da base de conhecimento a cada novo ciclo
de maturao da informao.
O papel
141
Figura 6.12. Organicidade Funcional: conjunto de subsistemas com processamentos internos singulares,
conectados entre si, formando uma unidade coletiva
142
Figura 6.13. Multiescalaridade: coleta e tratamento de informao colaborativa para a construo da base de
conhecimento contextual atual. Numa escala mais ampla, combinao de diferentes tipos de conhecimentos
para a formao do conhecimento combinado
143
Quadro 6.3. Definies das propriedades dos Sistemas Complexos e suas respectivas associaes com os elementos da arquitetura de soluo e o ambiente de emergncia
Propriedade
Definio
Propriedades
emergentes
Organicidade
Funcional
Adaptabilidade
144
preciso adaptar os diferentes formatos de representao de dados
para a integrao de atributos correlatos entre as diferentes fontes de
informaes.
Exemplo: Facebook.created_time = 2014-1029T16:49:11+0000 versus Flickr.datetaken = 2014-10-29 16:49:11.
Heterogeneidade
Multi-escalas
145
Feedback
Imprevisibilidade
Unidade
Coletiva
146
7 Aplicao Experimental
Este captulo documenta as etapas de desenvolvimento e experimentao do
prottipo construdo com base na arquitetura de soluo proposta no Captulo 6. A primeira
seo do captulo descreve os recursos utilizados para a codificao, e apresenta produtos do
desenvolvimento atravs de interfaces e suas respectivas funes no prottipo. A segunda
seo do captulo caracteriza a origem e o tipo de contedo que constitui cada uma das bases
adquiridas para a experimentao. Na sequncia, o captulo apresenta os resultados da
experimentao conduzida sobre as bases de dados adquiridas.
7.1 Prottipo Experimental da Arquitetura
A plataforma SocialCol77 (acrnimo para Social Collaboration) um prottipo
desenvolvido para fins de experimentao da arquitetura de soluo proposta nesta pesquisa.
A etapa de codificao utilizou os recursos da linguagem de programao PHP78 (Personal
Home Page) e sua estrutura nativa de gerenciamento de banco de dados MySQL79. Alm de
tratar-se de uma ferramenta livre (freewares) e bastante popular atualmente, verificou-se
previamente que o recurso seria suficientemente capaz de atender aos requisitos demandados
pelos processos da arquitetura.
A plataforma SocialCol, j carregada com as bases de dados utilizadas na
experimentao desta pesquisa, est disponvel para consulta atravs do endereo
http://www.greco.ppgi.ufrj.br/socialcol.
As subsees a seguir apresentam algumas interfaces e funcionalidades extradas da
plataforma.
7.1.1 Interface para o Gerenciamento de Fontes de Informaes
A Figura 7.1 apresenta a interface de gerenciamento de fontes de informaes
elaborada para o prottipo experimental da arquitetura.
77
147
Figura 7.1. Interface de gerenciamento de fontes de informaes da plataforma experimental SocialCol. Fonte:
Plataforma SocialCol.
A funo getMessages($strKeywords,
$strToDateTime,
$dblLatitude,
$dblLongitude,
148
no disponibilizarem mecanismos para o estabelecimento do contato de retorno com
o emissor, a implementao da funo postMessage($idUser, $strMessage) {} no
obrigatria na biblioteca.
Figura 7.2. Parmetros de configurao de uma fonte de informao e resultado do diagnstico executado sobre
o script de coleta e publicao carregado na plataforma experimental SocialCol. Fonte: Plataforma SocialCol.
149
Os parmetros de configurao definidos pelo administrador atravs do
gerenciamento das fontes de informaes cadastradas na plataforma so:
contedo gerado por um simples usurio imprevisvel, uma vez que pode ocorrer a
qualquer momento.
150
informao ocorre de acordo com a demanda do comando. Desta forma, o parmetro
Frequncia de Coleta possibilita que o sistema consulte e colete informaes nas
fontes geradoras, respeitando suas especificidades quanto disponibilizao de
contedo.
7.1.2 Associao de Atributos das Fontes de Informaes com o Vocabulrio de
Referncia
A interface representada na Figura 7.3 foi desenvolvida para viabilizar a associao
dos atributos de uma fonte de informao a termos do vocabulrio de referncia.
Figura 7.3. Interface da plataforma experimental SocialCol para associao dos atributos de uma fonte de
informao com termos do vocabulrio de referncia. Fonte: Plataforma SocialCol.
Para cada fonte de informao agregada ao sistema, a plataforma efetuar uma leitura
preliminar e listar todos os atributos da informao proveniente daquela fonte. Em seguida,
o administrador do sistema dever associar os atributos da informao correspondentes a
cada termo do vocabulrio de referncia.
151
7.1.3 Gerenciamento dos Grupos Classificatrios para o Processo [CLA] Classificar
Buscando criar uma categorizao abrangente para informaes relacionadas a
emergncias, decidiu-se utilizar a classificao adotada pela diviso setorial das equipes de
resposta a emergncias das Organizaes das Naes Unidas (introduzidas na Figura 1.1):
logstica, nutrio, abrigos de emergncia, gerenciamento e coordenao de campo, sade,
proteo, agricultura, telecomunicao, recuperao rpida, educao, gua e saneamento
(OCHA, 2012).
A Figura 7.4 apresenta a interface da plataforma experimental SocialCol para o
cadastro das classes de um evento e seus respectivos conjuntos de palavras-chave, aplicados
para o processamento de [CLA] Classificao.
Figura 7.4. Interface para o gerenciamento de classes para o evento experimental Terremoto em Porto Prncipe
(Haiti) na plataforma SocialCol. Fonte: Plataforma SocialCol.
152
Figura 7.5. Classes atribudas a uma publicao aps o processamento de [CLA] Classificar na plataforma
experimental SocialCol. Fonte: Plataforma SocialCol.
classes:
Necessidade.Water,
Necessidade.Food,
Necessidade.Sanitation
153
Figura 7.6. Possibilidade de personalizar parmetros e a equao para o clculo do ndice de Correlao entre
publicaes na plataforma experimental SocialCol. Fonte: Plataforma SocialCol.
Figura 7.7. Exemplo de publicaes extradas da base de dados experimental para o clculo do ndice de
Correlao e deciso quanto ao agrupamento em histria na plataforma SocialCol. Fonte: Plataforma SocialCol.
154
Histria H145566: Publicao Raiz: P145566; Publicao Verificada: P145740; Cmin: 0,5
Clculos:
d145566,145740 = (18.54277343:-72.29811251), (18.54277343:-72.29811251) = 0 metros
t145566,145740 = 31/01/2010 02:52:00 31/01/2010 03:04:00 = 12min x 60seg = 720 segundos
#{class145566,145740} = 1, #{Uclass145566,145740} = 2
C145566,145740 = [(1 - 0/500) + (1 720/3600) + 1/2]/3 C145566,145740 = 0,76
Resultado: C145566,145740 > Cmin Agregar P145740 a H145566 e P145566 a H145740
O agrupamento tambm permite que o analista monitore a evoluo temporal e o
ciclo de vida de uma histria. Apesar de cada publicao estar vinculada sua data de
criao, quando agrupada em uma histria, adquire-se uma viso holstica quanto ao
contexto e as circunstncias que envolveram a sua gerao.
Conforme ilustrado na Figura 7.8, a dimenso temporal da informao deixa de ser
pontual (unidimensional) e distribui-se num perodo contnuo (bidimensional).
Figura 7.8. Disposio cronolgica das publicaes de uma histria em forma de Linha do Tempo na
plataforma experimental SocialCol. Fonte: Plataforma SocialCol.
155
quantitativos presentes nas publicaes coletadas.
Figura 7.9. Interface para identificao de atributos quantitativos em publicaes na plataforma experimental
SocialCol. Fonte: Plataforma SocialCol.
Figura 7.10. Identificao de conflitos de informaes em uma histria na plataforma SocialCol. Fonte:
Plataforma SocialCol. Fonte: Plataforma SocialCol.
156
dentro do grupo de publicaes da histria. A coluna Posts Relacionados apresenta os
identificadores das demais publicaes que compem a histria. Para uma publicao fazer
parte daquele conjunto, significa que o ndice de Correlao entre ela e a publicao raiz
superou o valor mnimo (Cmin) previamente estipulado para o agrupamento.
Conforme apresentado na Figura 7.6, para este experimento o valor mnimo de corte
foi definido em 0,4, para um ndice de Correlao que pode variar entre 0,0 (sem correlao)
e 1,0 (correlao total). Conforme o exemplo apresentado e detalhadamente calculado na
Figura 7.7, para ser agregado a uma histria, o ndice de Correlao entre duas publicaes
deve sempre ser igual ou superior a 0,4 (Craiz,n 0,4).
A coluna [CONF].[ICO] Identificao de Conflitos apresenta os conflitos
sinalizados em cada histria. Na ilustrao acima, a histria H158224 apresenta trs conflitos
de atributos. O destaque em cor vermelha significa que o conflito ainda no se encontra
solucionado pelo analista de informaes. A cor verde significa que o analista j verificou e
solucionou o conflito.
A coluna Mdia Cm,n representa a mdia aritmtica entre os ndices de Correlao
das publicaes que compem a histria.
Figura 7.11. Interface para a resoluo de conflitos supervisionada na plataforma experimental SocialCol.
Fonte: Plataforma SocialCol.
Neste cenrio
157
possvel que parte, ou at mesmo todos os valores discrepantes sejam verdadeiros, uma vez
que eles podem apenas registrar atualizaes da evoluo do cenrio no decorrer do tempo.
Para fins de julgamento, ponderaes em funo do grau de confiabilidade da fonte,
distncia geogrfica, reputao dos emissores, nvel de atualidade da informao (maior peso
atribudo a publicaes mais recentes) podem representar mtricas teis para apoiar a
deciso final na resoluo do conflito.
7.2 Bases de Dados Adquiridas para a Experimentao
A experimentao conduzida analisou os resultados do processamento do prottipo
sobre um conjunto de bases de dados reais. O acervo de informaes adquirido se refere ao
desastre decorrente do terremoto de magnitude 7.0 que atingiu a cidade de Porto Prncipe,
capital do Haiti, na tarde de 12 de janeiro de 2010. O desastre causou efeitos devastadores
sobre o pas, culminando na morte 222.000 pessoas e ferindo mais 300.000
(GRONEWOLD, 2010).
Apelos de ajuda solicitados pela populao local, relatrios de avaliaes de equipes
de campo e dados de sensores gerados durante a fase de resposta ao desastre compem o
conjunto das bases de informaes adquiridas atravs de pesquisas na Internet, contatos
diretos por e-mail e, tambm pela participao pessoal do autor no apoio resposta do Haiti
(BEM-PARAN, 2010).
Ao todo foram utilizadas bases provenientes de sete origens distintas, conforme
elencadas na Figura 7.12, e detalhadas a seguir.
Figura 7.12. Bases de dados carregadas na plataforma para a experimentao. Fonte: Plataforma SocialCol.
158
A primeira coluna descreve o nome da base de dados (fonte de informao) e as
respectivas datas da publicao mais remota e da mais recente na base. A coluna Pubs.
apresenta o nmero de publicaes em cada base de dados. A coluna Confiana expressa
a hierarquizao do nvel de confiana definida pelo administrador do sistema para cada
fonte agregada ao sistema. Conforme detalhado na subseo 7.1.1, a hierarquizao da
confiabilidade apoia as decises do analista da informao na resoluo de incongruncias e
na priorizao de encaminhamentos de feedbacks de complementao, para casos de
informaes conflitantes.
Estas informaes constituem um conjunto satisfatrio para a aplicao experimental
uma vez que busca observar o comportamento sistmico da arquitetura, considerando as
complexidades proporcionadas por situaes reais de emergncia. Outro fator positivo do
conjunto utilizado o elevado grau de heterogeneidade existente entre as fontes, quanto aos
distintos nveis de confiabilidade, estruturao e frequncia de gerao de contedo.
As subsees a seguir documentam o papel desempenhado pelas organizaes, a
contribuio de suas respectivas bases de informaes durante a fase de resposta ao desastre
e os caminhos percorridos para adquiri-las.
7.2.1 Ushahidi SMS
Conforme j apresentado na subseo 2.3, a organizao Ushahidi80 vem
desempenhando um papel fundamental no apoio captura e tratamento de informaes
colaborativas durante a fase de recuperao de desastres naturais.
Sua contribuio mais notria e expressiva ocorreu justamente no apoio resposta ao
terremoto de magnitude 7.0 ocorrido no Haiti. Como resultado, a equipe de voluntrios
Ushahidi validou e disponibilizou mais de quatro mil registros de informaes e pedidos de
ajuda que partiram da populao e provaram ser teis s equipes de apoio e resgate.
Este repositrio de informaes foi adquirido atravs de pesquisas na internet81 e
compe a base experimental de informaes colaborativas geradas a partir de apelos da
populao local, atravs de mensagens SMS.
80
Ushahidi - http://www.ushahidi.com/
Dataset Haiti Crisis Map - http://datahub.io/dataset/ushahidi/resource/81d058a8-173a-49d9-8ce94edf5e7cafc9
81
159
A tabela de dados representada na Figura 7.13 estrutura instncias de apelos por
ajuda e informaes sobre desabrigados e necessidades bsicas enviadas pela populao
local atravs de mensagens SMS, submetidas a uma triagem de procedimentos (workflow da
triagem apresentado na Figura 5.3) para fins de traduo, geolocalizao e validao da
autenticidade da informao.
Figura 7.13. Amostra da base de informaes Ushahidi referente ao terremoto em Porto Prncipe, Haiti (2010).
160
Apesar das informaes terem sido originadas basicamente a partir de mensagens
SMS e do microblog Twitter, a base de informaes cedida pela organizao no
disponibiliza os atributos originais destes meios de comunicao.
Aps o tratamento
Figura 7.14. Base de informaes cedida pela iniciativa Sahana Foundation referente s solicitaes de ajuda
enviadas pela populao aps o terremoto em Porto Prncipe, Haiti (2010).
161
Figura 7.15. A imagem publicada atravs da rede social Flickr retrata o resgate de um cidado debaixo de
escombros aps terremoto em Porto Prncipe, em janeiro de 2010. Fonte: Flickr 83
monitoramento ssmico tem cobertura mundial e atualizada em tempo real. Esta base de
dados de domnio pblico, e est disponvel a qualquer usurio conectado internet85.
A interface de consulta possibilita ainda a filtragem restrita a reas geogrficas,
intervalos de magnitude, profundidade do hipocentro, dentre outros parmetros relacionados
a atividades ssmicas. Os resultados da consulta podem ser visualizados diretamente no
83
https://www.flickr.com/photos/vbcityphotographs/4332561503
USGS - http://www.usgs.gov/
85
http://earthquake.usgs.gov/earthquakes/map/
84
162
navegador, dispostos sobre um mapa (conforme ilustrado na Figura 7.16) ou, descarregados
no computador do usurio sob o formato tabular.
Para a obteno dos dados ssmicos referentes ao terremoto do Haiti foi realizada
uma consulta restrita somente regio do Caribe, compreendida entre os meses de janeiro e
fevereiro de 2010. A Figura 7.16 apresenta a visualizao dos 105 resultados desta consulta.
Os registros foram descarregados sob o formato tabular CSV (Comma-separated Values) e
importados na plataforma SocialCol.
Figura 7.16. Registros dos sensores da USGS referente aos sismos ocorridos na regio do Haiti entre janeiro e
fevereiro de 2010. Fonte: USGS86.
Esta base histrica de sismos ocorridos na regio do Haiti entre janeiro e fevereiro de
2010 representa a carga experimental de dados proveniente dos sensores de monitoramento
ambiental.
7.2.5 Mission 4636 - SMS
A Organizao No Governamental Mission 463687 uma iniciativa voluntria
internacional que ofereceu apoio fundamental comunidade local atravs da coleta,
86
USGS - http://earthquake.usgs.gov/earthquakes/map/
163
traduo e processamento on-line de informaes que ligava o povo haitiano uns com os
outros e com os esforos de ajuda internacional.
A iniciativa disponibilizou um canal de comunicao prtico e livre de custos
populao local. Atravs de mensagens de texto SMS enviadas gratuitamente ao nmero
4636 (amplamente divulgado pelas estaes de rdio locais), a populao pde manifestar
suas necessidades aos agentes envolvidos na resposta ao desastre. O trabalho voluntrio
resultou no processamento gil de um volume expressivo de mensagens originrias da
populao local. Ao todo a base de informaes processou mais de quarenta e trs mil
mensagens.
Atravs de contatos estabelecidos por e-mail (histrico do contato apresentado no
Apndice E) esta base de informaes foi gentilmente cedida pela organizao Mission
4643. A Figura 7.17 apresenta uma amostra da base de informaes recebidas e tratadas
pela iniciativa Mission 4636 durante a resposta ao terremoto do Haiti, a exemplo da base de
dados da iniciativa Ushahidi, esta base composta por instncias de apelos e prestao de
informao da populao local, traduzidas, categorizadas e estruturadas pela equipe da
voluntrios da organizao Mission 4636.
Figura 7.17. Amostra da base de informaes recebidas e tratadas pela iniciativa Mission 4636 durante a fase
de resposta ao terremoto do Haiti (2010).
87
164
7.2.6 CENACID/UFPR - Vistorias de Equipes de Campo
O Centro Nacional de Apoio Cientfico em Desastres88 (CENACID/UFRJ) tem por
objetivo proporcionar apoio cientfico e tcnico a comunidades afetadas por desastres
naturais. Visa tambm gerar propostas de aes a serem empreendidas no seguimento da
emergncia, bem como promover cursos de treinamento para a preveno e a investigao
das causas e efeitos de desastres ambientais.
Por solicitao da expressiva atuao do governo brasileiro no Haiti, o Centro prestou
apoio fundamental na fase de resposta ao desastre, operando no diagnstico dos impactos
estruturais, polticos e sociais do desastre sobre a populao daquele pas (ITAIPU, 2010).
Incurses a campo possibilitaram equipe avaliar os danos e o comportamento da destruio
causada na capital Porto Prncipe.
88
CENACID/UFPR - http://www.cenacid.ufpr.br/
165
Figura 7.18. Relatrio de registro de informao coletada a parit de vistorias de campo pela equipe
CENACID/UFPR durante atividades de resposta ao terremoto do Haiti (2010).
166
A organizao PAHO contou com o apoio da plataforma da fundao Sahana para
armazenar e compartilhar suas informaes. Toda a documentao referente ao acervo
levantado, descrio de seus metadados e meios de acesso aos dados foi disponibilizada
atravs de uma pgina web89. A Figura 7.19 apresenta um extrato da listagem das unidades
de sade catalogadas pela organizao, tambm utilizadas na experimentao deste trabalho.
representa apenas a data em que a instncia foi agregada ao catlogo. Entretanto, a entidade
Hospital existia muito antes da data de publicao do catlogo, isto , desde o incio de
suas operaes de atendimento (vide exemplo ilustrado atravs da Figura 6.6).
Neste caso, a dimenso temporal, representada na base de dados pelo atributo
Date_Creation, imprpria para o estabelecimento de correlaes atravs do processo
[EPC] Encontrar Publicaes Correlatas.
89
http://wiki.openstreetmap.org/wiki/WikiProject_Haiti/Status/Hospitals
167
7.3
Resultados da Experimentao
As bases de dados foram carregadas na plataforma experimental SocialCol,
identificar a posio (fixa) de cada componente da data (dia, ms, ano, hora, minuto,
168
segundo), e reposicion-los segundo o novo formato de sada determinado para o
prosseguimento do tratamento.
7.3.2 Resultados do
Coordenadas
Processamento
[CFC]
Compatibilizar
Formato
de
Ambos os
processos adotaram abordagens anlogas para a converso dos atributos temporal e espacial.
7.3.3 Resultados do Processamento [CLA] Classificar
De acordo com o Grfico 7.1, o processo [CLA] Classificar realizou 20.776
associaes, distribudas entre as 14 distintas classes cadastradas para o evento Terremoto
169
em Porto Prncipe (Haiti).
Grfico 7.1. Distribuio da quantidade de publicaes associadas s classes do evento aps o processamento
de [CLA] Classificar na experimentao. Fonte: Plataforma SocialCol.
170
Grfico 7.2. Distribuio da quantidade de pares de publicaes correlacionadas agrupadas por intervalos de
valores do ndice de Correlao, aps o processamento de [EPC] Encontrar Publicaes Correlatas na
experimentao. Fonte: Plataforma SocialCol.
171
Grfico 7.4. Participao das fontes de informaes em histrias. Fonte: Plataforma SocialCol.
A base de dados Sahana destaca-se por evidenciar que, mesmo que nenhuma de suas
publicaes tenha sido processada na etapa [CFC] Compatibilizar Formato de
Coordenadas, ou seja, todas se apresentam deficientes da componente espacial, 33% de
suas publicaes foram posteriormente correlacionadas com outras publicaes e, obtendo
ndices no mnimo maior ou igual que 0,4.
Segundo a formulao proposta para [EPC] Encontrar Publicaes Correlatas, cada
dimenso contribui de forma igualitria em 33,3% para o clculo. Consequentemente, o
ndice de Correlao entre pares que envolvam publicaes da base Sahana atingir, no
mximo, o valor de 0,66. Ainda que deficiente da dimenso espacial, mais da metade das
publicaes (53,05%) agrupadas em histrias so originadas da base de dados Sahana, o que
pode justificar o alto ndice de correlaes dentro do intervalo de 0,5, conforme indicado no
Grfico 7.3.
7.3.6 Tempo de Processamento e Escalabilidade da Plataforma Experimental
O Grfico 7.5 apresenta o tempo mdio consumido para o processamento de uma
publicao em cada etapa do ciclo de processamento. O tempo total dispendido para a
triagem completa, desde a entrada no sistema at sua agregao dentro de uma histria
estimado em 0,14 segundos.
172
Grfico 7.5. Tempo de processamento de uma publicao para cada etapa de tratamento estabelecida na
arquitetura de soluo. Fonte: Plataforma SocialCol.
Grfico 7.6. Tempo total, em minutos, para o processamento da base de dados experimental segmentado pelos
processos da arquitetura. Fonte: Plataforma SocialCol.
Trata-se de um
173
Por fim, convm observar que este grfico apresenta estimativas baseadas no tempo
total contabilizado durante a experimentao conduzida. Porm, na prtica, o tempo mdio
real dispendido para o processamento de cada publicao ingressante varia em funo de
fatores como a quantidade de publicaes j armazenadas e as caractersticas de cada uma
das fontes de informaes agregadas ao sistema.
174
Figura 8.1. A similaridade entre duas publicaes agrupadas numa mesma histria pode ser notada a partir da
inspeo visual. O resultado atesta a efetividade da heurstica elaborada para a arquitetura
175
Publicaes provenientes da fonte de informao Flickr tambm evidenciaram um
comportamento particular que contriburam para atestar a eficcia dos procedimentos de
correlao. Trata-se de ocorrncias denominadas duplicidade similar, ou seja, casos onde
um mesmo indivduo submete publicaes contendo descrio e localizao idnticas, dentro
de um curto intervalo de tempo. Este comportamento comum na plataforma e se deve ao
simples fato de que cada publicao submetida pode anexar apenas uma imagem. Assim,
caso o usurio queira publicar mais de uma foto referente a um mesmo evento, precisar
criar uma publicao para cada imagem a ser submetida.
A Figura 8.2 retrata um registro de deteco desta situao, na qual um mesmo
usurio, dentro de um intervalo de aproximadamente um minuto publicou cinco imagens
relativas a um mesmo evento. Aps a experimentao, estas publicaes foram coletadas,
identificadas, correlacionadas e agrupadas em uma mesma histria. A correlao deste
agrupamento atingiu o grau mximo uma vez que a localidade de todas as publicaes
exatamente a mesma, o intervalo de tempo entre as publicaes muito pequeno e, o
contedo textual da publicao (considerado na classificao e clculo da dimenso
taxonmica) tambm exatamente o mesmo para todas as publicaes.
Figura 8.2. A deteco duplicidade similar evidencia um caso tpico ocorrido na rede social Flickr:
submisses sucessivas de um nico emissor retratam um mesmo evento
176
Ainda acerca dos resultados da experimentao, caso os tratamentos em segundo
nvel para a busca das coordenadas propostos no processo [CFC] Compatibilizar Formato
de Coordenadas fossem implementados no prottipo, certamente a taxa de processamentos
bem sucedidos poderia ser consideravelmente elevada em relao ao resultado atual e,
consequentemente, mais correlaes poderiam ser estabelecidas a partir dos procedimentos
agregadores. Por medidas de prioridades e tambm por no se tratar do foco deste trabalho,
tal encaminhamento fora apenas previsto, porm, no desenvolvido no prottipo
experimental.
Com relao estrutura de armazenamento e recuperao da arquitetura, a construo
do prottipo experimental demonstrou que a adoo da estrutura de banco de dados
relacional foi suficientemente capaz de atender as demandas de armazenamento e
recuperao do fluxo de dados circulantes na arquitetura proposta. O Apndice F apresenta
o diagrama entidade-relacionamento do repositrio de coleta e processamento modelado para
o prottipo experimental da arquitetura.
Em vias conclusivas e apoiado pelos resultados da experimentao pode-se afirmar
comprovadamente que a abordagem de soluo proposta nesta Tese alcanou de forma
satisfatria suas metas inicialmente estipuladas.
8.2
Propostas de Encaminhamento
Alternativas e medidas para fins de elevao da frequncia de colaborao, aumento
177
Ainda no que tange a efetividade das requisies de feedbacks, polticas de
recompensas tambm podem ser estabelecidas em funo do ranking da efetividade e
participao do cidado quanto ao provimento da informao durante a resposta.
iniciativa adotada pela equipe vencedora do desafio Red Ballon Challenge (TANG et al.,
2011), por exemplo, garante uma poltica de premiao justa e proporcional ao grau de
colaborao do indivduo, alm de garantir que o oramento estipulado no seja extrapolado.
Para a resoluo de conflitos, regras de resoluo previamente definidas combinadas
a algoritmos de aprendizado de mquina podero ser aplicados para que decises sejam
tomadas sem a necessidade de interveno humana.
Mtodos automticos para identificao e extrao de valores de atributos
quantitativos em publicaes, traduo, geolocalizao tambm podem ser aplicados com a
finalidade de reduzir ainda mais a dependncia do processamento humano, aumentar a
autonomia do sistema e a eficincia de seus respectivos processos.
Para fins de simplificao e generalizao, a formulao elaborada para o
estabelecimento da correlao temporal introduziu o parmetro binrio [EVENTm,n]
(detalhado na subseo 6.2.3.1) para condicionar seus cmputos em funo dos distintos
perodos de validade temporal existentes entre eventos e entidades. Entretanto, a validade
temporal de uma informao pode ser modelada de maneira mais realista ao substituir a
representao generalista do parmetro binrio por outro, mais preciso, que quantifique o
intervalo de tempo de validade da referida informao. Tal medida contribuir para a
determinao da correlao entre duas instncias de informaes de forma mais precisa e
realista.
Tambm como prosseguimento do trabalho, em termos analticos acerca da eficincia
dos processos constituintes da arquitetura e suas vantagens em relao s demais iniciativas
de coleta e tratamento de informaes, sugere-se a elaborao de novas rodadas de
experimentaes que apliquem indicadores e mtricas de desempenho comparativas a estas
iniciativas afins. Desta maneira, ser possvel avaliar e medir de maneira mais efetiva e
objetiva, o ganho e a contribuio destes novos mtodos propostos em relao ao que j
existe no estado da arte.
178
Referncias Bibliogrficas
AGGARWAL, C. C.; ZHAI, C. A Survey of Text Clustering Algorithms. In: C. C.
Aggarwal; C. Zhai (Orgs.); Mining Text Data. p.77128, 2012.
AHN, L. VON; DABBISH, L. Labeling images with a computer game. ACM Conference
on Human Factors in Computing Systems. v. 6, p.319 326, 2004.
AQUAWARE: Um Ambiente de Suporte Qualidade de Dados em Data Warehouse,
Dissertao de Mestrado, Universidade Federal do Rio de Janeiro, 165p, 2003.
ANNUNZIATA, G.; OCKWELL, R. (ORGS.). Managing WHO Humanitarian Response
in the Field. Geneva, Switzerland: World Health Organization Press, 2008.
BARANAUSKAS, J. A.; MONARD;, M. C. Conceitos sobre Aprendizado de Mquina.
In: S. O. Rezende (Org.); Sistemas Inteligentes - Fundamentos e Aplicaes. 1o ed., p.89
114, 2003.
BARRT, A.; BARTHLEMY, M.; VESPIGNANI, A. Dynamical Processes on Complex
Networks. Journal of Statistical Physics, v. 135, n. 4, p. 773774, 2009.
BEAUMONT, C. Mumbai attacks: Twitter and Flickr used to break news. The
Telegraph, 27. nov. 2008.
BEM-PARAN. Equipe da UFPR embarca para o Haiti no domingo. Disponvel em:
<http://www.bemparana.com.br/noticia/135406/equipe-da-ufpr-embarca-para-o-haiti-nodomingo>. Acesso em: 6/6/2014.
BENBYA, H.; MCKELVEY, B. Toward a complexity theory of information systems
development. Information Technology & People, v. 19, n. 1, p. 1234, 2006.
BLEI, D. M.; NG, A. Y.; JORDAN, M. I. Latent Dirichlet Allocation. Journal of
Machine Learning Research, v. 3, p. 9931022, 2003.
BOMAN, J.; TAYLOR, J.; NGU, A. Flexible IoT Middleware for Integration of Things
and Applications. Proceedings of the 10th IEEE International Conference on Collaborative
Computing: Networking, Applications and Worksharing. p.481 488, 2014.
BOULOS, M. N. K.; WHEELER, S.; TAVARES, C.; JONES, R. How smartphones are
changing the face of mobile and participatory healthcare: an overview, with example
from eCAALYX. Biomedical engineering online, v. 10, p. 24, 2011.
CAMERON, M. A.; POWER, R.; ROBINSON, B.; YIN, J. Emergency situation
awareness from twitter for crisis management. Proceedings of the 21st international
conference companion on World Wide Web - WWW 12 Companion. p.695, 2012.
CARAGEA, C.; MCNEESE, N.; JAISWAL, A.; TRAYLOR, G.; KIM, H.; MITRA, P.;
WU, D.; TAPIA, A. H.; GILES, L.; JANSEN, B. J.; YEN, J. Classifying Text Messages for
179
the Haiti Earthquake. Proceedings of the 8th International Conference on Information
Systems for Crisis Response and Management, 2011.
CHARIKAR, M. S. Similarity estimation techniques from rounding algorithms.
Proceedings of the thiry-fourth annual ACM symposium on Theory of computing - STOC
02. p.380, 2002.
CHOWDHURY, S. R.; IMRAN, M.; CASTILLO, C. Tweet4act: Using Incident-Specific
Profiles for Classifying Crisis-Related Messages. Proceedings of the 10th International
Conference on Information Systems for Crisis Response and Management (ISCRAM). p.1
5, 2013.
COOPER, S.; KHATIB, F.; TREUILLE, A.; BARBERO, J.; LEE, J.; BEENEN, M.;
LEAVER-FAY, A.; BAKER, D.; POPOVI, Z.; PLAYERS, F. Predicting protein
structures with a multiplayer online game. Nature, v. 466, n. 7307, p. 75660, 2010.
aDApTA: Adaptive Approach for Information Integration to Support Decision Making
in Complex Environments, Universidade Federal do Rio de Janeiro, 129p, 2015.
CORDEIRO, K. DE F.; MARINO, T. B.; CAMPOS, M. L. M.; BORGES, M. R. S. Use of
Linked Data in the design of information infrastructure for collaborative emergency
management system. Proceedings of the 2011 15th International Conference on Computer
Supported Cooperative Work in Design (CSCWD). p.764771, 2011.
COSKUN, E.; OZCEYLAN, D. Complexity in Emergency Management and Disaster
Response Information Systems (EMDRIS). Proceedings of the International Conference at
Information System for Crisis Response and Management, 2011.
DAVID, J. M. Z.; MACIEL, R. S. P. Middleware para sistemas colaborativos. In: M.
PIMENTEL; H. FUKS (Orgs.); Sistemas Colaborativos. 1a Edio ed., p.416, 2011.
DIAZ, F.; METZLER, D.; AMER-YAHIA, S. Relevance and ranking in online dating
systems. Proceedings of the 33rd international ACM SIGIR conference on Research and
development in information retrieval - SIGIR 10. p.66, 2010.
DINIZ, V. B.; BORGES, M. R. S.; GOMES, J. O.; CANS, J. H. Knowledge management
support for collaborative emergency response. Proceedings of the 9th International
Conference on Computer Supported Cooperative Work in Design. p.11881193, 2005.
DISQUE-DENNCIA. Disque Denncia - Nmeros. Disponvel em:
<http://www.disquedenuncia.org.br/numeros.php>. Acesso em: 1/6/2014.
DRANSCH, D.; POSER, K.; FOHRINGER, J.; LUCAS, C. Volunteered Geographic
Information for Disaster Management. Citizen E-Participation in Urban Governance.
p.98118, 2013.
ENEH JOY NNENNA, O. H. O. Mobile Positioning Techniques in GSM Cellular
Networks: A Comparative Performance Analysis. International Journal of Computer
Technology and Electronics Engineering, v. 2, n. 6, p. 2129, 2012.
180
ESRI. Emergency/Disaster Management. Disponvel em:
<http://www.esri.com/industries/public-safety/emergency-disaster-management>. Acesso
em: 21/8/2013.
FERREIRA, A. B. H. Dicionrio Aurlio Eletrnico. Disponvel em:
<http://www.dicionariodoaurelio.com/>. Acesso em: 6/6/2015.
Architectural Styles and the Design of Network-based Software Architectures, Tese de
Doutorado, University of California, 2000.
No-Extensividade Termodinmica, Invarincia Discreta de Escala e ElastoPlasticidade: Estudo Numrico de um Modelo Geomecnico Auto-Organizado
Criticamente, Pontifcia Universidade Catlica do Rio de Janeiro, 189p, 2003a.
No-extensividade termodinmica, invarincia discreta de escala e elasto-plasticidade:
estudo numrico de um modelo geomecnico auto-organizado criticamente, Pontifcia
Universidade Catlica do Rio Janeiro, 2003b.
FILIPPO, D.; FILHO, J. V.; ENDLER, M.; FUKS, H. Mobilidade e ubiquidade para
colaborao. In: H. PIMENTEL, M.; FUKS (Org.); Sistemas Colaborativos. 1a Edio ed.,
p.416, 2011.
FININ, T.; MURNANE, W.; KARANDIKAR, A.; KELLER, N.; MARTINEAU, J.;
DREDZE, M. Annotating Named Entities in Twitter Data with Crowdsourcing. In: C.
Callison-Burch; M. Dredze (Orgs.); . v. 2010, p.8088, 2010.
FITZGERALD, M. IAPA: Two Months On, Haitian Press Still Devastated by
Earthquake. Disponvel em:
<www.editorandpublisher.com/eandp/news/article_display.jsp?vnu_content_id=1004078550
>. .
GEOSMS. Open GeoSMS for Emergency and Disaster Management. Disponvel em:
<http://code.google.com/p/ogssdk/downloads/detail?name=Open+GeoSMS+for+EDM.pdf>. Acesso em: 24/2/2013.
GO, A.; BHAYANI, R.; HUANG, L. Twitter Sentiment Classification using Distant
Supervision. , p. 16, 2009.
GOOGLE. Nosso Planeta Mobile: Brasil - Como entender o usurio de celular.
Disponvel em: <www.ourmobileplanet.com>. Acesso em: 1/6/2012.
GOUVEIA, C.; FONSECA, A. New approaches to environmental monitoring: the use of
ICT to explore volunteered geographic information. GeoJournal, v. 72, n. 3-4, p. 185
197, 2008.
GOUVEIA, C.; FONSECA, A. New approaches to environmental monitoring: the use of
ICT to explore volunteered geographic information. GeoJournal, v. 72, n. 3-4, p. 185
197, 2008.
181
GRONEWOLD, N. Devastated Haiti Braces for an Active Hurricane Season. New York
Times, 12. jul. 2010.
HART, G. The five Ws: An old tool for the new task of audience analysis. Technical
Communication, v. 43, n. 2, p. 139145, 1996.
HEINZELMAN, J.; WATERS, C. Crowdsourcing Crisis Information in DisasterAffected Haiti. Washington, D.C, USA, 2010.
HEINZELMAN, J.; WATERS, C. Crowdsourcing Crisis Information in Disaster-.
Washington, DC, 2010.
HERAVI, B. R.; BORAN, M.; BRESLIN, J. G. Towards Social Semantic Journalism.
Sixth International AAAI Conference on Weblogs and Social Media, 2012.
HERAVI, B. R.; MCGINNIS, J. A Framework for Social Semantic Journalism. First
International IFIP Working Conference on Value-Driven Social & Semantic Collective
Intelligence (VaSCo), at ACM Web Science 2013.
HEYLIGHEN, F. Building a Science of Complexity. Annual Conference of the Cybernetic
Society, 1988.
HOLLAND, J. H. Complex Adaptive Systems: A Primer. Disponvel em:
<http://www.santafe.edu/media/bulletin_articles/summer_fall1987v2n1.pdf>. Acesso em:
17/7/2012.
HOWARD, B. C. Scanning Social Media to Improve Typhoon Haiyan Relief Efforts. , p.
1114, 2013.
HUGHES, A. L.; PALEN, L. Twitter adoption and use in mass convergence and
emergency events. International Journal of Emergency Management, v. 6, n. 3/4, p.
248, 2009.
ITAIPU. Situao no Haiti pode piorar. Disponvel em:
<http://jie.itaipu.gov.br/node/42611>. Acesso em: 6/6/2014.
KAMEL BOULOS, M. N.; RESCH, B.; CROWLEY, D. N.; BRESLIN, J. G.; SOHN, G.;
BURTNER, R.; PIKE, W. A; JEZIERSKI, E.; CHUANG, K.-Y. S. Crowdsourcing, citizen
sensing and sensor web technologies for public and environmental health surveillance
and crisis management: trends, OGC standards and application examples.
International journal of health geographics, v. 10, p. 67, 2011.
KAUFMANN, N.; VEIT, D. More than fun and money . Worker Motivation in
Crowdsourcing A Study on Mechanical Turk Crowdsourcing A Study on
Mechanical Turk. AMCIS 2011 Proceedings, 2011.
KIRA, K.; RENDELL, L. A. The feature selection problem: traditional methods and a
new algorithm. Proceedings of the tenth national conference on Artificial intelligence.
p.129134, 1992.
182
KUZNETSOV, S. Motivations of contributors to Wikipedia. ACM SIGCAS Computers
and Society, v. 36, n. 2, p. 17, 2006.
LEITE, M. S.; REINISCH, A. C. C. S.; BORNIA, A. C. A Cadeia de Suprimento vista
como um Sistema Adaptativo Complexo (SAC): convivncia dialgica de conceitos.
XXIII Encontro Nacional de Engenharia de Produo, 2003.
LINDEL, M. K.; PRATER, C.; PERRY, R. W. Introduction to Emergency Management.
John Wiley & Sons, 2006.
MARINO, T. B.; NASCIMENTO, B. S. DO; BORGES, M. R. S. GIS Supporting Data
Gathering and Fast Decision Making in Emergencies Situations. Proceedings of the 9th
International ISCRAM Conference. p.16, 2012.
MARIOTTI, H. Pensamento Complexo: Suas Aplicaes Liderana, Aprendizagem
e ao Desenvolvimento Sustentvel. 2a Ediao ed.So Paulo, Brasil: Atlas, 2010.
MAZUMDAR, S.; LANFRANCHI, V.; CANO, A. E. Visualising Topical Sentiment and
Influence in Social Media. Proceedings of Social Media and Linked Data for Emergency
Response (SMILE) Workshop. Extended Semantic Web Conference, ESWC 2013. p.112,
2013.
MCCALLUM, A.; NIGAM, K. A Comparison of Event Models for Naive Bayes Text
Classification. AAAI-98 Workshop on Learning for Text Categorization. p.4148, 1998.
MILLER, J. H.; PAGE, S. E. Complex Adaptative Systems: An introduction to
Computational Models of Social Life. Princeton University Press, 2007.
MIRANDA, R. C. R. O uso da informao na formulao de aes estratgicas pelas
empresas. Cincia da Informao, v. 28, n. 3, p. 284290, 1999.
MITCHELL, M. Complexity: The Emerging Science At The Edge Of Order And Chaos.
USA: Touchstone Books, 1992.
MITCHELL, M. Complexity: A Guided Tour. USA: Oxford University Press, 2009.
MORIN, E. Introduo ao Pensamento Complexo. 3a Edio ed.Porto Alegre, Brasil:
Sulina, 2007.
MUNRO, R. Crowdsourcing and the crisis-affected community. Information Retrieval,
v. 16, n. 2, p. 210266, 2013.
NONAKA, I.; TAKEUCHI, H. Criao do Conhecimento na Empresa: como as
empresas geram a dinmica da inovao. Rio de Janeiro, Brasil: Campus, 2007.
OCHA. How are disaster relief efforts organised? Cluster Approach. Disponvel em:
<http://business.un.org/en/assets/39c87a78-fec9-402e-a434-2c355f24e4f4.pdf>. Acesso em:
11/12/2012.
183
OLTEANU, A.; CASTILLO, C.; DIAZ, F.; VIEWEG, S. CrisisLex: A Lexicon for
Collecting and Filtering Microblogged Communications in Crises. In: A. Arbor (Org.);
Proceedings of the AAAI Conference on Weblogs and Social Media (ICWSM14), 2014.
PALAZZO, L. A. M. Complexidade, caos e auto-organizao. Oficina de Inteligncia
Artificial III, Anais. p.4967, 1999.
PASSANT, A.; BRESLIN, J. G.; DECKER, S. Open, distributed and semantic
microblogging with SMOB. Lecture Notes in Computer Science (including subseries
Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). v. 6189 LNCS,
p.494497, 2010.
PASSONNEAU, R. Sentiment Analysis of Twitter Data. Proceeding LSM 11
Proceedings of the Workshop on Languages in Social Media. p.3038, 2011.
Avaliao da Qualidade de Dados pela No Conformidade, Universidade Federal do Rio
de Janeiro, 110p, 2001.
Modelagem primria da temperatura do ar em uma floresta de transio Amazniacerrado no norte de Mato Grosso, Universidade Federal de Mato Grosso, 2011.
PUROHIT, H.; CASTILLO, C.; DIAZ, F.; SHETH, A.; MEIER, P. Emergency-relief
coordination on social media: Automatically matching resource requests and offers.
First Monday, v. 19, n. 1, p. 142, 2013.
R. SABRA JAFARZADEH, J. Emergency management 2.0: Integrating social media in
emergency communications. The New England journal of medicine, v. 9, n. 1, p. 1318,
2011.
REISSWITZ, F. Anlise De Sistemas. Rio de Janeiro, Brasil: Clube de Autores, 2009.
REUTER, C.; MARX, A.; PIPEK, V. Social Software as an Infrastructure for Crisis
Management - a Case Study About Current Practice and Potential Usage. Proceedings
of the 8th International ISCRAM Conference, 2011.
ROGSTADIUS, J.; KOSTAKOS, V. Towards Real-time Emergency Response using
Crowd Supported Analysis of Social Media. Computational Linguistics, 2011.
ROGSTADIUS, J.; KOSTAKOS, V.; KITTUR, A.; SMUS, B.; LAREDO, J.; VUKOVIC,
M. An Assessment of Intrinsic and Extrinsic Motivation on Task Performance in
Crowdsourcing Markets. , , n. Gibbons 1997, p. 321328, 2000.
AgileOOHDM, Pontifcia Universidade Catlica do Rio de Janeiro, 78p, 2004.
SCHLKOPF, B.; SMOLA, A. J.; WILLIAMSON, R. C.; BARTLETT, P. L. New Support
Vector Algorithms. Neural Computation, v. 12, n. 5, p. 12071245, 2000.
SHETH, A. Citizen Sensing, Social Signals, and Enriching Human Experience. IEEE
Internet Computing, v. 13, n. 4, p. 8792, 2009.
184
SILVESCU, A.; CARAGEA, C.; HONAVAR, V. Combining Super-Structuring and
Abstraction on Sequence Classification. 2009 Ninth IEEE International Conference on
Data Mining. p.986991, 2009.
SIMON, H. A. The Architecture of Complexity. The American Philosophical Society.
Disponvel em: <http://www.jstor.org/stable/985254>. Acesso em: 17/5/2012.
SINGH, P.; PARK, I.; LEE, J. Information Sharing: A Study of Information Attributes
and their Relative Significance During Catastrophic Events. In: K. J. Knapp (Org.);
Cyber Security and Global Information Assurance. p.283305, 2009.
SMUTS, J. C. Holism and evolution. New York, USA: The Gestalt Journal Press, 1996.
SOS. 112 in Sweden: The 2008 Annual Activity Report. Stockholm, Sweden, 2008.
SPRING, A.; ROGSTADIUS, J.; VUKOVIC, M.; TEIXEIRA, C. A.; KOSTAKOS, V.;
KARAPANOS, E.; LAREDO, J. A. CrisisTracker: Crowdsourced social media curation
for disaster awareness. IBM Journal of Research and Development, v. 57, n. 5, p. 4:1
4:13, 2013.
STVILIA, B.; TWIDALE, M. B.; SMITH, L. C.; GASSER, L. Information quality work
organization in wikipedia. Journal of the American Society for Information Science
and Technology, v. 59, n. 6, p. 9831001, 2008.
TANG, J. C.; CEBRIAN, M.; GIACOBE, N. A.; KIM, H.-W.; KIM, T.; WICKERT, D.
BEAKER. Reflecting on the DARPA Red Balloon Challenge. Communications of the
ACM, v. 54, n. 4, p. 78, 2011.
TSUR, O.; LITTMAN, A.; RAPPOPORT, A. Efficient Clustering of Short Messages into
General Domains. Seventh International AAAI Conference on Weblogs and Social Media.
p.10, 2013.
USHAHIDI. Data Science for Social Good and Ushahidi. Summer Fellowship 2013:
Ushahidi, 2013.
VIEIRA, C. L. Sistemas Complexos: A fronteira entre a ordem e o caos. Rio de Janeiro,
Brasil, 2005.
VIVACQUA, A. S.; GARCIA, A. C. B. Ontologia de colaborao. In: M. Pimentel; H.
Fuks (Orgs.); Sistemas Colaborativos2. 1a Ediao ed., p.416, 2011.
VOSS, J. Tagging, Folksonomy & Co - Renaissance of Manual Indexing?. 10th
international Symposium for Information Science. p.12, 2007.
VUKOVIC, M. Crowdsourcing for Enterprises. 2009 Congress on Services - I. p.686
692, 2009.
WALDROP, M. Complexity: The Emerging Science at the Edge of Order and Chaos.
Simon & Schuster, 1992.
185
WEISER, M. Computer for the twenty-first century. Scientific American, v. 265, n. 3, p.
94104, 1991.
XAVIER-DA-SILVA, J. O que Geoprocessamento?. Revista do CREA-RJ No 79, p.
4244, 2009.
XAVIER-DA-SILVA, J.; MARINO, T. B. Citizenship through data sharing in the
Amazon region. Proceedings of the 2nd International Conference on Computing for
Geospatial Research & Applications - COM.Geo 11. p.15, 2011.
186
Apndices
Apndice A Requisitos bsicos para a elaborao de bibliotecas de comunicao para
as fontes de informaes colaborativas
1. Ser uma classe PHP. Ex.: class Twitter { ... }
2. Conter a funo: Public Function getMessages($strKeywords = '',
$strFromDateTime = '', $strToDateTime = '', $dblLatitude = '', $dblLongitude = '',
$dblRadiusKm = '') { return <results> }
2.1. Parmetros da funo:
2.2. O retorno XML deve conter as tags <results> para identificar o incio do conjunto
de publicaes e <post> para identificar cada publicao capturada.
3. Funo: public function postMessage($idUser, $strMessage) {} NO OBRIGATRIA
3.1. Parmetros da funo:
187
Apndice B Exemplo de cdigo PHP do script para coleta de publicaes da rede
social Facebook atravs do processo [COL] Coletar Publicaes
<?php
class Facebook {
private $accountUserEmail
private $accountUserPassword
private $appID
private $appSecret
=
=
=
=
"colaboracaosocial@gmail.com";
"Colabora2.0";
"476440689114027";
"51ecf8812cd5e5bf42132fcc9e84c0f3";
188
Apndice C Vocabulrio de referncia organizado para a associao de atributos comuns e anotao das publicaes tratadas
Termo do Vocabulrio
Post.strPrimaryKey
Tipo
Chave-
URI
Primria
Post.What.strAttachedFileURL
Texto
The
URI
of
file
attached
to
an
Item.Ex.: http://rdfs.org/sioc/ns#attachment
http://www.flickr.com/f3240f123.jpg
Post.What.strLanguage
Texto
The set of tags, constructed according to RFC 1766, for the http://purl.org/dc/terms/RFC1766
identification of languages.Ex.: en-us
Post.What.strMessage
Texto
The content of the Item in plain text format.Ex.: Just seen a http://rdfs.org/sioc/ns#content
house in fire at city center
Post.What.strMessageOriginal
Texto
The content of the Item in plain text format, under original http://rdfs.org/sioc/ns#content
language.Ex.: Acabo de ver uma residncia pegando fogo no
centro
Post.What.strTags
Texto
Post.When.dtPosted
Data/Hora
The date and time of the last activity associated with a SIOC http://purl.org/dc/terms/#created
189
concept instance, and expressed in ISO 8601 format. This could
be due to a reply Post or Comment, a modification to an Item,
etc. Ex.: 2014-08-27T18:50Z
Post.Where.dblLatitude
Numrico
Post.Where.dblLongitude
Numrico
wgs84_pos#lat
Post.Where.PlaceName
Texto
The
location
wgs84_pos#long
of
the
thing.
More
info: http://dbpedia.org/resource/classes
Texto
190
Apndice D Especificao da Ontologia SocialCol para Anotao de Publicaes
Correlatas
<rdf:RDF
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"
xmlns:owl="http://www.w3.org/2002/07/owl#"
xmlns:dcterms="http://purl.org/dc/terms/"
xmlns:sioc="http://rdfs.org/sioc/ns#"
xmlns:scol="http://greco.ppgi.ufrj.br/socialcol/ontology/"
>
<owl:Ontology rdf:about="http://greco.ppgi.ufrj.br/socialcol/ontology/"
rdf:type="http://www.w3.org/2002/07/owl#Thing">
<dcterms:title xml:lang="en">SocialCol Ontology Namespace</dcterms:title>
<owl:versionInfo>Revision: 1.0</owl:versionInfo>
<dcterms:description xml:lang="en">SocialCol (Social Collaboration) is an ontology for describing
the spatial, temporal and taxonomic correlations between posts originated from heterogeneous
information sources(sensors, social media, SMS, e-mails).</dcterms:description>
<rdfs:seeAlso rdf:resource="http://greco.ppgi.ufrj.br/socialcol/spec" rdfs:label="SocialCol
Ontology Specification"/>
</owl:Ontology>
<owl:ObjectProperty>
<rdfs:label xml:lang="en">isSpatialCorrelatedTo</rdfs:label>
<rdfs:comment xml:lang="en">Specifies that this Post is correlated to another Post due to their
spatial proximity.</rdfs:comment>
<rdfs:domain rdf:resource="http://rdfs.org/sioc/ns#Post"/>
</owl:ObjectProperty>
<owl:ObjectProperty>
<rdfs:label xml:lang="en">isTimeCorrelatedTo</rdfs:label>
<rdfs:comment xml:lang="en">Specifies the temporal correlation between two posts due to the
short time interval between their publications.</rdfs:comment>
<rdfs:domain rdf:resource="http://rdfs.org/sioc/ns#Post"/>
</owl:ObjectProperty>
<owl:ObjectProperty>
<rdfs:label xml:lang="en">isTaxonomicCorrelatedTo</rdfs:label>
<rdfs:comment xml:lang="en">Specifies the taxonomic correlation between two Posts once there
were found common subjects between their contents.</rdfs:comment>
<rdfs:domain rdf:resource="http://rdfs.org/sioc/ns#Post"/>
</owl:ObjectProperty>
</rdf:RDF>
191
Apndice E Histrico de contatos por e-mail para a solicitao das bases de dados
1. Organizao Mission 4636
Tiago Marino (tiagomarino@ufrj.br)
segunda-feira, 18 de novembro de 2013 17:56:50
info@mission4636.org (info@mission4636.org)
Marino, Nascimento, Borges - 2012 - GIS Supporting Data Gathering and
Fast Decision Making in Emergencies Situations.pdf (557,2 KB)
, Curriculum System of Curriculum Lattes (Tiago Badre
Marino).pdf (278,0 KB) , Architecture for Selection, Processing and
Sharing Collaborative Information for Decision Support in Emergency
Situationsv2.pdf (815,0 KB)
My name is Tiago Marino. I'm a PhD student in computer science post-graduate
program at the Federal University of Rio de Janeiro (Brazil).
By over 10 years I've also been volunteering with CENACID http://www.cenacid.ufpr.br/ a UNDAC partner, coordinated by an UNDAC team expert
(prof. Renato Lima). During this time I had the opportunity to support dozens of
disaster's response missions occurred in Brazil and America Latina (including 2010
Haiti Earthquake).
My main role inside the group is related to field assessments information management,
generated during our missions. I'm responsible to organize it and provide updated
maps, situation reports, and so on....
At Geoprocessing Laboratory, I developed a GIS which handles and organizes these
kind of information (details in paper attached to this message).
So that's a small briefing about myself and my interests.
Currently I'm in the 3rd year of my PhD, in a internship at DERI/Galway, at Social
Software Group (leaded by John Breslin) (http://www.deri.ie/uss) and my focus evolves
Collaborative Information for Decision Support During Emergency Responses.
My experiment works over automated procedure for posts translation, classification,
location, grouping considering different information sources such as social networks,
phone calls, sms, email, sensor, data gathered from field agents, social collaboration,
etc.
For my experimentation I've already collected a couple of datasets related to 2010 Haiti
earthquake disaster.
The point is that if I could have any dataset related to 2010 Haiti disaster, it could be
very helpful for my experiment tests.
As I plan to evaluate my techniques under different communication channels it would
be useful if I could have a SMS/Twitter datasets.
Please, if you need more information about my research, it will be a pleasure to share it
with you.
Take this opportunity to congratulate you for the wonderful work and service to
humanity causes.
All the best
Tiago Marino
De:
Enviada:
Para:
Anexos:
192
info@mission4636.org (info@mission4636.org)
De:
domingo, 24 de novembro de 2013 00:31:05
Enviada:
tiagomarino@ufrj.br
Para:
mission_4636_anonymized_v2.tsv (7,5 MB)
Anexos:
Thank you, Tiago
The messages are attached as tab-separated columns.
Here is a definition of the fields:
id: unique id number for the message
date_received: the date the message was received by Mission 4636
message: the actual 4636 message
translation: the translation and notes
sender_phone_anon: the phone number (anonymized but consistent)
primary_category: the main category given to the message
latitude: latitude of the reported location
longitude: longitude of the reported location
city: the name of the city
dept: the name of the department
missing_person_status: the missing person status
date_last_modified: the time that the message was finalized and sent to responders
time_to_process: the time taken to process the message
all_categories: the full set of categories
actionable: whether of not the message was 'actionable' (partial)
ushahidi_date_added: the date the message was published in the Ushahidi Crisis Map
ushahidi_time_to_process: the time taken for the message to be added to the
Ushahidi@Tufts Crisis Map
workforce: the workforce: Mission 4636 volunteers, or paid workers within Haiti
While the messages have been anonymized, there may still contain some personally
identifying information, so please follow the guidelines at:
http://www.mission4636.org/access-to-data/
When referring to this data in your research, please cite the following paper:
Munro, Robert, 2013. Crowdsourcing and Crisis Affected Community.
Journal of Information Retrieval, 16(2), Springer
Robert was a member of Mission 4636 and the only person who interviewed us Haitians
when writing the report. If you haven't already, you can also reach out to him directly:
robert.munro@gmail.com
We wish you the best with your research!
The Mission 4636 coordinators
193
2. Organizao Sahana Foundation
Tiago Marino (tiagomarino@ufrj.br)
segunda-feira, 18 de agosto de 2014 21:51:13
Michael Howden (michael@sahanafoundation.org)
Marino, Nascimento, Borges - 2012 - GIS Supporting Data Gathering and
Fast Decision Making in Emergencies Situations.pdf (557,2 KB)
, Curriculum System of Curriculum Lattes (Tiago Badre
Marino).pdf (278,0 KB) , Architecture for Selection, Processing and
Sharing Collaborative Information for Decision Support in Emergency
Situationsv2.pdf (815,0 KB)
Dear colleague Michael,
My name is Tiago Marino. I'm a PhD student in computer science post-graduate
program at the Federal University of Rio de Janeiro (Brazil).
By over 10 years I've also been collaborating as volunteer with the CENACID http://www.cenacid.ufpr.br/ a UNDAC partner, coordinated by an UNDAC team expert
(prof. Renato Lima). During this time I had the opportunity to support dozens of
disaster's response missions occurred in Brazil and America Latina (including 2010
Haiti Earthquake).
My main role inside the group is related to field assessments information management,
generated during our missions. I'm responsible to organize it and provide updated
maps, situation reports, and so on....
At Geoprocessing Laboratory, I developed a GIS which handles and organizes this kind
of information (details in paper attached to this message).
So that's a small briefing about myself and my interests.
Currently I'm in the 4th year of my PhD and my focus evolves Collaborative
Information for Decision Support During Emergency Responses.
My experiment works over automated procedure for posts translation, classification,
location, grouping considering different information sources such as social networks,
phone calls, sms, email, sensor, data gathered from field agents, social collaboration,
etc..
For my experimentation I've already collected a couple of datasets related to 2010 Haiti
earthquake disaster.
By reading about your contribution at http://sahanafoundation.org/products/eden/, I've
noticed that you built a valuable dataset regarding 2010 Haiti disaster.
So I was wondering if you could share this dataset with me. I ensure you that's just for
research purpose. I won't expose any private content and compromise to credit your
institution in my work and any publication originated from this work.
I've got your e-mail from a PhD mate, Kelli Faria, which already contacted you before
in order to request data for her thesis research as well.
We are part of a workgroup which inspects topics related to information and crisis
situations.
By the way, regarding Kelli's previous request, she stated me that she tried to contact
the person responsible for the Philippines disaster dataset - Mr. Sandy - but she still
couldn't have access to the data she requested.
When I told her that I was about to write to you, she kindly asked me if I could state this
De:
Enviada:
Para:
Anexos:
194
issue (her fail to get the data by contacting him) to you.
Please, if you need more information about my research, it will be a pleasure to share it
with you.
Take this opportunity to congratulate you for the wonderful work and service to
humanity causes.
All the best
Tiago Marino
195
Apndice F Diagrama Entidade-Relacionamento (DER) do repositrio de coleta e processamento da plataforma experimental
SocialCol