Você está na página 1de 56

incentivo a atividades de ensino, pesquisa e desenvolvimento;

zelo pela preservao e aprimoramento do esprito crtico, responsabilidade


profissional e personalidade nacional
da comunidade tcnico-cientfica que
atua no setor;
preocupao com a poltica governamental que afeta as atividades de
Computao do Brasil, no sentido de
assegurar a emancipao tecnolgica
do pas;
promoo anual do Congresso Nacional da SBC e incentivo organizao
de reunies, congressos, conferncias e
publicaes de cunho cientfico.

O atual presidente da SBC o professor Jos


Carlos Maldonado, do Instituto de Cincias
Matemticas e Computao (ICMC) da USP/
So Carlos); o vice-presidente o professor
Marcelo Walter, do Instituto Informtica da
UFRGS.

Captulo 3 IA Multiagente: Mais Inteligncia,


Mais Desafios
Ana Bazzan (UFRGS)
Captulo 4 A CIncia da Opinio: Estado da Arte em
Sistemas de Recomendao
Slvio Cazella (Unisinos)
Eliseo Reategui (UFRGS)
Maria Augusta Nunes (UFS)
Captulo 5 Introduo aos Clusters Verdes de Servidores
Daniel Moss (UPitt)
Julius Leite (UFF)
Captulo 6 CSI: Anlise Forense de Documentos Digitais
Anderson Rocha (Unicamp)
Siome Goldenstein (Unicamp)
Captulo 7 Interatividade em Vdeos com Visada Livre
Jeferson Rodrigues da Silva (IME-USP)
Carlos Hitoshi Morimoto (IME-USP)
Captulo 8 Introduo Teoria dos Jogos Algortmica
Flvio Miyazawa (Unicamp)

ISBN 

Organizadores

Captulo 2 Tcnicas e Ferramentas de Teste de Software


Mrcio Delamaro (ICMC-USP)
Marcos Lordelo Chaim (EACH-USP)
Auri Marcelo Rizzo Vincenzi (UFG)

Wagner Meira Jr.


Andr C. P. L. F. de Carvalho

Captulo 1 Computao na Nuvem


Karin Breitman (PUC-Rio)

> atualizaes em
informtica 2010

Fundada em julho de 1978, a Sociedade Brasileira de Computao formada por pesquisadores e profissionais comprometidos
com o avano tecnolgico e cientfico da
Computao e a disseminao do seu uso.
A SBC, sociedade civil sem fins lucrativos,
atua junto ao pblico profissional e leigo no
que se refere Tecnologia de Informao,
promovendo o intercmbio de informaes
e de altos padres tcnicos e profissionais.
Entre os objetivos do trabalho realizado pelos membros da SBC, se destacam:

Wagner Meira Jr.


Andr C. P. L. F. de Carvalho
Organizadores

Este livro faz parte das iniciativas da Diretoria de Publicaes da Sociedade Brasileira
de Computao, SBC. o quinto livro desta srie, iniciada em 2006, que consolida as
contribuies de diversos autores das Jornadas de Atualizaes em Informtica (JAI).
Essas jornadas constituem um dos mais importantes eventos acadmicos de atualizao cientfica e tecnolgica da comunidade
brasileira de Computao.
Este livro, organizado a partir de convites a
professores pesquisadores de renome nacional e internacional e de chamadas pblicas para captulos em tpicos avanados da
Computao, permite uma viso abrangente do estado da arte nos diversos tpicos
abordados, contribuindo para a atualizao
profissional, fundamental para os profissionais que atuam na rea.

> atualizaes em

informtica 2010

A SBC, como um importante agente social


no fortalecimento das atividades de ensino,
pesquisa e disseminao do conhecimento
de Computao no pas, fica muito honrada
em poder oferecer este livro para a comunidade.
Registramos nossos sinceros agradecimentos ao Comit de Programa e aos autores
e em especial aos Profs Wagner Meira Jr.
(DCC-UFMG) e Andr Ponce de Leon Ferreira
de Carvalho (ICMC-USP), coordenadores das
JAI 2010.
Jos Carlos Maldonado

Presidente da SBC
Sociedade Brasileira de Computao

Captulo 6
CSI1 : Anlise Forense de Documentos Digitais
Anderson Rocha, Siome Goldenstein2
Abstract
In this chapter, we introduce the reader to the emerging field of Digital Media Forensics which aims
at uncovering and analyzing the underlying facts about a digital object (e.g., images and videos). We
pay special attention to source camera identification and forgery detection research topics. Source
cameras identification goal is to identify the particular model of a camera, or the exact camera, that
captured a document. Forgery detections goal is to establish the authenticity of a digital document, or
to expose any potential tampering it might have undergone. We describe each of these components
of digital media forensics in detail, along with a critical analysis of the state-of-the-art, and recommendations for the direction of future research.
Resumo
Neste captulo, apresentamos um estudo crtico das principais tcnicas existentes no emergente
campo de pesquisas denominado anlise forense de documentos digitais (e.g., imagens e vdeos)
para verificao de sua autenticidade e integridade. Focamos em duas sub-reas de pesquisa: a
identificao da cmera que originou uma determinada imagem ou vdeo bem como a identificao
de adulteraes em documentos digitais. Com relao identificao da origem de uma imagem ou
vdeo, o objetivo identificar o modelo particular de uma cmera ou filmadora, ou a cmera exata.
O objetivo da deteco de adulteraes em documentos estabelecer a autenticidade dos mesmos,
ou expor quaisquer tipos de adulteraes sofridas. Finalmente, apresentamos tambm tendncias e
recomendaes para projetos futuros.

Crime Scene Investigation

Os autores esto juntos ao Reasoning for Complex Data (RECOD) Lab., Instituto
de Computao Universidade Estadual de Campinas (UNICAMP), Caixa Postal
6176, CEP 13.083-970, Campinas, SP, Brasil e podem ser contatados nos endereos {anderson.rocha,siome}@ic.unicamp.br.

263

A. Rocha, S. Goldenstein

6.1. Introduo
Uma imagem vale mil mentiras Annimo

Com o advento da internet e das cmeras de alta performance e de baixo


custo juntamente com poderosos pacotes de software de edio de imagens
e vdeos (e.g., Adobe Photoshop e Illustrator, Apple Final Cut Pro), usurios comuns tornaram-se potenciais especialistas na criao e manipulao
de documentos digitais. Quando estas modificaes deixam de ser inocentes
e passam a implicar questes legais, torna-se importante o desenvolvimento
de abordagens eficientes e eficazes para sua deteco [Rocha et al. 2011,
Rocha e Goldenstein 2010].
A identificao de imagens que foram digitalmente adulteradas de fundamental importncia atualmente. Ao campo de pesquisas relacionado anlise
de documentos digitais para verificao de sua autenticidade e integridade denominamos Anlise Forense de Documentos Digitais. O julgamento de um
crime, por exemplo, pode estar sendo baseado em evidncias que foram fabricadas especificamente para enganar e mudar a opinio de um jri. Um poltico
pode ter a opinio pblica lanada contra ele por ter aparecido ao lado de
um traficante procurado mesmo sem nunca ter visto este traficante antes. Um
banco pode aceitar, ingenuamente, como verdadeiro um cheque falsificado de
um cliente.
Com o avano tecnolgico, as adulteraes digitais tm atingido os mais
variados meios de comunicao, inclusive o meio cientfico. Existem indcios
de que boa parte das imagens cientficas publicadas em veculos respeitados
so adulteradas [Rocha et al. 2011]. Outra preocupao se refere perspectiva histrica. Recentemente, cientistas levantaram a hiptese de que a adulterao de imagens de eventos histricos afetam a memria das pessoas em
relao a tais eventos [Sacchi et al. 2007]. Finalmente, existe a preocupao
econmica: com a existncia de software e equipamentos de impresso de
qualidade, tornou-se muito mais fcil a falsificao de documentos financeiros
como, por exemplo, cheques (re-impresso, modificao de valores, falsificao de assinatura, etc.).
Nesse captulo, discutimos as principais formas utilizadas para criao/adulterao de contedo digital atualmente, bem como apontamos algumas limitaes das tcnicas existentes na deteco dessas falsificaes. Estamos
interessados na proposio de abordagens que permitam a normatizao da
pesquisa existente na rea de deteco de falsificaes em imagens e vdeos
digitais dado que, atualmente, os trabalhos existentes ainda so insulares e
no possuem uma metodologia ou conjunto de dados padro para testes e
comparao.
Organizamos o restante do captulo da seguinte forma. A Seo 6.2 nos
traz alguns fatores histricos ligados manipulao de documentos analgicos
e digitais. A Seo 6.3 discute algumas formas de manipulao de imagens e
vdeos digitais presentes atualmente. A Seo 6.4 apresenta o estado da arte
264

Anlise Forense de Documentos Digitais

na anlise forense de imagens e vdeos. Finalmente, a Seo 6.5 conclui o


captulo.

6.2. Aspectos Histricos


Quem disse que a cmera nunca mente foi um mentiroso Russell Frank

Nesta seo, apresentamos os principais fatos histricos relacionados


falsificao de documentos desde as primitivas combinaes e adulteraes
analgicas de filmes fotogrficos s mais recentes edies de imagens em
ferramentas de software como o Adobe Photoshop.
A falsificao de imagens de modo a representar um momento histrico que
nunca existiu quase to antiga quanto a arte da fotografia em si. Pouco depois
que o francs Nicphore Niepce [Kossoy 2006] criou a primeira fotografia em
18143 , j apareciam as primeiras fotografias adulteradas [Rocha et al. 2011].
A Figura 6.1 mostra um dos primeiros exemplos de falsificao de imagens. A
fotografia conhecida como The two ways of life de Oscar G. Rejland, 1857.
Esta montagem analgica consiste em uma composio de 30 imagens.

Figura 6.1. Composio analgica de 30 imagens. Oscar


Rejland, 1857.
O regime Stalinista usou e abusou de tcnicas de adulterao em imagens
para moldar a histria de acordo com o que lhe conviesse [Farid 2007]. Se
algum indivduo, outrora fotografado em algum evento, tornava-se desafeto do
regime, todas as suas aparies em registros fotogrficos oficiais eram eliminadas. A Figura 6.2 mostra um exemplo. Nesta fotografia, o ditador sovitico
Josef Stalin aparece com e sem a presena do comissrio de gua e transporte
Nikolai Yezhov. Yezhov foi executado em 1940.
Estudos recentes demonstram que a fotografia foi, na verdade, inventada concorrentemente por vrios pesquisadores tais como Nicphore Niepce, Louis Daguerre, Fox
Talbot, e Hercule Florence. Este ltimo, por sinal, realizando experincias no interior de
So Paulo, na vila de So Carlos, hoje Campinas [Kossoy 2006].

265

A. Rocha, S. Goldenstein

Figura 6.2. Josef Stalin com (original) e sem (adulterada)


a presena de Nikolai Yezhov.

A maior parte das adulteraes anteriores era digital necessitava de alta


capacidade tcnica e muitas horas (talvez dias) de trabalho em salas escuras
de fotografia [Rocha et al. 2011, Popescu 2004]. No entanto, aps a era digital, esse tipo de adulterao tornou-se muito comum e, hoje convivemos diariamente com exemplos de imagens modificadas digitalmente. Essas alteraes
variam de simples correes de brilho, cor e contraste feitas por usurios comuns querendo recuperar uma fotografia de famlia mal capturada atividades
criminais ou com interesses escusos [Sencar e Memon 2008].
A Figura 6.3 mostra um exemplo recente. A fotografia de Brian Walski e
apareceu no jornal Los Angeles Times em 2003. Walski combinou duas imagens para retratar um momento histrico na guerra do Iraque. No entanto,
como pode ser observado nas imagens originais, o momento histrico e nico
em que o cidado iraquiano segurando uma criana nos braos olha com esperana para o soldado britnico nunca existiu. Walski foi despedido aps o
incidente.
Nos ltimos anos tivemos um crescimento de casos relacionados ao processamento questionvel de imagens digitais; principalmente para fins polticos. Pouco tempo aps a indicao da americana Sarah Palin como possvel candidata a vice presidente dos Estados Unidos pelo partido republicano,
uma imagem4 foi amplamente distribuda na internet mostrando Sarah Palin de
biquni segurando um rifle (Figura 6.4(a)). Tempos depois, descobriu-se que a
imagem era uma composio da cabea de Palin com o corpo de outra pessoa.
Casos dessa natureza no esto to distantes de ns cidados brasileiros.
Em abril de 2009, o jornal Folha de So Paulo publicou um artigo sobre como
a ento ministra da Casa Civil Dilma Rousseff (possvel candidata a presidente
em 2010 pela situao) participara de aes de resistncia e terrorismo durante o governo militar. Como parte da matria, o jornal divulgou a imagem
de uma alegada ficha policial (Figura 6.4(b)) da ento ministra afirmando que a
mesma foi retirada dos arquivos do Departamento de Ordem Poltica e Social
(DEOPS) junto ao Arquivo Pblico de So Paulo. Em uma anlise detalhada,
4

Consulte o Apndice A.1 para uma definio formal de imagem.

266

Anlise Forense de Documentos Digitais

Figura 6.3. Soldado britnico orienta iraquianos. Fotografia e adulterao de Brian Walski.

Goldenstein e Rocha [Goldenstein e Rocha 2009] provaram que o documento


falso. A fotografia no documento o resultado de uma operao de composio (splicing) de uma outra imagem em tons de cinza, o texto resultado de
manipulao e insero digital e, finalmente, o documento no resultado de
um processo de escaneamento.
A comunidade cientfica tambm tem sido vtima de falsificaes digitais.
Dois casos, em particular, chamam a ateno. Em 2004, o professor sulcoreano Hwang Woo-Suk e colegas publicaram um artigo na renomada revista
cientfica Science reportando importantes avanos na pesquisa sobre clulas
tronco. Menos de um ano depois, um painel investigativo apontou que nove das
onze colnias que Hwang afirmara serem verdadeiras foram fabricadas a partir de duas outras autnticas [Rocha et al. 2011, Choe Sang-Hun 2006]. Outra
caso alarmante veio tona em julho de 2007 quando o professor R. Michael
Roberts e colegas da Missouri University retiraram seu artigo5 publicado pela
Science aps um painel investigativo revelar que as imagens publicadas eram
adulteradas [Kavanagh 2006].
Infelizmente, os casos acima no so isolados. Em pelo menos um veculo importante de comunicao6 estima-se que pelo menos 20% das publicaes aceitas contenham imagens com manipulaes imprprias. Ainda
mais preocupante o fato de que aproximadamente 1% dessas mesmas
publicaes contm manipulaes fraudulentas [Pearson 2005]. Para se ter
uma idia, em 1996, cerca de 6% das anlises feitas pelo U.S. Office of
5

Cdx2 Gene Expression and Trophectoderm Lineage Specification in Mouse Embryos.

Journal of Cell Biology.

267

A. Rocha, S. Goldenstein

(a) Montagem buscando denegrir a imagem da candidata republicana Sarah Palin s eleies americanas em 2008.

(b) Ficha falsa publicada pelo jornal Folha de So Paulo.

Figura 6.4. Exemplos recentes de foto-montagens com


fundo poltico.

Research Integrity, que monitora as publicaes cientficas americanas, envolvia imagens cientficas contestadas. Em 2005, este nmero subiu para
44% [Parrish e Noonan 2009].
Com o avano das tecnologias de captura de vdeos bem como a facilidade de compartilhamento (e.g., Youtube), vdeos digitais esto cada vez
mais presentes em nossas atividades cotidianas. Embora falsificaes em
vdeos sejam relativamente mais difceis de serem feitas, temos encontrado
diversos casos nos ltimos anos. A Figura 6.5 mostra um quadro do vdeo parte do programa televisivo russo The People Want to Know. Neste vdeo, o analista poltico Mikhail Delyagin foi removido (pelo menos em grande
parte) aps fazer duras crticas ao primeiro ministro russo Vladimir Puttin [Clifford J. Levy 2008]. Note que apenas parte de Delyagin foi removida
(sua perna e mo permanecem visveis direita do homem que segura o microfone). Emissoras de televiso tm, cada vez mais, utilizado tcnicas de
edio de imagens e vdeos segundo suas necessidades. Recentemente,
em pelo menos dois casos reportados, uma rede de televiso brasileira utilizou recursos de edio para eliminar informaes em matrias que foram ao
ar [Folha de So Paulo 2010, UOL Notcias 2009].
Mais de 30 anos de pesquisa relacionadas distoro de memrias mos268

Anlise Forense de Documentos Digitais

Artefatos de uma edio mal feita

Figura 6.5. Resqucios de uma edio mal feita em que


o analista poltico russo Mikhail Delyagin foi removido
(pelo menos em parte) de um programa de televiso.

tram que o ato de relembrar no se trata apenas de um mecanismo de recuperao de uma pea particular de informao em um banco de dados. Ao
contrrio, um processo de reconstruo pelo qual a memria original pode
ser continuamente modificada. Por exemplo, por questes ligadas a estresse
ps-traumtico, no incomum vtimas de roubos ou sequestros descreverem caractersticas erradas sobre seus agressores. Neste sentido, recentemente, uma publicao chamou a ateno de pesquisadores forenses. Em
estudo publicado no peridico Applied Cognitive Psychology, cientistas italianos levantaram a hiptese de que no s o mecanismo de memria continuamente modificado mas tambm suscetvel ao erro. Nesse estudo, os autores mostraram que a adulterao de imagens de eventos histricos, afetam
a memria, atitudes e comportamentos das pessoas em relao a tais eventos [Sacchi et al. 2007]. De forma preocupante, os participantes da pesquisa
que viram imagens adulteradas de eventos histricos passaram a ter ou manifestar uma viso diferente sobre tal evento mesmo, em alguns casos, tendo
participado de tais eventos em pessoa.
Aps esse apanhado geral de casos forenses conhecidos na literatura, nas
prximas sees, apresentamos algumas tcnicas para anlise forense de documentos bem como discutimos suas limitaes. Em especial, damos mais
ateno s tcnicas relacionadas a imagens e vdeos.

6.3. Tcnicas de manipulao de imagens e vdeos


No duvide que nossa percepo de beleza distorcida Dove Inc.

A atividade forense precisa, antes de mais nada, distinguir simples operaes de melhoria de imagens ou vdeos de alteraes com intuito de falsificao. importante ressaltar que qualquer operao de processamento de imagem pode ser utilizada para enganar o visualizador. No entanto, a distino pre269

A. Rocha, S. Goldenstein

cisa ser feita em relao ao objetivo da edio em si. Em [Rocha et al. 2011],
os autores fazem a distino das principais operaes de processamento de
imagens em duas categorias.
De um lado encontram-se as operaes de melhoria de imagem com o objetivo de melhorar sua visibilidade. No h combinao de pixels ou mesmo
qualquer tipo de operao localizada. Alguns exemplos de operaes nesta
categoria so: ajuste de brilho e contraste, correo gamma, redimensionamento, rotao e outros.
Por outro lado, operaes de adulterao so aquelas com inteno de
enganar o visualizador de alguma forma. Algumas operaes comuns nesta
categoria envolvem operaes locais tais como combinao e modificao de
pixels, cpia e colagem (cloning), composio com outras imagens (splicing),
ajuste fino de bordas (feather edges), retoque e conciliao (healing and retouching), casamento de padres de iluminao (light matching), entre outras.
Para complicar um pouco mais a linha tnue que diferencia a natureza dessas operaes, existem aquelas que esto entre essas categorias mas que,
por si s, no configuram operaes simples pois envolvem combinao de
pixels mas tambm no configuram operaes de adulterao. No entanto, dependendo do objetivo da edio em uma determinada imagem, tais operaes
podem ser consideradas ou combinadas com a finalidade de gerar imagens
falsas ou adulteradas. Alguns exemplos so: realce (sharpening), borramento
(blurring) e compresso.
Dentre as operaes com o objetivo de enganar o visualizador podemos
destacar:
Composio (splicing). Consiste na composio de uma imagem utilizando partes do contedo de uma ou mais imagens. Um poltico, por
exemplo, em uma fotografia F1 pode ser colocado ao lado de uma pessoa em uma outra fotografia F2 , mesmo sem nunca ter visto tal indivduo
antes.
Ajuste fino de bordas (feather edges). Consiste no ajuste das bordas
de um objeto aps uma operao de composio, por exemplo, de modo
a diminuir o mximo possvel os artefatos gerados pela composio.
Casamento de padres de iluminao (light matching). Consiste em
ajustar a iluminao de uma composio de modo a eliminar artefatos
de iluminao que possam levar identificao das adulteraes.
Realce (sharpening). Embora no altere a semntica geral de uma imagem ou vdeo, pode mudar a maneira como interpretamos os mesmos.
Detalhes podem ser realados ou obscurecidos de acordo com o interesse do adulterador.
Gerao em computador. Consiste na construo de modelos tridimensionais a partir de imagens ou vdeos de base. Pode-se aplicar cor
e textura para dar mais realidade cena criada.
270

Anlise Forense de Documentos Digitais

Cpia e colagem (cloning). Consiste na cpia de algumas partes de


uma imagem e posterior colagem em outras partes. Pode ser utilizado
para eliminar detalhes ou objetos, por exemplo.
Retoque e conciliao (healing and retouching). Consiste em uma
operao de clonagem mais sofisticada. Permite o casamento no apenas dos valores dos pixels tais como na clonagem mas tambm leva em
considerao a textura, iluminao e sombras dos pixels amostrados. A
partir desta tcnica pode-se rejuvenescer uma pessoa em alguns anos
ou mesmo alterar a disposio da cena de um determinado crime.
A Figura 6.6 mostra alguns exemplos das operaes discutidas acima. A
composio foi feita em Adobe Photoshop em menos de 30 minutos.

Clonagem e Ajuste
Fino de Bordas

Clonagem e Ajuste
Fino de Bordas

Redimensionamento,
Rotao e Composio

Resultado Final
Clonagem

Casamento de
Iluminao e
Retoque

Composio
Ajuste Fino
de Bordas

Figura 6.6. Exemplo contendo combinaes de possveis tcnicas de edio de imagens tais como: clonagem, ajuste fino de bordas, composio e retoque.
Quando tcnicas de edio e composio so utilizadas em conjunto, o
trabalho de investigao se torna mais difcil. Para complicar, nesse dinmico
jogo de guerra entre os investigadores forenses e adulteradores, a cada dia
aparecem operaes de composio e criao de contedo mais sofisticadas.
Alguns exemplos recentes de tcnicas avanadas de composio e edio
so: Lazy snapping [Li et al. 2004], Paint Selection [Liu et al. 2009], Poisson
Matting [Liu et al. 2009] e propagao estrutural [Sun et al. 2005].
1. Lazy Snapping [Sun et al. 2004] consiste em um mtodo interativo para
separar um objeto de um determinado fundo. O mtodo possui duas
etapas: uma etapa rpida de marcao e uma etapa de edio de bordas. O mtodo ajusta (snap) a marcao grosseira do passo inicial ao
contorno real do objeto mesmo em situaes com arestas de pouco contraste ou ambguas. O mtodo utiliza um algoritmo de segmentao
baseado em tcnicas de cortes em grafos combinado com tcnicas de
271

A. Rocha, S. Goldenstein

super-segmentao. Os experimentos realizados mostram que a tcnica prov segmentaes mais precisas em determinadas situaes que
tcnicas presentes no estado da arte tais como o Lasso Magntico disponvel no Adobe Photoshop.
2. Paint Selection [Liu et al. 2009], consiste em uma verso aperfeioada
do Lazy Snapping. Nesta abordagem, os autores prope dois algoritmos de otimizao para tornar possvel operaes em imagens com
resoluo em mega-pixels: corte em grafo multi-core e reamostragem
adaptativa por bandas da imagem. Devido s otimizaes propostas, a
abordagem precisa de menos pixels para seu processamento. A grande
vantagem da nova abordagem est numa constatao aparentemente
bvia: a seleo interativa de objetos um processo progressivo em que
usurios podem ser envolvidos passo a passo. Dessa forma, no necessrio resolver um problema global de otimizao para cada interao
do usurio e sim uma srie de otimizaes locais que estejam na direo
das intenes dos usurios.
3. Poisson Matting [Sun et al. 2004] consiste na formulao do problema
de composio de imagens, tambm conhecido como alpha matting, utilizando equaes de Poisson com restries em relao ao campo de
gradiente da composio (matte) bem como uma srie de algoritmos de
filtragem para permitir o ajuste fino por parte do usurio.
4. Propagao Estrutural [Sun et al. 2005] consiste em uma tcnica capaz de melhorar os efeitos de clonagem de partes de uma imagem.
Basicamente, a tcnica permite a expanso de regies conhecidas
para regies a serem removidas. Esta tcnica tambm conhecida
como image completion. O usurio manualmente especifica informaes estruturais da parte a ser eliminada utilizando um conjunto de curvas ou segmentos de linha a partir de regies conhecidas e que devem ser propagadas para a nova regio. A abordagem sintetiza regies (patches) de imagem ao longo das marcaes do usurio. A
propagao estrutural formulada como um problema de otimizao
em relao s diversas restries estruturais e de consistncia. Os
patches de imagem so calculados utilizando-se programao dinmica [Cormen et al. 2001] quando uma curva de restrio especificada
ou o algoritmo Belief Propagation [Yedidia et al. 2003] para duas ou mais
curvas. Os patches achados so preenchidos utilizando-se tcnicas de
sntese de textura [Liang et al. 2001].
A unio das quatro tcnicas anteriores permite a criao de falsificaes altamente realsticas. Por exemplo, um indivduo pode utilizar a tcnica de Lazy
Snapping ou mesmo de Paint Selection para selecionar um objeto a ser eliminado de uma cena. Em seguida, utilizando a tcnica de Propagao Estrutural,
o indivduo conseguir eliminar este objeto minimizando os artefatos resultantes de tal operao. Finalmente, tomando uma terceira imagem em conjunto
272

Anlise Forense de Documentos Digitais

com a tcnica de Poisson Matting, o indivduo conseguir uma composio


bastante realista.

6.4. Anlise Forense de Imagens e Vdeos Estado da Arte


Ver acreditar? Annimo

Nessa seo, apresentamos as principais tcnicas para deteco de falsificaes em imagens e vdeos disponveis na literatura bem como algumas
de suas limitaes. Por questes de consistncia em relao s notaes de
diferentes contextos em diversos trabalhos, a notao doravante adotada pode
ser diferente das publicaes originais.
De forma geral, na anlise forense de documentos, dado um objeto (e.g.,
imagem), queremos responder questes tais como [Sencar e Memon 2008]:
Este objeto original ou foi criado a partir da composio (cpia/colagem) de outros objetos digitais?
Este objeto realmente representa um momento nico ou foi digitalmente
adulterado para enganar o visualizador?
Qual o histrico de processamento deste objeto?
Quais partes do objeto sofreram adulteraes e qual o impacto dessas
modificaes?

O objeto foi adquirido pela cmera do fabricante F1 ou do fabricante F2 ?


Este objeto realmente originrio da cmera, filmadora ou scanner C1
como afirmado?

Atualmente, no existem metodologias estabelecidas para verificar


a autenticidade e integridade de objetos digitais de forma automtica [Sencar e Memon 2008]. Embora a marcao digital (watermarking) possa
ser utilizada em algumas situaes, sabemos que a grande maioria das imagens e vdeos digitais no possui marcao. Adicionalmente, qualquer soluo
baseada em marcao digital implicaria a implementao de tal abordagem diretamente nos sensores de aquisio das imagens ou vdeos o que tornaria
seu uso restritivo. Alm disso, possivelmente haveria perdas na qualidade do
contedo da imagem devido insero das marcaes. Assim, as tcnicas
propostas na literatura para anlise forense de imagens e vdeos podem ser
categorizadas em trs grandes reas de acordo com o seu foco principal:
1. Identificao da origem do objeto;
2. Distino entre objetos naturais e sintticos;
3. Identificao de adulteraes.
Uma segunda caracterstica destas tcnicas que elas so chamadas tcnicas de deteco cega e passiva. A deteco cega no sentido de que no
necessrio a presena do contedo original para comparao e passiva no
sentido de que no necessrio a utilizao de nenhuma forma de marcao
digital no processo geral [Rocha et al. 2011].
273

A. Rocha, S. Goldenstein

6.4.1. Identificao da origem do documento


Tcnicas de identificao da origem do documento dizem respeito s abordagens para investigao e identificao das caractersticas do dispositivo de
captura de um objeto (e.g., cmera digital, scanner, gravadora). Para estas
tcnicas, normalmente esperamos dois resultados: (1) a classe ou modelo
da fonte utilizada e (2) as caractersticas da fonte especfica utilizada. importante ressaltar que os dispositivos normalmente codificam as condies de
aquisio no cabealho da imagem (e.g., cabealho EXIF). No entanto, devido
facilidade com que tal informao pode ser destruda ou alterada, ela no
tem muita utilidade para a anlise forense.
As pesquisas nesta rea tm focado a identificao da cmera digital que capturou uma determinada imagem ou vdeo, bem como a
identificao do scanner que capturou uma imagem [Rocha et al. 2011,
Sencar e Memon 2008].
O desenvolvimento de uma abordagem de identificao da fonte originadora de uma imagem ou vdeo requer conhecimentos das propriedades fsicas
e de operao de tais dispositivos. Normalmente, o processo de aquisio de
uma imagem ocorre da seguinte maneira: a luz (representando a cena a ser fotografada) entra na cmera atravs das lentes, e passa por uma combinao de
filtros que incluem, pelo menos, os filtros de infra-vermelho e anti-serrilhamento
para garantir qualidade visual. A luz ento focada no sensor de captura que
nada mais que uma matriz de sensels ou pixels (elementos foto-sensveis).
Os sensores mais utilizados so os baseados em CCDs (charge-coupled
devices) ou CMOS (complimentary metal-oxide semiconductor ). Cada ponto
da matriz de captura (sensel) integra a luz incidente em relao ao espectro completo e obtm um sinal eltrico representando a cena fotografada. No
entanto, por razes econmicas, normalmente cada sensel monocromtico.
Desta forma, as mquinas digitais empregam CFA (color filter array ) que arranjam os pixels em mosaico de forma que cada elemento tenha um filtro espectral
e capte apenas uma banda do comprimento de onda. Os CFAs mais comuns
empregam trs sensores: vermelho (Red), verde (Green), e azul (Blue). Como
cada ponto tem apenas uma cor, as duas cores ausentes so inferidas por
interpolao utilizando uma operao conhecida como demosaico. Aps o demosaico, a imagem passa por outras operaes tais como: correo pontual,
realce, correo de abertura, correo gamma e compresso. A Figura 6.7
ilustra o processo de aquisio de uma imagem enquanto a Figura 6.8 mostra
um exemplo de arranjo de pixels em mosaico utilizando CFAs.
A partir do modelo bsico de aquisio de imagens e vdeos, cada conjunto de tcnicas para identificao da origem de um objeto busca descobrir as
propriedades que tornam um determinada origem nica em relao s demais.
274

Anlise Forense de Documentos Digitais

Sistema de Lentes

Filtros

Exposio, Foco e
Estabilizao da Imagem

Infra-vermelho,
anti-serrilhamento,
max. qualidade visvel

Proc. Imagem (DIP)

Sensores de Imageamento

Luz

Fotografia
Resultante

Demosaico
Correes (white)
Realce
Correo de
Abertura e Gamma
Compresso
etc.

CCD, CMOS...

Mosaico
Color Filter Arrays
(CFA)...

Figura 6.7. Possvel pipeline do processo de aquisio


de uma imagem (via cmera digital).
+

+
92

40

76

28

43 =

29

50

67

28

(29 + 50 + 67 + 28)
4

59 =

(92 + 40 + 76 + 28)
4

72 = 72

Figura 6.8. Arranjo de pixels em mosaico utilizando


CFAs e posterior operao de demosaico. O filtro de
mosaico/demosaico ilustrado conhecido como filtro de
Bayer [Gonzalez e Woods 2007].

6.4.1.1. Identificao do modelo de aquisio


O principal objetivo das tcnicas para identificao do modelo de aquisio
apontar o modelo ou o fabricante de um dispositivo que capturou uma determinada imagem. No contexto de cmeras digitais, normalmente utilizamos
informaes relacionadas ao processo de aquisio da imagem tais como: informaes das lentes, tipo e tamanho dos sensores de aquisio, tipo de filtro
de mosaico e demosaico empregado, algoritmos de processamento de imagens implementados na lgica de processamento da cmera entre outras.
Para a identificao do modelo de aquisio, alguns pesquisadores tm
utilizado: descritores para avaliar possveis ps-processamentos nas imagens [Kharrazi et al. 2004]; artefatos decorrentes da escolha do sensor CFA e
do algoritmo de demosaico [Bayaram et al. 2005b, Popescu 2004]; diversidade
nas tabelas de quantizao JPEG [Popescu 2004]; e distores causadas pe275

A. Rocha, S. Goldenstein

las lentes [Choi et al. 2006]. Normalmente, estas abordagens apontam para
uma classe ou modelo de cmera utilizado na captura e no uma cmera em
especfico.
Muitos fabricantes, no entanto, utilizam os mesmos componentes diminuindo o poder de discriminao de tais tcnicas. A maior parte das tcnicas
nessa classe de identificao consiste na extrao de caractersticas a respeito
do modelo de cmera analisado para posterior utilizao com alguma tcnica
de aprendizado de mquina. A seguir, apresentamos mais detalhes a respeito
de algumas tcnicas utilizadas para identificar o modelo de aquisio de uma
determinada imagem.
Uma caracterstica presente em fotografias capturadas por cmeras e lentes de baixo custo a presena de distores radiais. Essas distores podem
levar identificao do modelo de cmera utilizado em uma determinada captura. Choi et al. [Choi et al. 2006] apresentam um mtodo para extrair aberraes e distores de imagens que, posteriormente, podem ser utilizadas em
um classificador de padres (c.f., Apndice A.2). Os autores propem modelar
as distores radiais presentes nas imagens a partir de estatsticas de segunda
ordem
ru = rd + d1 rd3 + d2 rd5 ,
(1)

onde d1 e d2 so os parmetros de distoro de primeira e segunda ordem e ru


e rd so
os raios com e sem distoro, respectivamente. O raio a distncia
radial x2 + y 2 de algum ponto (x, y) a partir do centro de distoro (e.g., o
centro da imagem) [Rocha et al. 2011, Choi et al. 2006]. Os parmetros d1 e
d2 so caractersticas (features) a partir das quais podemos treinar um classificador tal como o Support Vector Machine (SVM) [Bishop 2006] (c.f., Apndice A.2). Adicionalmente, os autores propem utilizar 34 caractersticas de
descrio presentes em [Kharrazi et al. 2004] e apresentadas abaixo, em uma
abordagem combinada. Os autores reportam um resultado em torno de 91%
de acurcia quando separando trs modelos de cmeras de diferentes fabricantes.
Os artefatos de cor inseridos durante o processo de demosaico tambm
podem fornecer pistas importantes para a separao de modelos de cmeras.
[Kharrazi et al. 2004] apresentam um conjunto de caractersticas para imagens
coloridas que levam a um bom ndice discriminatrio entre diversos modelos
de cmeras. Algumas caractersticas apresentadas pelos autores so: valores
mdios de pixels, correlao de pares RGB, distribuio de centros de massa
de pixels vizinhos, razo de energia entre pares RGB, estatsticas no domnio
de wavelets, e caractersticas de qualidade de imagem. Adicionalmente, os
autores tambm utilizam medidas baseadas em diferenas de pixels (e.g., erro
mdio quadrtico e erro mdio absoluto), medidas de correlao (e.g., correlao cruzada), distncia de Czenakowski entre outras. Os autores reportam
entre 78% e 95% de acurcia para 5 modelos de cmera. Esses resultados
foram confirmados em [Tsai e Wu 2006].
A escolha dos sensores para a operao de mosaico, CFA, du276

Anlise Forense de Documentos Digitais

rante a captura de uma imagem, bem como a abordagem de demosaico utilizada tambm nos oferece pistas a respeito do modelo de cmera utilizado [Bayaram et al. 2005b, Popescu 2004, Celiktutan et al. 2005].
Em [Celiktutan et al. 2005], os autores estudaram as caractersticas da operao de demosaico para utilizao em um classificador de padres (c.f., Apndice A.2). A motivao que os algoritmos proprietrios de demosaico deixam
correlaes ao longo de planos de bits adjacentes das imagens. Para analisar
tais efeitos, os autores definem um conjunto de medidas (abordagens) de similaridade {m1 , m2 , m3 } que, posteriormente, so utilizadas em classificadores
como k vizinhos mais prximos e SVM [Bishop 2006].
A primeira abordagem uma medida de similaridade baseada em uma
funo
1 se pc = 0 pn = 0

2 se p = 0 p = 1

c
n

cn (a, b) =
(2)
3 se pc = 1 pn = 0

4 se pc = 1 pn = 1

onde b um plano de bits (matriz da imagem) e a denota um de quatro scores7 :


1, 2, 3, e 4. O subscrito c define algum pixel central e o superescrito n denota
um de quatro possveis pixels vizinhos.
Em seguida, fazemos a soma cn (a, b) em quatro direes (n itera ao longo
de seus vizinhos acima, abaixo, direita e esquerda), bem como sobre todos os pixels (c itera sobre M N pixels). Aps as somas, podemos omitir o
sub- e superescrito e calcular os termos de concordncia (agreement score)8 ,
normalizados e obter histogramas de quatro bins (funo de densidade de probabilidade):
Aba = (a, b) (a, b).
(3)
a

A partir desses histogramas de 4 bins, podemos definir a distncia de


Kullback-Leibler binria como
m1 = A7n log
4

n=1

A7n
,
A8n

(4)

onde A o termo de concordncia normalizado. A intuio da distncia aqui


utilizada verificar o quanto dois planos de bits so similares/correlacionados
dado a intuio inicial de que a combinao de pixels empregada pelos algoritmos de demosaico proprietrios tradicionais deixam artefatos nos canais
de bits que compem a resoluo de cor de uma imagem (Consulte o Apndice A.1 para uma definio formal).
7

Score pode ser entendido com uma nota a ser atribuda.

O termo de concordncia um termo de classificao do tipo de bit analisado em relao a um bit vizinho. Por exemplo, se o bit tem valor 0 e seu vizinho, em um outro plano
de bits, tem valor 0, o termo de concordncia, como definido pelos autores, 1 (Equao 2).

277

A. Rocha, S. Goldenstein

A segunda abordagem tambm uma medida de similaridade que utiliza


uma mscara de ponderao9 restrita a uma determinada vizinhana de pixels. Cada imagem binria resulta um histograma de 512 bins computado em
relao mscara de ponderao. Cada score computado com a seguinte
funo
S = pi 2i ,
7

(5)

i=0

onde pi o pixel analisado dentro da mscara. A mscara de ponderao


restrita a uma vizinhana 3 3 definida como
1
128
64

2
256
32

4
8
16

Por exemplo, o score, segundo a Equao 5, se torna S = 2 + 4 + 8 = 14 no caso


em que os bits em um plano de bits e restrito mscara acima, tem os pontos
E, N, NE como 1 e todos os outros como 0.
A medida de similaridade binria final computada baseada na diferena
absoluta do nesimo bin do histograma no 7o e 8o planos de bits (bit planes)
(c.f., Apndice A.1) aps a normalizao
m2 = Sn7 Sn8 .
511

(6)

n=0

Medidas de qualidade de imagem, como mencionado anteriormente, podem ser de muita valia para a anlise forense. A distncia de Czenakowski, por
exemplo, uma caracterstica popular para identificao de operaes de mosaico/demosaico porque ela capaz de comparar efetivamente vetores com
componentes no negativos. Neste contexto, a terceira abordagem definida
por [Celiktutan et al. 2005] baseada na distncia de Czenakowski
m3 =

2 3k=1 min(Ik (i, j), Ik (i, j))


1 M 1 N 1
.
1
3
M N i=0 j=0
k=1 (Ik (i, j) + Ik (i, j))

(7)

Esta mtrica de distncia requer a utilizao de um filtro de supresso/reduo de rudo (denoising). Ik (i, j) representa o (i, j)esimo pixel da kesima
banda de cor de uma imagem colorida, e Ik sua verso filtrada (denoised).
Com estas trs medidas de similaridade, [Celiktutan et al. 2005] geram 108
caractersticas de similaridade binria e 10 caractersticas de qualidade por
imagem analisada. Os autores reportam (para esta tcnica em conjunto com
o classificador SVM) aproximadamente 100% de acurcia para dois modelos
Uma mscara de ponderao nada mais do que um conjunto de pesos associados
a uma regio pr-definida. No contexto da tcnica apresentada, a mscara serve para
priorizar elementos em certas regies mais que em outras.

278

Anlise Forense de Documentos Digitais

de cmeras diferentes. Adicionalmente, os autores reportam 95% de acurcia


para um cenrio com trs modelos de cmeras e 62.5% para um cenrio com
seis modelos diferentes.
O maior problema com as tcnicas apresentadas acima est na falta de
rigor na anlise dos resultados experimentais comparado com outras reas
relacionadas Viso Computacional e Reconhecimento de Padres tais como
Biometria e Rastreamento [Rocha et al. 2011].
A grande maioria das abordagens reporta resultados diretamente para um
conjunto limitado de modelos de cmeras, sendo difcil estabelecer o comportamento dessas abordagens na prtica. Outra caracterstica de interesse seria a
anlise de modelos de cmera desconhecidos pelo treinamento do sistema em
questo. Como os sistemas se comportam nesses casos? Mais importante, as
tcnicas at agora mostraram certo grau de competncia para imagens com
baixa compresso JPEG. Como tais tcnicas se comportam na presena de
compresses mais severas?
Diferente das abordagens anteriores, [Popescu 2004] apresentam um algoritmo de Maximizao de Esperana (Expectation/Maximization ou EM) muito
poderoso para identificao do algoritmo de demosaico utilizado em uma determinada imagem bem como para identificao de falsificaes (Seo 6.4.3.4).
A abordagem de [Popescu 2004] no se baseia diretamente em um problema
de classificao supervisionado embora possa ser melhorado quando associado a tcnicas de aprendizado como mostrado nas extenses propostas
por [Bayram et al. 2005, Bayram et al. 2006].
A hiptese de motivao para o algoritmo de EM que linhas e colunas de
imagens interpoladas provavelmente possuem correlaes com seus vizinhos.
Essa informao de vizinhana pode ser fornecida por kernels de tamanhos
especficos (e.g., 3 3, 4 4, e 5 5).
O algoritmo em si pode ser dividido em dois estgios. No estgio de Esperana (E), estima-se a probabilidade de cada amostra pertencer a um modelo
em particular. No estgio de maximizao (M ), estima-se a forma especfica
das correlaes entre as amostras. Ambos os estgios so iterados at um
critrio de convergncia ser atingido.
Mais especificamente, podemos assumir que cada amostra pertence a um
de dois modelos possveis. Se uma amostra linearmente correlacionada com
seus vizinhos, ela pertence ao modelo M1 . Se a amostra no correlacionada
com seus vizinhos, ela pertence ao modelo M2 . A funo de correlao linear
definida como
f (x, y) = u,v f (x + u, y + v) + N (x, y),
k

(8)

u,v=k

onde f (, ) um canal de cor (R, G, ou B) de uma imagem aps a operao de


demosaico, k um inteiro, N (x, y) representa amostras independentes e identicamente distribudas de uma distribuio normal com mdia zero e varincia
um e u, v denotam os offsets dos pixels (e.g., (x + u, y + v), u = 1, v = 0, denota
279

A. Rocha, S. Goldenstein
um vetor de coeficientes lineares
o vizinho direita de x). Adicionalmente,
que expressa as correlaes, com 0,0 = 0.
O estgio de Esperana (E) estima a probabilidade de cada amostra pertencer ao modelo M1 usando a regra de Bayes
Pr{f (x, y) M1 f (x, y)} =

Pr{f (x, y)f (x, y) M1 }Pr{f (x, y) M1 }

2i=1 Pr{f (x, y)f (x, y) Mi }Pr{f (x, y) Mi }

(9)

onde Pr{f (x, y) M1 } e Pr{f (x, y) M2 } so as probabilidades a priori e


so assumidas como iguais a 12. Se assumirmos que uma amostra f (x, y)
gerada por M1 , a probabilidade de que isso ocorra
Pr{f (x, y)f (x, y) M1 } =

k
1
1
2 f (x, y) u,v f (x+u, y +v) . (10)
2
2
u,v=k

Ns estimamos a varincia 2 no estgio M . Adicionalmente, assumimos


que M2 tem uma distribuio uniforme.
usando o mtodo dos mnimos
O estgio M calcula uma estimativa de
aleatoriamente
quadrados ponderados (na primeira iterao do estgio E,
escolhido)
= w(x, y)f (x, y)
E()
x,y

u,v=k

u,v f (x + u, y + v) .

(11)

Os pesos w(x, y) so equivalentes a Pr{f (x, y) M1 f (x, y)}. Esta funo de erro minimizada por um sistema de equaes lineares antes de resultar uma estimativa. Ambos os estgios so executados at um valor estvel de
ser atingido.

Popescu et al. [Popescu 2004] afirmam que os mapas de probabilidade


gerados pelo algoritmo EM podem ser usados para determinar o algoritmo
de demosaico utilizado em uma cmera em particular. Estas probabilidades
tendem a ser agrupar. Em um teste com 8 algoritmos de demosaico diferentes [Popescu 2004], o algoritmo EM apresentou um resultado de 97% de acurcia. No pior resultado reportado (algoritmo de demosaico baseado em filtro
da mediana 3 3 vs. nmero de gradientes varivel), o algoritmo conseguiu um
resultado de 87% de acurcia.
Desde sua proposio, vrias extenses foram elaboradas sobre o trabalho
de [Popescu 2004]. Em [Bayram et al. 2005], os autores aplicam o algoritmo de
EM para um problema de identificao de cmeras em conjunto com um classificador SVM para anlise dos mapas de probabilidade. Os autores reportam
resultados de 96% de acurcia para um problema de duas cmeras e de 89%
de acurcia para um cenrio multi-classe. Em [Bayram et al. 2006], os autores
propem uma abordagem de fuso das caractersticas resultantes dos mapas
de probabilidade do algoritmo EM com tcnicas adicionais de deteco de artefatos de suavidade (smoothing) nas imagens. Para um cenrio com trs cmeras, os autores reportam um resultado de aproximadamente 98% de acurcia.
Algumas outras variaes do modelo EM original incluem a modelagem de erro
280

Anlise Forense de Documentos Digitais

ao invs do clculo dos coeficientes de interpolao [Long e Huang 2006] bem


como o clculo do erro assumindo-se um determinado padro CFA em uma
imagem [Swaminathan et al. 2006].

6.4.1.2. Identificao do dispositivo especfico


A identificao da cmera em si e no do modelo utilizado na captura, requer caractersticas nicas em relao cmera utilizada. Estas caractersticas podem ser decorrentes, por exemplo, de imperfeies dos componentes, defeitos e falhas decorrentes de efeitos do ambiente e condies de operao. O maior desafio estimar o fabricante e o tipo da cmera a partir
de apenas uma imagem. As abordagens de maior relevncia neste sentido,
tm analisado os efeitos do rudo inserido no processo de captura de imagens [Lukas et al. 2006] ou os artefatos originados pela presena de poeira nos
sensores no momento da aquisio [Dirik et al. 2007]. Finalmente, algumas
abordagens relevantes para identificao de scanners como meios originadores de imagens so [Gou et al. 2007, Khanna et al. 2007, Khanna et al. 2009].
importante ressaltar que alguns dos componentes utilizados para a identificao do dispositivo especfico que capturou uma imagem podem ser temporais por natureza (sujeira no sensor, por exemplo). Um investigador forense
precisa estar atento a essas informaes sempre que possvel.
Um dos primeiros autores a sugerir a utilizao das imperfeies nos sensores para o cenrio forense foi [Kurosawa et al. 1999]. Em seu trabalho, os
autores propunham a identificao do rudo de padro fixo causado por dark
currents em cmeras digitais. Um dark current pode ser definido como a razo
pela qual eltrons se acumulam em cada pixel devido ao termal. Essa
energia termal achada nas junes inversas dos pinos e independente da
quantidade de luz incidente. Em seu trabalho, os autores apenas intensificam
os rudos de padro fixo enquanto propem a sua deteco como defeitos localizados dos pixels.
Em [Geradts et al. 2001], os autores apresentam uma anlise mais completa a respeito das imperfeies presentes nos sensores de captura. Para
deteco, os autores utilizam pixels supersaturados (hot pixels), pixels com
pouca saturao (cold/dead pixels) e defeitos agrupados (pixel traps).
Pixels supersaturados so pixels individuais no sensor de captura com uma
carga maior que a normal. Pixels com pouca saturao so aqueles que apresentam pouqussima ou nenhuma carga. Defeitos agrupados so uma interferncia com o processo de transferncia de carga durante a captura levando
a uma linha total ou parcialmente danificada na imagem (e.g., toda branca ou
toda preta).
A maior limitao no uso dessas caractersticas no cenrio forense reside
em sua efemeridade. Cmeras mais sofisticadas possuem sensores especiais
para corrigir tais defeitos no momento da captura das imagens. Dessa forma,
281

A. Rocha, S. Goldenstein

apresentamos agora uma das tcnicas mais efetivas para identificao do dispositivo especfico que capturou uma imagem.
Em seu trabalho [Lukas et al. 2006], os autores apresentam uma anlise
mais formal para identificao de dispositivos de captura baseado em padres
de rudo. Para um maior entendimento, considere a Figura 6.9 que apresenta a
hierarquia do rudo presente em uma imagem digital. Vemos dois tipos principais de padres de rudo: fixo e de foto-responsividade no uniforme. O rudo
de padro fixo (FPN) causado pelos dark currents descritos acima e no so
considerados no trabalho de [Lukas et al. 2006]. A razo que o rudo do tipo
FPN relacionado diferenas pixel a pixel quando o sensor no est exposto
luz. Basicamente, FPN um rudo aditivo que depende do tempo de exposio e temperatura ambiente. Adicionalmente, FPN pode ser eliminado pelos
sensores de cmeras mais sofisticadas extraindo-se um quadro preto (dark
frame) da imagem aps sua captura.
Padro Fixo (FPN)
No Uniformidade de
Pixels (PNU)

Padro de Rudo
Foto-responsividade
no uniforme (PRNU)

Defeitos de Baixa
Frequncia

Figura 6.9. Hierarquia do padro de rudo.

O rudo decorrente da foto-responsividade no uniforme (PRNU) causado, basicamente, pelo rudo no uniforme dos pixels (PNU). PNU definido como a frequncia que diferentes pixels possuem luz e causado basicamente por inconsistncias no sensor durante o processo de fabricao.
Os defeitos de baixa frequncia so causados por refrao da luz nas partculas na ou prximas da cmera, superfcie tica e configuraes de zoom.
Lukas et al. [Lukas et al. 2006] no consideram este tipo de rudo, mas Dirik et al. [Dirik et al. 2008], em uma extenso posterior, consideram. A natureza
efmera dos defeitos de baixa frequncia traz a questo da sua confiabilidade
no cenrio forense, exceto quando tratando de pequenas sequncias de imagens de um mesmo perodo.
Para utilizar o rudo PNU para identificao dos sensores de captura, a
natureza desse rudo precisa ser isolada. Um sinal de imagem exibe propriedades de um sinal branco com uma banda de atenuao de alta frequncia.
A atenuao atribuda natureza de filtro de passa baixas do algoritmo CFA
(que, neste caso, no estamos interessados). Se uma grande poro da imagem saturada (pixels com valor 255), no ser possvel separar o rudo PNU
282

Anlise Forense de Documentos Digitais

do sinal da imagem. Em um cenrio forense, certamente no teremos uma


imagem de referncia que facilmente nos permitiria recuperar as informaes
PNU. Dessa forma, o primeiro estgio do algoritmo de identificao de cmeras utilizando informaes baseadas no rudo PNU consiste em estabelecer
um padro de referncia Pc , uma aproximao do rudo PNU. No processo de
aproximao, I(k) construdo a partir da mdia de K diferentes imagens de
uma cena uniforme (lit scene) k = 1, , K
1 K k
I(k) =
I .
K k=1

(12)

A aproximao pode ser otimizada para suprimir o contedo da cena aplicandose um filtro de supresso/reduo de rudo , e fazendo-se a mdia dos resduos (k) ao invs das imagens originais I (k)
(k) = (I(k) (I (k) ))K.

(13)

Lukas et al. [Lukas et al. 2006] mostram que o filtro de supresso/reduo de


rudo baseado na transformada wavelet possui bons resultados.
Para determinar se uma dada imagem pertence a uma cmera em particular, calculamos a correlao c entre o rudo residual da imagem em questo
= I (I) e o padro de referncia Pc (a barra sobre o smbolo significa a
mdia)
(Pc Pc )
( )
c (I) =
(14)
c Pc .
P

Lukas et al. [Lukas et al. 2006] apresentam resultados expressos em termos de falsos positivos e falsos negativos. Os autores reportaram uma taxa
de falsos negativos entre 5.75 1011 e 1.87 103 para uma taxa de falsos
positivos fixa em 103 em um cenrio com nove cmeras diferentes.
Uma melhoria para esta abordagem foi proposta por [Sutcu et al. 2007],
com uma tcnica capaz de fundir informaes do rudo no uniforme dos pixels
(PNU) com informaes de demosaico coletadas a partir da imagem descritas
anteriormente. Os autores reportam uma melhoria de 17% na acurcia no
cenrio multi-classe.
Uma desvantagem do mtodo baseado em informaes do rudo PRNU
para o cenrio forense que sua deteco condicionada a uma operao
de sincronizao apropriada. Uma pequena modificao de escala ou recorte
na imagem pode levar a uma deteco incorreta [Goljan et al. 2008]. Transformaes geomtricas (e.g., escala e rotao) causam dessincronizao e
introduzem distores devido reamostragem.
Neste sentido, [Goljan et al. 2008] apresentam uma extenso ao trabalho
original de [Lukas et al. 2006] para um cenrio mais geral em que a imagem
sob investigao tenha sofrido alguma operao de recorte e/ou escala. Antes
de fazer a comparao dos padres de referncia, os autores empregam uma
283

A. Rocha, S. Goldenstein

etapa de fora bruta para identificar os parmetros de escala da imagem analisada. Em seguida, os autores utilizam mtricas de estimao da correlao
de pico (Peak to Correlation Energy, PCE) e correlao cruzada normalizada
(Normalized Cross-correlation, NCC) entre os padres de referncia da imagem redimensionada e da cmera para estimar os parmetros de recorte10 .
Isso feito at um critrio de parada ser atingido. Os autores reportam bons
resultados para imagens com at 50% de redimensionamento e at 90% de
rea recortada.
Embora o trabalho de [Goljan et al. 2008] seja importante para nos conduzir a um cenrio forense mais confivel na identificao da cmera que
capturou uma imagem, importante notar que: (1) a qualidade da resposta
depende, em parte, do contedo da imagem e nvel de compactao (e.g.,
JPEG); (2) um procedimento computacionalmente intensivo, uma vez que
precisamos de fora bruta para localizar os parmetros de escala. Neste sentido, visualizamos aqui mais uma direo de pesquisa que merece investigao. Poderamos pensar em maneiras alternativas fora bruta para localizar
os parmetros de escala e recorte. Os autores [Goljan et al. 2008] propem
uma busca hierrquica para este fim mas no desenvolvem a idia nem apresentam resultados.
6.4.1.3. Identificao de scanners
Recentes avanos nos dispositivos de captura de imagens analgicas via
scanners de alta resoluo trouxeram a necessidade de ferramentas forenses
de identificao igualmente avanadas. Com a computao tornando-se mais
e mais ubqua a cada dia, no incomum vermos uma imagem escaneada praticamente idntica a uma fotografia original. Por outro lado, o processo de fabricao de qualquer equipamento de captura, seja uma cmera ou um scanner,
introduz vrios defeitos nos sensores de imageamento e, consequentemente,
cria rudo no processo de aquisio dos pixels de uma imagem. Nesse sentido, vrios pesquisadores tm procurado desenvolver tcnicas forenses para
identificao de scanners com relativo sucesso.
Para um melhor entendimento do funcionamento dessas tcnicas, a Figura 6.10 apresenta o conjunto de estgios bsico para a aquisio de uma
imagem a partir de um scanner de mesa (flatbed) [Tyson 2001]. O documento
colocado no scanner e o processo de escaneamento comea. A lmpada
(fonte de luz) utilizada para iluminar o documento do tipo fluorescente de
ctodo frio (cold cathode fluorescent lamp, CCFL) ou xenon. Utilizando um
estabilizador, uma correia e um motor de passo, a cabea de escaneamento
passa de forma linear sobre a imagem para captur-la. O objetivo do estabilizador garantir o movimento suave (sem desvios ou trepidaes) da cabea
de escaneamento com relao ao documento. A cabea de escaneamento
10

Consulte o Apndice A.3 para uma definio formal.

284

Anlise Forense de Documentos Digitais

possui um conjunto de lentes, espelhos, filtros e o sensor de imageamento.


A maioria dos scanners de mesa utiliza um sensor CCD ou CMOS. A resoluo mxima do scanner determinada pela resoluo vertical e horizontal. O
nmero de elementos no sensor CCD linear determina a resoluo tica horizontal. O tamanho do passo da cabea de escaneamento dita a resoluo
vertical [Tyson 2001].
Existem duas maneiras bsicas de se conseguir um escaneamento com
uma resoluo abaixo da resoluo padro de um scanner. Uma maneira
sub-amostrar o sensor de imageamento de modo a capturar apenas os pixels
de interesse. Por exemplo, para escanear um documento a 600 DPIs em um
scanner nativo de 1200 DPIs, basta amostrar apenas os pixels mpares do sensor CCD. A segunda maneira consiste em escanear o documento na resoluo
nativa e fazer a reduo resoluo desejada na memria do scanner. A maior
parte dos bons scanners utiliza a segunda forma.
Lentes, Espelhos e
Sensores de Imageamento

Amplificador, ADC

Software de
Ps-Processamento,
Correo de Cores,
Correo Gamma...

Fonte de Luz

Documento Original
Lentes

Cabea de Leitura
Sensor

Caminho da luz

Espelhos

Sentido de Leitura

Imagem
Digital

Figura 6.10. Possvel pipeline do processo de aquisio


de uma imagem (via scanner).

Gloe et al. [Gloe et al. 2007a] apresentam uma extenso do trabalho


de [Lukas et al. 2006] para identificao de scanners. Experimentos com cinco
scanners mostraram bons resultados. Os autores mostraram que, para imagens escaneadas em um padro nativo, um padro de referncia 2-D produz
melhores resultados. Por outro lado, para imagens escaneadas em resolues
no nativas, os autores mostraram que os padres de referncia 1-D so mais
apropriados. Uma explicao possvel que pequenas perturbaes tais como
poeira no sensor e arranhes na placa de vidro nos padres de referncia 2D so eliminadas pelas operaes de redimensionamento na resoluo no
nativa.
Gou et al. [Gou et al. 2007] apresentam outra abordagem para identificao
285

A. Rocha, S. Goldenstein

de scanners baseada em padres de rudo. Os autores utilizam trs conjuntos


de caractersticas extrados das imagens escaneadas. Esta abordagem busca
classificar o modelo do scanner em investigao e no o dispositivo exato.
Infelizmente, os autores mostram resultados de treinamento e teste apenas
para um conjunto limitado de imagens (< 50 imagens) e nenhum resultado
conclusivo possvel a partir desses experimentos.
Recentes avanos na literatura cientfica descrevem uma tcnica computacional para determinar o scanner de procedncia de uma imagem [Khanna et al. 2009]. Esta tcnica usada para decidir qual equipamento,
dentre um conjunto limitado, deu origem a uma imagem de teste.
Diferente das cmeras digitais, scanners usam um sensor de captura unidimensional. Essa constatao levou [Khanna et al. 2009] a propor a construo
de um padro de referncia do scanner utilizando-se a mdia das linhas da
estimativa de rudo da imagem. O padro de rudo linear de uma imagem
conseguido fazendo-se a mdia de todas as linhas da imagem representando
o rudo estimado da imagem sob investigao.
O padro de referncia de um scanner em particular (assinatura) conseguido fazendo-se a mdia dos padres de referncias de mltiplas imagens
escaneadas pelo mesmo scanner. Para identificar o scanner que capturou uma
determinada imagem, comparamos seu padro de referncia com a assinatura
dos scanners conhecidos em nossa base de conhecimento. O scanner que
produzir a maior correlao escolhido.
Para um melhor entendimento, considere I k a k-sima imagem de entrada
k
de tamanho M N pixels (M linhas, N colunas). Seja Inoise
o rudo corresk
k
pondente imagem de entrada I . Seja Idenoised o resultado da utilizao de
um filtro de reduo/supresso de rudo na imagem I. Assim,
k
k
Inoise
= I k Idenoised

(15)

Seja K o nmero de imagens utilizadas para a obteno do padro de referncia de um scanner em particular. Dessa forma, o padro de referncia (2-D)
do scanner obtido como:
1 K k
array
Inoise
(i, j) =
Inoise (i, j);
K k=1

1iM e1jN

(16)

Em seguida, calculamos o padro de referncia 1-D ou assinatura do scanner fazendo a mdia das linhas:
1 M array
linear
Inoise
(1, j) =
(i, j);
I
M i=1 noise

1 j N.

(17)

Podemos utilizar a correlao entre a assinatura de um scanner e o padro de


referncia de uma imagem para determinarmos a origem. A correlao entre
dois vetores X, Y RN definida como
C(X, Y ) =

286

(X X) (Y Y )
.
X X Y Y

(18)

Anlise Forense de Documentos Digitais

Uma das grandes diferenas entre os sensores de captura em uma cmera


e em um scanner que em um scanner apenas partes do sensor so utilizadas
dependendo do tamanho da imagem a ser capturada bem como sua posio
na placa de vidro. Neste sentido, para a abordagem anterior ter sucesso, tanto
a imagem sob investigao quanto as imagens de treinamento utilizadas para
a construo da assinatura dos scanners tm que ter sido capturadas nas mesmas condies (tamanho e posio na placa de vidro). Infelizmente, isso no
acontece na prtica.
Khanna et al. [Khanna et al. 2009] propem resolver esse problema calculando estatsticas bsicas sobre o vetor de assinatura da imagem em anlise.
l
Para isso, os autores calculam a mdia das linhas e colunas na imagem Inoise
c

e Inoise . Em seguida, calcula-se a correlao l (i) entre a mdia de todas as


l
linhas (Inoise
) e a i-sima linha de I noise . Similarmente, calcula-se a correlao
c
c (j) entre e mdia de todas as colunas (Inoise
) e a j-sima coluna de Inoise .
Finalmente, os autores calculam estatsticas (e.g., mdia, varincia, moda, curr
c
tose, etc.) sobre r , c , Inoise
e Inoise
. Os vetores de descrio so fornecidos
a um classificador de padres. Os autores reportam resultados acima de 90%
de acurcia para um cenrio com 11 scanners analisados.
6.4.1.4. Tcnicas contra-forenses na identificao de sensores
Tal como em qualquer outro campo de pesquisa forense, as tcnicas de
identificao dos dispositivos de captura de um objeto digital tambm esto
suscetveis s tcnicas contra-forenses.
Gloe et al. [Gloe et al. 2007b] apresentam duas tcnicas contra-forenses
para manipular as informaes de aquisio e identificao de dispositivos de
captura discutidos em [Lukas et al. 2006]. Em seu trabalho, os autores observam que a utilizao de um filtro de supresso/reduo de rudo baseado em
wavelets tal como utilizado em [Lukas et al. 2006] no suficiente para criar
uma imagem de qualidade e eliminar toda a informao de rudo necessria
para a criao da assinatura dos dispositivos de captura. Como nem toda a
informao de rudo eliminada, um mtodo conhecido como flatfielding pode
ser aplicado de modo a estimar resqucios do rudo de padro fixo (FPN) e
do rudo de foto-responsividade no uniforme (PRNU). Como discutido antes
neste captulo, FPN um rudo aditivo independente do sinal enquanto PRNU
um rudo multiplicativo dependente da fonte originadora. Para estimar o rudo
do tipo FPN, pode-se utilizar um quadro preto Idark_estimate representando a
mdia de J imagens Idark capturadas no escuro (e.g., sem retirar a tampa da
lente).
1
Idark_estimate = Idark .
(19)
J J
Para a estimativa do rudo do tipo PRNU, so necessrias K imagens de
uma cena homogeneamente iluminada Ilight com a estimativa Idark_estimate
287

A. Rocha, S. Goldenstein

subtrada. Para estimar o quadro de flatfield If latf ield , calcula-se a mdia destas imagens
1
If latf ield =
(20)
(Ilight Idark_estimate ).
K K

Tendo-se uma estimativa dos rudos do tipo FPN e PRNU de uma cmera,
um indivduo mal-intencionado pode suprimir as caractersticas de rudo de
uma imagem de uma cmera em particular para evitar quaisquer traos de
identificao de origem. Uma imagem I com a assinatura de rudo retirada
pode ser criada minimizando-se
I Idark_estimate
I =
.
If latf ield

(21)

Felizmente, os autores argumentam que o efeito de flatfielding no pode


ser facilmente estimado. A dificuldade est no grande nmero de parmetros
que precisam ser levados em conta (tempo de exposio, velocidade de captura, ISO, etc.) para gerar as estimativas Idark_estimate e If latf ield . Entretanto,
fixando apenas um parmetro, os autores mostram resultados contra-forenses
convincentes para imagens em formato RAW (sem processamento algum) e
TIFF.
Aps a utilizao da tcnica acima, um outro ataque forense possvel consiste em extrair a assinatura de rudo de uma outra cmera e substituir a assinatura da cmera verdadeira. O padro de rudo de uma cmera pode ser
substitudo utilizando-se a operao de flatfielding inverso. Uma imagem com
If orge com assinatura de rudo falsificada pode ser criada a partir de informaes pr-computadas de qualquer cmera
If orge = I If latf ield_f orge + Idark_f orge .

(22)

Os autores tambm reportam resultados interessantes com esta tcnica.

6.4.2. Identificao de criaes sintticas

Distinguir entre uma imagem natural e uma imagem feita em computador


pode ser crucial em algumas situaes. Por exemplo, segundo a lei americana, a possesso de imagens de menores de idade considerada crime de
pedofilia. Se estas imagens forem geradas em computador, no h crime algum [Rocha et al. 2011]. Entretanto, uma imagem pode ser copiada em computador e alterada de modo que seus traos se paream como se ela tivesse
sido feita totalmente em computador [Farid 2007, Lyu 2005].
De forma geral, as abordagens para separar imagens geradas em computador de imagens naturais tem considerado: decomposio da imagem
em filtros de quadratura em espelho e subsequente anlise estatstica dos
artefatos de decomposio [Lyu 2005]; diferenas dos modelos de superfcie em imagens naturais e geradas em computador [Ng et al. 2005], anlise da presena de rudo de aquisio em imagens naturais e ausncia em
288

Anlise Forense de Documentos Digitais

imagens geradas em computador [Dehnie et al. 2006]; anlise do comportamento de imagens naturais e geradas em computador mediante a sucessivas perturbaes [Rocha e Goldenstein 2010, Rocha e Goldenstein 2006,
Rocha e Goldenstein 2007]; e artefatos resultantes da operao de demosaico
em imagens naturais e sua ausncia em imagens sintticas [Dirik et al. 2007].
Apresentada por Lyu e Farid no contexto de deteco de mensagens
escondidas em imagens e depois aplicada no contexto de separao de
imagens geradas em computador e imagens naturais [Lyu e Farid 2002,
Lyu e Farid 2004, Lyu 2005, Lyu e Farid 2005], esta abordagem de deteco
consiste na construo de modelos estatsticos de alta ordem para imagens
naturais e na busca por desvios nestes modelos.
As imagens naturais possuem regularidades que podem ser detectadas
com estatsticas de alta ordem atravs de uma decomposio wavelet, por
exemplo [Lyu e Farid 2002]. O processo de criao de uma imagem em computador insere artefatos estatsticos fazendo com que seja possvel separar essa
classe de imagens de imagens naturais. Aps a construo dos modelos,
necessrio utilizarmos classificadores capazes de dizer se uma dada imagem
natural ou gerada em computador.
O processo de decomposio das imagens usando funes base que so
localizadas no domnio espacial de orientao e escala extremamente til em
aplicaes como compresso e codificao de imagens, remoo de rudo entre outras. Isto se deve ao fato destas decomposies exibirem regularidades
estatsticas que podem ser exploradas.
Os autores aplicam uma decomposio baseada nos filtros de quadratura
em espelho (QMFs Quadrature Mirror Filters) [Vaidyanathan 1987]. Esta decomposio divide a imagem no domnio da frequncia em mltiplas escalas e
orientaes. Esta decomposio feita aplicando-se filtros de passa-baixas e
passa-altas sobre a imagem gerando quatro sub-bandas: vertical, horizontal,
diagonal e de passa-baixas. Escalas subsequentes so criadas aplicando-se
o processo novamente sobre a sub-banda de passa-baixas.
A partir desta decomposio da imagem, os autores propem um modelo
estatstico composto por dois conjuntos de descritores. O primeiro conjunto
consiste em descritores como mdia, varincia, moda e curtose calculados sobre os histogramas dos coeficientes das sub-bandas. O segundo conjunto de
caractersticas composto por estatsticas de alta ordem calculadas sobre os
erros de um preditor linear de coeficientes de magnitude. Um preditor linear
de erro consiste na combinao de um pixel com seus vizinhos em escalas e
orientaes diferentes. Para um maior entendimento, considere a sub-banda
vertical, Vi (x, y), na escala i. Um preditor linear para a magnitude destes coe289

A. Rocha, S. Goldenstein

ficientes em um subconjunto de todos os possveis vizinhos dado por


Vi (x, y)

w1 Vi (x 1, y) + w2 Vi (x + 1, y) + w3 Vi (x, y 1)
x y
+w4 Vi (x, y + 1) + w5 Vi+1 ( , ) + w6 Di (x, y)
2 2
x y
+w7 Di+1 ( , ),
2 2

(23)

onde wk denota os valores escalares de peso dos coeficientes. Os coeficientes


do erro so calculados utilizando-se uma funo de minimizao do erro
E(w) = [V Qw]2 ,

(24)

onde w = (w1 , . . . , w7 )T , V contm os coeficientes de magnitude de Vi (x, y)


dispostos em um vetor coluna e Q os coeficientes de magnitude dos vizinhos
como especificado na Equao 23.
Ao final, o modelo possui dois conjuntos de valores de descritores (diretos
e resultantes do preditor), cada um com quatro descritores aplicados em trs
orientaes (vertical, horizontal, diagonal) e n escalas resultando em F = 23
4s = 72, para s = 3 escalas. Este vetor de caractersticas deve ser utilizado em
um classificador de padres para a elaborao do resultado final. Lyu e Farid
mostraram que esse modelo foi capaz de classificar 67% de imagens geradas
em computador enquanto a taxa de classificao errada foi mantida fixa em
1% para um cenrio com 40.000 imagens naturais e 6.000 imagens geradas
em computador.
Em seu trabalho [Rocha e Goldenstein 2007, Rocha e Goldenstein 2010],
Rocha e Goldenstein apresentam um novo meta-descritor de imagens denominado Randomizao Progressiva (PR) para o contexto de categorizao de
imagens. Uma das aplicaes do meta-descritor apresentado a separao
entre imagens naturais e imagens geradas em computador. PR um metadescritor que captura as diferenas entre classes gerais de imagens usando os
artefatos estatsticos inseridos durante um processo de perturbao sucessiva
das imagens analisadas. A observao mais importante que classes diferentes de imagens possuem comportamentos distintos quando submetidas a
sucessivas perturbaes.
Uma perturbao pode ser definida como a alterao de alguns pixels
selecionados na imagem de acordo com alguma sequncia de bits. Para
inserir a perturbao, basta alterar os valores dos bits menos significativos (Least Significant Bits, LSBs) de alguns pixels. As T (I, Pi ) transformaes so perturbaes de diferentes porcentagens (pesos) nos LSBs disponveis. No trabalho base, os autores utilizam n = 6 perturbaes onde
P = {1%, 5%, 10%, 25%, 50%, 75%}, Pi P denota os tamanhos relativos
dos conjuntos de pixels selecionados para terem seus LSBs alterados. A Figura 6.11 mostra um exemplo de perturbao para uma sequncia de pixels
B = 1110. Como a sequncia de perturbao possui quatro bits, selecionamos quatro pixels na imagem. Para cada pixel selecionado, verificamos seu
290

Anlise Forense de Documentos Digitais

bit menos significativo. Caso a imagem seja colorida, essa seleo pode levar em conta os canais de cor. Nesse caso, cada pixel possui trs bits menos
significativos, um para cada canal de cor. Caso o pixel selecionado tenha LSB
igual ao LSB com o qual estamos fazendo a perturbao, este pixel permanece
inalterado.

Figura 6.11. Um exemplo de perturbao LSB usando os


bits B = 1110.

A descrio das imagens feita utilizando-se uma abordagem baseada em


regies e, para cada regio, calculando-se descritores estatsticos tais como
2 (teste do Chi-quadrado) [Westfeld e Pfitzmann 1999] e UT (teste Universal
de Ueli Maurer) [Maurer 1992]. Os descritores, de forma geral, so calculados sobre histogramas de Pares de Valores (PoVs). Para entender melhor,
considere um pixel com L bits representando 2L valores possveis. Quando
consideramos possveis mudanas apenas no canal LSB, temos 2L1 classes
de invarincia. Chamamos estas classes de invarincia de Pares de Valores.
Por exemplo, quando perturbamos todos os LSBs disponveis em uma imagem
com uma sequncia B, a distribuio de valores 0/1 de um par de valor ser a
mesma da distribuio 0/1 em B.
A seleo de regies pode ser to simples quanto a seleo de quadrantes sem sobreposio, quanto pode utilizar filtros que localizam pores da
imagem com maior riqueza de detalhes [Rocha e Goldenstein 2010]. Aps a
aplicao das n perturbaes, e anlise dos dois descritores nas r regies,
cada imagem produz F = n r 2 valores. Esses valores podem ser passados a um classificador de padres j treinado para efetuar a classificao
da imagem analisada. O treinamento desse classificador consiste em utilizar
vetores de caractersticas resultantes do processo Randomizao Progressiva
(Fi ) para imagens representando cada classe a ser categorizada. Por exemplo,
se queremos diferenciar imagens geradas em computador e imagens naturais,
utilizamos, no processo de treinamento do classificador, um conjunto FCGI de
vetores de caractersticas provenientes de um conjunto de imagens geradas
em computador e um conjunto FN at de vetores de caractersticas provenientes
de um conjunto de imagens naturais. Os autores reportam resultados na faixa
de 90% de acurcia para um cenrio com mais de 40.000 imagens naturais e
5.000 imagens geradas em computador.
Ng et al. [Ng et al. 2005] apresentam uma tcnica para separao de imagens naturais e geradas em computador motivada pelas diferenas fsicas nos
291

A. Rocha, S. Goldenstein

processos de captura e gerao de tais imagens. Os autores desenvolveram


dois nveis de separao: (1) autenticidade a nvel de processamento e (2) autenticidade a nvel de cena. Autenticidade a nvel de processamento compreende as imagens capturadas por um sensor de captura (e.g., scanner ou cmera). Autenticidade de cena definida como um instantneo de um campo
fsico de luz. Os autores apresentam uma srie de caractersticas para dar
suporte ao modelo tais como:
1. Dimenso fractal local; para capturar a complexidade de texturas em
fotografias.
2. Vetores de patches locais; para capturar caractersticas de arestas e bordas.
3. Superfcie gradiente; para capturar a forma de resposta de uma cmera.
4. Geometria quadrtica local; para capturar artefatos devido ao modelo
poligonal utilizado por objetos computadorizados.
5. Vetor de fluxo de Beltrami; para capturar artefatos devido suposio de
independncia de cores em computao grfica.
As caractersticas acima so consideradas em conjunto e produzem um
vetor de descrio utilizado em um classificador de padres como o SVM. Os
autores reportam um acerto de aproximadamente 84% para um cenrio com
3.200 imagens.
Caractersticas especficas da cmera de captura, tais como as que vimos na Seo 6.4.1.2, tambm podem ser utilizadas para distino entre imagens naturais e sintticas. Revisitando o trabalho de [Lukas et al. 2006], Dehnie et al. [Dehnie et al. 2006] utilizam as caractersticas do rudo para distinguir
imagens geradas em computador e imagens naturais. A idia que mesmo
que diferentes cmeras possuam diferentes caractersticas de rudo durante
o processo de captura, ainda existem propriedades estatsticas que permanecem ao longo de diferentes cmeras tornando-se possvel a separao destas
como um todo de uma imagem sinttica. O problema com essa abordagem
aparece quando os falsificadores criam um contedo sinttico a partir de imagens naturais alterando apenas propriedade localizadas.
Dirik et al. [Dirik et al. 2007] associam caractersticas decorrentes
do algoritmo de demosaico [Popescu e Farid 2005b, Bayram et al. 2005,
Swaminathan et al. 2006] com caractersticas referentes presena de aberraes cromticas para melhorar a qualidade de deteco da presena de algum algoritmo de demosaico utilizado em uma imagem. Os autores reportam
resultados acima de 90% de acurcia.
6.4.2.1. Tcnicas contra-forenses na identificao de imagens sintticas
Os mtodos para distino entre imagens naturais e sintticas tambm esto sujeitos a ataques contra-forenses. Uma medida simples que pode ser
292

Anlise Forense de Documentos Digitais

tomada por um agressor consiste na recaptura da imagem utilizando uma cmera digital [Ng et al. 2005].
Ng et al. [Ng et al. 2005] buscam resolver esse problema utilizando
esse tipo de dado na etapa de treinamento do classificador escolhido.
Yu et al. [Yu et al. 2008] apresentam outra tcnica para deteco de ataques
de recaptura. A motivao para esse trabalho que a especularidade de uma
fotografia recapturada modulada pela mesoestrutura da superfcie da fotografia. Assim, a sua distribuio espacial pode ser usada para a classificao.
Assim como os sistemas de identificao de cmeras, as tcnicas contraforenses ainda esto em sua infncia, e ns esperamos encontrar ataques mais
sofisticados em um futuro prximo.

6.4.3. Identificao de adulteraes

O maior objetivo em anlise forense de documentos consiste na deteco de adulteraes em documentos digitais. Tipicamente, documentos (ou
suas partes) tais como imagens sofrem uma ou mais manipulaes digitais:
operaes afins (e.g., aumento, reduo, rotao), compensao de cor e brilho, supresso ou modificao de detalhes (e.g., filtragem, adio de rudo,
compresso). Embora muitas operaes de adulterao gerem documentos sem artefatos visuais, elas afetam as estatsticas inerentes dos mesmos [Rocha et al. 2011, Sencar e Memon 2008].
As abordagens propostas na literatura para resolver este problema ainda
esto em seus primrdios [Sencar e Memon 2008]. A anlise forense de documentos digitais recente e seus principais trabalhos foram publicados a partir
de 2004. De forma geral, podemos agrupar as abordagens propostas em:
1. Tcnicas de deteco de clonagem;
2. Tcnicas que analisam variaes em descritores de caractersticas;
3. Tcnicas que analisam inconsistncias em descritores de caractersticas;
4. Tcnicas que analisam inconsistncias relacionadas ao processo de
aquisio;
5. Tcnicas que analisam inconsistncias de iluminao;
6. Tcnicas que analisam inconsistncias de compresso;
6.4.3.1. Tcnicas de deteco de clonagem
Clonagem uma das operaes de adulterao mais simples que uma
imagem ou vdeo pode sofrer. Tambm conhecida como cpia/colagem, esta
operao est presente em operaes mais sofisticadas tais como o retoque e
conciliao (c.f., Seo 6.3).
O objetivo mais comum da operao de clonagem fazer com que um
objeto em uma cena desaparea utilizando propriedades da prpria cena tais
293

A. Rocha, S. Goldenstein

como padres de textura e cor na vizinhana do objeto em questo. Por utilizar


elementos da prpria cena para eliminar detalhes da mesma, a operao de
clonagem tecnicamente simples de detectar utilizando-se busca exaustiva.
No entanto, solues de fora bruta so computacionalmente caras.
Fridrich et al. [Fridrich et al. 2003] apresentam uma tcnica para deteco
rpida de regies duplicadas em imagens. Os autores utilizam uma janela deslizante sobre a imagem e calculam, para cada bloco de pixels, a transformada
discreta do cosseno (DCT).
O conjunto de coeficientes resultantes de cada aplicao de DCT armazenado como uma linha em uma matriz AD de coeficientes. Os autores
propem utilizar a transformao quantizada para maior robustez e habilidade
de fazer casamentos no exatos para regies duplicadas. Ao aplicar as transformaes sobre todos os possveis blocos da imagem, os coeficientes so
ordenados lexicograficamente. Em seguida, busca-se por linhas semelhantes.
Para reduzir o nmero de falsos positivos, os autores propem uma etapa de
ps-processamento em que uma regio considerada duplicada se e somente
se mais linhas da matriz partilham da mesma condio e so prximas no espao da imagem.
Popescu e Farid [Popescu e Farid 2004a] apresentam uma abordagem semelhante trocando a transformada discreta do cosseno pela anlise dos componentes principais (PCA) dos blocos. Resultados comparveis foram reportados. A Figura 6.12 ilustra o processo. A partir de uma imagem de entrada,
duplicamos o barco prximo ao coqueiro esquerda. Como houve a duplicao de uma regio, podemos utilizar a tcnica para deteco de regies
duplicadas proposta por Fridrich et al. [Fridrich et al. 2003] ou Popescu e Farid [Popescu e Farid 2004a]. Ambas as tcnicas se baseiam em uma anlise
por regies feita sobre a imagem sob investigao. Nesta anlise, uma janela
deslizante aplicada sobre a imagem. Para cada regio de pixels sob a janela
deslizante, aplicamos a sumarizao desta regio (e.g., PCA ou DCT). Em seguida, com cada regio sendo representada por um conjunto de coeficientes
resultantes da sumarizao, ordenamos estes conjuntos de coeficientes lexicograficamente. Por exemplo, a regio rm = 18, 25, 5, 4 vem antes de uma
regio rn = 18, 25, 6, 1. Finalmente, analisamos os blocos ordenados para
detectar eventuais duplicaes. Regies lexicograficamente ordenadas que
estejam muito prximas podem indicar a existncia de uma duplicao. No entanto, o investigador precisa levar em considerao que regies de valor muito
prximo tambm podem se referir a regies homogneas parecidas na imagem
em questo.
Um dos problemas das abordagens anteriores sua complexidade
para ser utilizada diretamente na deteco de regies duplicadas em vdeos [Wang e Farid 2007].
Podemos definir a clonagem em um vdeo da seguinte forma: dado um
par de quadros (frames) de um vdeo I(x, y, 1 ) e I(x, y, 2 ), provenientes de
uma cmera estacionria ou no, o objetivo estimar o deslocamento espacial
294

Anlise Forense de Documentos Digitais

Clonagem

Deteco de duplicaes

1,1
2,1

..
.
n,1

1,2
2,2

..
.
n,2

...
...
..
.
...

1,k
2,k

..
.
n,k

1,1
2,1

..
.
n,1

1,2
2,2

..
.
n,2

Ordenao lexicogrfica
...
...
..
.
...


1,k
1,1
2,1
2,k

.. ..
. .
n,k
n,1

1,2
2,2
..
.

...
...
..
.

n,2

...

1,k

2,k
..
.
n,k

Sumarizao dos blocos


(e.g., PCA, DCT)

Anlise por Blocos

Figura 6.12. Deteco de regies duplicadas em imagens.

(x , y ) correspondente a uma regio duplicada de um quadro colocada em


outro quadro em uma posio diferente.
Wang e Farid[Wang e Farid 2007] apresentam uma tcnica para detectar
tais operaes em cmeras estacionrias utilizando estimativas de correlao
de fase [Castro e Morandi 1987]. Para isso, primeiro definimos o espectro de
potncia cruzado normalizado (normalized cross power spectrum)
(x , y ) =

F (x , y , 1 )F (x , y , 2 )
,
F (x , y , 1 )F (x , y , 2

(25)

onde F () a transformada de Fourier de um quadro, o complexo conjugado, e a magnitude.


Tcnicas baseadas em correlao de fase estimam os deslocamentos espaciais analisando picos em (x, y), a inversa da transformada de Fourier de
(x , y ). Um pico esperado na origem (0, 0) dado que a cmera em questo estacionria. Quaisquer picos em outras posies so pistas para alinhamentos secundrios que podem representar uma regio duplicada. No entanto,
tais picos tambm podem ser referentes a simples movimentos de translao
no cenrio com cmeras no estacionrias.
A localizao espacial dos picos correspondem a deslocamentos espaciais
candidatos (x , y ). Para cada deslocamento candidato, a tcnica calcula a
correlao entre I(x, y, 1 ) e I(x, y, 2 ) para determinar se um deslocamento
corresponde a uma determinada regio duplicada.
Para isso, os autores dividem cada quadro em pequenas regies de 16 16
pixels com sobreposio de um pixel. Em seguida, calcula-se o coeficiente de
correlao entre cada par de blocos correspondentes. Blocos acima de um
determinado limiar so marcados como duplicados.
Os autores tambm propem uma possvel extenso para cmeras no
estacionrias. Para esse objetivo, calcula-se uma medida aproximada do movimento da cmera o qual deve ser compensado em tempo de execuo do
295

A. Rocha, S. Goldenstein

algoritmo. Uma desvantagem dessa abordagem que as operaes de duplicao so simples cpias seguidas de colagem sem nenhuma sofisticao
adicional tais como retoque ou conciliao.
6.4.3.2. Tcnicas que analisam variaes em descritores de
caractersticas
Abordagens nesta categoria analisam descritores de imagens e vdeos
sensveis ao processo de adulterao e os comparam com o comportamento
analisado e aprendido a partir de outras imagens/vdeos normais no alterados.
Na maioria das vezes, estas solues empregam classificadores no processo
de deciso.
Alguns trabalhos relevantes consideram variaes em: mtricas de qualidade de imagens (IQMs11 ) [Avcibas et al. 2004]; bicoerncia para anlise
das correlaes de alta ordem em imagens [Ng e Chang 2004]; estatsticas de coeficientes wavelet (HOWS12 ) [Lyu 2005]; mtricas de similaridade binria de imagens (BSM13 ) [Bayaram et al. 2005a]; IQMs, QMFs e
BSMs combinados [Bayaram et al. 2006]; estatsticas de momento e de Markov [Shi et al. 2007].
Avcibas et al. [Bayaram et al. 2006] abordam a deteco de adulteraes
como um problema de classificao. Os autores argumentam que adulteraes
em imagens normalmente envolvem uma sequncia de mltiplos passos, que
frequentemente demandam uma sequncia de operaes de processamento
de imagens mais simples tais como: escala, rotao, mudanas de contraste,
suavizao, etc. Neste sentido, os autores desenvolvem um conjunto de classificadores experts em detectar cada uma das operaes elementares. Ao final,
os resultados so combinados de modo a produzir uma resposta mais confivel. As caractersticas de descrio das imagens utilizadas no processo de treinamento variam desde mtricas de qualidade de imagem [Acbibas et al. 2003]
e medidas de similaridade binria [Bayaram et al. 2005a] provenientes da literatura de esteganlise [Cox et al. 2007] a filtros de quadratura em espelho de
alta ordem [Lyu e Farid 2004].
A maior limitao desta abordagem que operaes elementares de processamento de imagens em si no representam operaes de adulterao de
contedo. Um investigador forense precisa estar ciente dessas condies e
utilizar tal tcnica no sentido de localizar variaes nas imagens que possam
apontar para falsificaes. Por exemplo, mudanas abruptas de brilho e contraste em uma imagem podem ser indicaes de composio.
Ng et al. [Ng e Chang 2004] propem um sistema de classificao binrio baseado em estatsticas de alta ordem para deteco de composies de
11

Image Quality Metrics.

12

High Order Wavelet Statistics.

13

Binary Similarity Measures.

296

Anlise Forense de Documentos Digitais

imagens. Os autores fazem uso de caractersticas de bicoerncia motivados


pelo sucesso de tais caractersticas na identificao de composies em udio [Nemer et al. 2001].
Bicoerncia a correlao de terceira ordem de trs frequncias harmonicamente relacionadas de Fourier de um sinal () conhecido como bi-espectro
normalizado. Os autores reportam um resultado de 71% de acurcia no
banco de dados de composio da Universidade de Colmbia (Columbia Splicing data set) [Columbia DVMM Research Lab. 2004]. Uma limitao desta
abordagem que o clculo das caractersticas de bicoerncia computacionalmente caro, frequentemente na ordem de O(n4 ) onde n o nmero de
pixels da imagem sendo investigada.
Shi et al. [Shi et al. 2007] apresentam um modelo para separar imagens
normais de imagens resultantes de operaes de composio. O modelo
representado por caractersticas extradas de um conjunto de imagens e matrizes resultantes do clculo da transformada de cosseno multi-escala por blocos
(multi-size block discrete cosine transform, MBCT) sobre as imagens analisadas. Para cada matriz, os autores calculam os coeficientes de erro, suas subbandas wavelet e estatsticas de momentos uni- e bidimensionais. Os autores tambm calculam matrizes de transio probabilstica de Markov. Embora
efetiva para procedimentos simples de composio tais como as que fazem
parte do banco de dados de imagens DVMM com 92% de acurcia, a abordagem no parece ser muito eficaz para composies mais sofisticadas que
utilizam arestas adaptativas e propagao estrutural [Sun et al. 2005]. Isso se
deve ao fato de que as matrizes de transio so frequentemente incapazes de
capturar as mudanas sutis nas arestas resultantes da propagao estrutural.
Adicionalmente, a abordagem proposta no capaz de apontar a regio onde
provavelmente ocorreu a operao de composio.
6.4.3.3. Tcnicas que analisam inconsistncias em descritores de
caractersticas
Abordagens nesta categoria analisam inconsistncias a respeito de um determinado conjunto de descritores ao longo de uma imagem ou vdeo. Estas
inconsistncias podem ser desvios abruptos de um ponto a outro ou a presena
de similaridades inesperadas ao longo do objeto analisado.
Alguns trabalhos relevantes tm considerado inconsistncias inseridas por:
presena de artefatos devido a dupla compresso
JPEG [He et al. 2006, Popescu 2004]; correlao linear peridica devido
a reamostragem [Popescu 2004], iluminao ambiente [Johnson 2007], reflexos oculares [Johnson e Farid 2007b] e presena de regies repetidas nas
imagens [Popescu 2004].
No momento da criao de uma imagem composta, frequentemente necessrio fazer a reamostragem de uma imagem em uma grade de amostragem
(lattice) utilizando alguma tcnica de interpolao (e.g., bicbica). Embora im297

A. Rocha, S. Goldenstein

perceptvel, a reamostragem contem correlaes especficas que, quando detectadas, podem representar evidncias de adulterao.
Popescu e Farid [Popescu e Farid 2005a] descrevem a forma destas correlaes e propem um algoritmo para detect-las. Os autores mostram que a
forma especfica das correlaes pode ser determinada achando-se o tamanho da vizinhana, , em que ocorre a combinao dos pixels e o conjunto de
representando os parmetros dessas combinaes. Tanto
coeficientes, ,
quanto devem satisfazer a restrio
i = j M
i+j
M

(26)

j=

na equao

i+j
= 0,
M i j M

j=

(27)

i a i-sima linha da matriz de reamostragem.


o sinal analisado e M
onde
Na prtica, os autores apontam que nem as amostras que so correlacionadas nem a forma especfica das correlaes so conhecidas. Os autores
propem utilizar um algoritmo de Maximizao de Esperana (EM) similar ao
discutido na Seo 6.4.1.1 no contexto de identificao de cmeras para, simultaneamente, estimar um conjunto de amostras correlacionadas com seus
pixels vizinhos bem como uma aproximao para a forma destas correlaes.
Os autores assumem que cada amostra pertence a um de dois modelos
possveis. O primeiro modelo, M1 , corresponde s amostras si que so correlacionadas com seus pixels vizinhos e so geradas a partir do seguinte modelo
M1 si = k si+k + N (i),

(28)

k=

onde N (i) denota amostras independentes e identicamente distribudas de


uma distribuio normal com mdia zero e varincia desconhecida 2 . No
passo E do mtodo, a probabilidade de cada amostra si pertencer ao modelo
M1 pode ser estimada utilizando-se o teorema de Bayes similar Equao 9,
Seo 6.4.1.1, onde si substitui f (x, y).
Na abordagem proposta, assume-se que a probabilidade de observao
de amostras geradas pelo modelo alternativo, Pr{si si M2 }, uniformemente distribuda sobre o intervalo de valores possveis de si . No passo M
da abordagem, a forma especfica das correlaes entre amostras estimada
minimizando-se uma funo de erro quadrtica.
importante ressaltar que a reamostragem em si no constitui um ato de
adulterao. Um indivduo poderia, simplesmente, buscar economia de espao
ao reamostrar todas as imagens de sua coleo particular para a metade da
resoluo original. No entanto, quando diferentes correlaes esto presentes
na mesma imagem, um investigador forense tem em mos uma forte evidncia
298

Anlise Forense de Documentos Digitais

de adulterao de imagem por composio. Os autores reportam resultados


promissores para imagens com baixa compresso. medida em que a taxa de
compresso aumenta, a eficcia do mtodo diminui.
Os autores afirmam que a generalizao do algoritmo proposto para imagens coloridas simples e propem a anlise de cada canal de cor independentemente. Entretanto, os autores no mostram experimentos sob estas condies.
Um possvel contra-ataque para a tcnica acima foi proposto
por [Gloe et al. 2007b]. Os autores propem antecipar a deteco dos
traos de reamostragem. Para isso, o mtodo proposto procura destruir as
correlaes dos pixels fazendo uso de pequenas distores geomtricas super
impondo um vetor aleatrio de perturbao sobre cada posio de pixel.
Para lidar com possveis problemas de jitter 14 , os autores apresentam uma
abordagem adaptativa com relao ao contedo da imagem.
6.4.3.4. Tcnicas que analisam inconsistncias relacionadas ao processo
de aquisio
Abordagens nesta categoria analisam inconsistncias relacionadas ao processo de aquisio das imagens. Tais caractersticas tambm podem ser
usadas para inferir o dispositivo que capturou a imagem ou vdeo em anlise [Sencar e Memon 2008].
Alguns trabalhos relevantes tm considerado inconsistncias decorrentes da: interpolao CFA [Popescu e Farid 2005b]; padro inerente de rudos [Lukas et al. 2007]; funo de resposta no linear das cmeras digitais e
subsequentes inconsistncias nas arestas [Lin et al. 2005].
Zhouchen et al. [Lin et al. 2005] apresentam uma abordagem para identificao de falsificaes em imagens baseada na anlise de consistncia/inconsistncia das funes de resposta da cmera que capturou a imagem sob
investigao. Uma imagem apontada como adulterada se as funes de resposta so anormais ou inconsistentes umas com as outras. A funo de resposta da cmera um mapeamento entre a irradincia de um pixel e o valor
do pixel aps a aquisio. Por exemplo, suponha que um pixel esteja em uma
aresta e a radincia da cena muda ao longo da aresta mas constante em ambos os lados da mesma (Figura 6.13(a)). Assim, a irradincia do pixel na aresta
deveria ser uma combinao linear dos pixels fora da aresta (Figura 6.13(b)).
No entanto, devido no linearidade da funo de resposta da cmera, esta
relao linear quebrada durante a leitura dos valores destes pixels (Figura 6.13(c)). Em seu trabalho, os autores estimam o relacionamento linear
original calculando a funo inversa de resposta da cmera [Lin et al. 2004].
Jitter pode ser entendido como o desvio ou deslocamento de algum aspecto de um
sinal digital. Por exemplo, em uma imagem, Jitter produz um efeito de tremor.

14

299

A. Rocha, S. Goldenstein

(a)

(b)

Radincia da Cena

(c)

Irradincia da Imagem

Cor observada

R1

MC1
M C = fcam ()

SR1

R2

SR2

2
G

MC2

G
MC2

1
B
R

MC1

B
R

Figura 6.13. Estimativa da funo de resposta da cmera. (a) R1 e R2 so duas regies com radincia constante. A terceira linha representa uma combinao de
R1 e R2 . (b) As irradincias dos pixels em R1 so mapeadas para o mesmo ponto 1 , no espao de cores RGB.
O mesmo ocorre para os pixels em R2 2 . Entretanto,
as cores dos pixels na terceira linha so o resultado de
combinaes lineares de 1 e 2 . (c) A funo de resposta da cmera fcam deforma o segmento de linha em
(b) em uma curva durante a leitura.

A limitao da tcnica proposta est na dificuldade de se calcular a funo


inversa de resposta da cmera. Para isso, necessrio calcular uma funo
inversa que requer o aprendizado sobre um modelo de mistura de Gaussianas
proveniente de um banco de dados contendo diversas funes de resposta
conhecidas (DoRF15 ) [Lin et al. 2005, Grossberg e Nayar 2010]. Se a imagem
analisada for uma composio de regies provenientes de cmeras no presentes no banco de dados, o modelo ser incapaz de identificar a funo de
resposta apropriada. Uma outra limitao do mtodo a necessidade de interao do usurio para marcar pontos em arestas candidatas de composio.
Alm disso, possvel que a abordagem no funcione com cmeras recentes
presentes no meio comercial que fazem uso de sensores CMOS adaptativos
capazes de dinamicamente calcular a funo de resposta da cmera de modo
a produzir fotografias mais agradveis.

15

Dababase of camera response functions.

300

Anlise Forense de Documentos Digitais

6.4.3.5. Tcnicas que analisam inconsistncias de iluminao


Ao criar uma imagem composta (por exemplo, duas pessoas colocadas
lado a lado), frequentemente necessrio casar as informaes e condies
de iluminao das fotografias individuais.
Neste sentido, Johnson e Farid [Johnson e Farid 2005] apresentam uma
tcnica para revelar traos de adulterao em imagens a partir de inconsistncias de iluminao. Abordagens tradicionais para estimao da direo de
iluminao assumem que a superfcie em anlise: (1) Lambertiana (reflete a
luz isotropicamente); (2) tem um valor constante de reflectncia; (3) iluminada
por uma fonte localizada no infinito, entre outras.
Com estas restries, podemos representar a intensidade na imagem como
(x, y)
+ A),
I(x, y) = (U

(29)

um vetor de tamanho trs


onde o valor constante de reflectncia,
um vetor de tamanho trs
apontando na direo da origem de iluminao, U
representando a superfcie normal no ponto (x, y) e A o termo representando
a iluminao constante do ambiente. Se estivermos interessados apenas na
direo da iluminao, ento o termo de reflectncia pode ser considerado
unitrio. A equao linear resultante possui uma restrio e quatro variveis:
e o termo de ambiente A.
os trs componentes de
Com pelo menos quatro pontos com a mesma reflectncia e superfcies
(x, y), a direo da luz e o termo ambiente podem ser renormais distintas U
solvidos utilizando-se mnimos quadrados.
Entretanto, para estimar a direo de iluminao, as abordagens tradicionais requerem o conhecimento das superfcies normais 3-D de, pelo menos,
quatro pontos distintos na superfcie analisada contendo a mesma reflectncia
o que muito restritivo com apenas uma imagem para anlise e objetos desconhecidos na cena. Para contornar esse problema, os autores utilizam uma
abordagem desenvolvida por [Nillius e Eklundh 2001] que permite estimar dois
componentes da direo de iluminao a partir de uma nica imagem. Os autores relaxam a restrio de reflectncia constante em toda a cena adotando
agora um modelo em que a imagem possui regies (patches) com reflectncia constante. Essa suposio requer que a tcnica seja capaz de estimar
as direes da fonte de iluminao para cada regio ao longo da superfcie da
imagem em anlise. A Figura 6.14 mostra um exemplo onde as inconsistncias
relativas iluminao podem levar identificao de adulteraes.
Johnson e Farid [Johnson e Farid 2007a] estenderam a soluo acima para
lidar com ambientes de iluminao mais complexos (mais de uma fonte originadora de luz). Sob as condies de simplificao j mencionadas, um ambiente
com iluminao arbitrria pode ser expresso como uma funo no negativa
A um vetor unitrio em coordenadas Cartesianas e o
em uma esfera (A).
a intensidade da luz incidente ao longo da direo A.
Como revalor de (A)

sultado, a irradincia, (U ), pode ser parametrizada pela normal de superfcie


301

A. Rocha, S. Goldenstein
e escrita como uma convoluo da funo de reflectncia sobre a superfcie,
U
U
), e a iluminao ambiente (A)

(A,
) = L(A)(

U
)d,
(U
A,

(30)

onde representa a superfcie. Para uma superfcie Lambertiana, a funo de


reflectncia um cosseno aproximado
U
) = max(A U
, 0).
(A,

(31)

A convoluo na Equao 30 pode ser simplificada expressando-se a iluminao ambiente e as funes de reflectncia em termos de harmnicos esfricos (spherical harmonics).
Ao analisar os contornos de ocluso de objetos em imagens reais, comum encontrarmos um nmero limitado de superfcies normais. Dessa forma,
pequenas quantidades de rudo nas superfcies normais ou mesmo nas intensidades medidas podem causar variaes significativas na estimativa da iluminao ambiente [Johnson e Farid 2007a]. Uma das desvantagens do mtodo
proposto que a identificao dos contornos de ocluso (bons candidatos para
a determinao das superfcies normais) precisam ser marcados manualmente
exigindo um certo conhecimento do operador.
Sistemas automticos e semi-automticos para identificao das fontes
de iluminao podem representar um grande passo frente na anlise forense de documentos dado que o sistema visual humano pode ser incapaz
de julgar inconsistncias de iluminao e sombras como j estudado anteriormente [Ostrovsky et al. 2005]. Em [Farid 2009], o autor apresenta um caso
interessante. Desde o assassinato do presidente americano John Kennedy,
surgiram inmeras teorias a respeito de seu assassinato. Em algumas delas, o
assassino acusado, Lee Harvey Oswald, agiu como parte de uma conspirao.
Foi sugerido, por exemplo, que fotografias de incriminao de Oswald foram
manipuladas, tornando-se evidncias de um plano maior. Especificamente, foi
argumentado que a iluminao e sombras nestas fotografias so fisicamente
impossveis. Dado que o sistema visual humano incapaz de julgar iluminao
e geometria tridimensional apropriadamente, Farid apresenta um estudo de
caso em que prova que os elementos presentes na cena, ao contrrio do que
se pensava, so coerentes. Para sua anlise, o autor constri um modelo
tridimensional da fotografia em questo a partir de fotografias adicionais do
suspeito para determinar se as sombras na foto podem ser explicadas por uma
nica fonte de iluminao, como ilustra a Figura 6.15.
Recentemente, Johnson e Farid [Johnson e Farid 2007b] tambm investigaram inconsistncias de iluminao analisando reflexos especulares nos
olhos (pequeno branco na ris) para identificar imagens compostas de pessoas.
A posio de um reflexo ocular determinada pela relativa posio da fonte de
luz, a superfcie de reflexo e o visualizador (cmera). De acordo com os autores, reflexos oculares fornecem uma informao poderosa quanto forma, cor
e localizao da fonte de iluminao em uma cena.
302

Anlise Forense de Documentos Digitais

Imagem Destino (host)

Imagem Composta (Spliced)

Direo de Iluminao 2

Direo de Iluminao 1

Figura 6.14. Exemplo de inconsistncias de iluminao


em uma composio de duas imagens. Observe a inconsistncia entre a direo de iluminao 1 na imagem
destino (host) e a direo de iluminao 2 na imagem
composta (spliced).

A lei da reflexo em Fsica diz que um raio de luz reflete a partir de uma
superfcie em um ngulo de reflexo r igual ao ngulo de incidncia i , onde
. Assumindo
estes ngulos so medidos em relao superfcie normal U

vetores unitrios, a direo do raio refletido R pode ser escrita em termos da


e a normal de superfcie U

direo da luz

=
=

+ 2(cos(i )U
)

2cos(i )U

(32)
(33)

A Figura 6.16 ilustra o procedimento. Assumindo-se um refletor perfeito (V =


a restrio acima resulta
R),

=
=

V
2cos(i )U
T

2(V U )U V .

(34)
(35)

pode ser estimada a partir da normal de superfcie


Com isso, a direo da luz
e a direo de visualizao V em um reflexo ocular.
U
importante ressaltar, no entanto, que reflexos oculares tendem a ser relativamente pequenos permitindo a um falsificador habilidoso fazer manipulaes
303

A. Rocha, S. Goldenstein

(b)

(a)

(c)

(d)

(e)

(f)

Figura 6.15. Ilustrao do caso de Lee Harvey Oswald.


(a) Oswald em seu quintal (uma das fotografias sob investigao). (b) zoom da rea da cabea mostrando
sombras no queixo e nariz aparentemente inconsistentes com as sombras no cho. (c) informaes auxiliares
ao caso (e.g., fotos do registro de priso). (d) Reconstruo tridimensional a partir das imagens auxiliares anteriores. (e) combinao da face 3-D reconstruda em
(c) com um corpo articulado genrico e informaes de
fundo da fotografia analisada para criar uma cena tridimensional fidedigna. (f) Super-imposio da reconstruo 3-D com a fotografia investigada a geometria da
cena e as sombras tem um casamento quase perfeito,
levando concluso de que a fotografia pode ser explicada por uma nica fonte de luz, o sol.

de modo a esconder modificaes nas imagens. Para isso, cor, forma e localizao dos reflexos tm que ser construdos de modo a serem globalmente
consistentes com a iluminao presente no restante da cena.
6.4.3.6. Tcnicas que analisam inconsistncias de compresso
Algumas tcnicas forenses so desenvolvidas com algum alvo especfico.
Por exemplo, se uma determinada operao de adulterao modifica certa propriedade estrutural de uma imagem ou documento, natural o desenvolvimento
de uma tcnica particular para deteco deste tipo de anomalia.
Neste sentido, Popescu e Farid [Popescu e Farid 2004b] analisam os efeitos da dupla quantizao de imagens codificadas no formato JPEG e apresentam uma tcnica para a deteco deste tipo de atividade.
A dupla compresso ou quantizao JPEG introduz artefatos especficos
no presentes em imagens comprimidas uma nica vez. Os autores, argumen304

Anlise Forense de Documentos Digitais

Imagem para Anlise

Fonte de Luz
Modelagem e Estimao da
Direo de Iluminao

i
r

Localizao e Extrao de
Caractersticas

Cmera

Modelo Computacional
do Olho

Figura 6.16. Exemplo de anlise de uma imagem a partir


de reflexos oculares. Dada a imagem a ser investigada,
localiza-se os olhos e modela-se o sistema. A posio
do reflexo ocular em um dado olho determinada pela
e as direes relativas da fonte de
superfcie normal U
iluminao e o visualizador V .
tam, no entanto, que a presena de dupla quantizao no necessariamente
implica um ato malicioso. Por exemplo, um usurio pode desejar simplesmente
economizar espao em disco rearmazenando suas imagens com a metade da
resoluo original. A Figura 6.17 ilustra efeito da dupla quantizao sobre um
pequeno sinal sinttico unidimensional [t] com distribuio normal no intervalo [0, 127].
No cenrio forense, Lin et al. [He et al. 2006] propuseram uma abordagem
para detectar regies adulteradas em imagens analisando o efeito da dupla
quantizao escondidos nos coeficientes da transformada de cosseno em uma
extenso do trabalho de Popescu e Farid [Popescu e Farid 2004b]. A idia
que, dado que a imagem adulterada contm partes adulteradas e tambm partes sem alterao alguma, os histogramas da transformada de cosseno da
parte inalterada sofrem os efeitos da dupla quantizao. Esta parte da imagem
a mesma da imagem original JPEG (imagem destino ou host). Por outro
lado, os histogramas da parte modificada (imagem para composio ou spliced
image) no tm o mesmo efeito da dupla quantizao se esta parte da imagem provm de uma cmera com formato diferente, ou de uma imagem JPEG
diferente. Algumas razes para isso acontecer so:
1. ausncia da primeira compresso JPEG na parte composta;
2. diferenas da grade de amostragem da imagem destino e da imagem
composta;
3. a composio dos blocos resultantes da transformada de cosseno ao
longo da borda pode esconder traos das partes originais e compostas
dado que improvvel que a parte composta contenha blocos exatos de
8 8 pixels.
305

A. Rocha, S. Goldenstein

400

300

300

200

200

100

100
0

0
0

8 12 16 20 24 28 32 36 40 44 48 52 56 60 64

12

16

(a)

20

24

28

32

36

40

24

28

32

36

40

(b)
400

300

300

200

200

100

100
0

0
0

8 12 16 20 24 28 32 36 40 44 48 52 56 60 64

(c)

12

16

20

(d)

Figura 6.17. A linha superior ilustra histogramas de sinais com quantizao simples de passos 2 (a) e 3 (b). A
linha inferior ilustra histogramas de sinais duplamente
quantizados com passos 3 seguidos de 2 (c), e 2 seguidos de 3 (d). Observe os artefatos nos histogramas de
dupla quantizao (picos e intervalos).

importante ressaltar que esta abordagem no funcionar em alguns casos. Por exemplo, se a imagem original de destino no uma imagem JPEG,
o efeito da dupla quantizao na parte sem modificaes no ser detectado.
Alm disso, os nveis de compresso tambm afetam a qualidade de resposta.
Em termos gerais, quanto menor a razo entre o grau de intensidade da segunda quantizao em relao primeira, mais difcil ser a deteco dos efeitos da dupla compresso.
Um ataque contra-forense neste cenrio consiste em reamostrar a imagem
adulterada em uma nova grade (deslocamento de um ou dois pixels, por exemplo). Esse tipo de operao provavelmente diminuir os traos/pistas da dupla
quantizao pois ir gerar uma nova tabela de quantizao.
No cenrio forense, algumas vezes temos a necessidade de apontar se
uma determinada imagem foi modificada de qualquer forma (criminosamente
ou no) desde a sua captura, incluindo operaes simples como correes de
brilho e contraste, por exemplo. Esse problema conhecido como autenticao
de imagem. Neste contexto, Kee e Farid [Kee e Farid 2010] apresentam uma
abordagem que explora a formao e armazenamento de um thumbnail de
imagem para autenticao de imagens no formato JPEG.
Um thumbnail de imagem uma representao da imagem de alta resoluo utilizando uma verso reduzida (tipicamente na ordem de 160 120 pixels).
Esta representao, em geral, salva juntamente com o cabealho da imagem
no formato JPEG de modo a facilitar a visualizao da mesma em computadores, nas prprias cmeras etc.
A abordagem de [Kee e Farid 2010] consiste em modelar thumbnails de
306

Anlise Forense de Documentos Digitais

imagens a partir de uma srie de operaes de filtragem, ajuste de contraste e


compresso. Os autores automaticamente calculam os parmetros do modelo
de estimativa e mostram que estes parmetros, embora no nicos, diferem
significativamente entre cmeras e pacotes de software tais como Adobe Photoshop.
Dada uma imagem I(x, y), seu thumbnail criado por uma srie de seis
passos: (1) recorte; (2) pr-filtragem; (3) redimensionamento; (4) ajuste de brilho; (5) ajuste de contraste e (6) compresso JPEG. Ao estimar os parmetros
de criao do thumbnail de uma imagens, estes representam uma espcie de
assinatura da imagem em questo. Construindo-se uma base de informaes
com as assinaturas de diversas cmeras e diversos pacotes de edio de imagens, possvel apontar, analisando-se variaes nestas assinaturas, se uma
determinada imagem em formato JPEG autntica ou modificada de alguma
forma.
Um possvel contra-ataque para esta tcnica consiste em substituir o
thumbnail gerado pelo software de edio por um thumbnail estimado para
o modelo de cmera que capturou a imagem.

6.5. Concluses
The very nature of photography was to record events Hany Farid, Darthmouth College, EUA

Conclumos esse captulo apresentando algumas tendncias na rea de


anlise forense de documentos. Adicionalmente, discutimos proposies para
melhorar as tcnicas existentes bem como propor novas solues.
H uma grande demanda por solues eficientes e eficazes para resolver
problemas em anlise forense de documentos. Entretanto, existem muitos desafios aos quais podemos explorar e contribuir para esta rea
Avaliao de performance e benchmarking: a maior parte das tcnicas apresentadas possui validao insuficiente consistindo de uma prova
de conceito e alguns exemplos onde a tcnica se aplica. Muitas vezes no h comparao entre as abordagens previamente apresentadas.
No h um conjunto de dados padro para ser analisado.
Robustez: normalmente as tcnicas apresentadas no procuram discutir as suas limitaes frente a possveis ataques de robustez. Basicamente, queremos responder pergunta: podemos acreditar na anlise
forense de imagens [Gloe et al. 2007b].
Tcnicas contra-forenses no devem ser vistas como um atraso s atividade forenses. Pelo contrrio, com a identificao de ataques contra-forenses
s abordagens existentes, seremos capazes de aprender suas limitaes e tirar concluses importantes no desenvolvimento de tcnicas forenses cada vez
mais avanadas.
Ao desenvolvermos solues para deteco de adulteraes bastante
comum analisarmos propriedades fsicas dos equipamentos de captura dos
307

A. Rocha, S. Goldenstein

dados e suas propriedades estatsticas. Alm disso, dentro da prpria Cincia


da Computao, precisamos de tcnicas de minerao, indexao, clusterizao, e resumo de dados (Bancos de Dados); tcnicas de anlise de padres,
aprendizado de mquina e heursticas (Estatstica e Inteligncia Artificial); tcnicas de Processamento de Imagens e Vdeos e de Viso Computacional, no
caso dos dados analisados serem imagens ou vdeos; bem como abordagens
de teoria da computao e algoritmos, pois sempre buscamos abordagens eficientes e eficazes para nossas solues.
Durante seu encontro em 2006, a Sociedade Brasileira de Computao
(SBC) identificou o tema de Gesto da informao em grandes volumes de
dados distribudos como um dos grandes desafios da computao no Brasil.
Esse captulo vem ao encontro de tal constatao.
Grandes bancos de dados comeam a surgir em diversas partes do mundo
e do Brasil. Como evitar o roubo e falsificao de documentos em tais sistemas? Certamente, precisamos saber como armazenar nossas informaes de
modo a aumentar sua segurana. Polticas de proteo da privacidade e de
verificao de autenticidade tm que ser discutidas e implementadas.
Nesse sentido, um trabalho colaborativo e multi-disciplinar com a utilizao
de diversas reas do conhecimento bem como a conscientizao crtica de
pesquisadores e entusiastas podem nos conduzir um passo frente.

Agradecimentos

Agradecemos aos revisores e editores por suas consideraes construtivas


que permitiram a melhoria do presente captulo. Adicionalmente, gostaramos
de expressar nossa gratido Fundao de Amparo Pesquisa do Estado de
So Paulo (FAPESP) e ao Conselho Nacional de Desenvolvimento Cientfico e
Tecnolgico (CNPq) pelo apoio em nossos projetos de pesquisa.

A. Conceitos importantes

Nesta seo, apresentamos alguns conceitos considerados importantes


para o entendimento do texto de forma auto-contida.

A.1. Imagem Digital

De acordo com [Gomes e Velho 1996], devemos estabelecer um universo


matemtico no qual seja possvel definir diversos modelos abstratos de uma
imagem. Em seguida, precisamos criar um universo de representao onde
procuramos esquemas que permitam uma representao discreta desses modelos, com o objetivo de codificar tal imagem em um computador.
Quando observamos uma fotografia, ou uma cena no mundo real, recebemos de cada ponto do espao um impulso luminoso que associa uma informao de cor a esse ponto [Gomes e Velho 1996]. Nesse sentido, podemos
definir uma imagem contnua (no discreta) como a aplicao I U C, onde
U R3 uma superfcie e C um espao vetorial. Na maioria das aplicaes,
U um subconjunto plano e C um espao de cor. A funo I na definio
chamada de funo imagem. O conjunto U chamado de suporte da imagem,
308

Anlise Forense de Documentos Digitais


e o conjunto de valores de I, que um subconjunto de C, chamado de conjunto de valores da imagem [Gomes e Velho 1996]. Quando C um espao de
cor de dimenso 1, dizemos que a imagem monocromtica.
A representao mais comum de uma imagem espacial consiste em tomar
um subconjunto discreto U U do domnio da imagem, uma espao de cor C
associado a um dispositivo grfico e representar a imagem pela amostragem
da funo imagem I no conjunto U . Cada ponto (xi , yi ) do subconjunto discreto U chamado de elemento da imagem ou pixel. Para a representao
em computador, devemos tambm trabalhar com modelos de imagem onde a
funo imagem I toma valores em um subconjunto discreto do espao de cor
C. Esse processo de discretizao de uma imagem chamado de quantizao.
O caso mais utilizado de discretizao espacial de uma imagem consiste
em tomar o domnio como sendo um retngulo e discretizar esse retngulo
usando os pontos de um reticulado bidimensional. Dessa forma, a imagem
pode ser representada de forma matricial por uma matriz A de ordem m linhas
e n colunas tal que A = (aij = (I(xi , yj )). Cada elemento aij , i = 1, . . . , m
e j = 1, . . . n da matriz representa o valor da funo imagem I no ponto de
coordenadas (xi , yj ) do reticulado, sendo pois, um vetor do espao de cor,
representando a cor do pixel na coordenada (i, j). Nesse contexto, chamamos
de resoluo de cor ao nmero de bits utilizado para armazenar o vetor de cor
aij de cada pixel da imagem. Se cada ponto possui trs valores associados e
cada valor precisa de oito bits para ser representado, ento cada pixel dessa
imagem pode ser representado com 24 bits e a imagem dita de 24 bits.
Diversas decomposies de uma imagem podem ser feitas de acordo com
cada aplicao. Neste captulo, falamos em:
Decomposio em canais de cor. Quando separamos a imagem em
suas cores bsicas representadas no espao de cores C C. Por exemplo, se o espao de cores utilizado um espao conhecido como RGB,
temos os componentes vermelho (Red), verde (Green), e azul (Blue);
Decomposio wavelet. Quando decompomos a imagem em diversas
escalas e orientaes segundo a transformada wavelet;
Decomposio em planos de bits. Quando decompomos a imagem
em seus planos de bits. Por exemplo, aps a decomposio da imagem
de 24 bits em seus trs canais de cores (R,G,B), podemos ainda, fazer
uma decomposio por planos de bits. Neste caso, cada canal de cor
possui 8 bits e possui 8 planos de bits por canal de cor.

A.2. Aprendizado de Mquina

Aprendizado de mquina uma rea da Inteligncia Artificial concentrada no desenvolvimento de tcnicas que permitem que computadores sejam capazes de aprender com a experincia [Mitchell 1997]. Alguns problemas que utilizam aprendizado de mquina so: reconhecimento de caracteres, reconhecimento da fala, predio de ataques cardacos e deteco de fraudes em cartes de crditos [Mitchell 1997, Friedman et al. 2001].
309

A. Rocha, S. Goldenstein

Na soluo desses problemas, podemos ter classificadores fixos ou baseados em aprendizado, que, por sua vez, pode ser supervisionado ou nosupervisionado [Friedman et al. 2001].
Neste sentido, podemos ver um classificador, matematicamente, como um
mapeamento a partir de um espao de caractersticas X para um conjunto
discreto de rtulos (labels) Y . Mais especificamente, em Inteligncia Artificial,
um classificador de padres um tipo de motor de inferncia que implementa
estratgias eficientes para computar relaes de classificao entre pares de
conceitos ou para computar relaes entre um conceito e um conjunto de instncias [Duda et al. 2000].
Classificadores supervisionados como os utilizados pela maioria das tcnicas descritas neste captulo, consistem em tcnicas em que procuramos estimar uma funo f de classificao a partir de um conjunto de treinamento.
O conjunto de treinamento consiste de pares de valores de entrada X, e sua
sada desejada Y [Friedman et al. 2001]. Valores observados no conjunto X
so denotados por xi , isto , xi a i-sima observao em X. O nmero de
variveis que constituem cada uma das entradas em X p. Desta forma, X
formado por N vetores de entrada, chamados vetores de caractersticas, e
cada vetor de entrada composto por p graus de liberdade (dimenses e/ou
variveis).
A sada da funo f pode ser um valor contnuo (regresso), ou pode predizer a etiqueta (label) de um objeto de entrada (classificao). A tarefa do
aprendizado predizer o valor da funo para qualquer objeto de entrada que
seja vlido aps ter sido suficientemente treinado com um conjunto de exemplos. Alguns exemplos de classificadores supervisionados so Support Vector
Machines, Linear Discriminant Analysis, Boosting [Bishop 2006].
Um outro grupo de tcnicas de aprendizado, no utilizam exemplos
de treinamento e so conhecidos como tcnicas para aprendizado nosupervisionado. Esta forma de aprendizado, na maioria das vezes, trata o seu
conjunto de entrada como um conjunto de variveis aleatrias. Um modelo
de distribuio conjunta (joint distribution model) ento construdo para a representao dos dados. Desta forma, o objetivo deste aprendizado avaliar
como os dados esto organizados e agrupados [Friedman et al. 2001]. Tcnicas de Maximizao de Esperana [Baeza-Yates 2003], por exemplo, podem
ser utilizadas para aprendizado no-supervisionado.

A.3. Definies Complementares


Cross-Correlation

Correlao cruzada (Cross-Correlation) uma medida de similaridade entre dois sinais como uma funo de um pequeno deslocamento aplicado a um
dos sinais. tambm conhecida como o produto interno com deslocamento de
um dos sinais. Para funes discretas, definida como

(f g)[n] = f [m]g[n + m]
def

m=

310

(36)

Anlise Forense de Documentos Digitais

Por exemplo, suponha que tenhamos duas funes f e g que diferem por
um pequeno deslocamento no eixo x. Podemos utilizar a correlao cruzada
para identificar o quanto g precisa ser deslocada no eixo x para torn-la idntica
a f . Dependendo da aplicao, no clculo da correlao cruzada, podemos
utilizar uma etapa de normalizao.

Peak to Correlation Energy


Peak to Correlation Energy (PCE) uma medida para estimar o pico em
uma superfcie. Por exemplo, pode ser utilizada para calcular o pico em uma
superfcie de valores produzidos pelo clculo de uma correlao cruzada entre
dois sinais. PCE definida (em termos da correlao cruzada, por exemplo)
como
P CE =

N CC[upeak , vpeak ]2
,
N CC[u, v]2
(u,v)Npeak

1
mnNpeak

(37)

onde Npeak uma pequena vizinhana ao redor de um pico, m e n so os


comprimentos do sinais.

Referncias bibliogrficas
[Acbibas et al. 2003] Acbibas, I., Memon, N. e Sankur, B. (2003). Steganalysis
using image quality metrics. IEEE Transactions on Image Processing (TIP),
12(2):221229.
[Avcibas et al. 2004] Avcibas, I., Bayaram, S., Memon, N., Ramkumar, M. e
Sankur, B. (2004). A classifier design for detecting image manipulations. In
Intl. Conf. on Image Processing (ICIP), pp. 26452648, Singapore.
[Baeza-Yates 2003] Baeza-Yates, R. (2003). Clustering and Information Retrieval. Kluwer Academic Publishers, 1 edio.
[Bayaram et al. 2005a] Bayaram, S., Avcibas, I., Sankur, B. e Memon, N.
(2005a). Image manipulation detection with binary similarity measures. In
European Signal Processing Conf. (EUSIPCO), pp. 752755, Antalya, Turkey.
[Bayaram et al. 2006] Bayaram, S., Avcibas, I., Sankur, B. e Memon, N. (2006).
Image manipulation detection. Journal of Electronic Imaging (JEI), 15(4):1
17.
[Bayaram et al. 2005b] Bayaram, S., Sencar, H., Memon, N. e Avcibas, I.
(2005b). Source camera identification based on CFA interpolation. In Intl.
Conf. on Image Processing (ICIP), Genova, Italy.
[Bayram et al. 2005] Bayram, S., Sencar, H. e Memon, N. (2005). Source camera identification based on CFA interpolation. In Intl. Conf. on Image Processing, Genova, Italy. IEEE.
311

A. Rocha, S. Goldenstein

[Bayram et al. 2006] Bayram, S., Sencar, H. e Memon, N. (2006). Improvements on source camera-model identiciation based on CFA interpolation. In
WG 11.9 Int. Conf. on Digital Forensics, Orlando, USA. IFIP.
[Bishop 2006] Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer, 1 edio.
[Castro e Morandi 1987] Castro, E. D. e Morandi, C. (1987). Registration of
translated and rotated images using finite fourier transforms. IEEE Transactions on Pattern Analysis and Machine Intelligence, 9:700703.
[Celiktutan et al. 2005] Celiktutan, O., Avcibas, I., Sankur, B. e Memon, N.
(2005). Source cell-phone identification. In Intl. Conf. on Advanced Computing and Communication (ADCOM).
[Choe Sang-Hun 2006] Choe Sang-Hun (2006). Disgraced cloning expert convicted in south korea. The New York Times. http://www.nytimes.com/
2009/10/27/world/asia/27clone.html.
[Choi et al. 2006] Choi, K. S., Lam, E. e Wong, K. (2006). Automatic source
camera identification using the intrinsic lens radial distortion. Optics Express,
14(24):1155111565.
[Clifford J. Levy 2008] Clifford J. Levy (2008). It isnt magic: Putin opponents
vanish from tv. The New York Times. http://www.nytimes.com/2008/
06/03/world/europe/03russia.html?_r=1&fta=y.
[Cormen et al. 2001] Cormen, T., Leiserson, C., Rivest, R. e Stein, C. (2001).
Introduction to Algorithms. MIT Press, 2 edio.
[Cox et al. 2007] Cox, I., Miller, M., Bloom, J., Fridrich, J. e Kalker, T. (2007).
Digital Watermarking and Steganography. Morgan Kaufmann, 2 edio.
[Dehnie et al. 2006] Dehnie, S., Sencar, T. e Memon, N. (2006). Identification
of computer generated and digital camera images for digital image forensics,.
In Intl. Conf. on Image Processing (ICIP), Atlanta, USA.
[Dirik et al. 2008] Dirik, A. E., Sencar, H. T. e Memon, N. (2008). Digital single
lens reflex camera identification from traces of sensor dust. IEEE Transactions on Information Forensics and Security (TIFS), 3(3):539552.
[Dirik et al. 2007] Dirik, E., Sencar, H. e Memon, N. (2007). Source camera
identification based on sensor dust characteristics. In IEEE Intl. Workshop
on Signal Processing Applications for Public Security and Forensics (SAFE),
pp. 16, Washington DC, USA.
[Duda et al. 2000] Duda, R. O., Hart, P. E. e Stork, D. G. (2000). Pattern Classification. Wiley-Interscience, 2.
[Farid 2007] Farid, H. (2007). Deception: Methods, Motives, Contexts and Consequences, captulo Digital Doctoring: can we trust photographs? Stanford
University Press.
[Farid 2009] Farid, H. (2009). The Lee Harvey Oswald backyard photos: real

312

Anlise Forense de Documentos Digitais

or fake? Perception, 38(11):17311734.


[Folha de So Paulo 2010] Folha de So Paulo (2010).
Globo apaga
nome de banco no JN. http://www1.folha.uol.com.br/folha/
ilustrada/ult90u678272.shtml. 12 de janeiro.
[Fridrich et al. 2003] Fridrich, J., Soukal, D. e Lukas, J. (2003). Detection of
copy-move forgery in digital images. In Digital Forensic Research Workshop
(DFRWS), Cleveland, USA.
[Friedman et al. 2001] Friedman, J., Hastie, T. e Tibshirani, R. (2001). The
Elements of Statistical Learning. Springer, 1 edio.
[Geradts et al. 2001] Geradts, Z., Bijhold, J., Kieft, M., Kurusawa, K., Kuroki,
K. e Saitoh, N. (2001). Methods for identification of images acquired with
digital cameras. In Enabling Technologies for Law Enforcement and Security,
volume 4232, . SPIE.
[Gloe et al. 2007a] Gloe, T., Franz, E. e Winkler, A. (2007a). Forensics for flatbed scanners. In SPIE Intl. Conf. on Security, Steganography, Watermarking
of Multimedia Contents, pp. 65051I.
[Gloe et al. 2007b] Gloe, T., Kirchner, M., Winkler, A. e Bohme, R. (2007b).
Can we trust digital image forensics? In ACM Multimedia (ACMMM), pp.
7886, Augsburg, Germany.
[Goldenstein e Rocha 2009] Goldenstein, S. e Rocha, A. (2009). High-profile
forensic analysis of images. In Intl. Conf. on Imaging for Crime Detection and
Prevention (ICDP), pp. 16.
[Goljan et al. 2008] Goljan, M., Fridrich, J. e Lukas, J. (2008). Camera identification from printed images. In SPIE Electronic Imaging, Forensics, Security,
Steganography, and Watermarking of Multimedia Contents, pp. OI1OI12.
[Gomes e Velho 1996] Gomes, J. e Velho, L. (1996). Computao Grfica:
Imagem. IMPA-SBM, 1.
[Gonzalez e Woods 2007] Gonzalez, R. e Woods, R. (2007). Digital Image
Processing. Prentice-Hall, 3 edio.
[Gou et al. 2007] Gou, H., Swaminathan, A. e Wu, M. (2007). Robust scanner
identification based on noise features. In SPIE Security, Steganography, and
Watermarking of Multimedia Contents (SSWMC), San Jose, USA.
[Grossberg e Nayar 2010] Grossberg, M. e Nayar, S. (2010). Database of Response Functions (DoRF). Available at http://www.cs.columbia.edu/
CAVE/software/softlib/dorf.php.
[He et al. 2006] He, J., Lin, Z., Wang, L. e Tang, X. (2006). Detecting doctored
jpeg images via dct coefficient analysis. In European Conf. on Computer
Vision (ECCV), pp. 423435.
[Johnson 2007] Johnson, M. K. (2007). Lighting and Optical Tools for Image
Forensics. Phd thesis, Dep. of Computer Science - Dartmouth College, Ha-

313

A. Rocha, S. Goldenstein

nover, USA.
[Johnson e Farid 2005] Johnson, M. K. e Farid, H. (2005). Exposing digital
forgeries by detecting inconsistencies in lighting. In ACM Multimedia and
Security Workshop, New York, USA.
[Johnson e Farid 2007a] Johnson, M. K. e Farid, H. (2007a). Exposing digital
forgeries in complex lighting environments. IEEE Transactions on Information
Forensics and Security (TIFS), 2(3):450461.
[Johnson e Farid 2007b] Johnson, M. K. e Farid, H. (2007b). Exposing digital
forgeries through specular highlights on the eye. In Intl. Workshop in Information Hiding (IHW), Saint Malo, France.
[Kavanagh 2006] Kavanagh, E. (2006). Editorial expression of concern. Science, 314:592594.
[Kee e Farid 2010] Kee, E. e Farid, H. (2010). Digital image authentication from
thumbnails. In SPIE Symposium on Electronic Imaging, San Jose, USA.
[Khanna et al. 2007] Khanna, N., Mikkilineni, A. K., Chiu, G. T. C., Allebach,
J. P. e Delp, E. J. (2007). Scanner identification using sensor pattern noise.
In SPIE Security, Steganography, and Watermarking of Multimedia Contents
(SSWMC), volume 6505, pp. 111.
[Khanna et al. 2009] Khanna, N., Mikkilineni, A. K. e Delp, E. J. (2009). Scanner identification using feature-based processing and analysis. IEEE Transactions on Information Forensics and Security (TIFS), 4(1):123139.
[Kharrazi et al. 2004] Kharrazi, M., Sencar, H. e Memon, N. (2004). Blind
source camera identification. In Intl. Conf. on Image Processing (ICIP), Singapore.
[Kossoy 2006] Kossoy, B. (2006). Hercule Florence A descoberta isolada da
fotografia no Brasil. Edusp, 1 edio.
[Kurosawa et al. 1999] Kurosawa, K., Kuroki, K. e Saitoh, N. (1999). Ccd fingerprint method. In Intl. Conf. on Image Processing, Kobe, Japan. IEEE.
[Li et al. 2004] Li, Y., Sun, J., Tang, C.-K. e Shum, H.-Y. (2004). Lazy snapping.
ACM Transactions on Graphics (ToG), 23(3):303308.
[Liang et al. 2001] Liang, L., Liu, C., Xu, Y. Q., Guo, B. e Shum, H. (2001).
Real-time texture synthesis by patch-based sampling. ACM Transactions on
Graphics (ToG), 20(3):127150.
[Lin et al. 2004] Lin, S., Gu, J., Yamazaki, S. e Shum, H. Y. (2004). Radimetric
calibration from a single image. In Intl. Conf. on Computer Vision and Pattern
Recognition, pp. 938945, Washington, USA. IEEE.
[Lin et al. 2005] Lin, Z., Wang, R., Tang, X. e Shum, H.-Y. (2005). Detecting
doctored images using camera response normality and consistency. In Intl.
Conf. on Computer Vision and Pattern Recognition (CVPR), New York, USA.
[Liu et al. 2009] Liu, J., Sun, J. e Shum, H.-Y. (2009). Paint selection. ACM
314

Anlise Forense de Documentos Digitais

Transactions on Graphics (ToG), 28(3):69:169:8.


[Long e Huang 2006] Long, Y. e Huang, Y. (2006). Image based source camera
identification using demosaicing. In Intl. Workshop on Multimedia Signal Processing, Victoria, Canada. IEEE.
[Lukas et al. 2006] Lukas, J., Fridrich, J. e Goljan, M. (2006). Digital camera
identification from sensor noise sensor. IEEE Transactions on Information
Forensics and Security (TIFS), 1(2):205214.
[Lukas et al. 2007] Lukas, J., Fridrich, J. e Goljan, M. (2007). Detecting digital
image forgeries using sensor pattern noise. In SPIE Photonics West.
[Lyu 2005] Lyu, S. (2005). Natural Image Statistics for Digital Image Forensics.
Phd thesis, Dep. of Computer Science - Dartmouth College, Hanover, USA.
[Lyu e Farid 2002] Lyu, S. e Farid, H. (2002). Detecting hidden messages using
higher-order statistics and support vector machines. In Intl. Workshop in
Information Hiding (IHW), pp. 340354.
[Lyu e Farid 2004] Lyu, S. e Farid, H. (2004). Steganalysis using color wavelet
statistics and one-class support vector machines. In Symposium on Electronic Imaging.
[Lyu e Farid 2005] Lyu, S. e Farid, H. (2005). How realistic is photorealistic?
IEEE Transactions on Signal Processing (TSP), 53(2):845850.
[Maurer 1992] Maurer, U. (1992). A universal statistical test for random bit generators. Intl. Journal of Cryptology, 5(2):89105.
[Columbia DVMM Research Lab. 2004] Columbia DVMM Research Lab.
(2004). Columbia image splicing detection evaluation data set. Available
at
http://www.ee.columbia.edu/ln/dvmm/downloads/
AuthSplicedDataSet/AuthSplicedDataSet.htm.
[Mitchell 1997] Mitchell, T. M. (1997). Machine Learning. McGraw-Hill, 1 edio.
[Nemer et al. 2001] Nemer, E., Goubran, R. e Mahmoud, S. (2001). Robust
voice activity detection using higher-order statistics in the LPC residual domain. IEEE Transactions on Speech and Audio Processing, 9(3):217231.
[Ng e Chang 2004] Ng, T.-T. e Chang, S.-F. (2004). Blind detection of photomontage using higher order statistics. In Intl. Symposium on Circuits and
Systems (ISCAS), pp. 688691, Vancouver, Canada.
[Ng et al. 2005] Ng, T.-T., Chang, S.-F. e Tsui, M.-P. (2005). Physics-motivated
features for distinguishing photographic images and computer graphics. In
ACM Multimedia (ACMMM), pp. 239248, Singapore.
[Nillius e Eklundh 2001] Nillius, P. e Eklundh, J.-O. (2001). Automatic estimation of the projected light source direction. In Intl. Conf. on Computer Vision
and Pattern Recognition, pp. 10761082, Hawaii, US. IEEE.
[Ostrovsky et al. 2005] Ostrovsky, Y., Cavanagh, P. e Sinha, P. (2005). Percei315

A. Rocha, S. Goldenstein

ving illumination inconsistencies in scenes. Perception, 34(11):13011314.


[Parrish e Noonan 2009] Parrish, D. e Noonan, B. (2009). Image manipulation
as research misconduct. Sci Eng Ethics (2009), 15:161167.
[Pearson 2005] Pearson, H. (2005). Image manipulation: CSI: Cell biology.
Nature, 434:952953.
[Popescu 2004] Popescu, A. C. (2004). Statistical Tools for Digital Image Forensics. Phd thesis, Dep. of Computer Science - Dartmouth College, Hanover, USA.
[Popescu e Farid 2004a] Popescu, A. C. e Farid, H. (2004a). Exposing digital
forgeries by detecting duplicated image regions. Relatrio Tcnico TR 2004515, Dep. of Computer Science - Dartmouth College, Hanover, USA.
[Popescu e Farid 2004b] Popescu, A. C. e Farid, H. (2004b). Statistical tools
for digital forensics. In Intl. Workshop in Information Hiding (IHW), Toronto,
Canada.
[Popescu e Farid 2005a] Popescu, A. C. e Farid, H. (2005a). Exposing digital
forgeries by detecting traces of re-sampling. IEEE Transactions on Signal
Processing (TSP), 53(2):758767.
[Popescu e Farid 2005b] Popescu, A. C. e Farid, H. (2005b). Exposing digital
forgeries in color filter array interpolated images. IEEE Transactions on Signal
Processing (TSP), 53(10):39483959.
[Rocha e Goldenstein 2006] Rocha, A. e Goldenstein, S. (2006). Progressive
randomization for steganalysis. In Intl. Workshop on Multimedia and Signal
Processing (MMSP), pp. 314319.
[Rocha e Goldenstein 2007] Rocha, A. e Goldenstein, S. (2007). Pr: More than
meets the eye. In Intl. Conf. on Computer Vision (ICCV), pp. 18.
[Rocha e Goldenstein 2010] Rocha, A. e Goldenstein, S. (2010). Progressive
randomization: Seeing the unseen. Computer Vision and Image Understanding (CVIU), 114(3):349362.
[Rocha et al. 2011] Rocha, A., Scheirer, W., Boult, T. E. e Goldenstein, S.
(2011). Vision of the unseen: Current trends and challenges in digital image
and video forensics. ACM Computing Surveys (CSUR).
[Sacchi et al. 2007] Sacchi, D. L. M., Agnoli, F. e Loftus, E. F. (2007). Changing
history: Doctored photographs affect memory for past public events. Applied
Cognitive Psychology, 21(8):249273.
[Sencar e Memon 2008] Sencar, T. e Memon, N. (2008). Overview of State-ofthe-art in Digital Image Forensics, captulo Statistical Science and Interdisciplinary Research. World Scientific Press.
[Shi et al. 2007] Shi, Y. Q., Chen, C. e Chen, W. (2007). A natural image model
approach to splicing detection. In ACM Multimedia and Security Workshop,
pp. 5162, Dallas, USA.

316

Anlise Forense de Documentos Digitais

[Sun et al. 2004] Sun, J., Jia, J., Tang, C.-K. e Shum, H.-Y. (2004). Poisson
matting. ACM Transactions on Graphics (ToG), 23(3):315321.
[Sun et al. 2005] Sun, J., Yuan, L., Jia, J. e Shum, H.-Y. (2005). Image completion with structure propagation. ACM Transactions on Graphics (ToG),
24(3):861868.
[Sutcu et al. 2007] Sutcu, Y., Bayaram, S., Sencar, H. e Memon, N. (2007).
Improvements on sensor noise based source camera identification. In Intl.
Conf. on Multimedia and Expo (ICME), Beijing, China.
[Swaminathan et al. 2006] Swaminathan, A., Wu, M. e Liu, K. R. (2006). Noninstrusive forensics analysis of visual sensors using output images. In Intl
Conf. on Image Processing, Atlanta, USA. IEEE.
[Tsai e Wu 2006] Tsai, M. e Wu, G. (2006). Using image features to identify
camera sources. In Intl. Conf. on Acoustics, Speech, and Signal Processing,
Toulouse, France. IEEE.
[Tyson 2001] Tyson, J. (2001). How scanners work. http://com-puter.
howstuffworks.com/scanner.htm.
[UOL Notcias 2009] UOL Notcias (2009). Globo lima hotel de reportagem. http://noticias.uol.com.br/ooops/ultnot/2009/11/24/
ult2548u809.jhtm. 24 de novembro.
[Vaidyanathan 1987] Vaidyanathan, P. P. (1987). Quadrature mirror filter banks,
m-band extensions and perfect reconstruction techniques. IEEE Signal Processing Magazine, 4(3):420.
[Wang e Farid 2007] Wang, W. e Farid, H. (2007). Exposing digital forgeries in
video by detecting duplication. In ACM Multimedia and Security Workshop,
Dallas, USA.
[Westfeld e Pfitzmann 1999] Westfeld, A. e Pfitzmann, A. (1999). Attacks on
steganographic systems. In Intl. Workshop in Information Hiding (IHW), pp.
6176.
[Yedidia et al. 2003] Yedidia, J. S., Freeman, W. T. e Weiss, Y. (2003). Exploring
Artificial Intelligence in the New Millennium, captulo Understanding Belief
Propagation and Its Generalizations, pp. 239236. Science & Technology
Books.
[Yu et al. 2008] Yu, H., Ng, T.-T. e Sun, Q. (2008). Recaptured photo detection
using specularity distribution. In Intl. Conf. on Image Processing, San Diego,
California. IEEE.

317

Você também pode gostar