Você está na página 1de 11

Universidade Federal de Uberlândia

Sistemas de Informação

Detecção de região saliente

Guilherme F. Silva Vidigal

Trabalho prático da disciplina


Processamento Digital de Imagens: FACOM39005,
ministrada pelo Prof. Carlos R. P. Dionisio.

Monte Carmelo – Dezembro de 2017


Detecção de região Saliente

Guilherme Francisco Silva Vidigal


gvidigal@gmail.com

Resumo
Através de pesquisa, coleta de dados na internet, testes de campo com software Matlab
R2017a e partindo de outro artigo já publicado: “Automatic Salient Object Segmentation
Based on Context and Shape Prior”, que propõe se um novo algoritmo de segmentação
de objeto saliente automático que integre tanto os estímulos salientes de baixo para cima
como a forma de nível de objeto anterior, isto é, um objeto saliente possui um limite
fechado bem definido. Nossa abordagem é formalizada como uma estrutura de
minimização de energia iterativa, levando a segmentação binária do objeto saliente. Essa
minimização de energia é inicializada com um mapa de saliência que é computado através
de análise de contexto baseada em superpixels de várias escalas. A forma do nível do
objeto anterior é então extraída combinando a saliência com a informação do limite do
objeto. O mapa de saliência é a atualização prévia de forma após cada iteração. Os
resultados experimentais em dois conjuntos de dados públicos de referência mostram que
a abordagem proposta no geral é bem eficiente em custos computacionais e operacionais.

Palavras-chave: Regiões salientes. Detecção de objetos salientes. Detecção de saliência.


Objeto saliente. Segmentação de imagens e objetos.
Introdução / Motivação
A detecção de objetos salientes em imagens está aumentando o interesse na pesquisa nos
últimos anos, pois pode facilitar substancialmente uma ampla gama de aplicações
multimídia baseadas em conteúdo.
Com base no pressuposto de que as regiões salientes de primeiro plano são distintas
dentro de um determinado contexto, a maioria das abordagens convencionais depende de
uma série de características projetadas à mão e sua distinção medida usando contraste
local ou global. Embora essas abordagens tenham se mostrado eficazes ao lidar com
imagens simples, sua capacidade limitada pode causar dificuldades ao lidar com imagens
mais complexas. Este artigo propõe uma estrutura para a detecção de saliência,
modelando primeiro o plano de fundo e separando os objetos salientes do fundo.
A maioria das abordagens de atenção visual existentes são baseados em uma estrutura
computacional de baixo para cima, que envolve a extração de múltiplas características
visuais de baixo nível em uma imagem, tais como intensidade, contraste e movimento.
Estas abordagens podem ser eficazes em encontrar alguns locais de fixação em imagens,
mas eles não foram capazes de detectar com precisão a região real da atenção visual.

Figura 1: Visão geral do algoritmo de segmentação de objeto saliente proposto. Imagens de entrada
(esquerda), a análise de contexto local pode produzir mapa de saliência de resolução total (meio
esquerdo). Em seguida, extraímos a forma anterior (meio direito) com base no mapa de saliência. A
minimização de energia iterativa com base no mapa de saliência e forma anterior é empregada, liderando
para segmentação binária precisa das imagens de entrada (direita).

O estudo da detecção de objetos salientes visa descobrir as partes mais importantes e


informais de uma imagem e está ganhando atenção intensiva à pesquisa nos últimos anos,
pois pode servir como base para um grande número de aplicações multimídia, como o
redimensionamento de imagens, montagem de imagens, análise de ação e reconhecimento
visual. A maioria dos modelos de detecção de saliência existentes precisam resolver dois
problemas fundamentais: I) extrair recursos efetivos para representar a imagem e, II)
desenvolver um mecanismo ideal para medir a distinção sobre os recursos extraídos.
Dissimilaridade é função da distância entre dois pixels em um espaço dimensional de
cores como o espaço RGB, ou o espaço CIE L*a*b*. Iniciamos nosso trabalho usando o
espaço RGB, mas com mais pesquisas o espaço CIE L*a*b* se mostrou mais promissor,
talvez porque foi calibrado em 1976 pelo CIE para estar alinhado a percepção humana
(BURGER, 2008). Estas características do espaço CIE L*a*b* merecem um estudo
futuro mais aprofundado.
Objetivos
O desempenho dos modelos de detecção de saliência depende fortemente dos recursos
(representações de dados) que estão sendo usados. Nos últimos 15 anos, uma variedade
de características foi proposta para a tarefa de detecção de saliência de imagem. No
entanto, devido às arquiteturas estruturadas superficialmente utilizadas, esses métodos
ainda possuem poder de representação limitado e são insuficientes para capturar
informações de alto nível e padrões latentes de dados de imagem complexos. Para superar
essas desvantagens, neste trabalho, investigamos a viabilidade de aprender uma
representação mais poderosa diretamente da imagem em dados brutos de forma não
supervisionada para a tarefa de detecção de saliência.
A saliência é tipicamente medida pela computação de contraste de imagem sobre algumas
características, onde várias medidas de contraste serão apresentadas. Dependendo da
extensão do contexto em que o contraste é calculado, essas abordagens podem ser
classificadas em métodos baseados em contraste local e métodos baseados em contraste
global. Os métodos baseados no contraste local estimam a saliência de um pixel de
imagem ou um caminho de imagem ao calcular o contraste em relação à sua vizinhança
local, e alguns métodos locais representativos incluem a diferença de centro-surround,
comprimento de codificação incremental e auto semelhança. Os métodos baseados em
contraste global caracterizam a saliência de uma região de imagem como a singularidade
em toda a imagem. Para ser específico, o contraste global é derivado no domínio da
frequência com a hipótese de que as regiões salientes são normalmente menos frequentes.
Humanos e animais têm uma habilidade natural de separar e escolher pontos em uma
imagem para focar a atenção. Nos humanos, especificamente, esta habilidade tem sido
muito estudada nas últimas décadas. Os seres humanos possuem a capacidade de
descobrir com precisão e rapidez um objeto interessado (região saliente), que se chama
foco de atenção ou saliência em uma cena. Quando conduzido por estímulos salientes, o
tempo de implantação da atenção é considerado rápido. A atenção também pode ser
guiada por mecanismos relativamente dependentes de memória, por sua vez mais lentos,
por exemplo, quando olhamos para o rosto das pessoas, aqueles que estamos
familiarizados podem chamar nossa atenção e outros não. Os aplicativos para detecção
de objetos salientes incluem colagem de imagem, retargeting de imagem, compressão de
imagem e vídeo e reconhecimento de objetos.
Recentemente, muitos modelos computacionais foram propostos para detecção de
saliência. O valor de saliência calculado para cada pixel, ou seja, mapa de saliência, com
base em informações de cor e orientação, usando operações de "surround center",
semelhante a campos visíveis.
Algoritmos de saliência podem ser usados como etapa de pré-processamento em sistemas
de visão computacional. Em alguns sistemas pode ser usado para localizar possíveis
candidatos para serem examinados por algoritmos específicos de detecção (WALTHER
et al., 2002).

Metodologia Experimental
O que é saliência
Saliência é um atributo de uma região de uma imagem. O atributo de chamar para si a
atenção humana de forma reativa. Quando falamos em mapa de saliência nos referimos a
um mapeamento que atribui uma importância relativa em cada pixel de uma imagem, que
idealmente se agrupa em uma região ou objeto mais importante. Neste sentido, a definição
de detecção de saliência aproxima-se daquela de segmentação binária clássica: objeto
mais saliente versus fundo da imagem.

Mapa de saliência
Mapa de saliência é um mapeamento da importância relativa de cada pixel em uma
imagem. Em termos matemáticos, dada uma imagem bidimensional I(x, y) como uma
foto, um desenho, etc. Um mapa de saliência é a função f (I(x, y)) que calcula a
importância relativa de cada pixel da imagem. Onde (x, y) corresponde a cada pixel da
imagem dada I e f corresponde à importância relativa daquele pixel na imagem. Mapas
de saliência são inspirados no comportamento do cérebro humano que possui um sistema
de atenção visual que seleciona ou filtra de forma pré-consciente as áreas mais
importantes de uma imagem para fixar o olhar humano. Em outras palavras, sabe-se dos
estudos de atenção visual humana que de certa forma o cérebro humano seleciona regiões
de uma imagem para fixar o olhar (DRIVER, 2001). Esta escolha humana tem dois modos
de funcionamento, o modo bottom-up e o modo top-down. No modo bottom-up a atenção
humana é despertada pela imagem de forma passiva por algo que é diferente do resto da
imagem, como uma cor, uma intensidade, uma orientação. Uma flor vermelha em um
gramado totalmente verde vai chamar a atenção naturalmente do sistema visual humano,
enquanto grande parte do gramado vai passar desapercebida. Nestes casos, o mapa de
saliência deverá assinalar um valor alto de importância para a região do centro e em volta
da flor, enquanto outros pontos do gramado passariam totalmente despercebidos. No
campo da visão computacional, grande esforço tem sido feito na criação de algoritmos
que imitem este comportamento da atenção visual humana (BORJI et al., 2014).
O outro modo de atenção humana é o top-down, onde existe uma procura por algo já
conhecido na imagem, uma palavra em um texto, pessoas ao atravessar uma rua, etc. O
modo top-down é mais complexo de modelar e a maior parte dos trabalhos até hoje está
focada no modo bottom-up que sempre será importante na localização de regiões o objetos
importantes da imagem (BORJI et al., 2014). A separação entre o que é modo top-down
e o que é modo bottom-up não é clara, por exemplo Judd (2011) demonstra em
experimentos de fixação visual que as pessoas sempre são atraídas pelos olhos em uma
imagem, seja estes olhos, de uma pessoa, de animais, de seres inanimados, e mesmo em
situações em que a face está escondida, como um animal com a cabeça coberta, o olhar
humano vai se fixar na região onde os olhos devem estar. Assim, humanos reagem de
forma aparentemente bottom up à região dos olhos, mas procurar os olhos é claramente
um comportamento top-down segundo Judd (2011), fato que ilustra o caráter misto da
classificação dos modos de atenção visual humana em top-down e bottom-up.
Agora vamos à prática, primeiro apresentamos três características do objeto saliente. De
acordo com essas características, calculamos o mapa de saliência e a forma de nível de
objeto anterior. Nessa abordagem incorporamos informações em forma de nível de objeto
para definir melhor um objeto saliente.
Com base na observação, apresentamos três características para definir um objeto
saliente:
1. O objeto saliente é sempre diferente do seu contexto circundante.
2. O objeto saliente em uma imagem provavelmente é colocado perto do centro da
imagem.
3. Um objeto saliente tem um limite fechado bem definido.
A primeira característica, baseada em estímulos salientes de baixo para cima, tem sido
amplamente estudada. Depois definimos a prioridade de localização dos objetos,
conhecida como “Regra de Terceiros”. A regra indica que para atrair a atenção das
pessoas, o objeto de interesse ou elemento principal em uma fotografia deve estar em uma
das quatro interseções para aproximar a "razão de ouro" (cerca de 0,618). E por último
categorizar os objetos, como um conhecimento genérico de um objeto proposto. Essa
restrição será incorporada na estrutura de minimização de energia para melhorar o
desempenho da segmentação de objeto saliente proposto.
Nossa saliência é definida com base nos superpixels, que são gerados pela fragmentação
da imagem. Um benefício para definir a saliência na região está relacionado à eficiência.
Nas etapas anteriores redimensiona-se a imagem original para um tamanho menor, a fim
de aliviar o gasto de recurso computacional. Uma vez que o número de superpixels em
uma imagem é muito menor do que o número de pixels, a saliência de computação no
nível da região pode reduzir significativamente o gasto de recursos. Assim, podemos
produzir um mapa de saliência de resolução total.

Figura 2: Comparação visual de mapas de saliência. Na última imagem (a direita) se obtém o resultado
esperado pelo algoritmo no método final

Estrutura de segmentação de objetos salientes


Nossa estrutura saliente de segmentação de objetos combina informações de saliência
ascendente com forma de nível de objeto (prioridades). Com base na estimativa
aproximada inicial, a segmentação pode ser resolvida por minimização de custos
computacionais. Um mapa de saliência mais preciso pode então ser reestimados da nova
segmentação.
Minimização energética iterativa
O mapa de saliência inicial e a forma anterior são apenas estimativas aproximadas do
objeto saliente. Após a segmentação binária, ambos podem ser reestimados com mais
precisão. Nessa estrutura de minimização de energia iterativa atualizamos os modelos de
aparência e forma.
Especificamente, construímos histogramas para o objeto saliente (primeiro plano) e
fundo, com base na segmentação atual, respectivamente. Para tornar confiável a
estimativa, dilatamos a máscara da segmentação atual para obter um trimapa. A região
fora da região dilatada é definida como plano de fundo, e a região interna será definida
como objeto saliente (primeiro plano). Em seguida, o mapa de saliência atualizado pode
𝐻𝐹 (𝑏𝑝 )
ser definido como 𝑆𝑚 (𝑝) = , onde bp é o conjunto de histograma de cores
𝐻𝐹 (𝑏𝑝 )+𝐻𝐵 (𝑏𝑝)
do pixel p. A menor sobreposição entre a aparência de primeiro plano e plano de fundo,
mais preciso é o mapa de saliência atualizado. Com base em tal novo mapa de saliência,
podemos atualizar a forma antes, então re-segmentar a imagem. Com esse método
iterativo temos minimização de energia até convergência (no máximo 4 iterações em
nossa implementação). O algoritmo de nossa segmentação iterativa é resumido abaixo:
Algoritmo L=Segmentação de Objeto Saliente(I)
1. Calcula-se o mapa saliente Sm.
2. Extrai-se a forma anterior Sp baseado em Sm.
3. Segmenta-se a imagem através da minimização de energia.
4. Atualiza o mapa de saliência Sm baseado na segmentação atual L.
5. Volta no passo 2 para atualizar a forma anterior Sp, e então re-segmenta a imagem
até a convergência.

Figura 3: Comparação quantitativa de diferentes métodos em dois conjuntos de dados de referência. (a)
comparação do mapa de saliência no conjunto de dados, (b) comparação da segmentação de objeto
saliente no conjunto de dados, (c) comparação da segmentação de objeto saliente (com base na caixa
delimitadora) no conjunto de dados.

Resultados experimentais
Realizamos experimentos em dois conjuntos de dados. O primeiro é fornecido por
Achanta et al. em [1] que contém 1000 imagens, juntamente com a verdade terrestre para
cada imagem na forma de máscaras precisas marcadas por humanos para o objeto saliente.
E o segundo é o conjunto de dados MSRA B fornecido por Liu et al. em [18], que contém
5000 imagens, juntamente com a anotação da caixa delimitadora do objeto saliente para
cada imagem. Embora seja um subconjunto do segundo conjunto de dados, o primeiro
conjunto de dados possui uma anotação mais precisa. Nove anotações de usuário para
cada imagem no segundo conjunto de dados são fornecidas, no entanto, tornando-o mais
objetivo para comparação.
Para suavizar os superpixels computados, primeiro fundimos as regiões vizinhas cuja cor
d é inferior a 0,2. Para construir o mapa de borda, usamos o detector de borda Pb e o
pacote de aproximação de linha fornecido por Kovesi [15]. Removemos todas as arestas
com um comprimento inferior a 10 pixels e configuramos o desvio máximo permitido
entre uma borda e seu segmento de linha ajustado para 2 pixels.
Nossa abordagem proposta é comparada com cinco métodos de detecção de saliência de
última geração, incluindo TI [13], SR [12], FT [1], CA [11] e RC [7]. A TI é uma
abordagem clássica que alavanca um modelo neuromórfico que simula quais elementos
são susceptíveis de atrair a atenção visual. SR e FT trabalham em domínio de freqüência
para encontrar as anomalias de uma imagem. A CA é um método recentemente proposto
que integra informações de contexto no mapa de saliência final. E RC é a abordagem mais
relacionada ao nosso, que calcula a saliência com base no contraste global de uma região
w.r.t. todas as outras regiões em uma imagem em uma única escala superpixel.
Dois experimentos são conduzidos para avaliar de forma abrangente o desempenho de
nossa abordagem para segmentação de objeto saliente. No primeiro experimento,
comparamos mapas de saliência produzidos com diferentes métodos, uma vez que o mapa
de saliência pode ser usado em muitas aplicações, por exemplo, colagem de imagens [27],
retargação de imagem [3]. No segundo experimento, comparamos os resultados salientes
da segmentação do objeto de diferentes métodos. E fornecemos comparações para
mostrar a eficácia de nossa forma de nível de objeto anterior.

Figura 4: Comparação visual da segmentação saliente do objeto usando diferentes métodos. (b)-(f) são os
resultados de IT, SR, FT, CA e RC respectivamente. (g) é o resultado de CB, que considera nosso mapa
de saliência baseado em contexto. E (h) é o resultado da CBS, nossa abordagem proposta, que combina a
base do contexto e a forma do nível do objeto anterior.

No conjunto de dados de [1], nos computamos a precisão, recall, Fα com α = 0. 5, para


avaliar quantitativamente o desempenho. No conjunto de dados MSRA B, para produzir
um retângulo para avaliação, buscamos exaustivamente um retângulo mais pequeno
contendo pelo menos 95% pixels de primeiro plano na segmentação binária. Além de
precisão, recall e Fα, fornecemos BDE (Bounding box Displacement Error) para
comparação de caixa delimitadora.
Comparação de mapas de saliência
Para comparar o mapa de saliência, com valor de saliência entre [0, 255], nós limiamos o
mapa de saliência em cada Tf dentro de [0, 255]. Tf é variado de 0 a 255, e a precisão e a
recuperação são calculadas a cada valor de Tf.
Comparamos nosso mapa de saliência baseado em contexto (CB) com métodos de ponta.
Além disso, para mostrar a eficácia do aprimoramento proposto da saliência em escala
multi-superpixel, fornecemos comparações de nosso mapa de saliência com diferentes
escalas (N na Equação 2). As curvas de precisão de recuo são mostradas na Fig. 4 (a).
Como se mostra, podemos alcançar uma ótima melhoria de 1 escala para aprimoramento
de 4 escalas. E a diferença entre 4-escala e 8-escala é menor. Nós, portanto, escolhemos
N = 8 em nosso próximo experimento. Nossos mapas de saliência em escala de 4 e 8
escalas superam consistentemente outros cinco métodos de última geração. Como
podemos ver, nosso método pode gerar melhores mapas de saliência. Por exemplo, na
última linha, nosso método quase uniformemente destaca o objeto saliente, mesmo em
um fundo desordenado.

Comparação de Segmentação de Objeto Saliente


Nesta seção, comparamos performances de segmentação de objetos salientes de
diferentes métodos. Como IT, SR, FT e CA avaliam apenas mapas de saliência, usamos
seus mapas de saliência para inicializar nosso algoritmo de segmentação iterativa para
fazer uma comparação objetiva. E para RC, relatamos diretamente seu melhor resultado
no mesmo conjunto de dados. Além disso, também apresentamos o resultado da
segmentação usando o nosso mapa de saliência, no entanto, sem forma anterior (α é
definido como 1 na Edição 7). O resultado demonstra a eficácia da nossa forma de nível
de objeto proposto antes.
Como podemos ver na Fig. 4 (b) (c) (d), nossa abordagem que integra saliência baseada
em contexto e forma anterior (CBS) supera consistentemente as TI, SR, FT, CA em ambos
os conjuntos de dados. E podemos alcançar um resultado tão bom quanto o RC no
primeiro conjunto de dados. Mas podemos conseguir um desempenho um pouco melhor
no segundo conjunto de dados maior. Para alcançar a segmentação binária, RC primeiro
limita o mapa de saliência, e então aplica iterativamente GrabCut [22]. No entanto, é
difícil selecionar o limiar inicial. Como podemos ver, o limiar selecionado, que dá uma
taxa de recuperação de 95% no primeiro experimento de comparação de mapa de
saliência, funciona bastante bem no primeiro conjunto de dados. Enquanto em um
conjunto de dados maior, esse limiar revela que funciona mal. Nosso método é
inicializado com mapa de saliência, portanto, é melhor no conjunto de dados maior.
Além disso, apresentamos o resultado de segmentação do CB, que apenas leva em
consideração a saliência baseada no contexto, para demonstrar a eficácia da forma do
nível do objeto anterior. Como pode ser visto, ao incorporar forma anterior, podemos
obter uma precisão de segmentação ligeiramente melhor e F α em ambos os conjuntos de
dados. Também fornecemos comparações visuais de segmentações de objetos salientes
na Fig. 6. Na imagem da primeira linha, a segmentação pode ser facilmente afetada pelas
folhas, uma vez que tanto a flor quanto as folhas são bem diferentes do fundo. Ao
incorporar forma anterior, no entanto, podemos obter resultados de segmentação
satisfatórios. E na segunda linha, o fundo é desordenado e o objeto saliente consiste em
várias cores. Em um caso tão desafiador, ele e FT falha completamente, e SR, CA e RC
só podem encontrar parte do objeto. O resultado dos CB contém parte do plano de fundo.
E nossa abordagem proposta, CBS, segmenta com êxito o objeto saliente.

Conclusão
O mapa de saliência é calculado com base em superpixels de várias escalas, o que prova
melhorar significativamente a saliência, através da análise de contexto. E a forma do nível
do objeto anterior é extraída combinando a saliência com a informação do limite do
objeto. Em seguida, integramos ambos em uma estrutura de minimização de energia
iterativa, levando a segmentação binária do objeto saliente, onde a forma anterior encoraja
o limite de segmentação a ser alinhado com o contorno saliente. A principal diferença
entre nossa abordagem e outros trabalhos utilizados na pesquisa é que consideramos esse
nível de objeto antes para definir melhor um objeto saliente. Os resultados experimentais
em dois conjuntos de dados de referência mostram que nossa abordagem pode alcançar
ótimos resultados finais a um custo baixo de processamento.
Referencias
Detecção de região saliente em imagens usando dissimilaridade de cor e amostragem
por pixels aleatórios, disponível em:
<http://repositorio.utfpr.edu.br/jspui/bitstream/1/1690/1/CT_CPGEI_M_Paula%2C%20
Nelson%20Garcia%20de_2015.pdf>
Automatic Salient Object Segmentation Based on Context and Shape Prior:
<https://people.cs.umass.edu/~hzjiang/pubs/saliency_cbs_bmvc2011.pdf>
Image Descriptors / Features and Saliency Maps
<https://www.mathworks.com/matlabcentral/fileexchange/28344-image-descriptors---
features-and-saliency-maps?focused=5156797&tab=function>
[1] R. Achanta, S. Hemami, F. Estrada, and S. Susstrunk. Frequency-tuned salient
region detection. IEEE CVPR, 0:1597–1604, 2009
[2] Bogdan Alexe, Thomas Deselaers, and Vittorio Ferrari. What is an object? In
CVPR, pages 73–80, 2010.
[3] Shai Avidan and Ariel Shamir. Seam carving for content-aware image resizing.
volume 26, 2007.
[4] Subhabrata Bhattacharya, Rahul Sukthankar, and Mubarak Shah. A framework
for photo-quality assessment and enhancement based on visual aesthetics. In ACM
Multimedia, pages 271–280, 2010.
[5] Yuri Boykov and Marie-Pierre Jolly. Interactive graph cuts for optimal boundary
and region segmentation of objects in n-d images. In ICCV, pages 105–112, 2001.
[6] Yuri Boykov and Vladimir Kolmogorov. An experimental comparison of min-
cut/max flow algorithms for energy minimization in vision. IEEE Trans. Pattern Anal.
Mach. Intell., 26:1124–1137, September 2004. ISSN 0162-8828.
[7] Ming-Ming Cheng, Guo-Xin Zhang, Niloy J. Mitra, Xiaolei Huang, and Shi-Min
Hu. Global contrast based salient region detection. In IEEE CVPR, pages 409–416,
2011.
[8] Ritendra Datta, Dhiraj Joshi, Jia Li, and James Ze Wang. Studying aesthetics in
photographic images using a computational approach. In ECCV (3), pages 288–301,
2006.
[9] Pedro F. Felzenszwalb and Daniel P. Huttenlocher. Efficient graph-based image
segmentation. International Journal of Computer Vision, 59(2):167–181, 2004.
[10] P.F. Felzenszwalb and D.P. Huttenlocher. Distance transforms of sampled
functions. In Cornell Computing and Information Science TR2004-1963, 2004.
[11] Stas Goferman, Lihi Zelnik-Manor, and Ayellet Tal. Context-aware saliency
detection. In CVPR, pages 2376–2383. IEEE, 2010.
[12] Xiaodi Hou and Liqing Zhang. Saliency detection: A spectral residual approach.
In CVPR, 2007.
[13] Laurent Itti, Christof Koch, and Ernst Niebur. A model of saliency-based visual
attention for rapid scene analysis. IEEE Trans. P.A.M.I., 20(11):1254–1259, 1998.
[14] Vladimir Kolmogorov and Ramin Zabih. What energy functions can be minimized
via graph cuts? IEEE Trans. Pattern Anal. Mach. Intell., 26(2):147–159, 2004.
[15] P. D. Kovesi. MATLAB and Octave functions for computer vision and
image processing. Centre for Exploration Targeting, School of Earth and
Environment, The University of Western Australia.
Available from: <http://www.csse.uwa.edu.au/∼pk/research/matlabfns/>.
[16] Yin Li, Jian Sun, Chi-Keung Tang, and Heung-Yeung Shum. Lazy snapping.
ACM Trans. Graph., 23(3):303–308, 2004.
[17] Feng Liu and Michael Gleicher. Region enhanced scale-invariant saliency
detection. In ICME, pages 1477–1480, 2006.
[18] Tie Liu, Jian Sun, Nan-Ning Zheng, Xiaoou Tang, and Heung-Yeung Shum.
Learning to detect a salient object. CVPR, 0:1–8, 2007.
[19] Tie Liu, Zejian Yuan, Jian Sun, Jingdong Wang, Nanning Zheng, Xiaoou Tang, and
Heung-Yeung Shum. Learning to detect a salient object. IEEE Trans. Pattern Anal.
Mach. Intell., 33(2):353–367, 2011.
[20] Yiwen Luo and Xiaoou Tang. Photo and video quality evaluation: Focusing on
the subject. In ECCV (3), pages 386–399, 2008.
[21] David R. Martin, Charless C. Fowlkes, and Jitendra Malik. Learning to detect
natural image boundaries using local brightness, color, and texture cues. PAMI, 26:530–
549, 2004.
[22] Carsten Rother, Vladimir Kolmogorov, and Andrew Blake. Grabcut – interactive
foreground extraction using iterated graph cuts. ACM Transactions on Graphics, 23:309–
314, 2004.