Exemplo resultado algoritmo diferença de fundo
Proposta de Dissertação de Mestrado 2007/2008
Avaliação de Desempenho de
Algoritmos de Segmentação
para Sistemas de Vídeo Vigilância
Introdução:
Apesar
de detecção, segmentação e seguimento de regiões activas em vídeo ser um
aspecto de investigação já com bastante maturidade, continua a ser controversa
a escolha das formas de teste e comparação dos vários algoritmos. Neste
trabalho pretende-se precisamente estudar vários algoritmos de segmentação e
várias métricas de comparação, não só publicados na literatura mas também novas
alternativas. Em particular nas métricas de comparação de qualidade dos
algoritmos, para além de uniformizarem a comparação, devem ser estudadas e
desenvolvidas métricas que salientem o mais possível as qualidades desejadas
nas aplicações típicas de vigilância.
Objectivos:
Neste
trabalho propõem-se métricas para avaliação do desempenho de algoritmos para
detecção de regiões activas, em
sequências de imagens. A avaliação que se propõe neste trabalho permite
evidenciar as características dos diversos algoritmos, como por exemplo, separação de região, união de regiões, ou ainda separação e união de regiões. Na
metodologia proposta, a avaliação é obtida por comparação da segmentação de
cada algoritmo com uma segmentação de referência. As métricas usadas permitem
estabelecer um critério objectivo, sendo possível realizar-se uma avaliação
rigorosa dos diferentes métodos. É ainda possível caracterizar a robustez da
cada algoritmo. Os algoritmos implementados neste trabalho são avaliados para
que seja possível escolher o(s) mai(s)
apropriado(s) para a detecção de regiões activas em cenários de câmara fixa.
Descrição
detalhada:
Muitos
algoritmos de detecção de regiões activas têm sido propostos na literatura. São
baseados em pressupostos distintos, como sejam, modelos estatísticos para o
modelo de fundo [WADP97,SEG00,MG99], minimização de diferenças Gaussianas [Oht01], valores de intensidade mínimos e
máximos [HHD98], métodos de adaptação [SFS00,KWH94] ou a combinação de
diferença de imagens e modelos estatísticos para o fundo [CLK99]. Contudo,
pouca informação é conhecida acerca da avaliação destes métodos para diferentes
condições de operação.
Dois
métodos são usualmente considerados para caracterizar a avaliação de desempenho
de algoritmos de segmentação: métodos baseados em i) pixel,
ii) formas de referência ou templates e iii)
baseados em objectos. Os métodos baseados em pixel da
imagem, pressupõem que é desejado conhecer a localização de todos os pixels activos. A detecção de objectos,
é assim formulada como um problema de detecção de pixels
independentes. Isto é um problema binário de detecção clássico, uma vez
conhecida a segmentação de referência (ideal) da imagem. Os algoritmos podem
ser avaliados com medidas muito usadas na teoria da comunicação, por exemplo,
percentagem em falhas de detecção, percentagem de falsos alarmes e
característica de operação no receptor (receiver operating characteristic - ROC)
[Tre01]. No entanto a utilidade destes métodos para aplicações de vigilância é
questionável, uma vez que o objectivo não está em avaliar a segmentação em
termos de pixel, mas antes em regiões. A segunda e a
terceira classe de métodos (baseadas em templates e objectos), caracterizam a cor e a forma do
objecto propondo figuras de mérito [BER03,CP00,ESM04], ou na avaliação baseada
na área como descrito em [MMP02].
Estes
métodos têm três limitações a saber:
1.
A detecção de objectos não é um problema binário porque vários tipos de erros
têm que ser considerados, não só falhas de detecção e falsos alarmes. Por
exemplo, que avaliação deveremos fazer
quando um objecto se divide em várias regiões? ou que avaliação deveremos fazer se dois objectos
distintos se unem dentro de uma região comum?
2.
Alguns métodos são baseados na selecção de pixels
isolados ou regiões rectangulares. Isto é um pressuposto que não é realista, uma
vez que os algoritmos têm que segmentar a imagem em regiões de fundo e em
regiões activas.
3.
Não é possível definir um única segmentação de
referência. Em muitos casos, as imagens admitem várias segmentações que são
válidas. Isto requer o uso de múltiplas interpretações na segmentação.
Neste
trabalho propõem-se métricas objectivas para avaliação do desempenho de
algoritmos de segmentação. Esta tarefa é realizada, comparando a saída do
detector com a segmentação de referência dada pelo utilizador. Vários tipos de
erros são considerados: i) separação de regiões activas, ii)
união de regiões activas, iii) separação-união
de regiões, iv) falsos alarmes
e v) falhas de detecção. Estes erros são analisados numa perspectiva de
múltiplas interpretações na segmentação.
Vários
algoritmos serão implementados neste trabalho. O primeiro algoritmo calcula o
módulo da diferença entre a imagem corrente e a imagem de fundo (previamente
calculada num periodo de treino). Este é o algoritmo
mais simples. O segundo algoritmo é na literatura denotado por W4 [HHD00]. Três
características são usadas para caracterizar cada pixel
na imagem: i) intensidade minima, ii)
intensidade máxima, iii) modulo da diferença máxima
entre imagens consecutivas. O terceiro método assume que cada pixel é a realização de uma variável aleatória com
distribuição normal, que é usado no sistema Person finder - Pfinder
[WADP97], onde a média e a covariância são estimadas
de forma independente para cada pixel. O quarto
algoritmo é uma extensão do anterior. Admite-se que cada pixel
é modelado por uma mistura de Gaussianas [SEG00],
onde alguns modos da mistura estão associados a regiões activas e outros estão asssociados ao modelo de fundo. Outro algoritmo que se
pretende implementar denomina-se por LOTS
- Lehigh Omnidirectional Tracking Systems proposto em [BMGE01]. Estes, e outros
algoritmos são descritos numa edição especial dedicada a sistemas de video-vigilância IEEE Trans. Pattern Anal. Machine Intell (August 2000).
Neste
trabalho fornecem-se resultados de segmentação dos algoritmos anteriormente
descritos (e possivelmente ainda outros) em sequências de referência usadas na
comunidade de processamento de imagem, como sejam, as sequências PETS2001,
PETS2004 ou ainda PETS2007.
Referências:
[BER03] J. Black, T. Ellis, and P.
Rosin. A novel method for video tracking performance
evaluation. In Joint IEEE Int. Workshop on Visual Surveillance and
Performance Evaluation of Tracking and Surveillance (VS-PETS), pages 125–132,
[BMGE01] T.E. Boult,
R.J. Micheals, X. Gao, and M. Eckmann. Into
the woods: Visual surveillance of non-cooperative camouflaged targets in
complex outdoor settings. In Proceedings of the IEEE, pages 1382–1402, October
2001.
[CLK99] R. Collins, A. Lipton, and
T. Kanade. A system for video
surveillance and monitoring. In Proc. American Nuclear Society (ANS)
Eighth Int. Topical Meeting on Robotic and Remote Systems, pages 25–29,
[CP00]
P. Correia and F. Pereira. Objective evaluation of relative segmentation quality. In Int. Conference on Image Processing, pages
308–311, 2000.
[ESM04] C. E. Erdem, B. Sankur, and A. M.Tekalp. Performance measures for video object
segmentation and tracking. IEEE Trans. Image Processing, 13(7):937–951, 2004.
[HHD98] I. Haritaoglu,
D. Harwood, and L. S. Davis. W4: Who? when? where? what? a
real time system for detecting and tracking people. In IEEE International
Conference on Automatic Face and Gesture Recognition, pages 222–227, April
1998.
[HHD00] I. Haritaoglu,
D. Harwood, and L. S. Davis. W4: real-time surveillance of people and their
activities. IEEE Trans. Pattern Anal. Machine Intell.,
22(8):809–830, August 2000.
[KWH+94] D. Koller,
J. Weber, T. Huang, J. Malik, G. Ogasawara, B. Rao, and S. Russel. Towards robust automatic traffic scene analysis in real-time.
In Proceedings of Int. Conference on Pattern Recognition, pages 126–131, 1994.
[MG99] S. J.
McKenna and S. Gong. Tracking colour objects using adaptive mixture
models. Image Vision Computing, 17:225–231, 1999.
[MMP+02] V. Y. Mariano, Junghye Min, Jin-Hyeong Park, R. Kasturi,
D. Mihalcik, Huiping Li, D.
Doermann, and T. Drayer. Performance evaluation of object detection algorithms. In
Proceedings of 16th Int. Conf. on Pattern Recognition (ICPR02), volume 3, pages
965–969, 2002.
[Oht01] N. Ohta.
A statistical approach to background suppression for
surveillance systems. In Proceedings of IEEE Int. Conference on Computer
Vision, pages 481–486, 2001.
[SEG00] C. Stauffer, W. Eric, and L.
Grimson. Learning patterns of activity using
real-time tracking. IEEE Trans. Pattern Anal. Machine Intell.,
22(8):747–757, August 2000.
[SFS00] M. Seki, H. Fujiwara, and K.
Sumi. A robust background
subtraction method for changing background. In Proceedings of IEEE
Workshop on Applications of Computer Vision, pages 207–213, 2000.
[Tre01] H. Van Trees. Detection, Estimation, and Modulation Theory. John Wiley and Sons, 2001.
[WADP97] C. R.
Wren, Ali Azarbayejani, T. Darrell, and A. P. Pentland. Pfinder:
Real-time tracking of the human body. IEEE Trans. Pattern
Anal. Machine Intell., 19(7):780–785, July 1997.
Requisitos
(e.g. média,disciplinas
concluídas):
Resultado esperado:
No
final do trabalho, os alunos terão enriquecido a sua experiência em visão por computador
aplicada em sistemas de vídeo-vigilância. Espera-se
em particular neste trabalho:
-
teste de vários algoritmos de detecção de regiões
activas em vídeo
-
teste de várias métricas de comparação dos vários
algoritmos
Local
realização da dissertação:
ISR
/ IST
Outras dissertações em Visão Robótica e por Computador:
http://omni.isr.ist.utl.pt/~jag