Academia de Ciências da China Xi'an Optical Machine faz novo progresso na área de detecção de anomalias de amostras zeroRede de equipamentos de máquinas Xingwangbao

Recentemente, a equipe de pesquisadores Wang Tsuen, do Laboratório de Tecnologia de Imagem Espectral do Instituto de Máquinas de Xi'an da Academia de Ciências da China, fez novos avanços na direção da detecção e localização de anormalidades de amostras zero no campo da visão por computador, e os resultados relevantes foram recebidos pela Conferência IEEE / CVF sobre Visão por Computador e Reconhecimento de Padrões (CVPR 2026). O primeiro autor da tese é Hu Ming, estudante de pós-graduação do Instituto de Máquinas de Luz de Xi'an em 2024, e o autor da comunicação é o Dr. Hu Chung, pesquisador do Instituto de Máquinas de Luz de Xi'an e pesquisador Wang Tsuen, e o Instituto de Máquinas de Luz de Xi'an é a primeira unidade de comunicação.

À medida que a demanda cresce para aplicações como inspeção de qualidade industrial e análise de imagens médicas, as tecnologias de detecção de anomalias recebem cada vez mais atenção. No entanto, amostras anormais em cenários reais tendem a ser escassas ou até difícil de obter, e os métodos tradicionais de aprendizagem supervisionada que dependem de dados de rotulagem enfrentam gargalos.

O método de detecção de anomalias de amostra zero baseado no modelo visual-linguístico, com conhecimento pré-treinado em larga escala, a detecção pode ser realizada sem marcação de anomalias, mas na tarefa de detecção de anomalias de granulado fino, o método ainda enfrenta três grandes desafios: um é que o modelo é difícil distinguir o objetivo de perspectiva e o contexto complexo, características anormais fáceis de misturar com o contexto, afetando a precisão da detecção; Em segundo lugar, depender de um único texto, capacidade de expressão semântica limitada, é difícil fornecer uma base sutil para a distinção anormal; Terceiro, durante o processo de alinhamento intermodal, a correspondência semântica entre imagens e texto é incerta, limitando a melhoria do desempenho do modelo.

Para responder a essa questão, a equipe propôs um novo tipo de estrutura: FB-CLIP (Foreground-Background Disentangled CLIP). O quadro inova em três níveis:

Na modelagem de texto, propor métodos de fusão de características de texto multi-estratégicas, combinando representação a nível de sentença, informações de contexto global e características ponderadas pela atenção, para construir uma representação semântica mais rica da percepção de tarefas, melhorando a capacidade do modelo de compreender a semântica anormal;

Em modelagem visual, projetar mecanismos de separação de plano-de-fundo multiangular para desacoplar as características da imagem de dimensões como semântica, espaço, estrutura, etc., e usar estratégias de supressão de fundo para reduzir a informação de interferência em cenários complexos, permitindo que o modelo se concentre com mais precisão nas áreas anormais;

No alinhamento intermodal, a restrição de regularização de consistência semântica foi introduzida para melhorar a capacidade do modelo de discernir anomalias aumentando a confiança da previsão e ampliando o intervalo semântico entre amostras normais e anormais.

Os resultados experimentais mostraram que o FB-CLIP teve um excelente desempenho em vários conjuntos de dados de imagem industrial e médica, especialmente em tarefas de posicionamento anormal de partículas finas, com um desempenho global líder internacional. Este método não requer marcação de amostras anormais para realizar a detecção precisa e o posicionamento de pequenas anomalias em cenários complexos, com boas perspectivas de aplicação prática.

Espera-se que os resultados sejam aplicados em áreas como diagnóstico assistido por imagem médica e detecção de defeitos industriais.

A equipe de pesquisadores Wang Tsuen do Instituto de Máquinas de Luz de Xi'an tem trabalhado há muito tempo em pesquisa transversal de visão por computador e imagem biomédica, inteligência cerebral-computador e outros, e nos últimos anos continuou a fazer uma série de avanços importantes em áreas relacionadas, os resultados relacionados foram publicados no CVPR 2025, reconhecimento de padrões e outros.

A conferência IEEE/CVF sobre visão por computador e reconhecimento de padrões é uma das conferências acadêmicas internacionais mais influentes no campo da visão por computador e foi classificada como conferência de categoria A pela Sociedade de Computação da China (CCF).