【
儀表網 研發快訊】近日,中國科學院西安光機所光譜成像技術研究室王荃研究員團隊在計算機視覺領域的零樣本異常檢測與定位方向取得新進展,相關成果被計算機視覺與模式識別大會(The IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2026)接收。論文第一作者為西安光機所2024級碩士研究生胡明,通訊作者為武漢大學中南醫院胡聰博士、西安光機所胡炳樑研究員以及王荃研究員,西安光機所為第一通訊單位。
隨著工業質檢、醫學影像分析等應用需求不斷增長,異常檢測技術日益受到關注。然而,實際場景中異常樣本往往稀缺甚至難以獲取,傳統依賴標注數據的監督學習方法面臨瓶頸。
基于視覺-語言模型的零樣本異常檢測方法,憑借大規模預訓練知識,無需異常標注即可實現檢測,但在細粒度異常檢測任務中,該方法仍面臨三大挑戰:一是模型難以區分前景目標與復雜背景,異常特征易與背景混雜,影響檢測精度;二是依賴單一文本表示,語義表達能力有限,難以為異常判別提供精細依據;三是跨模態對齊過程中,圖像與文本的語義匹配存在不確定性,制約了模型性能提升。
針對上述問題,研究團隊提出了新型框架——FB-CLIP(Foreground-Background Disentangled CLIP)。該框架從三個層面進行創新:
在文本建模上,提出多策略文本特征融合方法,通過結合句子級表示、全局上下文信息及注意力加權特征,構建更豐富的任務感知語義表示,提升模型對異常語義的理解能力;
在視覺建模上,設計多視角前景-背景分離機制,從語義、空間、結構等維度解耦圖像特征,并借助背景抑制策略減少復雜場景中的干擾信息,使模型更精準地聚焦異常區域;
在跨模態對齊上,引入語義一致性正則化約束,通過提升預測置信度并拉大正常與異常樣本的語義間隔,增強模型對異常的判別能力。
實驗結果表明,FB-CLIP在多個工業檢測和醫學影像數據集上均取得了優異性能,尤其在細粒度異常定位任務中表現突出,整體性能達到國際領先水平。該方法無需異常樣本標注,即可實現對復雜場景中微小異常的精準檢測與定位,具有良好的實際應用前景。
該成果有望應用于醫學影像輔助診斷、工業缺陷檢測等領域。
西安光機所王荃研究員團隊長期深耕于計算機視覺與生物醫學成像、腦機智能等交叉方向研究,近年來在相關領域持續取得一系列重要進展,相關成果發表于CVPR 2025、Pattern Recognition等。
IEEE/CVF計算機視覺與模式識別會議是計算機視覺領域最具影響力的國際學術會議之一,被中國計算機學會(CCF)評為A類會議。
所有評論僅代表網友意見,與本站立場無關。