論文成果是阿里云與浙江大學、華南理工大學聯合培養項目等共同研發,深耕以通用人工智能(AGI)為目標的一系列基礎科學與工程問題,包括多模態理解模型、小樣本類增量學習、深度表格學習和文檔版面分析任務等等。此次入選意味著阿里云人工智能平臺PAI自研的深度學習算法達到了全球業界先進水平,獲得了國際學者的認可,展現了阿里云人工智能技術創新在國際上的競爭力。
解鎖深度表格學習(Deep Tabular Learning)的關鍵:算術特征交互
本文聚焦于研究深度模型在表格數據上的有效歸納偏置(inductive bias)。結構化表格數據廣泛存在于各行業數據庫和金融、營銷、推薦系統等場景。這類數據包含數值和類別特征,常有缺失值、噪聲及類別不均衡等問題,且缺乏時序性、局部性等對模型有益的先驗信息,帶來顯著分析挑戰。樹集成方法(如XGBoost、LightGBM、CatBoost)憑借對數據質量問題的魯棒性,在工業界的實際建模中占主導地位,但其性能很大程度上仍依賴于精心設計的特征工程處理。
學者們積極嘗試將深度學習應用于端到端的表格數據分析,旨在減少對特征工程的依賴。現有相關工作包括:(1)結合傳統建模方法并疊加深度學習模塊(如多層感知機MLP)的方法,如Wide&Deep、DeepFMs;(2)采用深度學習對形狀函數進行建模的廣義加性模型變體,如NAM、NBM、SIAN;(3)受樹結構啟發的深度模型,如NODE、Net-DNF;(4)基于Transformer架構的模型,如AutoInt、DCAP、FT-Transformer。盡管上述努力不斷推進,深度學習在表格數據上相較于樹模型并未展現出持續且顯著的優勢,其有效性問題懸而未決。
我們提出,算術特征交互對于深度表格學習至關重要的理論。當前深度表格學習方法效果欠佳的核心癥結在于未能發掘出有效的內在模型偏置。我們創新性地將算術特征交互理念融入Transformer架構內,通過引入并行注意力機制和提示標記的設計創建AMFormer架構。合成數據的結果展示了該模型在在精細表格數據建模、訓練數據效率以及泛化方面的卓越能力。此外,進一步在真實世界數據集上開展的大規模實驗,也驗證了AMFormer的一致有效性和優越性。因此,我們相信,AMFormer為深度表格學習設定了強有力的歸納偏置,有望推動該領域的深入發展。
MuLTI:高效視頻與語言理解
多模態理解模型在多標簽分類、視頻問答和文本視頻檢索等領域應用廣泛,但多模態理解面臨兩大挑戰:無法有效地利用多模態特征與GPU內存消耗大。模型通常由文本編碼器、視頻編碼器及特征融合模塊構成,其中后兩者計算成本較高。以往方法如VIOLET和Clover直接連接兩編碼器輸出并通過Transformer融合,導致顯存消耗隨輸入增長急劇上升。為降低計算負擔,ALPRO、FrozenBiLM、CLIPBert等研究嘗試通過壓縮視頻特征,但這可能丟失關鍵信息。
我們提出了MuLTI模型,旨在實現高效準確的視頻與語言理解,用于解決特征融合的難題。MuLTI采用自適應池殘差映射和自注意機制設計了文本指導的多路采樣器(Text-Guided MultiWay-Sampler),對文本的長序列進行采樣并融合多模態特征,有效降低了計算成本且避免了壓縮視頻導致的性能下降。此外,為了進一步降低預訓練任務和下游任務之間的差距,我們創新性地構建文本視頻問答對引入了多選建模(Multiple Choice Modeling,MCM)預訓練任務,以提升模型在視頻問答中對齊視頻與文本特征的能力。
最終,憑借高效的特征融合模塊和新的預訓練任務,MuLTI在多個數據集上取得了最先進的性能表現。
M2SD:多重混合自蒸餾用于小樣本類增量學習
小樣本類增量學習(Few-shot Class Incremental Learning, FSCIL)是機器學習領域中一項極具挑戰的任務,目標在于僅利用有限數據學習新類別,同時保留對已學類別的記憶,無需重新訓練模型。針對此難題,本文提出了一種創新策略,稱為多重混合自蒸餾(Multiple Mixing Self-Distillation, M2SD)。該策略設計了雙分支結構以有效擴展特征空間接納新類別,并引入特征增強機制通過自蒸餾過程優化基礎網絡,從而在學習新類別時顯著提升分類性能,最終僅保留主干網絡進行高效識別。
FSCIL任務的關鍵挑戰在于如何平衡小樣本學習的過擬合和類增量學習的災難性遺忘。為解決這一問題,我們提出一種創新的方法——多重混合自蒸餾(M2SD),旨在構建一個能適應新類別的高可擴展性特征空間。通過多尺度特征提取與融合技術,M2SD全面捕獲數據實例的多維度信息,增強了模型的包容性。此外,我們創新性地采用雙分支“虛擬類”機制,進一步提高特征模塊的擴展能力,使得模型能夠預適應未來新增類別并為其預留特征空間,從而強化模型對新類別的適應性和類增量學習的穩健性與靈活性。
方法框架分為兩個主要部分:base session和Incremental sessions。base session分為兩個階段。一個是通用模型預訓練階段(General model pre-trainining),另一個是M2SD階段,由兩個自蒸餾模塊組成。Incremental sessions只有一個階段,即分類器更新(Classifter updating)。
M2Doc:文檔版面分析的可插拔多模態融合方法
文檔版面分析是文檔智能研究的核心課題,但現有眾多方法主要依賴通用目標檢測技術,其在處理過程中僅側重于視覺特征表達,而對文本特征的內在價值關注不足。近年來,盡管多模態的預訓練文檔智能模型在多種下游任務中展現出卓越性能,但在處理文檔版面分析這一特定的下游任務時,只局限于將多模態預訓練好的主干網絡遷移至純視覺目標檢測器進行微調,從本質上來說依然是個單模態的解決范式。
為此,本文創新性地提出了一種可插拔的多模態融合方案——M2Doc,旨在賦能純視覺目標檢測器以捕獲并融合多模態信息的能力。M2Doc框架內嵌了兩個關鍵融合模塊:Early-Fusion與Late-Fusion。前者采用類似門控機制的設計,巧妙融合主干網絡提取出的視覺和文本兩種模態特征;后者則運用直接加和運算策略,有效融合了框級的文本及視覺特征。
得益于M2Doc簡潔高效且具有普適性的模型結構設計,它能夠便捷地適應多種目標檢測器架構。實驗結果證實,在DocLayNet與M6Doc等版面分析基準數據集上,融入M2Doc的目標檢測器實現了顯著性能提升。并且,當DINO目標檢測器與M2Doc相結合時,在多個數據集上均達到了當前最優(SOTA)水平。
阿里云人工智能平臺 PAI 多篇論文入選 AAAI 2024
● 論文標題:
Arithmetic Feature Interaction is Necessary for Deep Tabular Learning
● 論文作者:
程奕、胡仁君、應豪超、施興、吳健、林偉
● 論文PDF鏈接:
https://arxiv.org/abs/2402.02334
● 代碼鏈接:
https://github.com/aigc-apps/AMFormer
● 論文標題:
MuLTI: Efficient Video-and-Language Understanding
● 論文作者:
劉波、陳云闊、程孟力、徐家琪、施興
● 論文PDF鏈接:
https://arxiv.org/abs/2303.05707
● 論文標題:
M2SD: Multiple Mixing Self-Distillation for Few-Shot Class-Incremental Learning
● 論文作者:
林今豪、吳梓恒、林煒豐、黃俊、羅榮華
● 論文標題:
M2Doc: A Multi-modal Fusion Approach for document Layout Analysis
● 論文作者:
張寧、鄭曉怡、陳佳禹、江宗源、黃俊、薛洋、金連文