對于清理企業數據并將其集成以使其更有用的軟件工具來說,總是有一個豐富的市場。有了“數據就是新油”的口號,從甲骨文到塔倫德,大大小小的銷售商比以往任何時候都有更好的銷售渠道。
但如果什么都不需要清理呢?如果從某種意義上說,數據中最有價值的部分可以轉移到機器學習模型中,而不改變數據本身,那該怎么辦?
谷歌人工智能團隊周四與布朗大學(Brown University)和斯坦福大學(Stanford University)合作推出的一項新技術暗示了這一概念。
這段代碼的名字“DryBell”有點笨拙,它建立在現有的Snukel軟件之上,這是一個開源項目,是在斯坦福大學開發的。浮潛可以自動為數據分配標簽,這是一種對數據中的內容的分類,從內容存儲庫到進入數據中心的實時信號。
這項工作指出,有許多數據不能在防火墻之外使用,但仍然可以用來訓練深度學習。谷歌稱,這被稱為“不可服務”數據,“就像每月的匯總統計數據”或“昂貴的內部模型”。他們認為,所有這些都應該能夠被利用,使機器學習變得更好。
隱含地提出的問題是,是否有任何數據需要清理。相反,它可以簡單地成為建筑機器學習管道的一部分,而不需要修改。所需要的只是將基本的Snokel功能工業化,這樣它就可以處理更多樣化的數據源,并且規模更大,適合企業設置。
斯坦福大學計算機科學系博士生亞歷克斯·拉特納(Alex Ratner)和谷歌人工智能(Google AI)的卡珊德拉·夏(Cassandra Xia)的博客文章解釋了這項工作。還有一篇題為《德國之聲:在工業規模部署薄弱監管的案例研究》的論文,其中斯蒂芬·巴赫是主要作者,發表在ar Xiv預印服務器上。
浮潛方法很容易理解。在傳統的機器學習監督學習版本中,輸入機器學習系統的數據必須由主題專家標記。人工制作的標簽是機器如何學會對數據進行分類的。這對人類來說很費時。
而是讓一組主題專家編寫函數,自動為數據分配標簽。一個生成神經網絡,然后比較多個函數為同一數據生成的標簽,這種投票結果導致概率被分配到哪些標簽可能是真的。然后使用這些數據及其概率標簽來訓練邏輯回歸模型,而不是使用手工標記的數據。這種方法被稱為“弱監督”,與傳統的監督機器學習相反。
谷歌-斯坦福-布朗團隊對浮潛進行調整,以更大規模地處理數據。換句話說,斯諾克爾德雷爾就是斯諾克爾的工業化。
首先,他們改變了DryBell生成神經網絡中使用的優化函數,而不是Snukel使用的優化函數。結果是計算標簽的速度是他們所寫的斯諾克公司通常提供的速度的兩倍。
雖然浮潛打算在一個計算節點上運行,但團隊將DryBell與Map Reduce分布式計算方法集成在一起。這使得DryBell能夠以“松散耦合”的方式運行在許多計算機上。
有了這種工業化,團隊能夠向深度學習系統提供更弱的標記數據,他們寫的結果表明,薄弱的監督擊敗了傳統的監督學習,使用手工制作的標簽-直到某一點。
例如,在“主題分類”這一測試任務中,計算機必須在企業內容中“檢測到感興趣的主題”,它們“對”684000個未標記數據點“的邏輯回歸模型進行了弱監督”。
“我們發現,”他們寫道,“需要大約80,000個手工標記的例子來匹配弱監督分類器的預測精度。”
在這一切中,最關鍵的是不可服務的數據,凌亂的,嘈雜的東西,但在一個組織內是非常有價值的。當他們做了一項“消融”研究時,他們刪除了無法提供的訓練數據片段,結果并不理想。
包含不可服務數據的結果是一種“轉移學習”。轉移學習是一種常見的機器學習方法,機器是在一堆數據上進行訓練的,然后能夠將其識別推廣到來自不同來源的類似數據。
正如作者所寫,“這種方法可以看作是一種新型的轉移學習,我們不是在不同的數據集之間轉移模型,而是在不同的特征集之間轉移域知識。”
以這種方式傳輸的好處是獲取困在企業中的數據,并賦予它新的效用。他們寫道,這是“監管不力的主要實際優勢之一,就像在斯諾克爾·德雷貝爾(Snukel DryBell)實施的監管方式一樣。”
然后,想象一下新的企業數據管理任務:在C中編寫一些標記函數,基于領域專家的最佳猜測,并利用這些標記函數的輸出來訓練神經網絡,然后繼續前進。不再花費億元清理或規范數據,也不再購買為此所需的專門工具。
他們寫道:“我們發現,標簽功能抽象是用戶友好的,也就是說,組織中的開發人員可以編寫新的標簽功能來獲取領域知識。
此外,將標簽加以統計的生成模型成為企業數據質量的一種仲裁者,在這個過程中,他們稱之為“關鍵”。
“確定每個源的質量或效用,并相應地調整它們的組合,本身就是一項艱巨的工程任務,”他們觀察到。
”使用斯諾克爾·德萊貝爾,這些薄弱的監督信號可以簡單地集成為標簽功能,由此產生的估計準確性被發現對識別以前未知的低質量來源(后來被確認為此類來源,或者被固定或移除)具有獨立的有用性。
從目前的工作中唯一缺少的是證據,它可以與深度學習神經網絡模型一起工作。弱監督一個簡單的Logistic回歸模型是一回事..對于這樣一個系統來說,訓練非常深的卷積或遞歸網絡將是一個有趣的下一個挑戰。(請注意,斯坦福大學的拉特納在一條推文中指出,在這篇文章之后,斯諾克爾本身確實與深層神經網絡一起工作。進一步的實證研究將顯示,斯諾克爾德雷貝爾推廣到深層網絡的效果如何。
你認為斯諾克爾和斯諾克爾·德里貝爾能在企業數據管理中找到一席之地嗎?讓我知道你在評論部分的想法。