微軟已經悄悄地將其面部識別數據庫從1000萬人的面孔中脫離出1000萬張圖像。MS Celeb于2016年出版,其中包含從互聯網上收集的用于訓練識別算法的面部圖像。這些圖像是從搜索引擎中收集的,并且基于它們使用Creative Commons許可證上傳。
“知識庫提供的豐富信息有助于消除歧義并提高識別準確度,并有助于各種實際應用,如圖像字幕和新聞視頻分析,”當時微軟表示。
根據隨附的研究報告,該數據庫原本應該只包括名人的圖像,但根據研究員Adam Harvey的Megapixels項目,“名人”一詞被廣泛使用。
“目標列表中的許多人甚至對微軟正在使用他們的名稱和生物識別信息構建的技術進行批評。”“雖然這個數據集中的大多數人都是美國和英國演員,但”名人“一詞的剝削性使用遠遠超出好萊塢,”哈維說。“MS Celeb人臉識別數據集中的許多名字只是那些必須為其職業生涯保持在線存在的人:記者,藝術家,音樂家,活動家,政策制定者,作家和學者。
除了開發面部識別算法外,該數據庫還有其他應用程序。據“金融時報”報道,軍事研究人員利用大型數據集,中國人工智能和面部識別公司SenseTime和Megvii也是如此。
據報道,該數據庫還與中國的創業公司建立了聯系,這些創業公司建立人工智能算法來描繪和追蹤主要由穆斯林組成的少數民族。
自成立以來,中國普遍存在的監控攝像機網絡受到嚴密審查,其社會信用體系也受到了嚴格審查,但發現維吾爾人的剖析和跟蹤是該國的第一次。
雖然它已經脫機,但網絡上仍然存在數據庫的痕跡,并且可以在GitHub上免費下載,還有許多其他數據庫,其中包含數百萬張圖像。
面部識別行業引起爭議,該技術經常被證明是不準確的 - 在某些情況下顯示出種族和性別偏見。其他值得注意的案例包括NYPD對該技術的笨拙使用,使用名人相似的方式在其數據庫中搜索真正的罪犯。
最近幾個月,使用公開的圖像來填充數據庫也引起了轟動。值得注意的是,IBM使用的數據庫包含從圖像托管站點Flickr收集的一百萬張面孔,這引起了隱私問題。