7月30日,在全球線上舉行的人工智能頂會SIGIR 2020上,阿里巴巴研究團隊表現突出,共有29項研究成果入選。據悉,阿里在多個成果中展現了AI在理解文本信息任務上的突破。
SIGIR是信息檢索研究領域最權威的學術會議,其覆蓋了文本分析、計算、機器學習和推薦系統等領域,微軟、谷歌、Facebook等頂級科技公司都曾在該會議上集中發布研究成果。據悉,SIGIR 2020共收到 1180 篇論文,但最終僅有340篇入選。
相比大家熟知的語音識別、圖像識別,理解復雜的文本信息是更難的人工智能任務。此次,阿里巴巴研究團隊在SIGIR 2020上率先提出多種創新思路,可大幅提升機器理解文本信息的效率。
在其中一篇論文中,阿里提出了一種能夠理解文本言外之意的方法,通過推敲給定隱晦文本的全局語義、局部語義,以及可能存在的噪音,有效提高了模型識別隱晦文本是否包含色情、暴力等內容的精確率。
達摩院機器智能實驗室主任金榕表示,“信息檢索和自然語言處理技術是人工智能的基礎技術,實現突破不僅需要全新的模型,還需要結合實際應用提出更創新的訓練和推理方法,阿里巴巴經濟體豐富的場景為自然語言處理等技術的研究提供了絕佳條件。
過去兩年,阿里在信息檢索CIKM Cup、機器翻譯WMT、閱讀理解MS MARCO等自然語言處理領域頂級賽事獲得了多項世界冠軍;不僅如此,阿里還率先在情緒識別等前沿領域布局,可以讓機器讀懂人類情緒。目前,阿里自然語言技術已在金融、新零售、通訊、互聯網、醫療、電力等領域服務超十億用戶。