035棋牌

2019-05-06 | 作者:微軟亞洲研究院

近日,由微軟亞洲研究院自然語言處理组与微软雷德蒙语音对话组研究员组成的团队,在斯坦福大学发起的对话式问答挑战赛CoQA(Conversational Question Answering Challenge)中荣登榜首,成为目前排行榜上唯一一个模型分数超过人类分数的团队。

CoQA是由關于不同領域文章的一組組對話式問答構成的大型數據集,要求機器對文本進行閱讀理解,然後對一系列相互關聯的問題作出回答。此前,微軟亞洲研究院自然语言计算组开发的系统在斯坦福大学发起的SQuAD(Stanford Question Answering Dataset)文本理解挑战赛中,取得了单轮问答媲美人类成绩的突破。与SQuAD相比, CoQA具有多轮问答的“对话”属性,而且机器的回答形式也更加自由,以确保对话的自然流畅。

由于人類在對話中的句子通常比較簡短,爲了更好地模仿這一表達特征,CoQA數據集中的問題也都非常簡短。同時,在對話式問答中,首個問題後的每個問題都是基于前序對話展開的。CoQA的這些特性爲機器的分析理解帶來了更大的困難。比如,當你詢問“微軟的創始人是誰?”,並接著追問“他何時出生?”時,系統必須意識到你在就同一個話題進行討論。

CoQA數據集中的一組對話,CoQA論文參見https://arxiv.org/abs/1808.07042

爲了測試模型的泛化能力,CoQA數據集是從兒童故事、文學、初高中英語考試、新聞、維基百科、Reddit和科學等七個完全不同的領域進行收集的。其中,前五個領域的數據集用于訓練、開發和測試,而後兩個領域的數據集僅作爲測試使用。CoQA數據集使用F1值來衡量預測值和真實值之間的平均單詞重合率,以評估模型的性能。其中,領域內(in-domain)F1值表示測試集數據與訓練集數據來自相同的領域,領域外(out-of-domain)F1值表示測試集數據與訓練集數據來自不同的領域,而綜合(overall)F1值代表了整個測試集的最終得分。

爲了破解這些挑戰,微軟研究人員采取了一種特殊的策略,利用機器閱讀系統從幾個相關任務中學習到的信息來改進它在目標機器閱讀理解任務中的表現。在這種多階段、多任務的精調方法中,研究人員首先在多任務場景下,讓機器閱讀系統從與目標任務相關的任務中學習背景信息,然後在目標任務上對模型進行精調。除此之外,語言建模在兩個階段中都起到了輔助作用,有效幫助對話式問答模型減少過擬合。該系統在CoQA挑戰賽中的傑出表現證明了這一方法的有效性。

多階段、多任務精調模型示意圖

目前,微软团队在2019年3月29日提交的整合系统在领域内、领域外、综合F1值上的得分分别为89.9 / 88.0 / 89.4,均超越人类在同一组会话问答中的平均表现89.4 / 87.4 / 88.8,在CoQA挑战赛排行榜中位列第一。

這項突破標志著以Bing爲代表的搜索引擎和以Cortana爲代表的智能助手,將以類似于人類溝通一樣自然的方式與人類進行互動和提供信息,成爲人們工作生活的得力助手。盡管今天的技術正在飛速叠代和進步,廣義的機器閱讀理解和問答仍然是自然語言處理中懸而未決的難題。爲了對這一問題進行更加深入的探索,微軟研究團隊正致力于開發更加強大的預訓練模型,不斷拓展機器閱讀理解和自然語言生成的邊界。

?