科大訊飛拿下SemEval三項(xiàng)冠軍，多語種語言理解再上新臺階

本文章由注冊用戶沉靜時光上傳提供 ☆ 評論發(fā)布糾錯/刪除版權(quán)聲明 0

摘要：第十六屆國際語義評測大賽落下帷幕，科大訊飛在三項(xiàng)主要賽道中拿下冠軍，標(biāo)志著科大訊飛在多語種語言理解領(lǐng)域持續(xù)進(jìn)階。未來，科大訊飛將不斷開展人工智能源頭技術(shù)創(chuàng)新，助力中國人工智能在全球贏得話語權(quán)，實(shí)現(xiàn)更多人工智能創(chuàng)新應(yīng)用真正解決社會剛需，蓬勃向上，生生不息。

2022年4月，第十六屆國際語義評測（The 16th International Workshop on Semantic Evaluation， SemEval 2022）大賽落下帷幕，科大訊飛在三項(xiàng)主要賽道中拿下冠軍，標(biāo)志著科大訊飛在多語種語言理解領(lǐng)域持續(xù)進(jìn)階。

SemEval 2022評測由國際計算語言學(xué)協(xié)會（Association for Computational Linguistics， ACL）旗下SIGLEX主辦，參賽者覆蓋國內(nèi)、外一流高校及知名企業(yè)，包括達(dá)特茅斯學(xué)院、謝菲爾德大學(xué)、華為、阿里達(dá)摩院等，代表著最前沿國際技術(shù)和水平。

經(jīng)過角逐，科大訊飛分別在“多語種新聞相似度評測任務(wù)”（Task 8）、“多語種慣用語識別任務(wù)” 子賽道（Task 2： Subtask A one-shot）、“多語種復(fù)雜命名實(shí)體識別任務(wù)”（Task 11）三個子賽道中拿下冠軍。

新聞相似度評價：目光如炬

本次SemEval 2022評測聚焦的Task 8是多語種新聞相似度評價任務(wù)?？拼笥嶏w與哈爾濱工業(yè)大學(xué)聯(lián)合組建的“哈工大訊飛聯(lián)合實(shí)驗(yàn)室”（Joint Laboratory of HIT and iFLYTEK Research，簡稱HFL）以顯著優(yōu)勢摘得冠軍。

簡單來說，參賽隊(duì)伍需要在每組新聞中判斷是否描述了同一個事件，并以1-4分為兩篇新聞的相似度打分，其中包含了多達(dá)10種語言，分別為阿拉伯語、德語、英語、西班牙語、法語、意大利語、波蘭語、俄語、土耳其語和中文。但新聞相似度究竟是什么？讓我們用一則示例為大家解讀。

圖中列舉了兩篇相似度極高的新聞稿件，參賽隊(duì)伍必須將文中相似的主要元素剝離出來并逐一分析，比如地理信息、敘事技巧、實(shí)體、語氣、時間及風(fēng)格，最終得出兩篇文章的相似度與差異化。

與普通的文章相比，該項(xiàng)比賽更強(qiáng)調(diào)跨語言理解能力，除了寫作風(fēng)格和敘述方式外，還需要把握文章中描述的具體事件。通俗來說，該項(xiàng)技術(shù)可以甄別外網(wǎng)的一些新聞報道是否存在偏差與曲解，從而有效預(yù)防虛假信息、不良信息的傳播。

科大訊飛在這樣的賽道上拔得頭籌，充分展示了在跨語言理解能力上的強(qiáng)硬實(shí)力。

慣用語檢測：熟能生巧

哈工大訊飛聯(lián)合實(shí)驗(yàn)室拿下的第二項(xiàng)任務(wù)冠軍，便是Task2 Subtask A的慣用語檢測。通俗來說，無論你是哪國人，在日常表達(dá)中都有一類短語的固定用法，并且該固定用法通常與短語的字面語義不同，我們會將這些短語稱為“慣用語”。想要理解包含慣用語的句子，首先需要判斷句子中的多字短語是否為慣用語，比如“說曹操，曹操到?！本渲械牟懿偈欠裾鎸?shí)存在。

該任務(wù)的形式便是給定一個目標(biāo)語句，包括其上下文和多字短語，繼而判斷該語句中的多字短語用法究竟是慣用語還是字面意思。該任務(wù)為多語言任務(wù)，包含英語、葡萄牙語、加利西亞語三種語言。其中加利西亞語沒有在訓(xùn)練集中出現(xiàn)過，因此科大訊飛代表隊(duì)需要在不同語言之間進(jìn)行遷移學(xué)習(xí)。

還是不懂？別擔(dān)心，讓我們來看一則示例。

如例所示，Literal表示字面意思，第一句話可翻譯為：當(dāng)你從網(wǎng)中抓一條大魚時，最好撐住它的腰。Idiomatic表示慣用語，所以第二句話中再次出現(xiàn)了大魚一詞，但卻不是簡單的字面意思，而是“大人物”。

所以該任務(wù)要求參賽隊(duì)伍區(qū)分不同句子中同一個詞的不同語義，這需要強(qiáng)大的分析及跨語言理解能力。有了該項(xiàng)技術(shù)，在日常寫作和翻譯工作中，即可有效鑒別慣用語的表達(dá)用意，極大提高內(nèi)容準(zhǔn)確率。

科大訊飛不負(fù)眾望，再摘桂冠。

復(fù)雜命名實(shí)體識別：披荊斬棘

這第三冠有多難？光聽名字就覺得復(fù)雜：多語種復(fù)雜命名實(shí)體識別任務(wù)（MutiCoNER）?？拼笥嶏w聯(lián)合中國科學(xué)技術(shù)大學(xué)語音及語言信息處理國家工程研究中心迎難而上，在該項(xiàng)任務(wù)中一舉拿下三個子賽道冠軍。

我們先拆解一下MuticoNER這個詞，Muti是multilingual（多語言）的簡稱，Co即是complex（復(fù)雜），而NER則是Named Entity Recognition，又稱作“命名實(shí)體識別”，是指識別文本中具有特定意義的實(shí)體，主要包括人名、地名、機(jī)構(gòu)名、專有名詞等。

該任務(wù)是一個多語言賽道數(shù)據(jù)集，包含11項(xiàng)單獨(dú)語言命名實(shí)體評測任務(wù)，以及2項(xiàng)多語言統(tǒng)一建模的評測任務(wù)。該榜單數(shù)據(jù)來源于Wikidata（維基數(shù)據(jù)），數(shù)據(jù)量龐大且極具應(yīng)用價值。參賽團(tuán)隊(duì)需要在單個語言以及多個語言混合的文本數(shù)據(jù)中，精準(zhǔn)預(yù)測不同語言實(shí)體的類別標(biāo)簽。該任務(wù)采用國際通用的槽位F1評價指標(biāo)，我們在多語言混合、中文、孟加拉語賽道上，分別以92.9%、81.6%、84.2%的F1成績登頂。

這項(xiàng)任務(wù)究竟有多難？舉個例子：NER是指從用戶文本中按照業(yè)務(wù)需求識別出實(shí)體的類別，之前任務(wù)基本上一句話中僅會出現(xiàn)一到兩個實(shí)體，本次任務(wù)需要抽出多實(shí)體增加實(shí)體抽取難度，同時需要具備多語種能力，例如【（皇馬）[organization]除了首輪負(fù)于[克星拉科]（organization）以外，現(xiàn)在已是四連勝。（Rafael van der Vaart）[PER]、（Gonzalo Higuaín）[PER]和(Arjen Robben）[PER]的表現(xiàn)出色?！考纫R別出多個相關(guān)實(shí)體，同時是各語種夾雜的文本。

此前針對中文和英文需要單獨(dú)進(jìn)行模型建模，此次有關(guān)賽道的挑戰(zhàn)是僅使用一個模型來可以完成不同語種任務(wù)，能夠快速識別復(fù)雜、專有詞匯，提高準(zhǔn)確率。

拒絕紙上談兵，技術(shù)應(yīng)用要落地

當(dāng)前，人類已進(jìn)入“人、機(jī)、物”智能互聯(lián)時代，智能語音是這個時代最為關(guān)鍵的入口之一，有助于實(shí)現(xiàn)語言大互通，建設(shè)人類命運(yùn)共同體?？拼笥嶏w始終保持初心、堅持源頭核心技術(shù)創(chuàng)新，在語音、語義等國際賽事中為國爭光。

在2021年11月舉辦的國際低資源多種語音識別競賽OpenASR中，科大訊飛參加了所有15個語種受限賽道和7個語種非受限賽道，并全部取得了第一名，而在SemEval2022多語種NLP領(lǐng)域中取得佳績也標(biāo)志著科大訊飛在多語言理解與跨語言遷移能力再上新臺階，從多語種語音到多語種語言都有著頂尖技術(shù)實(shí)力。

而在2022年的北京冬奧會和冬殘奧會上，科大訊飛作為“官方自動語音轉(zhuǎn)換與翻譯獨(dú)家供應(yīng)商”，為所有觀眾展現(xiàn)了一場“無障礙溝通”的體育盛會。

基于強(qiáng)大的多語種語音語言技術(shù)，我們可以做到語種足夠全、翻譯足夠準(zhǔn)、反應(yīng)足夠快，支持包括冬奧體育在內(nèi)的16大行業(yè)領(lǐng)域翻譯，在冬奧應(yīng)用場景下，中文與英/俄/法/西/日等重點(diǎn)語種的翻譯準(zhǔn)確率超過90%，平均每句語音翻譯響應(yīng)時間不超過1.5秒，一方面幫助各國觀眾、游客快速掌握賽事信息，另一方面我們特別希望幫助聽障人士運(yùn)用科技的手段聽得見奧運(yùn)文字，看得見奧運(yùn)聲音。

值得一提的是，科大訊飛AI虛擬人“愛加（i ）”也成為了冬奧會的一名“虛擬志愿者”。在北京冬奧小屋中，愛加可以用多種語言與各國運(yùn)動員進(jìn)行面對面的交流，助力冬奧的無障礙溝通?？拼笥嶏w運(yùn)用語音識別、語音合成、口唇驅(qū)動、面部驅(qū)動、肢體動作驅(qū)動等多項(xiàng)核心技術(shù)，打造出虛擬形象自動化內(nèi)容生產(chǎn)方案，讓虛擬人不僅會說普通話，同時支持31種語言及方言，是不折不扣的“語言通”，不僅能進(jìn)行面對面的冬奧賽事、賽程實(shí)時互動交流，還能陪你玩一把冬奧知識游戲大PK，周邊交通、文化、旅游等咨詢問答也不在話下。

除此之外，在教育、醫(yī)療、司法等場景中的各類行業(yè)人工智能應(yīng)用中，多語種語音交互系統(tǒng)都將發(fā)揮重要作用。經(jīng)過多年的技術(shù)積累，除了中英以外，當(dāng)前科大訊飛已經(jīng)具備其他69種語言的語音識別能力，其中已經(jīng)有35個語種準(zhǔn)確率已經(jīng)超過90%，并已在新加坡、俄羅斯、印度、日本等國家部署了海外站點(diǎn)，將持續(xù)為海內(nèi)外開發(fā)者提供語音識別、語音合成、機(jī)器翻譯、圖文識別等語音語言服務(wù)。

如何更好地研發(fā)包括中文在內(nèi)的多語種語音及語言技術(shù)的AI能力并實(shí)現(xiàn)大規(guī)模應(yīng)用落地，如何更好地用人工智能技術(shù)服務(wù)社會、建設(shè)美好世界，是我們不斷奮斗努力的方向。

未來，科大訊飛將不斷開展人工智能源頭技術(shù)創(chuàng)新，助力中國人工智能在全球贏得話語權(quán)，實(shí)現(xiàn)更多人工智能創(chuàng)新應(yīng)用真正解決社會剛需，蓬勃向上，生生不息。

標(biāo)簽： AI人工智能世界語言世界科技智能科技/數(shù)碼世界國家

網(wǎng)站提醒和聲明

本站為注冊用戶提供信息存儲空間服務(wù)，非“MAIGOO編輯”、“MAIGOO榜單研究員”、“MAIGOO文章編輯員”上傳提供的文章/文字均是注冊用戶自主發(fā)布上傳，不代表本站觀點(diǎn)，版權(quán)歸原作者所有，如有侵權(quán)、虛假信息、錯誤信息或任何問題，請及時聯(lián)系我們，我們將在第一時間刪除或更正。申請刪除>> 糾錯>> 投訴侵權(quán)>> 網(wǎng)頁上相關(guān)信息的知識產(chǎn)權(quán)歸網(wǎng)站方所有(包括但不限于文字、圖片、圖表、著作權(quán)、商標(biāo)權(quán)、為用戶提供的商業(yè)信息等)，非經(jīng)許可不得抄襲或使用。

提交說明：快速提交發(fā)布>> 提交資訊幫助>> 注冊登錄>>

贊

踩

最新評論

相關(guān)推薦

【民用無人機(jī)】新一代"飛行革命" 玩無人機(jī)航拍也要考駕駛證!

無人機(jī)是一種由無線電遙控設(shè)備或自身程序控制裝置操縱的無人駕駛飛行器，無人機(jī)最早開發(fā)是在一戰(zhàn)后，而二戰(zhàn)后則有了較普遍的軍事應(yīng)用。無人機(jī)最初扮演的是偵察角色，隨著技術(shù)進(jìn)步，無人機(jī)在軍事上有了更多的應(yīng)用，如今，無人機(jī)在民用領(lǐng)域的作用也越來越多，有著廣闊的發(fā)展前景，不僅能上天還能下海！究竟無人機(jī)都能做些什么？無人機(jī)航拍怎么玩？無人機(jī)也要考駕照嗎？無人機(jī)哪家好？下面，就來了解下無人機(jī)的相關(guān)知識。

無人機(jī) 智能機(jī)器人

5368 125

人臉識別安全嗎？人臉識別不通過怎么辦？刷臉認(rèn)證常見問題大盤點(diǎn)

“看臉”的時代真的到來了！隨著人臉識別技術(shù)的不斷發(fā)展，“刷臉”可以應(yīng)用的場景越來越多。從刷臉付錢到刷臉取錢，從刷臉解鎖門禁到刷臉打卡簽到......“刷臉”開始逐步滲入到人們的生活細(xì)節(jié)中。下面就跟大家盤點(diǎn)那些刷臉認(rèn)證的常見問題。

AI人工智能人臉識別

5544 33

人工智能電影有哪些盤點(diǎn)值得一看的人工智能電影

人工智能是計算機(jī)科學(xué)的一個分支，它企圖了解智能的實(shí)質(zhì)，并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器，該領(lǐng)域的研究包括機(jī)器人、語言識別、圖像識別、自然語言處理和專家系統(tǒng)等。人工智能從誕生以來，理論和技術(shù)日益成熟，應(yīng)用領(lǐng)域也不斷擴(kuò)大，可以設(shè)想，未來人工智能帶來的科技產(chǎn)品，將會是人類智慧的“容器”。那么關(guān)于人工智能的電影都有哪些呢？下面就一起來看看吧。

AI人工智能智能機(jī)器人

5105 63

虹膜識別安全嗎識別不出來怎么辦虹膜識別常見問題匯總

隨著社會科技的發(fā)展進(jìn)步，各種各樣的安全防護(hù)方法也層出不窮，膜識別技術(shù)已經(jīng)應(yīng)用在手機(jī)、門禁等電子產(chǎn)品上，那么虹膜識別是否真的安全，虹膜識別在使用中都存在哪些問題呢？下面大家來看看吧。

AI人工智能手機(jī)

2039 22

什么是虹膜識別技術(shù) 虹膜識別的原理及優(yōu)缺點(diǎn)

虹膜識別是什么?如果在前幾年別人問起，或許你對這個新生概念還不太了解，但隨著近年來移動互聯(lián)網(wǎng)的高速發(fā)展，科技日新月異，虹膜識別技術(shù)已經(jīng)在各行各業(yè)安全領(lǐng)域得到廣泛應(yīng)用，下面就來介紹一下虹膜識別技術(shù)的原理和優(yōu)缺點(diǎn)。

AI人工智能生物科技

1.3w+ 41

加載更多

聚焦品牌

聚焦名企

聚焦版權(quán)