-
電話溝通
-
在線客服
-
申請試用


第七屆國際自然語言處理與中文計算大會(NLPCC 2018)“單文本摘要”技術(shù)評測結(jié)果公布,慧科AI實驗室(Wisers AI Lab)以其專有的自動摘要技術(shù)從來自世界各地學(xué)術(shù)界與業(yè)界共18支隊伍中脫穎而出,成功獲得第一名。
隨著近些年信息的爆發(fā)式增長,人們每天能接觸到海量的文本信息,如新聞、博客、聊天、報告、論文、微博等。從大量文本信息中提取重要的內(nèi)容,已成為我們的一個迫切需求,而自動文本摘要則提供了一個高效的解決方案。單文本自動摘要技術(shù)通過使用計算機軟件及其底層分析算法自動從原始文本中創(chuàng)建一個簡明、全面且反映該文章核心思想的摘要,從而輔助人們實現(xiàn)大量信息的快速閱讀與檢索。甚至更進一步,可以通過在單文本自動分析的基礎(chǔ)上分析多文本,實現(xiàn)對同一事件不同報道的多維度、多角度自動文摘。
慧科(Wisers)奪冠的自動文本摘要技術(shù)使用人工智能(AI)與自然語言處理(NLP)技術(shù),支持中英文跨語言自動文章摘要,采用無監(jiān)督式摘要生成技術(shù),不依賴于訓(xùn)練數(shù)據(jù),可勝任各類文本的自動摘要。
該技術(shù)包含兩個重要模塊。第一個內(nèi)容分析模塊自動分析文本的話題大意,利用統(tǒng)計學(xué)和語言學(xué)特征,識別出文本中最精確且全面地涵蓋文本討論主題的重要語句。
第二個摘要編輯模塊,通過精心設(shè)計,不僅解決了提取式摘要技術(shù)通常因簡單提取句子并拼接所造成的上下文不連貫問題,同時也克服了生成式摘要技術(shù)產(chǎn)出句子可讀性差的問題。
慧科奪冠技術(shù)的秘訣在于:
·通過內(nèi)容分析與識別檢測并糾正摘要中不清晰的指代表述(例如代詞等)和不完整語段(例如編號不完整的列舉項等);
·通過文本去噪和句子壓縮確保最終生成摘要的簡潔度、流利性與可讀性;
·集成了基于深度學(xué)習(xí)和語義嵌入模型的垃圾廣告過濾與話題分割技術(shù),以保證最終摘要的信息多樣性和清潔度。
慧科AI實驗室自動文本摘要技術(shù)自2018年1月起已在慧科產(chǎn)品后臺廣泛應(yīng)用,支持日常數(shù)據(jù)管理與運營。
除獲得自動文本摘要評測第一名之外,慧科AI實驗室的自動話題分類技術(shù)也在第七屆國際自然語言處理與中文計算大會(NLPCC 2018)“知乎問題自動標注”技術(shù)評測的16支參賽隊伍中名列前四。該評測任務(wù)旨在對任意未先指定的知乎問題從超過2萬5千多個可選標簽集中自動判斷話題分類?;劭频淖詣釉掝}分類技術(shù)采用了基于語義向量模型與深度學(xué)習(xí)相結(jié)合的集成學(xué)習(xí)技術(shù);并且透過高效定制化工具,可快速支持話題擴展。
國際自然語言處理與中文計算大會(NLPCC)是由中國計算機學(xué)會中文信息技術(shù)專業(yè)委員會(CCF TCCI)組織的專注于自然語言處理和中文計算技術(shù)領(lǐng)域的一流國際會議。參加者包括來自世界各地自然語言處理和中文計算領(lǐng)域的專家和學(xué)者。今年第七屆年會NLPCC 2018將于2018年8月26日至30日在中國呼和浩特舉行。
NLPCC評測單元涵蓋自然語言處理和中文計算領(lǐng)域中各種經(jīng)典和新興的重要課題,受到學(xué)術(shù)界和業(yè)界的廣泛歡迎和參與。本屆評測任務(wù)于2018年1月份公布并開始接受報名,3月份正式啟動,4月底提交結(jié)果,5月份結(jié)束。每個評測任務(wù)統(tǒng)一給參賽隊提供一份供算法開發(fā)的訓(xùn)練數(shù)據(jù)集,之后由評測任務(wù)組織者根據(jù)嚴格設(shè)計的測試數(shù)據(jù)集和性能指標對每個參賽隊提交的解決方案進行評估并排名。
慧科AI實驗室(Wisers AI Lab)2014年7月成立于香港,專注于以人工智能技術(shù)解決中文全媒體資訊自動化分析與大數(shù)據(jù)情報挖掘,于2016年4月成功獲取香港特別行政區(qū)政府逾八百五十萬港幣創(chuàng)新科技基金。團隊由畢業(yè)于國際知名院校的AI及計算語言學(xué)專家組成。所有成員均擁有碩士以上學(xué)位,其中35% 的成員擁有博士學(xué)位。
慧科AI實驗室自主研發(fā)的,面向?qū)嶋H應(yīng)用、開放領(lǐng)域、多元化數(shù)據(jù)的AI分析技術(shù)全面涵蓋自動化媒體情報處理與挖掘的各個層面,既包括基于文本分析的實體識別,關(guān)系提取,話題分類,情感分析和事件檢測追蹤等技術(shù),也包括基于圖像分析的品牌標識和人臉識別技術(shù)。以上技術(shù)均可以在慧科AI實驗室官網(wǎng)(www.wisers.ai)提供的實時技術(shù)演示中獲得體驗。
慧科訊業(yè)有限公司(Wisers Information Limited)是全球領(lǐng)先的全媒體大數(shù)據(jù)智能商業(yè)情報專家,憑借20年累積的數(shù)百億海量媒體數(shù)據(jù),先進的人工智能技術(shù),以及科學(xué)的分析模型體系,為全球超過2500家客戶提供創(chuàng)新的產(chǎn)品服務(wù)和解決方案,助力企業(yè)及各類機構(gòu)做出明智決策(www.yesmore.com.cn)。