未來智能交互核心,人工智能的主戰(zhàn)場——語義識別如今發(fā)展如何?
什么是語義識別
語義識別可以分為三層:
1.應(yīng)用層:
包括行業(yè)應(yīng)用和智能語音交互系統(tǒng)/技術(shù)應(yīng)用。
2.NLP技術(shù)層:
包括以語言學(xué)、計算機(jī)語言等學(xué)科為背景的,對自然語言進(jìn)行詞語解析、信息抽取、時間因果、情緒判斷等等技術(shù)處理,最終達(dá)到讓計算機(jī)懂人類的語言的自然語言認(rèn)知,以及把計算機(jī)數(shù)據(jù)轉(zhuǎn)化為自然語言的自然語言生成。
a)詞語解析與信息抽。喊ǚ衷~、詞性標(biāo)注、命名實(shí)體識別和詞義消歧,從給定文本中抽取重要的信息。
b)句法解析與語篇理解:對篇章結(jié)構(gòu)的一系列連續(xù)的子句、句子和語段間一定層次結(jié)構(gòu)和語義關(guān)系的分析,包括時間、事件、因果關(guān)系等,甚至于文本所攜帶的情緒識別。
c)自然語言生成:從結(jié)構(gòu)化數(shù)據(jù)中以可讀地方式自動生成文本的過程。包括三個階段:文本規(guī)劃(完成結(jié)構(gòu)化數(shù)據(jù)中基礎(chǔ)內(nèi)容的規(guī)劃)、語句規(guī)劃(從結(jié)構(gòu)化數(shù)據(jù)中組合語句,來表達(dá)信息流)、實(shí)現(xiàn)(產(chǎn)生語法通順的語句來表達(dá)文)。
3.底層數(shù)據(jù)層:詞典、數(shù)據(jù)集、語料庫、知識圖譜,以及外部世界常識性知識等都是語義識別算法模型的基礎(chǔ)。
語言本身詞性、詞性、詞義、表意、組成邏輯復(fù)雜等性質(zhì),決定了語義識別的難度。因而語義識別技術(shù)也涉及語言學(xué)、計算機(jī)語言、數(shù)學(xué)、統(tǒng)計學(xué)、哲學(xué)、生物學(xué)等諸多廣泛的學(xué)科支撐:
a)音韻學(xué):指代語言中發(fā)音的系統(tǒng)化組織。
b)詞態(tài)學(xué):研究單詞構(gòu)成以及相互之間的關(guān)系。
c)句法學(xué):給定文本的哪部分是語法正確的
d)語義學(xué):給定文本的含義是什么?
e)語用學(xué):文本的目的是什么?
語義識別應(yīng)用場景
語義識別技術(shù)可以分析網(wǎng)頁、文件、郵件、音頻、論壇、社交媒體中的大量數(shù)據(jù),應(yīng)用領(lǐng)域廣泛,既可以直接應(yīng)用于醫(yī)療、教育、金融等行業(yè)。也可以通過技術(shù)接口應(yīng)用于所有智能語音交互場景,如智能家居、車載語音、可穿戴設(shè)備、VR、機(jī)器人等,從交互的方式上,也可以分為:事實(shí)問答、知識檢索、分類問題等。智能語音交互被看做未來人工智能技術(shù)中最值得期待的應(yīng)用場景。
1)醫(yī)療+:
電子病例系統(tǒng):為醫(yī)療專業(yè)人士提供實(shí)時語音聽寫、電子病歷錄入等。
智能問診/輔助診斷:直接服務(wù)于C端用戶或者醫(yī)療專業(yè)人士,通過對癥狀的描述,關(guān)鍵詞查詢,進(jìn)行病癥的初步判斷,分類科室、輔助診斷等。
數(shù)據(jù)庫查詢:為臨床專業(yè)人士提供語音導(dǎo)航、相關(guān)論文、文獻(xiàn)資料庫檢索查詢等。
2)教育+:
口語測評:基于自然語言處理技術(shù)進(jìn)行口語能力的測評。
自適應(yīng)學(xué)習(xí):通過人工智能技術(shù),題庫系統(tǒng),以及算法模型,根據(jù)學(xué)生在測試中對上一道問題的回答情況,自動調(diào)整學(xué)生接下來所需回答問題的難度和順序,以達(dá)到讓每一個學(xué)生擁有最合適的學(xué)習(xí)方案。
教育機(jī)器人:以激發(fā)學(xué)生學(xué)習(xí)興趣、培養(yǎng)學(xué)生綜合能力為目標(biāo)的機(jī)器人硬件產(chǎn)品,以及智能教育系統(tǒng)。
3)金融+:
自動報告生成:將公司年報、招股書、行業(yè)新聞、法律公告等結(jié)構(gòu)化和非結(jié)構(gòu)化的信息、數(shù)據(jù)進(jìn)行處理,并且結(jié)構(gòu)化生成報告,服務(wù)于投資銀行,證券研究機(jī)構(gòu)。
風(fēng)控/征信:通過爬去個人及企業(yè)在其主頁、社交媒體、新聞中的文本,分析、預(yù)測、判斷其投資風(fēng)險點(diǎn)。
量化交易:運(yùn)用自然語言處理,深度學(xué)習(xí)(DeepLearning)等多種AI技術(shù),進(jìn)行量化交易模型的建立。
智能投顧:以更強(qiáng)大的計算機(jī)模型運(yùn)用人工智能的技術(shù)對大量客戶進(jìn)行財富畫像,為客戶量身定制的資產(chǎn)管理投資方案。
潛在客戶挖掘/定制化保險。
4)法律+:
智能法律檢索:對數(shù)字化法律文本、裁判文書等法律資料的檢索。
自動審閱:對法律文件、合同等文件進(jìn)行審查、分析和研究,進(jìn)行調(diào)查取證、盡職調(diào)查、合規(guī)審查、電子取證等。
智能文書起草:人工智能系統(tǒng)將可能起草大部分的交易文件和法律文件甚至起訴書、備忘錄和判決書,律師的角色將從起草者變成審校者。
在線法律服務(wù)/法律機(jī)器人:直接向終端用戶提供一般法律咨詢服務(wù),比如遺囑、婚姻咨詢、交通事故咨詢等。
5)新聞/文獻(xiàn)+:
從新聞素材采集、智能編輯、自動寫作、自動化文摘生成,到新聞的智能分發(fā),語音/語義識別、AI翻譯等技術(shù)正在全面的進(jìn)行新聞傳播行業(yè)。根據(jù)騰訊研究院計算,過去8年,新聞業(yè)收入減少了1/3,就業(yè)崗位減少了1.7萬個。
6)智能商業(yè)+:
智能/虛擬客服:基于系統(tǒng)數(shù)據(jù)庫、知識圖譜,在與客戶的對話中,獲取客戶需求,并提供相應(yīng)的答案來解決客戶的問題。
輿情監(jiān)控:通過對互聯(lián)網(wǎng)的海量信息自動抓取、分類聚類、主題檢測、專題聚焦、實(shí)現(xiàn)對網(wǎng)絡(luò)輿情監(jiān)測和新聞專題追蹤等,并能形成分析報告,提出應(yīng)對策略。
數(shù)據(jù)挖掘/智能營銷:人工智能技術(shù)處理技術(shù)對于用戶在互聯(lián)網(wǎng)上留下的大量個人信息、登錄信息、路徑關(guān)系、社交關(guān)系、消費(fèi)記錄等數(shù)據(jù)有極高的處理效率,通過各種算法模型,達(dá)到數(shù)據(jù)挖掘,用戶精準(zhǔn)需求分析,www.whsntf.cn,自動化營銷等目的。
7)翻譯+:
基于深度學(xué)習(xí)技術(shù)的神經(jīng)翻譯技術(shù)(NMT),相比較于規(guī)則法(RBMT)、統(tǒng)計法(SMT)兩種機(jī)器翻譯方法,KUKA機(jī)器人示教器維修,最大的優(yōu)點(diǎn)在于1.不在需要人為的去抽取特征;2.不需要進(jìn)行詞語切分、詞語對齊、句法樹設(shè)計等復(fù)雜的設(shè)計工作,而隨著樣本庫的擴(kuò)充和訓(xùn)練量的增加,其翻譯能力得到正向提升。
未來,基于深度學(xué)習(xí)的翻譯技術(shù)將更多的應(yīng)用在會話、同聲翻譯、文本翻譯等多種場景。
語義識別環(huán)境背景分析
語音識別、語義識別是自然語言處理最重要的兩項(xiàng)技術(shù),且聯(lián)系緊密,在上述語義識別的廣泛應(yīng)用場景中,常常是語音、語義相互嵌套,共同作用的結(jié)果,大多數(shù)研究語義識別的公司也涉及到語音識別技術(shù)的研究,因而下述的分析中,涉及數(shù)據(jù)方面,我們更多的是放在自然語言處理層面來討論的。
自然語言處理作為一項(xiàng)重要的人工智能技術(shù)之一,成為2017年最炙手可熱的領(lǐng)域,在整體上離不開政策上的支持,技術(shù)上的進(jìn)展,市場應(yīng)用的極高價值,資本投資等多方面的共同作用。
政策層面:政策引導(dǎo)是語義識別增長的外在驅(qū)動
人工智能作為國家戰(zhàn)略發(fā)展規(guī)劃之一,足見其重要性,在這個政策的綱領(lǐng)下,國家型自然科學(xué)基金、產(chǎn)業(yè)基金、地方政府財稅優(yōu)惠政策、人工智能相關(guān)實(shí)驗(yàn)室、科技產(chǎn)業(yè)園區(qū)等切實(shí)促進(jìn)人工智能的發(fā)展落地,為自動駕駛、計算機(jī)視覺、語音/語義識別創(chuàng)業(yè)提供了更好的條件和基礎(chǔ)設(shè)施。
經(jīng)濟(jì)層面:經(jīng)濟(jì)價值是語義識別發(fā)展的燃料
一方面,自然語言處理應(yīng)用場景廣泛,市場潛力和經(jīng)濟(jì)價值巨大,GlobalMarketInsights的數(shù)據(jù)顯示,2017-2024這七年,智能語音交互的全球市場,每年增長率將達(dá)到34.9%。據(jù)估算,2024年的全球市場規(guī)模,將達(dá)到720億元。
另一方面,國內(nèi)資本對于自然語言處理的投入也相當(dāng)巨大,根據(jù)鯨準(zhǔn)App數(shù)據(jù)統(tǒng)計,截止目前,KUKA機(jī)器人維修,自然語言處理已披露融資總額累計超54億元。