來源:時代周報
科大訊飛副總裁談AI未來:更有情感、更小數(shù)據(jù)源、更環(huán)保
盧潔萍
減少對數(shù)據(jù)的依賴、讓數(shù)據(jù)驅(qū)動更有效、提升智能交互系統(tǒng)擬人度成目前人工智能技術(shù)的創(chuàng)新方向之一。
“新的人工智能浪潮主要得益于深度學(xué)習(xí)算法的驅(qū)動,需要龐大數(shù)據(jù)做支撐。但在過去一年里,我看到了技術(shù)創(chuàng)新的新趨勢,比如如何用更少的數(shù)據(jù)去實現(xiàn)更好的效果,減少對數(shù)據(jù)的依賴?!?月26日,科大訊飛副總裁、智慧金融事業(yè)部總經(jīng)理解飛在“影響力中國”時代峰會2021上如此表示。
解飛介紹,2015年科大訊飛在做個性化語音定制時,需要錄下20-30小時語音,再后期處理近一個月,才能形成個性化音庫,“但目前科大訊飛最新的產(chǎn)品,只要5分鐘,就能訓(xùn)練出一個用戶的發(fā)音系統(tǒng)”。
除了減少對數(shù)據(jù)的依賴,人工智能技術(shù)的創(chuàng)新方向還包括如何讓數(shù)據(jù)驅(qū)動更有效、建立動態(tài)自學(xué)習(xí)模型、跨語言遷移學(xué)習(xí)、提升智能交互系統(tǒng)的擬人度等。
“我們內(nèi)部討論認為,人工智能已經(jīng)進入系統(tǒng)性創(chuàng)新時代。它的三大核心要素在于單點核心技術(shù)的鴻溝跨越、創(chuàng)新鏈條上關(guān)鍵技術(shù)的深度融合以及對重大系統(tǒng)性命題的洞察解析能力。”
峰會現(xiàn)場,解飛就各地區(qū)金融AI創(chuàng)新特點及近兩年變化,科大訊飛與科技金融公司、互聯(lián)網(wǎng)巨頭之間的關(guān)系,未來的賽道重點和技術(shù)突破方向等問題接受了時代財經(jīng)的專訪。
談大灣區(qū)金融AI創(chuàng)新:更加市場導(dǎo)向,關(guān)注場景價值
時代財經(jīng):粵港澳大灣區(qū)在金融領(lǐng)域的AI創(chuàng)新與長三角等其他地區(qū)相比有什么特點?國內(nèi)外又有什么區(qū)別?
解飛:海外的金融體系發(fā)展得相對較早,他們對于IT的應(yīng)用,還是基于以前的超級計算機模式,國內(nèi)現(xiàn)在新的系統(tǒng)都在往分布式存儲云的架構(gòu)方向發(fā)展。
大灣區(qū)特別關(guān)注場景價值,更加市場導(dǎo)向。我們能明顯感覺到粵港澳大灣區(qū)的金融企業(yè),包括銀行、保險、證券、基金是以業(yè)務(wù)上的強需求在拉動技術(shù)的發(fā)展,對應(yīng)用任何技術(shù)的第一考量因素都是能否體現(xiàn)在業(yè)務(wù)價值上。相對而言,北方區(qū)域的機構(gòu)會先考慮風(fēng)險,絕對安全了,再考慮業(yè)務(wù)收益。
而以上海為代表的華東地區(qū),整個金融科技的應(yīng)用更偏向于系統(tǒng)規(guī)劃。華東地區(qū)對場景也很關(guān)注,但是更多是在一個大的體系下做規(guī)劃,考慮這個系統(tǒng)如何在這個體系下進行發(fā)展。這三個特點都是相對而言。
時代財經(jīng):從2019年到現(xiàn)在,AI語音技術(shù)在金融領(lǐng)域的創(chuàng)新上,科大訊飛經(jīng)歷了什么樣的變化?
解飛:第一個明顯變化是,技術(shù)應(yīng)用正從單點場景向全面應(yīng)用擴展。金融行業(yè)對技術(shù)有很強的風(fēng)險厭惡性,所以會先通過單點應(yīng)用進行試水,再批量地進行使用,現(xiàn)在正是一個由點及面的過程;
第二,從業(yè)者對于技術(shù)應(yīng)用、場景的理解比以前要深刻。以前一般是兩種狀態(tài):一種人認為AI技術(shù)一下子能解決所有問題,另一種人認為是騙子,是概念性的、無法使用的技術(shù)?,F(xiàn)在大家不會再“打標(biāo)簽”,問你“可以”還是“不可以”,而是說,在我的場景下能夠解決多少問題,我要怎么用,最好的切入路徑和方式是什么樣子的。
第三是隨著大家對技術(shù)、業(yè)務(wù)和產(chǎn)品理解越來越深入,業(yè)務(wù)模式也發(fā)生了變化。比如廣發(fā)銀行的信用卡中心在年前剛剛成立了數(shù)據(jù)標(biāo)注運營工作組,就是在用業(yè)務(wù)去匹配技術(shù)的發(fā)展。
在技術(shù)趨勢方面也有兩點變化。第一是平臺從“煙囪式”的建設(shè)變成了平臺式的服務(wù),使接口能夠在各個流程和場景下達到統(tǒng)一的應(yīng)用標(biāo)準(zhǔn),這也是接下來從業(yè)者在產(chǎn)品方案和技術(shù)研發(fā)上需要率先考慮的。
第二是對機器的認知要求變得更高。2019年之前,智能感知已經(jīng)非常成熟了,包括語音識別都是超過90%的識別率,但在真正場景下,除了聽懂了、看懂了,還需要把決策流程添加進來,這才是最終的訴求,這需要在認知層面上有很大的突破。
時代財經(jīng):關(guān)于添加“系統(tǒng)決策流程”有什么具體的例子嗎?
解飛:比如某銀行跟客戶簽貸款合同,會經(jīng)過AI系統(tǒng)進行一次OCR(光學(xué)字符識別),這一步只是感知,但當(dāng)這些合同錄到系統(tǒng)后,還需要幫助銀行判斷哪些條款是不對的、這個法人和其他法人的合同有沒有關(guān)聯(lián)或沖突等。這些以往都是靠人來做,現(xiàn)在通過機器就能替代人60%左右的工作。
相比感知技術(shù),認知技術(shù)這兩年在成熟場景下,提升非常巨大。之前客服中心只有20%左右的工作是智能化的,現(xiàn)在有70%左右。另外,銀行中的風(fēng)控、審批等,都是認知決策的過程。
談競爭:AI公司和科技金融公司“我中有你”
時代財經(jīng):平安銀行這樣的科技金融公司也有數(shù)字化風(fēng)控和數(shù)字化客服等業(yè)務(wù),他們和科大訊飛這樣的AI公司有什么區(qū)別?
解飛:在2015年之前,平安銀行的95511智能客服系統(tǒng)都是科大訊飛承建的,從2018年開始自研系統(tǒng)平臺后才逐漸地切換到自研平臺。但直到現(xiàn)在,平安人壽新契約回訪服務(wù)的機器人質(zhì)檢系統(tǒng)仍然在使用科大訊飛的服務(wù)。
我認為,銀行科技公司和做AI算法的公司,在產(chǎn)業(yè)鏈上是區(qū)隔大于競爭的——70%是區(qū)隔,30%是競爭。區(qū)隔指的是科技公司更多會往通用算法方向發(fā)展,銀行科技公司則對場景和業(yè)務(wù)的理解更加深刻。未來算法和引擎服務(wù)AI公司會做得更多,引擎服務(wù)之上的應(yīng)用系統(tǒng)、業(yè)務(wù)系統(tǒng)則是銀行科技公司做得更多。
但平安銀行的科技實力更強,所以它會往下延展一些。有的銀行科技實力更弱,我們除提供中臺到底層算法的方案外,也會往上延展,去做端到端業(yè)務(wù)系統(tǒng)的方案,這是一個我中有你的過程。
時代財經(jīng):谷歌、阿里等國內(nèi)外互聯(lián)網(wǎng)公司也都在關(guān)注AI語音技術(shù),科大訊飛和他們之間的技術(shù)壁壘是什么?
解飛:相較于BAT,我們對中文數(shù)據(jù)的積累、用戶習(xí)慣的了解,以及對方言口音的支持,遠超任何一個國際巨頭和國內(nèi)互聯(lián)網(wǎng)公司。
2010年10月份,科大訊飛全球第一個發(fā)布了人工智能服務(wù)平臺,到現(xiàn)在每天服務(wù)量超過50億次,覆蓋的國內(nèi)方言口音和海內(nèi)外的語種都是最大的。比我們小一點的服務(wù)平臺,數(shù)據(jù)量可能只是我們的1/10,而小的創(chuàng)業(yè)公司根本收集不到類似的數(shù)據(jù)。數(shù)據(jù)驅(qū)動讓我們有非常強的壁壘,也讓后來者很難追趕。
第二個是我們多年來在語音識別技術(shù)上積累的微創(chuàng)新。解決特定場景、實際工程的問題上,我們走得更靠前一些。比如在會議室場景,大家識別率都還挺高的,但如果要將我們兩個人說的話進行分離,這就不是通用的語音識別了。
第三,我們也比較強調(diào)定制和服務(wù)支撐能力。雖然蘋果服務(wù)的用戶比科大訊飛多,但如果細化到語音服務(wù)這個領(lǐng)域,我們更有團隊優(yōu)勢??拼笥嶏w支撐的各個行業(yè)的應(yīng)用和專職的團隊人數(shù),比Google、阿里、百度都要多,這也代表著我們更高的服務(wù)效能和更大的支持力度。
談定制:關(guān)鍵領(lǐng)域全覆蓋,重點賽道做平臺
時代財經(jīng):B端業(yè)務(wù)有大量定制化和差異化需求,交付周期長、成本高。科大訊飛如何有效降低B端行業(yè)業(yè)務(wù)的成本,實現(xiàn)經(jīng)營效益的提升?
解飛:我們是通過組織架構(gòu)來解決這個問題的??拼笥嶏w把產(chǎn)品進行分級管理,分別是V、R、M三個級別。
V版本是平臺級產(chǎn)品,這部分主要解決公用能力,比如說做一個語音識別的平臺,這個平臺可以面向采訪場景、電話場景、會議場景。R版本就是行業(yè)版本產(chǎn)品,比如說我們要在醫(yī)院里面使用,這個版本會把醫(yī)療的名詞、醫(yī)生的常用說法、藥名收到這個版本里來。M版本就是定制化的版本,給每個客戶都不一樣。比如我們把醫(yī)院的系統(tǒng)放到廣州中醫(yī)院來用,我們就把廣州中醫(yī)院的地理位置、門診科室、專家姓名等放到這個版本里。
通過三個大的層級進行產(chǎn)品管理,就能夠有效地進行資源復(fù)用,讓定制的部分做到最少,以提升整體的運轉(zhuǎn)效果和效率。
時代財經(jīng):公用的、產(chǎn)業(yè)的、定制化的比例分別有多少?
解飛:具體要看行業(yè)。這跟我們的生態(tài)戰(zhàn)略有關(guān),科大訊飛主要的業(yè)務(wù)板塊是醫(yī)療、教育、智慧城市,三個行業(yè)端到端應(yīng)用全部可以由科大訊飛交付。大概判斷,60%是標(biāo)準(zhǔn)的V版本,20%是R版本,還有20%-30%給客戶做定制,這是理想的狀態(tài)。
在重點的行業(yè)生態(tài)之外,我們會主要構(gòu)建V版本。我們把它封裝成標(biāo)準(zhǔn)的接口,給到我們的合作伙伴,再由我們的合作伙伴去封裝R版本或者是M版本的產(chǎn)品。
舉例來講,在家電行業(yè)我們跟海爾這些公司合作,我們就支持一些生態(tài)公司,它們可以拿著科大訊飛的V產(chǎn)品,在海爾這邊進行定制,相當(dāng)于40%-50%定制工作給合作伙伴來做,因為它們長期深耕這個行業(yè),本身也有其他相關(guān)項目。
談未來:更有情感的聲音、更小的數(shù)據(jù)源、更少的電力
時代財經(jīng):除政法、教育外,智能語音技術(shù)更有潛力的應(yīng)用場景是什么?
解飛:從集團來看,我們把醫(yī)療視為最重要的行業(yè)之一,因為它關(guān)系到社會民生、中國醫(yī)療資源不均衡發(fā)展、老百姓的健康生活及安心養(yǎng)老等社會剛需問題的解決,對我們來講會有更強烈的使命感。
現(xiàn)在比較清晰的戰(zhàn)略是在教育和醫(yī)療兩個領(lǐng)域,希望能夠真正地做到改善資源不平衡發(fā)展的狀況。過去兩年,我們在安徽已經(jīng)很好地展現(xiàn)了“智醫(yī)助理”這樣的醫(yī)療應(yīng)用的價值。很快地,我們就能幫助基層醫(yī)院提升他們的問診水平。另外,在整體醫(yī)療大數(shù)據(jù)應(yīng)用上面,也能夠通過AI手段,對傳染性疾病的地區(qū)聚集問題進行提前警示、防護和治理。
時代財經(jīng):未來幾年AI語音技術(shù)研究的方向和重點是什么?
解飛:在語音合成上,還是想使它在特定場景中更加有感情?,F(xiàn)在標(biāo)準(zhǔn)的語音播報,機器已經(jīng)可以惟妙惟肖,甚至可以以假亂真了。但是在人的情感表達上,語音合成做得還不夠。
語音識別上,我們現(xiàn)在做的主要是混語和復(fù)雜場景下的識別。比如兩個人面對面聊天,機器對不同發(fā)言人的識別可以達到95%以上的正確率,但如果場景更復(fù)雜一些,比如在餐廳里吃飯,有10來個人在一起講話,它對角色分離的識別率就會下降到57%,屬于不可用的狀態(tài)。
第三是我們會持續(xù)通過小的數(shù)據(jù)源,在新的語言識別能力構(gòu)建上做研究。也就是使用更小的數(shù)據(jù),能夠更快地驅(qū)動一個新的語種識別,以及使用更少的數(shù)據(jù)優(yōu)化一個語言的識別效果。
最后一個是對算力的節(jié)約方案。AI技術(shù)不光要效果好,還得占用更少的服務(wù)器資源數(shù)量,更加的環(huán)保。我們每天50億的交互規(guī)模,需要后臺十幾萬顆CPU、幾萬顆GPU做支撐,很耗電,也很耗成本。
本網(wǎng)站上的內(nèi)容(包括但不限于文字、圖片及音視頻),除轉(zhuǎn)載外,均為時代在線版權(quán)所有,未經(jīng)書面協(xié)議授權(quán),禁止轉(zhuǎn)載、鏈接、轉(zhuǎn)貼或以其他 方式使用。違反上述聲明者,本網(wǎng)將追究其相關(guān)法律責(zé)任。如其他媒體、網(wǎng)站或個人轉(zhuǎn)載使用,請聯(lián)系本網(wǎng)站丁先生:chiding@time-weekly.com
評論列表
在你們這里學(xué)到很多愛情觀和人生觀。對我們有很大的幫助。
老師,可以咨詢下嗎?
發(fā)了正能量的信息了 還是不回怎么辦呢?