聚焦信息技術(shù)領(lǐng)域 為產(chǎn)業(yè)發(fā)聲
導(dǎo)讀
隨著社交媒體,如論壇、博客、微博等的發(fā)展,使得在世界各地的人們可以隨時分享、評論或討論任何話題成為了可能。在社會媒體文本中表達(dá)的意見、情緒和情感就成為對社會和經(jīng)濟(jì)具有較高價值的文本。挖掘這些文本中的“潛臺詞”就要用到情感分析這一技術(shù)。通過情感分析,可以看出商品的優(yōu)缺點(diǎn),可以預(yù)測某國大選,也可以讓機(jī)器人能聽懂人說的話。那么情感分析究竟如何做到的呢?黃河連線特此采訪了知名情感分析專家,中國科學(xué)院自動化研究所模式識別國家重點(diǎn)實(shí)驗(yàn)室成員劉康,以下為采訪實(shí)錄:
情感分析如何理解用戶的“意圖”
1.什么是情感分析?能否結(jié)合一個案例解釋一下。
劉康:情感分析本身是從用戶的各模態(tài)輸入中識別其表達(dá)出的情感或情緒。從廣義上來說,情感分析需要從各種數(shù)據(jù),如文本、視頻、圖像、語音里識別其中所蘊(yùn)含的情感。我自己的研究方向是自然語言理解,從我的研究角度來看,情感分析是一個研究如何從文本中識別用戶所表達(dá)出來的情感和情緒的任務(wù)。
從文本中識別用戶的情感和情緒,不僅要識別用戶的情感狀態(tài),是褒義還是貶義、是悲傷還是喜悅,更重要的是希望從文本中挖掘有用的觀點(diǎn)信息,其中涉及的內(nèi)容非常多,如如何抽取識別用戶觀點(diǎn)的傾向性,以及傾向性蘊(yùn)含的強(qiáng)度,同時需要抽取與觀點(diǎn)相關(guān)的要素,如觀點(diǎn)持有者、評價的主體等。
舉個例子,我們可以在各大購物網(wǎng)站上可以看到用戶對于商品評論的文本,比如要購買一部手機(jī)或是選擇某個餐廳吃飯時,我們都會看一下關(guān)于手機(jī)或餐廳的用戶評論信息。情感分析在針對用戶評論方面,需要從用戶評論中判別出已經(jīng)購買該商品的用戶的觀點(diǎn)和意見。例如在針對餐廳的評論中,會有菜名和相關(guān)的評價詞,比如“停車不太方便”中“不方便”就是一個情感詞、“菜不好吃”中“不好吃”就是另一個情感詞,我們需要用自動的方法把這些評價詞提取出來,判別其傾向性,同時抽取用戶評價的對象,例如“菜”、“停車”,從而對于用戶評論進(jìn)行細(xì)粒度的分析。
總而言之,情感分析涉及到了自然語言處理的各個子任務(wù),是自然語言處理領(lǐng)域的基礎(chǔ)任務(wù)。
2.您剛才說到,情感分析需要有一個分析來源,也就是觀點(diǎn)挖掘和情感分析需要大量的文本進(jìn)作為分析數(shù)據(jù),這些數(shù)據(jù)的獲取渠道有哪些?
劉康:用計(jì)算機(jī)進(jìn)行情感分析和觀點(diǎn)挖掘,需要一些有標(biāo)注的數(shù)據(jù),即人告訴計(jì)算機(jī)一些詞的情感程度是怎樣的。對于普通的數(shù)據(jù),我們可以獲取的渠道有很多,包括微博、微信、產(chǎn)品的評論、新聞數(shù)據(jù)等等,關(guān)鍵是怎么獲取標(biāo)注的數(shù)據(jù),這樣才能計(jì)算機(jī)能夠?qū)W習(xí)到與詞、段落、篇章所對應(yīng)的情感,進(jìn)而發(fā)現(xiàn)情感信息表達(dá)各種方式和規(guī)律??傮w來說,可以獲得的文本內(nèi)容和渠道還是有很多的,關(guān)鍵是如何獲得高質(zhì)量的標(biāo)注文本。
現(xiàn)在的標(biāo)注數(shù)據(jù)的獲取渠道有兩個:第一是人工標(biāo)注,第二是從網(wǎng)站或者社交平臺上獲取一些原有的標(biāo)注,比如用戶在評論時會寫一段文本,在評論時會同時打分或是標(biāo)注星級,一般認(rèn)為五星是褒義的情感,一星就是貶義的情感。再如,用戶在微博上寫了一段文字,然后加一個表情,笑臉可能就是褒義的情感,哭臉就是貶義的情感。
3.人的情感與機(jī)器不同,對某些事物的喜愛程度不一樣,比如“非常好、好、很好”這幾個極性,即使人們用了一樣的詞匯,每個人的喜愛程度也會有偏差。這又是如何分析匹配的?
劉康:大部分用戶在評價某一事物時,會用“特別好”、“非常好”這類詞語并且給其打一個非常高的分?jǐn)?shù)或者星級,而“一般”、“好”這些強(qiáng)度略低的詞語和分?jǐn)?shù)比較低會有很大的相關(guān)性?;谶@樣的統(tǒng)計(jì),我們會統(tǒng)計(jì)出不同強(qiáng)度的評價詞語,然后給這詞語打上不同強(qiáng)度的信息。
這種強(qiáng)度的表達(dá)具有很大的主觀性,比如性格比較內(nèi)斂的人不太習(xí)慣用強(qiáng)度很大的詞語,而性格外向的人就會用“贊”這類情感強(qiáng)度明顯的詞表達(dá)。人們的用詞習(xí)慣會在很大程度上影響情感分析的結(jié)果,使情感分析成為了一項(xiàng)非常有主觀性的工作,而且難度也非常大。
總體上講,情感分析的準(zhǔn)確度是比較高的。在一個限定領(lǐng)域內(nèi),對單個用戶而言,準(zhǔn)確度可以達(dá)到80%—90%,但是在一個開放的領(lǐng)域內(nèi),尤其是用戶特別多的情況下,準(zhǔn)確度可能只有70%甚至更低。
情感分析讓社會更“智能”
4.中文因其語言背景的豐富性和詞語的多邊形被稱為世界上最難的語言之一,同英語相比,現(xiàn)在中文領(lǐng)域的觀點(diǎn)挖掘與情感分析發(fā)展?fàn)顩r如何?
劉康:中文不止在情感分析方面,在其他自然語言處理任務(wù)中,和英語相比,技術(shù)的發(fā)展是并行的。也就是說,目前來看,中英文語言分析在技術(shù)層面上不會有太大的區(qū)別。但是從準(zhǔn)確性上來說,目前中文的處理效果和英文還是有一定的差距的。這個不是處理方法、技術(shù)的問題,而是因?yàn)橹形氖且环N意合的語言,語法結(jié)構(gòu)更加的松散,在實(shí)際表達(dá)中并不拘泥于一定的語法,所以沒有語法結(jié)構(gòu)的約束,導(dǎo)致中文在處理上比英文要難很多,結(jié)果準(zhǔn)確性也低一些。
其次,中文還有一些特別的語言現(xiàn)象,如成語、歇后語、古文等,都可以表達(dá)各種情感,現(xiàn)在還沒有一個特別好的方法對這些語言現(xiàn)象做處理。但是現(xiàn)在在中文領(lǐng)域,各個研究團(tuán)隊(duì)都在努力提高著中文分析的準(zhǔn)確度,也進(jìn)行了多次相對應(yīng)的情感分析評測。
5.目前觀點(diǎn)挖掘與情感分析應(yīng)用的準(zhǔn)確性如何?例如之前通過對 Twitter 用戶的情感分析,來預(yù)測股票走勢、預(yù)測電影票房、選舉結(jié)果等,這些準(zhǔn)確度如何?是否可信?
劉康:美國利用Twitter上的用戶評價再通過情感分析的方法進(jìn)行大選預(yù)測,奧巴馬在任時期就已經(jīng)有人做過了。雖然現(xiàn)在情感分析技術(shù)準(zhǔn)確性還不能達(dá)到100%,但是對于全美Twitter用戶的觀點(diǎn)分析,大體上還是可以分析出總體走勢的。但是這樣的方法較為適用于整體型、宏觀型的判斷,在微觀層面的處理就不一定很準(zhǔn)確了。比如在股票預(yù)測,尤其是個股方面,效果還是非常不好的,在某一電影的票房預(yù)測上也是一樣。
6.目前的情感分析大多基于已有文本。比如情侶吵架,女方故意說了氣話,情感分析能不能結(jié)合上下文的關(guān)系,分析出女方的潛臺詞?
劉康:目前的技術(shù)可以從文本中分析出顯性表達(dá)的情感,比如“我生氣了”、“你真討厭”,這是可以很容易分析出來的。但是中文里諷刺、比喻等隱性的語言現(xiàn)象,在分析上會遇到很大的困難。
在很多情況下,如果一句話里沒有情感表達(dá)詞語,人理解起來不會有難度,但是對于依托標(biāo)注性情感詞分析文本的計(jì)算機(jī),就存在很大的難度。比如情侶之間的對話,女方說:“我一會兒到地鐵站,我到了你就等著,我到了你還沒到你就等著!”這類語言,有很多情感是通過非情感詞表達(dá)出來的,我們統(tǒng)稱這種情感表達(dá)為隱式情感表達(dá)。目前的情感分析對這種情感表達(dá)的分析還存在很大的問題。另外,情感的表達(dá)還與文本的上下文、環(huán)境、領(lǐng)域密切相關(guān),這給情感分析帶來更大的技術(shù)要求。
7.現(xiàn)在出現(xiàn)了一些“情感機(jī)器人”,可以通過判斷人類的語言、語調(diào)等,“讀”出人類情感,甚至還有機(jī)器人獲得了公民身份。在這些機(jī)器人的背后,情感分析技術(shù)功不可沒,您怎么看待這個現(xiàn)象?
劉康:將情感分析技術(shù)應(yīng)用到情感機(jī)器人上,這是一個大的趨勢,情感機(jī)器人在和人的交互中,一定會涉及與人情感的交流。以我的研究領(lǐng)域來說,我們是基于從文本中獲取情感和觀點(diǎn),在情感機(jī)器人中,不僅需要文本的分析,還存在語音、語調(diào)、表情等多模態(tài)的判別。我個人的觀點(diǎn)是,不管哪種模態(tài)的分析,目前還都處于研究的階段,還沒有一個完美的解決方案。人工智能對客觀性文本的理解尚且存在很多問題,理解主觀性文本更是一個任重而道遠(yuǎn)的任務(wù)。但是試圖在機(jī)器人對話過程中加入情感信息,我個人認(rèn)為這是一個非常好的方向。
當(dāng)然,除了情感機(jī)器人,情感分析和觀點(diǎn)挖掘可以運(yùn)用到的領(lǐng)域還有很多,包括剛才提到的大選預(yù)測、購物網(wǎng)站上對商品性能的分析等等。
情感分析仍然任重道遠(yuǎn)
8.情感分析的應(yīng)用離不開底層技術(shù)的支撐。就目前而言,觀點(diǎn)挖掘與情感分析的難點(diǎn)在哪里?近來又有哪些重大的突破?
劉康:近些年,深度學(xué)習(xí)技術(shù)在自然語言處理領(lǐng)域已經(jīng)得到了廣泛的應(yīng)用,情感分析與觀點(diǎn)挖掘應(yīng)用深度學(xué)習(xí),可以提高個別任務(wù)上的處理性能。但是總體來說,還沒有重大技術(shù)的突破。
文本的觀點(diǎn)挖掘和情感的分析的難點(diǎn)還是在于如何判定各種語言現(xiàn)象的情感分析,不同詞語的組合會帶來很大的情感變化,對分析會帶來很大的挑戰(zhàn),這是目前一個特別難的點(diǎn)。比如“大”形容房子的時候是個褒義詞,在“大手大腳”這個成語里,就是一個貶義詞了。情感的變化會根據(jù)評價對象的不同、使用語境的不同而產(chǎn)生變化,如何判斷在不同場景和不同對象中的不同語義,一直都是情感分析的難點(diǎn)所在。
9.目前情感分析的難點(diǎn)很多,必然要求更多的人才去攻克。那對于想要學(xué)習(xí)或者進(jìn)一步研究情感分析的人而言,需要具備哪些素質(zhì)?能否結(jié)合您的個人研究經(jīng)歷,推薦一下學(xué)習(xí)路徑以及參考資料?
劉康:從文本性情感分析來說,需要有自然語言處理的知識,包括機(jī)器學(xué)習(xí)知識等。除此之外,情感分析還是一個多角度、交叉的方向,包括心理學(xué)、社會學(xué),都可以一定程度上幫助情感分析的研究。所以說情感分析是一個以計(jì)算機(jī)知識為基礎(chǔ),跨學(xué)科的研究領(lǐng)域。
我個人本科就讀于西安電子科技大學(xué),碩士從事模式識別與智能系統(tǒng)學(xué)科方向的研究,特別是圖像方向的研究。然后到現(xiàn)在的組里攻克博士學(xué)位,研究方向是文本情感分析。2010年博士畢業(yè),除了情感分析,還在做與信息抽取相關(guān)的工作,包括實(shí)體、關(guān)系、事件等等。目前是在中國科學(xué)院自動化研究所模式識別國家重點(diǎn)實(shí)驗(yàn)室一直從事情感分析方面的研究。
就個人經(jīng)歷而言,我認(rèn)為學(xué)習(xí)這一領(lǐng)域看懂兩本書是很有必要的,一是Pang Bo老師曾經(jīng)寫的一個有關(guān)情感分析的Tutorial,二是美國伊利諾斯芝加哥大學(xué)教授劉兵老師的所著的情感分析方面的書籍,這兩本書對于了解情感分析研究歷史和研究分支等知識,都是非常有幫助的。我自己特別推薦劉兵老師寫的、由我們組翻譯的《情感分析——挖掘觀點(diǎn)、情感和情緒》這本書,這是近些年來在情感分析領(lǐng)域比較好的一本書。
聲明:
部分圖片來源于網(wǎng)絡(luò)
黃河連線系太原九州連線文化傳媒有限公司旗下品牌
本平臺法律顧問為山西晉商律師事務(wù)所
黃河連線原創(chuàng)文章,轉(zhuǎn)載請注明出處
評論列表
我最近了解了一下,是我朋友給我推薦的,很靠譜,推薦大家情感有問題的可以嘗試一下
如果發(fā)信息,對方就是不回復(fù),還不刪微信怎么挽回?
如果發(fā)信息不回,怎麼辦?