導(dǎo) 讀
各位大家好,我是新加坡國(guó)立大學(xué)的段錦泉,亞洲數(shù)碼金融研究所的負(fù)責(zé)人,也是商學(xué)院的金融教授。這是新加坡國(guó)立大學(xué)EMBA的公開(kāi)課,希望今天的講演,能夠幫同學(xué)對(duì)機(jī)器學(xué)習(xí),尤其是自然語(yǔ)言處理,在金融市場(chǎng)上的應(yīng)用提高觀念層次上的了解程度。
我認(rèn)為學(xué)習(xí)最重要的不是記住許多細(xì)節(jié),而是學(xué)習(xí)一個(gè)方向和整體觀念。因?yàn)殡S著年歲的成長(zhǎng),你我對(duì)很多事務(wù)都會(huì)逐漸淡忘,但是方向跟架構(gòu)通常還能深留腦海。所以我希望透過(guò)今天的學(xué)習(xí),在聽(tīng)完了演講之后,你會(huì)對(duì)機(jī)器學(xué)習(xí)的使用,以特定、具體的實(shí)踐場(chǎng)景,達(dá)到更深的領(lǐng)悟。鋪墊一個(gè)對(duì)自然語(yǔ)言的學(xué)習(xí)和應(yīng)用的基礎(chǔ),讓你可以在將來(lái)自己補(bǔ)強(qiáng)。
今天要講的綱要基本上包含三項(xiàng):
第一,我要說(shuō)明如何建立輿情分析的框架,就是你該具備的思維方式。有了框架,可以幫助萃取輿情上更好的運(yùn)作。
第二是一項(xiàng)具體的應(yīng)用:輿情因子在企業(yè)的違約跟并購(gòu)中的補(bǔ)強(qiáng)功能。我強(qiáng)調(diào)補(bǔ)強(qiáng)這個(gè)詞,是因?yàn)樗鼪](méi)有辦法替代傳統(tǒng)的因子,只能夠補(bǔ)強(qiáng)。了解了這一點(diǎn),我們就不會(huì)對(duì)結(jié)果有不合理的期待。
在從觀念上了解后,最后我要講自然語(yǔ)言處理的要素,也就是Natural language processing(NLP)技術(shù)工具本身有些什么要素。有了大概的了解后,你以后也就可以與別人溝通了,今天講演的具體目標(biāo)也就達(dá)到了。
【輿情分析的目的】
首先,我們要了解做輿情分析的目的是什么?它是作為目標(biāo)變量,還是一個(gè)解釋變量?我今天要講的應(yīng)用是把它作為解釋變量的用法。比如在進(jìn)行金融分析(如預(yù)測(cè))時(shí),不能認(rèn)為輿情是唯一的決定要素。輿情之外尚有好多其它的解釋變量,不是嗎?所以輿情在這里起到的是一個(gè)補(bǔ)強(qiáng)的功能。
【輿情分析三要素】
第二點(diǎn),你要了解金融市場(chǎng)輿情分析,其實(shí)是一個(gè)三維的問(wèn)題。
第一個(gè)要素是主題。比如說(shuō)我們要研究企業(yè)違約,這是個(gè)主題,需要分析在違約方面輿情是如何被討論的。
第二個(gè)要素是主體。在金融問(wèn)題上很難不觸及主體,例如在分析企業(yè)違約時(shí),要說(shuō)明輿情是針對(duì)哪一個(gè)企業(yè),比如說(shuō)對(duì)星展銀行(DBS)有興趣,星展銀行就是輿情分析的主體。但不能忘掉,在建模和應(yīng)用的差別,建模的時(shí)候需要有很多、很多主體。一旦有了模型,使用時(shí)候,只需要針對(duì)關(guān)心的主體就可以了。
拿放貸為例,比如你是一家銀行,當(dāng)有企業(yè)向你申請(qǐng)貸款時(shí)候,你就會(huì)去征信機(jī)構(gòu)(Credit Bureau)進(jìn)行查證,這是針對(duì)一個(gè)主體而已。但是征信單位需要收集好多企業(yè)的信息才能夠提出針對(duì)這家企業(yè)的信用狀況。所以,主體是一個(gè)很重要的考慮因素。
第三個(gè)要素是態(tài)度。一篇文章或者報(bào)道,一定會(huì)表達(dá)了一個(gè)態(tài)度:贊成、反對(duì)或中性,或是強(qiáng)烈的贊成反對(duì)。所以,你可能會(huì)聽(tīng)到情感分析,基本上是三維的問(wèn)題,就是一篇文本談?wù)撃囊粋€(gè)主題,提及了哪些主體,對(duì)不同主體表達(dá)了什么態(tài)度。例如,我們談?wù)摽逻_(dá)的照相機(jī)品質(zhì)的好壞。那照相機(jī)就是主題,柯達(dá)是主體,覺(jué)得好或壞就是態(tài)度。
【細(xì)節(jié)討論】
現(xiàn)在稍微談一下關(guān)于主題比較細(xì)節(jié)的東西。我剛才提到照相機(jī),照相機(jī)是一個(gè)非常明確的觀念,只要講照相機(jī)就不太需要再進(jìn)一步溝通什么叫照相機(jī)。
但是在商業(yè)分析上許多主題是不能夠這樣簡(jiǎn)單化描述的,比如說(shuō),信用風(fēng)險(xiǎn)是一個(gè)非常籠統(tǒng)的觀念了,不是一兩個(gè)詞能講得明白的,這類(lèi)的主題具有挑戰(zhàn)性。你經(jīng)常會(huì)看到很多文本分析的主題,屬于非常簡(jiǎn)單的類(lèi)別,容易用簡(jiǎn)單的詞描述,而難的是那種很通泛的主題。比如說(shuō),我們現(xiàn)在常常講“環(huán)境永續(xù)經(jīng)營(yíng)”,這種環(huán)境因素是很難描述的。
你今天產(chǎn)生了很多碳足跡,并不表示你環(huán)境因素很差,還有其它如水啊之類(lèi)的因素需要考慮。所以要從文本里面準(zhǔn)確地抓出來(lái)這類(lèi)通泛的主題,是一個(gè)很大的技術(shù)挑戰(zhàn)。但是,我們一定要考慮主題,因?yàn)闆](méi)有主題我們就沒(méi)辦法分析具體的金融問(wèn)題了。
還有一些關(guān)于金融市場(chǎng)中主體的細(xì)節(jié)需要關(guān)注。主體大概可以分三類(lèi):一類(lèi)是人物、自然人;一類(lèi)是企業(yè),也就是法人;還有另外的一類(lèi),就是國(guó)家(經(jīng)濟(jì)體)。大概就是這三類(lèi),有時(shí)候行業(yè)也是一類(lèi)關(guān)心的主體。
主體是不是應(yīng)該屬于主題的一部分?這個(gè)問(wèn)題是很重要,因?yàn)橛袝r(shí)讓主體變成主題的一部分是必須的。比如說(shuō)我們分析川普的行為,川普是主體,同時(shí)也是我的主題的關(guān)鍵。
但是我們分析信用風(fēng)險(xiǎn)時(shí),主體絕對(duì)不應(yīng)該成為信用風(fēng)險(xiǎn)的一部分。例如我剛才提到星展銀行的信用,或者我關(guān)心的是中石化的信用?!靶钦广y行”或“中石化”這些主體所對(duì)應(yīng)的公司名,和“信用風(fēng)險(xiǎn)”這個(gè)主題本身是無(wú)關(guān)的,不應(yīng)該被納為主題的一部分。這是很重要的認(rèn)知,因?yàn)樵谥圃旎蛘咦ト≈黝}的時(shí)候,必須把主體都給拿掉,否則包含主體的主題就不夠通泛,不能適用于其他主體。但在研究媒體對(duì)具體主體的態(tài)度時(shí),需要再把主體加回來(lái)作為區(qū)分。
另一個(gè)很重要的考慮是媒體采用的語(yǔ)言。比如中文和英文是非常不一樣的文字體系,等一下我會(huì)介紹中文跟英文最不一樣的地方。我不是學(xué)語(yǔ)言的專(zhuān)業(yè),但以前和大家一樣覺(jué)得中文英文差別很大。從學(xué)習(xí)自然語(yǔ)言的方法中,我發(fā)現(xiàn)中文和英文基本是一樣的,其實(shí)只差一個(gè)關(guān)鍵地方,今天我的一個(gè)重要任務(wù)就是說(shuō)服你達(dá)到這種認(rèn)知。
同時(shí),我們必須了解媒體的類(lèi)型和分析的目的。因?yàn)椴皇撬械拿襟w類(lèi)型都適合你的分析目的。正式的媒體,例如新華社和華爾街日?qǐng)?bào)的新聞,因?yàn)閷?xiě)作人的專(zhuān)業(yè)水平較高,加上有編輯審核的過(guò)程,文本的品質(zhì)往往比自媒體的內(nèi)容高。我今天討論的輿情分析主要針對(duì)的是正式媒體,因?yàn)檠芯康氖巧虡I(yè)、金融的問(wèn)題,更需要依賴(lài)專(zhuān)業(yè)的文本。
【可以預(yù)期的現(xiàn)象】
我們可以預(yù)期到什么呢?首先,大部分的文章和研究的焦點(diǎn)問(wèn)題(主題)可能是無(wú)關(guān)的。因?yàn)槊襟w并不是為我們的研究問(wèn)題而報(bào)道的,而是去選擇有新聞性的事件進(jìn)行報(bào)道的,也就是說(shuō)媒體是會(huì)有選擇偏差的,那是媒體的本質(zhì)。也因此,媒體并不能全面性的覆蓋我們關(guān)心的主題或主體。比如我選擇大華銀行(UOB),但可能一個(gè)星期也沒(méi)有任何相關(guān)的報(bào)道。這并不代表大華銀行出了什么問(wèn)題,反而是越正常越不會(huì)被報(bào)導(dǎo)。新聞傾向于負(fù)面性的報(bào)道,有新聞價(jià)值,大家就越想讀。比如趙薇的事件,是很負(fù)面的,大家愿意去追,媒體更愿意報(bào)導(dǎo)。
有了這些基本了解后,自然可預(yù)期到在進(jìn)行輿情分析時(shí)候,會(huì)面臨到的基本的問(wèn)題和挑戰(zhàn)。輿情分析只能當(dāng)補(bǔ)強(qiáng)的工具,不可能取代傳統(tǒng)結(jié)構(gòu)化的金融數(shù)據(jù)。傳統(tǒng)金融數(shù)據(jù)的價(jià)值是很高的,因?yàn)橐患艺I(yíng)運(yùn)的公司,它的財(cái)報(bào)就會(huì)反映這些信息,但在媒體上很可能找不到任何相關(guān)的報(bào)道,因?yàn)樗A恕?/p>
也因此,我在做公司信用分析時(shí)候,就會(huì)面臨著大量的公司是不被頻繁報(bào)道的,導(dǎo)致了有很多缺失數(shù)據(jù)(missingdata),為我的建模帶來(lái)了挑戰(zhàn),不過(guò)這屬于一個(gè)需要解決,也能克服的技術(shù)問(wèn)題。
另外,做企業(yè)分析時(shí)候,我們可能也想對(duì)國(guó)家或行業(yè)的輿情有所了解,這種輿情屬于一種共享的情緒、態(tài)度,比如說(shuō)中國(guó)的經(jīng)濟(jì)環(huán)境如何了?美國(guó)的金融市場(chǎng)又怎么樣了?在金融分析上歸納為系統(tǒng)性的因素,也就是個(gè)別公司會(huì)受到大環(huán)境的影響。
我的團(tuán)隊(duì)今天已經(jīng)做到了公司和國(guó)家的層面,過(guò)程中克服了很多技術(shù)挑戰(zhàn)。但當(dāng)我們的方向非常明確的時(shí)候,就能判斷這是做得到或是做不到,做得到的話需要花多少時(shí)間和努力,因?yàn)榈扔谡f(shuō)我們已經(jīng)有了一個(gè)地圖了。
【技術(shù)1:主題】
在主題、主體和態(tài)度的三維問(wèn)題上,我們?cè)趺刺幚碇黝}的抓取呢?
比如說(shuō)我要講的是信用風(fēng)險(xiǎn)和綠色金融,這是兩個(gè)不同的主題,而且都是比較籠統(tǒng)的概念,不是幾個(gè)字可以描述的。我們用的是一個(gè)叫做Source-LDA的技術(shù)。Source的意思就是有一個(gè)和主題相關(guān)的資料來(lái)源。我們需要根據(jù)資料產(chǎn)生一個(gè)不同詞匯出現(xiàn)頻率分布來(lái)描述一個(gè)主題,然后讓機(jī)器根據(jù)文章中文字的描述把主題抓出來(lái)。
LDA是一種統(tǒng)計(jì)方法,是Latent Dirichlet Allocation的縮寫(xiě)(潛在迪利克雷分布),可以用于對(duì)海量的文本進(jìn)行主題分類(lèi)。假設(shè)所有的文本中共有5個(gè)主題,那LDA就讓一篇一篇的文章分成5類(lèi)。
但你會(huì)馬上面臨兩個(gè)問(wèn)題:
#01
第一個(gè)是,你閱讀一篇文章,它可能好像講第一個(gè)主題,又在講第二個(gè)主題,甚至還有點(diǎn)第三個(gè)主題的內(nèi)容,那該把這篇文章分到哪個(gè)主題下呢?針對(duì)這個(gè)問(wèn)題,我們可以采用概率加權(quán)的方法,比如這篇文章里70%是講第一個(gè)主題,20%講第二個(gè)主題,10%是第三個(gè)主題。
#02
第二個(gè)問(wèn)題是,到底該把文本分成幾個(gè)主題?產(chǎn)生這個(gè)問(wèn)題,其實(shí)是反映了觀念上的謬誤,但“所有文本應(yīng)該被分為幾個(gè)主題”本身就是一個(gè)很模糊的事情,是3個(gè),5個(gè)?也有可能是20個(gè)!但當(dāng)我們走向用概率法則來(lái)思考問(wèn)題,也就開(kāi)始自由了。
因?yàn)槲铱梢詫⑺形谋究闯?個(gè)主題的組成,一個(gè)是我們關(guān)心的主題,另一個(gè)就是其它主題。比如,我關(guān)心的是信用風(fēng)險(xiǎn)主題,那我只需要知道一篇文章在多少程度是在講信用風(fēng)險(xiǎn)就可以了,比如,75%說(shuō)明比較相關(guān),5%說(shuō)明幾乎不相關(guān);至于其它的主題是在講什么,是和我的分析沒(méi)關(guān)系的。但我們不能讓文本自然呈現(xiàn)出2個(gè)主題(文本直接進(jìn)行2分類(lèi)),因?yàn)樽匀怀尸F(xiàn)的結(jié)果往往并不會(huì)產(chǎn)生我們關(guān)心的主題。因此,需要利用Source主導(dǎo)LDA模型把我們想要的主題區(qū)分出來(lái)。
在處理海量本文上有大量的技術(shù)細(xì)節(jié)要考慮,比如,如何識(shí)別出公司名?你可能覺(jué)得可以用列表的形式(直接進(jìn)行字符串匹配),但如果出現(xiàn)新公司怎么辦呢?而且一家公司名可能有很多的變體,例如International Business Machine(美國(guó)國(guó)際商用機(jī)器公司)通常以IBM的形式被報(bào)道,United Overseas Bank和UOB都是指大華銀行,等等,全球無(wú)數(shù)大大小小的公司,各種情況,不勝枚舉。
但因?yàn)槲覀冄芯康氖枪镜妮浨榉治?,做主題提取時(shí),如前述,必須要把公司名剔除掉,所以必須要實(shí)現(xiàn)識(shí)別公司名,這里沒(méi)有完美的解決方法,但我們可以選擇效果更好的,效率更高的方法。
因此,自然語(yǔ)言處理這個(gè)工作,很大一部分是基礎(chǔ)建設(shè)的問(wèn)題,你需要依賴(lài)別人努力做出的成果,在其基礎(chǔ)上應(yīng)用、改進(jìn)。
比如你要開(kāi)一家工廠,前面需要建一條路通到最近的公路上,那公路就是基礎(chǔ)建設(shè)。我們采用了“命名實(shí)體識(shí)別“(NER)的方法,其實(shí)是利用了別人的研究成果,也就是說(shuō)利用python調(diào)用別人的包來(lái)實(shí)現(xiàn)的。但由于我們對(duì)金融數(shù)據(jù)有足夠多的了解,在實(shí)際應(yīng)用中發(fā)現(xiàn)了很多的不足,比如,一些小公司或者帶有特殊后綴的公司名,會(huì)識(shí)別不出來(lái)之類(lèi)的。
現(xiàn)在,我們也正在進(jìn)行進(jìn)一步的優(yōu)化,訓(xùn)練我們自己的NER模型,可以更準(zhǔn)確的識(shí)別出公司名。不過(guò)在得到我們自己訓(xùn)練的NER模型之前,我們先選擇了已有的NER技術(shù),因?yàn)楝F(xiàn)實(shí)的問(wèn)題是,如果你對(duì)所有的既有結(jié)果都不滿意,你是無(wú)法前進(jìn)的。我只是要強(qiáng)調(diào),別人的包你當(dāng)然可以用,只是不要盲目的相信這些包所產(chǎn)生的效果。
【技術(shù)2:態(tài)度】
下面探討關(guān)于態(tài)度的技術(shù)問(wèn)題。態(tài)度可能是正面、負(fù)面或是中性的,選擇3分法、5分法或者7分法,你自己要決定。5分法就比如把正面的態(tài)度進(jìn)一步拆分為比較正面和非常正面,負(fù)面的態(tài)度拆分為比較負(fù)面和非常負(fù)面。但需要注意,分到太細(xì)就沒(méi)有意義了,因?yàn)槲恼碌谋硎龅牧6纫彩怯邢薜模?strong>我個(gè)人是比較推薦5分法。
要如何實(shí)現(xiàn)這個(gè)態(tài)度分類(lèi)呢?我們采用了一種現(xiàn)在最進(jìn)步的TABSA-BERT的方法。其中,BERT是谷歌開(kāi)發(fā)出來(lái)的語(yǔ)言表征模型(language representation),也就是學(xué)會(huì)如何把詞/句轉(zhuǎn)化為對(duì)應(yīng)的詞/句向量(word/sentence embedding),是個(gè)已經(jīng)預(yù)先訓(xùn)練過(guò)了模型(pre-trained)。
我們?cè)谶@預(yù)訓(xùn)練模型的基礎(chǔ)上,針對(duì)具體的任務(wù)對(duì)參數(shù)做進(jìn)一步的微調(diào)(fine-tune)。那BERT的優(yōu)勢(shì)是什么呢?主要是BERT模型在將文句轉(zhuǎn)化為向量的過(guò)程中,不僅考慮了語(yǔ)義的環(huán)境,還讓文字之間的含義在數(shù)學(xué)的運(yùn)算上有了具體的含義。
舉兩個(gè)例子來(lái)具體說(shuō)明,
01
第一個(gè)是,“我喜歡吃蘋(píng)果”和“蘋(píng)果公司又推出了新產(chǎn)品”。這兩句話中的“蘋(píng)果”雖然在文字上是完全一樣的,但我們知道真實(shí)的含義是不一樣的,一個(gè)是水果、一個(gè)是公司。BERT學(xué)到的兩個(gè)“蘋(píng)果”對(duì)應(yīng)的詞向量也是不一樣的,因?yàn)锽ERT不僅會(huì)去學(xué)“蘋(píng)果”這個(gè)詞本身,還會(huì)考慮其處在的上下文語(yǔ)義。
02
另一個(gè)例子是,可以找到“國(guó)王”、“皇后”,”男人”、“女人”這四個(gè)詞對(duì)應(yīng)的詞向量之間的關(guān)系,這個(gè)關(guān)系幾乎等于:“國(guó)王”-”男人”+“女人”=“皇后”,這是挺神奇的吧。因?yàn)楣雀璧倪@個(gè)BERT模型很大,如果你想從頭就自己做,不僅需要專(zhuān)業(yè)知識(shí),而且還要花很多時(shí)間、用很強(qiáng)的電腦硬件。就像政府建的高速公路網(wǎng)一樣,你不會(huì)也沒(méi)能力自己去建個(gè)一樣的公路網(wǎng),谷歌提供的BERT預(yù)訓(xùn)練語(yǔ)言模型就相當(dāng)于是項(xiàng)基礎(chǔ)設(shè)施。
TABSA全稱(chēng)是Target Aspect-basedSentiment Analysis,這里其實(shí)就包含了我剛才講的三個(gè)維度了。
#Target(目標(biāo)的意思),在我們企業(yè)違約的分析中,企業(yè)就是我們的目標(biāo);
#Aspect(方面),相當(dāng)于我們的主題;
#SentimentAnalysis,代表了態(tài)度維度。
只不過(guò),在我們的分析中的主題必須被分的粒度為更細(xì),也就是要用剛才提到的Source-LDA方法單獨(dú)處理了。
另外需要注意的事項(xiàng)是,分析主題時(shí)候,應(yīng)以文章為單位的,判定一篇文章在多大程度上與信用主題相關(guān);但在我們分析態(tài)度時(shí)候,需以句子為單位。因?yàn)橐黄恼驴赡苤挥心承┖诵牡木渥犹岬搅四臣移髽I(yè),并表達(dá)了態(tài)度,而其它的句子或者是與這家企業(yè)無(wú)關(guān)的,或者是一些鋪墊而沒(méi)有表達(dá)態(tài)度的內(nèi)容。
另外,個(gè)別句子對(duì)企業(yè)的態(tài)度可能非常明確,但一篇文章卻不一定。
綜上,我們?cè)谶M(jìn)行態(tài)度分析時(shí),必須以句子為單位。在我們得到了每句話對(duì)企業(yè)的態(tài)度后,再整合成文章整體對(duì)企業(yè)表達(dá)的態(tài)度。
【架構(gòu)圖】
現(xiàn)在,我把剛才討論的思路用一個(gè)架構(gòu)圖來(lái)表示,提供一個(gè)整體的觀念。
首先,收集媒體報(bào)道的資源,儲(chǔ)存到資料庫(kù),我們通常用mongoDB這種非關(guān)系型數(shù)據(jù)庫(kù)來(lái)處理,因?yàn)樗m合存儲(chǔ)文本。
然后,從文章層面,對(duì)每一篇文本探索它與所關(guān)心的主題的相關(guān)度,這里需要對(duì)文章進(jìn)行刪除實(shí)體名、分詞、詞性還原、去掉停用詞、情感詞、數(shù)字、標(biāo)點(diǎn)符號(hào)等等一系列文字處理。
分詞,又稱(chēng)標(biāo)識(shí)化(Tokenization),是將文本分割成一小塊一小塊,每一個(gè)小塊叫一個(gè)token。分詞是最能體現(xiàn)出中文和英文的本質(zhì)上的差異:英文是以字為單位,一個(gè)字就可以表達(dá)完整的含義,中間已用空格或者標(biāo)點(diǎn)符號(hào)隔開(kāi);而中文則以詞為單位,且詞之間沒(méi)有間隔。
比如說(shuō),天氣這個(gè)詞,英文是weather,一個(gè)字,而中文,需要“天”和“氣”兩個(gè)字組成,因?yàn)閱为?dú)的“天”和“氣”都可能有其它的含義。中文和英文文本一旦得到準(zhǔn)確的分詞,后面的處理都極為類(lèi)似,都是把token數(shù)字化的過(guò)程。
你可能會(huì)說(shuō),中文和英文的文法結(jié)構(gòu)也不一樣啊。我以前也認(rèn)為文法的區(qū)別是很重要的,但我現(xiàn)在明白了,機(jī)器根本不需要提前知道不同語(yǔ)言的文法,因?yàn)檫@些都可以在訓(xùn)練中學(xué)習(xí)到。就像小孩子學(xué)語(yǔ)言,是不會(huì)管具體文法的,小孩子只是在不同情境下,簡(jiǎn)單的重復(fù)、模仿,文法就會(huì)自然呈現(xiàn)了。
所以,請(qǐng)大家記住,在自然語(yǔ)言處理中,中文和英文的核心差別只有分詞的差別。對(duì)于英文,我們很容易得到正確的分詞結(jié)果,中文沒(méi)有天然的分隔符號(hào),是一個(gè)字連著一個(gè)字的,我們?nèi)绾蔚玫椒衷~的結(jié)果呢?這個(gè)是比較麻煩的,但已經(jīng)有人做過(guò)這樣的工作了,我們可以借助現(xiàn)成的工具(包)讓我們的任務(wù)變得簡(jiǎn)單。
詞性還原(Lemmatization)主要是針對(duì)英文,需要把名詞單復(fù)數(shù)、動(dòng)詞的過(guò)去式、進(jìn)行式的時(shí)態(tài)還原成一般現(xiàn)在式等;
去掉停用詞(stopwords)主要是把文章中沒(méi)有實(shí)際含義,卻廣泛地出現(xiàn)在每篇文章中的詞拿掉,英文中例如the, of, it等等,中文里也有如“的”,“是”,“個(gè)”之類(lèi)的詞,這些詞如果保留會(huì)大大的增加機(jī)器學(xué)習(xí)的時(shí)間,卻不能對(duì)文章主題分類(lèi)有實(shí)際的貢獻(xiàn),這些停用詞庫(kù)可以直接在網(wǎng)上下載下來(lái)。
去掉情感詞(sentimentwords)是因?yàn)槲覀儾幌M屢黄恼卤硎龅那楦杏绊懼黝}的分類(lèi)。其余的包括去掉標(biāo)點(diǎn)和數(shù)字等環(huán)節(jié)也是在進(jìn)行主題分類(lèi)時(shí)候的一些必要的基本操作。
分析媒體文本對(duì)實(shí)體所表達(dá)的態(tài)度,我們以句子為單位(請(qǐng)注意這部分是一定需要包含實(shí)體名的。為什么以句子為單位請(qǐng)參考上文)。然后我們將整合到文章層面上表達(dá)的態(tài)度,與文章與主題的相關(guān)度加權(quán)匯總起來(lái),得到了文章基于主題對(duì)特定企業(yè)的輿情。再進(jìn)一步根據(jù)媒體、日期進(jìn)行整合,最后利用移動(dòng)平均得到關(guān)于企業(yè)在該主題上平滑的輿情因子的時(shí)間序列。之所以進(jìn)行移動(dòng)平均,是因?yàn)榭紤]一篇媒體的報(bào)道可能對(duì)未來(lái)一段時(shí)間都有一定程度的影響力。而移動(dòng)平均的時(shí)間窗口,則需要按照你的數(shù)據(jù)、研究問(wèn)題的不同而進(jìn)行相應(yīng)調(diào)整。
比如說(shuō),我們?cè)谘芯科髽I(yè)違約預(yù)測(cè)時(shí),設(shè)定了2星期的移動(dòng)平均窗口;但在研究綠色金融時(shí),設(shè)置的則是4個(gè)星期的窗口。
【文本數(shù)據(jù)庫(kù)】
目前,我們的資料庫(kù)里已經(jīng)有200萬(wàn)篇英文文章了,中文也有60多萬(wàn)篇,而這些數(shù)字還不斷的在增加中,明顯的,對(duì)海量文本的分析不靠機(jī)器學(xué)習(xí)是不現(xiàn)實(shí)的。
【被解釋變量Y】
現(xiàn)在來(lái)討論企業(yè)違約建模的具體考量。討論企業(yè)違約的本質(zhì)問(wèn)題,首先要明確兩個(gè)觀念,一個(gè)是“企業(yè)違約概率”(probability of default,PD);一個(gè)是“其它退出事件發(fā)生概率”(probability of other exit,POE),例如被收購(gòu)、上市公司私有化(退市)之類(lèi)的。分析公司的違約概率,不能忽略發(fā)生其它事件的概率,因?yàn)槿绻患疑鲜泄颈皇召?gòu)了,不再存在,還何談違約呢?
因此,一家企業(yè)未來(lái)是否發(fā)生違約,什么時(shí)候可能違約,和它存活多久的概率有關(guān),又與其它退出事件發(fā)生概率有關(guān)。比如從銀行放貸的角度看待其企業(yè)客戶,如果一家企業(yè)客戶轉(zhuǎn)向其它銀行申請(qǐng)貸款,那對(duì)于原來(lái)的銀行來(lái)說(shuō),就是一種企業(yè)退出事件的發(fā)生。因此,當(dāng)我們研究企業(yè)違約時(shí)候,也就是我們的Y變量,至少需分為3個(gè)狀態(tài),分別是0-存續(xù),1-違約、2-其它退出事件。
【解釋變量X和維度】
現(xiàn)在講一講X變量的數(shù)據(jù)維度。假設(shè)樣本有1萬(wàn)家上市公司(實(shí)際上是全球有8萬(wàn)家左右),如果有三個(gè)重要的共同風(fēng)險(xiǎn)因子(Common risk drivers),比如說(shuō)利率、油價(jià)、CPI,每一家公司又有杠桿率、流動(dòng)性等等5個(gè)個(gè)體因素(Individual attributes),影響公司違約概率。那么這X變量有多少維呢?1萬(wàn)家公司,每一家都有5維的個(gè)體因素,就是5萬(wàn)維了,再加上3維大家共用的風(fēng)險(xiǎn)因子,也就是50,003維,這是個(gè)正常的理解。
但以機(jī)器學(xué)習(xí)的角度,通常把它想象成8維,為什么?因?yàn)樗泄镜哪骋粋€(gè)個(gè)體因素,都是作為同一個(gè)X變量輸入到模型里去的,使用同一個(gè)模型參數(shù)。
但是如果要對(duì)個(gè)體公司做壓力測(cè)試,就不能忘記這原來(lái)是50,003維的問(wèn)題,因?yàn)槟愎镜母軛U跟我公司杠桿不是同樣的東西,兩個(gè)都是動(dòng)態(tài)的時(shí)間序列,并具備相關(guān)性,是不是?其實(shí)這個(gè)問(wèn)題本質(zhì)是50,003維,只不過(guò)機(jī)器學(xué)習(xí)在建模時(shí)候當(dāng)作8維。我們不能忘了這個(gè)數(shù)據(jù)本身的維數(shù)就是非常高的,而我們?cè)诮鹑趩?wèn)題上面臨的就是這樣的數(shù)據(jù),補(bǔ)充輿情分析的因子就是增加數(shù)據(jù)的維數(shù),增加X(jué)變量。
我們面對(duì)的數(shù)據(jù)是一個(gè)非常不完整的面板數(shù)據(jù),每個(gè)公司都是一條多維時(shí)間序列。但在某個(gè)時(shí)間點(diǎn),可能有些公司還沒(méi)有出現(xiàn),有些公司已經(jīng)倒閉或被并購(gòu)了,因此,這個(gè)面板數(shù)據(jù)肯定是很不完整的。面對(duì)這樣的數(shù)據(jù),這樣的Y和X,我們要探索它們之間的函數(shù)關(guān)系,以及判斷增加輿情因子是否有補(bǔ)強(qiáng)的效果。
【違約概率預(yù)測(cè)函數(shù)】
這個(gè)違約概率預(yù)測(cè)函數(shù)本身是很復(fù)雜的,因?yàn)樾枰紤]的因素非常的多。比如說(shuō),違約或上市概率一定會(huì)有期限結(jié)構(gòu),我們關(guān)心的可能是1個(gè)月之內(nèi)的違約也可能是3年之內(nèi)的違約。靠慮是否加入輿情因子,并不會(huì)影響函數(shù)的形式只會(huì)改變X變量維度。
【違約預(yù)測(cè)背景交代】
新國(guó)大的信用研究行動(dòng)計(jì)劃(NUS Credit Research Initiative, CRI)已經(jīng)進(jìn)行了12年了,我們提供關(guān)于全球超過(guò)8萬(wàn)家上市公司不同期限的違約概率預(yù)測(cè)數(shù)據(jù),大家都可以從公開(kāi)的平臺(tái)下載(如CRI官網(wǎng):http://nuscri.org)。很多金融機(jī)構(gòu),像國(guó)際貨幣基金組織(IMF)、商業(yè)銀行等都在用CRI產(chǎn)出的數(shù)據(jù)。
【輿情的補(bǔ)強(qiáng)功能】
因?yàn)榻Y(jié)構(gòu)化的金融數(shù)據(jù),已經(jīng)為企業(yè)違約預(yù)測(cè)提供了非常豐富的信息,我們只能期待,輿情因子起到補(bǔ)強(qiáng)的功能。
【輿情分析背景交代】
其實(shí)早在2014年,CRI研究團(tuán)隊(duì)就已經(jīng)開(kāi)始探索,輿情對(duì)于企業(yè)違約預(yù)測(cè)的作用,當(dāng)時(shí),我們采用的是RavenPack輿情指數(shù)。研究發(fā)現(xiàn),當(dāng)只采用輿情單因子進(jìn)行違約預(yù)測(cè)時(shí),輿情起到一定作用;但當(dāng)我們把它納入到既有預(yù)測(cè)模型時(shí),也就是和其它金融結(jié)構(gòu)化數(shù)據(jù)一起預(yù)測(cè)企業(yè)違約的時(shí)候,輿情因子并不能產(chǎn)生額外貢獻(xiàn)。
經(jīng)過(guò)了一年的努力,我們不得不遺憾宣告失敗。那時(shí)候的我們,目標(biāo)是十分明確的,但回頭仔細(xì)思考,發(fā)現(xiàn)采用的方法還是不成熟的,因?yàn)镽avenPack的輿情是一般性的輿情,并沒(méi)有考慮主題相關(guān)性問(wèn)題。
2019年7月,CRI重啟了輿情分析計(jì)劃,開(kāi)始自己生成主題明確的輿情因子。經(jīng)過(guò)不斷的探索,我很高興的告訴大家,這次我們得到了正面的成果,輿情對(duì)違約預(yù)測(cè)是有價(jià)值的,可以提供豐富的結(jié)構(gòu)化數(shù)據(jù)之外更多的信息。
我現(xiàn)在十分有信心,是因?yàn)槲覀儫o(wú)論在方向上還是方法上,都有了很大程度上的掌控。同時(shí),我們也相信、希望輿情因子可以更有效地用在為還沒(méi)上市的中小企業(yè),提供更多的信息,這也是我們重啟這個(gè)計(jì)劃的初衷。因?yàn)橹行∑髽I(yè)的財(cái)報(bào)沒(méi)有嚴(yán)格的審計(jì)、市場(chǎng)監(jiān)管,很可能是不夠準(zhǔn)確的。同時(shí),它們通常沒(méi)有上市,沒(méi)有那么多的結(jié)構(gòu)化數(shù)據(jù)提供信息,所以輿情至少在觀念上,可能會(huì)補(bǔ)充更多有用的信息。
【語(yǔ)料庫(kù)】
目前,我們收集的包括全球主流英文媒體金融時(shí)報(bào)、華爾街日?qǐng)?bào)和路透社的報(bào)道,中文收集了新浪財(cái)經(jīng)和財(cái)新網(wǎng)的報(bào)道。另外,我們還收集了東南亞本地媒體的報(bào)道(英文)。近期,我們也開(kāi)始建立其它語(yǔ)言的輿情,比如印尼語(yǔ)。在了解了中英文在分詞上的本質(zhì)差異后,我們自然對(duì)處理其它語(yǔ)言時(shí)充滿信心。
【樣本描述】
英文文本方面,我們先以美國(guó)和加拿大交易所上市的17,816家公司為例進(jìn)行驗(yàn)證。考慮文本歷史覆蓋時(shí)間后,我們最終采用的是從1998年6月到2020年12月,共近148萬(wàn)條月度樣本,其中,有1,681個(gè)違約事件,15,597條屬于其它退出事件。不難發(fā)現(xiàn),像被收購(gòu)、退市之類(lèi)的其它退出事件是違約事件的將近10倍。
但中國(guó)的樣本具有不同的特征,CRI關(guān)于中國(guó)大陸交易所的4,294家上市公司所對(duì)應(yīng)的樣本中,有1,747個(gè)違約事件,但其它退出事件只有544個(gè)。這是因?yàn)?,中?guó)上市公司的殼資源很有價(jià)值錢(qián),再不濟(jì)也可以通過(guò)借殼避免退市(目前,中國(guó)的退市機(jī)制也在不斷的完善中)。
【變量描述】
那前面提到我們的輿情因子采用的是五分法,從-2到+2。其中,0代表中性的態(tài)度。對(duì)于輿情缺失的時(shí)間點(diǎn),就是在當(dāng)月沒(méi)有媒體報(bào)道一家公司時(shí),我們也放入0。但要注意,此0非彼0(態(tài)度中性的0和填充缺失值的0)。
所以我們?cè)黾右粋€(gè)啞變量(dummy),用來(lái)區(qū)分兩個(gè)0代表著不同含義。這個(gè)是統(tǒng)計(jì)上的處理方法,當(dāng)一家公司在某月有媒體報(bào)道時(shí),無(wú)論報(bào)道的態(tài)度是如何,啞變量都設(shè)置為1,但當(dāng)在那時(shí)間點(diǎn)上沒(méi)有媒體報(bào)道時(shí),則設(shè)為0。可以想象,大部分公司在大部分時(shí)間點(diǎn)都不會(huì)被媒體報(bào)道,啞變量都為0。另一方面,啞變量也有經(jīng)濟(jì)的含義,也就是某家公司是否被媒體關(guān)注,代表著被關(guān)注本身也可能具有意義。
【統(tǒng)計(jì)結(jié)果】
現(xiàn)在,我們采用邏輯回歸(logistic regression)的方法來(lái)展示最終的效果。這個(gè)方法雖然不是CRI系統(tǒng)采用的較為復(fù)雜、高質(zhì)量的統(tǒng)計(jì)模型,但邏輯回歸非常直觀、簡(jiǎn)單,便于非信用風(fēng)險(xiǎn)專(zhuān)業(yè)人士的理解。
圖表中對(duì)應(yīng)的Y為1和2,分別代表企業(yè)一年內(nèi)發(fā)生違約或者其它退出事件的邏輯回歸結(jié)果。其中,dummy就是我們剛才提到的啞變量,predictedlabel就是輿情因子。標(biāo)X的是其它解釋變量。
可以看到,無(wú)論是我們用美國(guó)和加拿大的英文輿情因子(P21),還是中國(guó)大陸的中文輿情因子(P23),在對(duì)違約事件的邏輯回歸中,統(tǒng)計(jì)上都是非常顯著的,而且對(duì)應(yīng)的系數(shù)為負(fù),方向也是符合經(jīng)濟(jì)常識(shí),即輿情因子越正面,企業(yè)的違約風(fēng)險(xiǎn)越小。
而在其他退出事件的邏輯回歸中(P22,P24),可以看到,相比輿情因子,啞變量在兩組樣本的邏輯回歸中在統(tǒng)計(jì)上更顯著,說(shuō)明一家公司被報(bào)道這件事本身更有助于預(yù)測(cè)其他退出事件的發(fā)生。你可能會(huì)質(zhì)疑,統(tǒng)計(jì)上的顯著在經(jīng)濟(jì)層面上不一定有實(shí)際用途。比如,統(tǒng)計(jì)上我驗(yàn)證了兩塊錢(qián)跟三塊錢(qián)有很大的差別,但是我對(duì)兩、三塊錢(qián)之間的差異根本不在乎。
【PD變化】
接下來(lái),我們看看加入輿情因子,違約概率實(shí)際上發(fā)生了多大的變化。這里都是以基點(diǎn)(即萬(wàn)分點(diǎn),bps)為單位的。因?yàn)檫`約本來(lái)就屬偶發(fā)事件,所以哪怕是10個(gè)基點(diǎn),其實(shí)已經(jīng)是很大的違約率了。比如統(tǒng)計(jì)顯示,一家信用評(píng)級(jí)為BBB的企業(yè),一年內(nèi)違約的概率大概是15個(gè)基點(diǎn),所以5個(gè)基點(diǎn)的變化都不能被輕視的。所以,根據(jù)兩組違約概率差異分布圖,可以看到輿情因子的影響還是很大的。
【PD衍生評(píng)級(jí)變化】
我們可以進(jìn)一步將預(yù)測(cè)違約概率的差異具象到信用評(píng)級(jí)層次上。
首先要了解,信用越好的公司,只要它的違約概率發(fā)生了些微的變化,對(duì)應(yīng)的信用評(píng)級(jí)就會(huì)變化很大。以標(biāo)準(zhǔn)普爾(S&P)的劃分方法將PD對(duì)應(yīng)到信用評(píng)級(jí)上,可以看到,美國(guó)和加拿大的57,175個(gè)有輿情的數(shù)據(jù)點(diǎn)中,6,400個(gè)數(shù)據(jù)點(diǎn)的信用評(píng)級(jí)都發(fā)生了變化,其中,包含5,417個(gè)數(shù)據(jù)點(diǎn)的信用評(píng)級(jí)都下降了一級(jí)(notch),比如BBB就會(huì)變成BBB-。
中國(guó)大陸上市公司的資料,有14,367個(gè)包含輿情的數(shù)據(jù)點(diǎn),其中5,929個(gè)數(shù)據(jù)點(diǎn)都因?yàn)檩浨榈募尤攵淖兞嗽瓉?lái)的信用評(píng)級(jí),甚至有2、3級(jí)上的變化。這驗(yàn)證了輿情因子不僅在統(tǒng)計(jì)顯著上,在使用層面也會(huì)帶來(lái)明顯的價(jià)值。
【POE變化】
對(duì)于其它退出事件(比如被并購(gòu)、私有化)的發(fā)生概率上,橘色和藍(lán)色分別代表考慮輿情因子前后,其它退出事件概率的分布圖??梢钥闯觯尤胼浨橐蜃雍?,其它退出事件的概率比之前大了很多(中文同理)。如果說(shuō),違約的預(yù)測(cè)有助于進(jìn)行風(fēng)險(xiǎn)管理,那么并購(gòu)標(biāo)的的預(yù)測(cè)則對(duì)投資非常重要,因?yàn)楸皇召?gòu)的公司往往可以獲得高額的溢價(jià),股票會(huì)大漲。
根據(jù)上述的描述可確認(rèn),主題、主體明確的輿情分析,在中英文本上都已經(jīng)發(fā)生了明顯的效果,也達(dá)到甚至超出了我們的目標(biāo),即利用另類(lèi)數(shù)據(jù)構(gòu)建的因子,有望補(bǔ)強(qiáng)原有的預(yù)測(cè)模型的準(zhǔn)確度,其補(bǔ)強(qiáng)效果顯著。
當(dāng)然,我們不能期待輿情因子可以在每一家公司上發(fā)揮作用,因?yàn)槊襟w不會(huì)對(duì)所有公司都進(jìn)行報(bào)道,但一家公司只要被報(bào)道,輿情就可能帶著有用的信息。
2
案例分析
GameStop(游戲驛站)-違約概率
現(xiàn)在檢視一個(gè)今年年初鬧得沸沸揚(yáng)揚(yáng)的案例GameStop(游戲驛站),反映了一場(chǎng)社交媒體和正式媒體的大戰(zhàn)。在圖中可以看到(灰色的條),正式媒體的報(bào)道都是表達(dá)了負(fù)面的態(tài)度,但是我們知道,社交媒體對(duì)GameStop的評(píng)價(jià)是非常正面的。在那段時(shí)間,股價(jià)完全反映了社交媒體的意見(jiàn)。
但我們也知道,GameStop已經(jīng)是沒(méi)有前途的公司,它的違約風(fēng)險(xiǎn)也應(yīng)該不低,而它瘋狂暴漲的股價(jià)完全沒(méi)有客觀地反映該公司的基本面。根據(jù)我們的邏輯回歸模型,股價(jià)的大漲會(huì)相應(yīng)地降低違約概率的預(yù)測(cè)值。
我之所以選這個(gè)案例,是想看看正式媒體表達(dá)的客觀、負(fù)面的態(tài)度評(píng)論,能否扭轉(zhuǎn)社交媒體正面評(píng)價(jià)所帶來(lái)的影響。但我們也可以看到,扭轉(zhuǎn)的效果還是不夠的,因?yàn)楣蓛r(jià)的效果實(shí)在很強(qiáng),也就是說(shuō),傳統(tǒng)金融資料對(duì)模型的解釋力是極強(qiáng)的。不過(guò),GameStop目前也還沒(méi)有違約或倒閉,所以我們只是從模型的角度來(lái)看看在極端情況下的一種預(yù)測(cè)。
案例分析
天齊鋰業(yè)-違約概率
我們?cè)倏匆患乙呀?jīng)發(fā)生違約的中國(guó)上市公司,天齊鋰業(yè)。
圖中可以看到,藍(lán)色的加入輿情因子后的違約概率比原來(lái)模型預(yù)測(cè)的顯著增加。所以,無(wú)論是從整體還是案例層面,輿情因子都是非常有用的。
案例分析
Solar City(太陽(yáng)城)-并購(gòu)概率
我們?cè)賮?lái)檢視并購(gòu)的例子。美國(guó)的案例是SolarCity(太陽(yáng)城),這是家被Tesla在2016年以高溢價(jià)收購(gòu)的公司,但在今年年初又惹出了法律問(wèn)題,打了官司。圖中顯示,在原來(lái)模型加入輿情后,被并購(gòu)的概率就上升了,而且數(shù)據(jù)告訴我們,媒體報(bào)道態(tài)度的方向是不重要的,只要被媒體報(bào)道,被收購(gòu)的概率就會(huì)增大。
仔細(xì)想想,應(yīng)該會(huì)覺(jué)得這是很合理的結(jié)果:因?yàn)槊襟w報(bào)道的態(tài)度對(duì)違約預(yù)測(cè),應(yīng)該是有方向性的,越負(fù)面,違約概率越大。但在收購(gòu)預(yù)測(cè)層面,信用越差,越可能成為被收購(gòu)的目標(biāo);信用特別好,也可能成為被并購(gòu)的目標(biāo)。因?yàn)槭召?gòu)方既可以去低價(jià)買(mǎi)入爛公司,也可能高溢價(jià)收購(gòu)好公司,所以這個(gè)結(jié)果是很合理的。
尾 聲
獲得這些成果,我其實(shí)是很驚喜的。因?yàn)槲以?jīng)設(shè)想,輿情可能就像牛反芻一樣,看了財(cái)報(bào)、其它金融信息,然后表達(dá)了相應(yīng)的意見(jiàn),而我們的模型已經(jīng)包含了財(cái)報(bào)、股價(jià)等等信息。但科學(xué)分析的結(jié)果告訴我們,輿情是有補(bǔ)強(qiáng)價(jià)值的。一旦我們掌握了問(wèn)題的關(guān)鍵,解決問(wèn)題的方向和方法,我們就可以得到更科學(xué)的答案。
3
問(wèn)答環(huán)節(jié)
Q1
目前有部分的金融企業(yè)輿情分析存在著數(shù)據(jù)來(lái)源單一、覆蓋率不足、數(shù)據(jù)挖掘的程度不深等問(wèn)題,這會(huì)導(dǎo)致輿情分析判斷不夠準(zhǔn)確嗎?可以請(qǐng)段老師給我們一些建議嗎?
答:輿情分析的數(shù)據(jù)是永遠(yuǎn)不會(huì)夠的,我認(rèn)為最重要的問(wèn)題不是這個(gè)媒體來(lái)源,媒體來(lái)源一定是有限制的。你要做個(gè)判斷:是不是要離開(kāi)正式媒體(轉(zhuǎn)而選擇社交媒體或者其他數(shù)據(jù)),剩下的就是技術(shù)問(wèn)題。所以,你首先要了解我講的三維問(wèn)題,把三維問(wèn)題想清楚后,再做輿情分析才會(huì)比較有效。很多人分析的結(jié)果不成功是因?yàn)橛^念上的問(wèn)題,導(dǎo)致即使做出技術(shù)上正確的分析,也不一定會(huì)有結(jié)果。
另一方面,如果選擇的媒體本身品質(zhì)不高,我們技術(shù)上分析得好也可能沒(méi)有額外信息。所以我認(rèn)為做了一定程度的努力再做判斷是比較好的方法。我今天在講座里面講了很多觀念問(wèn)題,但如果從純粹的技術(shù)層次說(shuō),高手跟普通人確實(shí)是有差別的。同樣的東西,比如你看了一本秘籍,你就體會(huì)跟另外一個(gè)人體會(huì)不一樣。
所以基本功還是個(gè)挺重要的事情,我希望今天參與我這個(gè)講座的同學(xué)能收獲到正確的思維方式,這樣也可以和專(zhuān)業(yè)人士進(jìn)行比較具體的溝通。
我覺(jué)得就能達(dá)到今天講座的目的,但是要變成專(zhuān)家,還是很長(zhǎng)的路程,就必須要做很多努力。
Q2
面對(duì)突發(fā)的金融事件,如何快速的進(jìn)行輿情風(fēng)險(xiǎn)分析呢?
答:我現(xiàn)在講的輿情分析是根據(jù)我們做出來(lái)的系統(tǒng),來(lái)分析企業(yè)的每日輿情動(dòng)態(tài),系統(tǒng)是天天產(chǎn)生新的東西,所以我講座中談到,要關(guān)注“主題”。
現(xiàn)在我關(guān)心的兩個(gè)主題:一個(gè)是信用的問(wèn)題,一個(gè)是綠色金融的問(wèn)題。我們的系統(tǒng)中每天都會(huì)產(chǎn)生針對(duì)這兩個(gè)非常明確的主題的新的輿情結(jié)果。所以突發(fā)金融事件發(fā)生時(shí),我們的系統(tǒng)都可以及時(shí)捕捉到。
因此,你要先想的是輿情分析的目的是什么:做研究或者做報(bào)告是一個(gè)目的,update(更新)是另一個(gè)目的,因此我們要目標(biāo)明確,應(yīng)對(duì)突發(fā)事件只要媒體報(bào)道,我們就可以知道結(jié)果了。
Q3
段老師,如果我們的模型越來(lái)越完善,可以越來(lái)越準(zhǔn)確的預(yù)測(cè),那這個(gè)模型會(huì)不會(huì)被反向利用?發(fā)布對(duì)公司有用的信息,最后又不準(zhǔn)了,就這個(gè)問(wèn)題,段老師您怎么看?
答:你提到的模型在所謂的社會(huì)科學(xué)里面有一個(gè)基本的辯論,我們對(duì)社會(huì),對(duì)行為的越發(fā)了解,會(huì)反過(guò)來(lái)改變行為。
但是我現(xiàn)在講的這個(gè)事情不會(huì)發(fā)生,因?yàn)槲医裉煊玫氖钦矫襟w,是有一套系統(tǒng)跟管控的。比如,華爾街日?qǐng)?bào)不會(huì)做虛假報(bào)道,尤其是為了讓某個(gè)模式產(chǎn)生效果的虛假報(bào)道。所以,你說(shuō)的情況在正式媒體上的發(fā)生的幾率是非常小的,模型反映的是現(xiàn)實(shí)。
因此,我個(gè)人認(rèn)為在正式媒體上,沒(méi)必要擔(dān)心文章的出現(xiàn)會(huì)影響事件本身。
Q4
老師還提到您做的輿情因子是針對(duì)上市公司的,也可以更好的補(bǔ)充對(duì)中小微企業(yè)的信息補(bǔ)充。但會(huì)不會(huì)媒體更傾向于報(bào)道大型公司,比如蘋(píng)果、特斯拉、貴州茅臺(tái),而對(duì)中小微企業(yè)的報(bào)道很少的。老師是否有這方面的衡量呢?
答:媒體是會(huì)有這樣的傾向的。因?yàn)槟悴荒苤竿A爾街日?qǐng)?bào)去報(bào)道印尼的一家小公司。我們對(duì)此也有所考量。所以,我們除了國(guó)際上大型的新聞媒體之外,還收集了不同國(guó)家的地方媒體資料(尤其是東南亞AEAN國(guó)家的),甚至包括地方語(yǔ)言(比如印尼語(yǔ))的資料。
Q5
目前市面上不少利用各種另類(lèi)數(shù)據(jù),比如電信賬單、支付記錄之類(lèi)的來(lái)做中小微企業(yè)的輿情,段老師有這種打算嗎?
答:除了傳統(tǒng)數(shù)據(jù),新聞報(bào)道是另類(lèi)資料的一種,你剛提到的電信賬單、支付記錄之類(lèi)數(shù)據(jù)也是另類(lèi)資料的一種。另類(lèi)資料是無(wú)處不在、無(wú)窮無(wú)盡的,如果任何數(shù)據(jù)都拿來(lái)用,那我們就被另類(lèi)數(shù)據(jù)綁住了。
因此,我們首先要明確,另類(lèi)資料在我們的研究問(wèn)題中(預(yù)測(cè))不是來(lái)取代傳統(tǒng)資料,而是用于補(bǔ)強(qiáng)的。因?yàn)閭鹘y(tǒng)的金融數(shù)據(jù)已經(jīng)包含了十分豐富的信息,這是我們的核心研究。
在其基礎(chǔ)上,我們?nèi)缃耱?yàn)證了,媒體的報(bào)道確實(shí)對(duì)企業(yè)違約預(yù)測(cè)具有顯著地補(bǔ)強(qiáng)作用。所以,對(duì)于另類(lèi)數(shù)據(jù),我們一直是基于這個(gè)補(bǔ)強(qiáng)作用來(lái)考量。至于將來(lái),我們會(huì)采用何種另類(lèi)數(shù)據(jù)進(jìn)一步探索,主要還是根據(jù)我們的研究問(wèn)題,重要程度、數(shù)據(jù)的可獲得性等等多個(gè)層面來(lái)決定的。
Q6
老師對(duì)于輿情因子在企業(yè)違約預(yù)測(cè)中的作用進(jìn)行了細(xì)致的講解,讓我們受益匪淺。同時(shí),老師還提到的在綠色金融中的應(yīng)用,可以稍微再展開(kāi)一些嗎?另外,老師對(duì)于輿情因子在我們投資中的應(yīng)用方式,有什么建議嗎?因?yàn)槔蠋熞恢痹趶?qiáng)調(diào)的“主題”好像比較少在投資領(lǐng)域聽(tīng)到。
答:我先講投資領(lǐng)域的應(yīng)用。剛剛在我們分析的結(jié)果時(shí),你可以看到輿情因子已經(jīng)能夠幫助預(yù)測(cè)企業(yè)并購(gòu)/收購(gòu)的發(fā)生,這在投資上就很有用。因?yàn)槲覀兌贾廊绻患移髽I(yè)變成被并購(gòu)/收購(gòu)的目標(biāo),股價(jià)往往會(huì)漲得很厲害(溢價(jià)收購(gòu))。所以如果能增加準(zhǔn)確度,這就是一個(gè)很好的投資的方式。
另外,對(duì)于綠色金融也好,其他應(yīng)用也好,還是我一直強(qiáng)調(diào)的,要明確做這項(xiàng)技術(shù)的目的。我們要區(qū)分,想產(chǎn)生的是Y變量還是X變量。我在講座里也談到的,Y變量是預(yù)測(cè)的結(jié)果,X變量是用于預(yù)測(cè)的變量。例如,我根據(jù)企業(yè)在信用主題上的輿情,來(lái)預(yù)測(cè)公司發(fā)生違約的幾率。那輿情因子就是我們的X變量。關(guān)于綠色金融的輿情因子,那么就需要明確我們要利用綠色金融來(lái)做什么?我的目標(biāo)是做企業(yè)在綠色金融的輿情分析,了解企業(yè)在綠色金融上的貢獻(xiàn),也就是產(chǎn)生Y變量,而不是產(chǎn)生X變量用于幫助解釋其他。
圖文/新加坡國(guó)立大學(xué)EMBA官方微信
您填的信息已提交,老師會(huì)在24小時(shí)之內(nèi)與您聯(lián)系
如果還有其他疑問(wèn)請(qǐng)撥打以下電話