時(shí)間:2023-07-21 16:49:02
導(dǎo)言:作為寫作愛(ài)好者,不可錯(cuò)過(guò)為您精心挑選的10篇網(wǎng)絡(luò)輿情分析研究現(xiàn)狀,它們將為您的寫作提供全新的視角,我們衷心期待您的閱讀,并希望這些內(nèi)容能為您提供靈感和參考。
中圖分類號(hào):TP393文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2011)04-0759-03
The Design of the Detection and Analysis of Public Opinion Intelligent Network System
YANG Qiu-ping
(Dongguan University of Technology, Network Information Center, Dongguan 523808, China)
Abstract: We pay more and more attention to network public sentiment. Especially, the government concerns the net post and net news of emergencies and important events. Then, the special systems for analysis network public sentiment exist. Firstly, this article analysis the systems of network public sentiment, and then finds out their shortages and study the correlative techniques. At last, this article introduces a new way to build a network public sentiment detecting and analysis system.
Key words: intelligent detecting and analysis; network public sentiment; data mining
隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)媒體作為一種新的信息傳播形式,已深入人們的日常生活。網(wǎng)絡(luò)言論活躍已達(dá)到前所未有的程度,不論是對(duì)國(guó)家政策的討論,還是針對(duì)國(guó)內(nèi)或國(guó)際的重大事件,都能馬上形成網(wǎng)上輿論,這種網(wǎng)絡(luò)來(lái)表達(dá)觀點(diǎn)、傳播思想產(chǎn)生輿論壓力,達(dá)到任何部門、機(jī)構(gòu)都無(wú)法忽視的地步。
網(wǎng)絡(luò)輿情通過(guò)BBS論壇、博客、新聞跟貼、轉(zhuǎn)貼等形式對(duì)現(xiàn)實(shí)生活中某些熱點(diǎn)、焦點(diǎn)問(wèn)題等進(jìn)行反應(yīng),其中不乏較強(qiáng)影響力、傾向性的言論和觀點(diǎn)。如果引導(dǎo)不善,負(fù)面的網(wǎng)絡(luò)輿情將對(duì)社會(huì)公共安全形成較大威脅。對(duì)相關(guān)政府部門來(lái)說(shuō),如何加強(qiáng)對(duì)網(wǎng)絡(luò)輿論的及時(shí)監(jiān)測(cè)、有效引導(dǎo),以及對(duì)網(wǎng)絡(luò)輿論危機(jī)的積極化解,對(duì)維護(hù)社會(huì)穩(wěn)定、促進(jìn)國(guó)家發(fā)展具有重要的現(xiàn)實(shí)意義,也是創(chuàng)建和諧社會(huì)的應(yīng)有內(nèi)涵。
1 系統(tǒng)價(jià)值
1.1 社會(huì)效益分析
網(wǎng)絡(luò)輿情智能監(jiān)測(cè)與分析系統(tǒng)利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)輿情的統(tǒng)計(jì)分析,并以此作為網(wǎng)絡(luò)輿情監(jiān)測(cè)的管理的依據(jù)。具體作用表現(xiàn)在以下幾個(gè)方面:
1) 系統(tǒng)向決策者提供客觀、準(zhǔn)確的輿情信息,有利于決策者做出正確的決策
2) 系統(tǒng)向決策者提供系統(tǒng)的、高效的、綜合的、全面的輿情信息,便于決策者全面的、正確的把握所需的信息, 提高決策效率, 啟迪決策思維
3) 系統(tǒng)能提供各種輿情的趨勢(shì)分析信息給決策者
1.2 經(jīng)濟(jì)效益分析
目前,由于互聯(lián)網(wǎng)的日益普及,各種輿情的不斷涌現(xiàn),好的、壞的都有。政府部門、大型機(jī)構(gòu)、社會(huì)企業(yè)等都希望能盡早識(shí)別不良傾向的、帶有煽動(dòng)或甚至含有社會(huì)危害的言論,或者是獲取政策落實(shí)、制度實(shí)施效果等信息。這些需要揭示了系統(tǒng)建設(shè)在帶來(lái)巨大的社會(huì)價(jià)值的同時(shí)帶來(lái)巨大的經(jīng)濟(jì)效益。
2 同類系統(tǒng)現(xiàn)狀
基于目前的網(wǎng)絡(luò)現(xiàn)狀,為數(shù)不多的網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)基本上是采用關(guān)鍵詞搜索進(jìn)行輿情信息檢測(cè),由于關(guān)鍵詞搜索的查全率和查準(zhǔn)率都不高,因此網(wǎng)絡(luò)輿情監(jiān)測(cè)的效果不夠理想,更是無(wú)法自動(dòng)發(fā)現(xiàn)新的輿情點(diǎn)。
部分網(wǎng)絡(luò)輿情檢測(cè)系統(tǒng)只是在企業(yè)內(nèi)部使用,無(wú)法適用于政府部門等大型機(jī)構(gòu),部分系統(tǒng)采用的算法效率低,不能快速對(duì)數(shù)據(jù)進(jìn)行處理,因而無(wú)法滿足超大網(wǎng)絡(luò)環(huán)境下的輿情檢測(cè)與分析,無(wú)法做到自學(xué)習(xí)成長(zhǎng),沒(méi)有類似知識(shí)庫(kù)的自動(dòng)累積處理功能,必須人工協(xié)助處理。基于此種情況,提出創(chuàng)建《網(wǎng)絡(luò)輿情智能檢測(cè)與分析系統(tǒng)》項(xiàng)目來(lái)解決這些問(wèn)題。
3 網(wǎng)絡(luò)輿情智能檢測(cè)與分析系統(tǒng)簡(jiǎn)介
該系統(tǒng)核心部分包括信息獲取、信息處理、前端信息展現(xiàn)幾個(gè)部分。實(shí)現(xiàn)從網(wǎng)頁(yè)獲取數(shù)據(jù),利用數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)進(jìn)行清洗、提煉、分析總結(jié),最終形成決策信息并存入數(shù)據(jù)庫(kù)中,提供靈活的前端查詢機(jī)制,把信息傳遞給決策人員。
網(wǎng)絡(luò)輿情智能檢測(cè)與分析系統(tǒng)實(shí)現(xiàn)以下目標(biāo):1) 對(duì)熱點(diǎn)話題、敏感話題識(shí)別。2) 實(shí)現(xiàn)傾向性分析。3) 實(shí)現(xiàn)對(duì)輿情主題的跟蹤。4) 自動(dòng)形成輿情摘要。5) 形成趨勢(shì)分析報(bào)告。6) 自動(dòng)識(shí)別突發(fā)事件及發(fā)展趨勢(shì)。7) 對(duì)敏感內(nèi)容實(shí)現(xiàn)預(yù)警。8) 提供輿情分析統(tǒng)計(jì)報(bào)告提供決策支持。
4 系統(tǒng)關(guān)鍵技術(shù)研究
4.1 網(wǎng)絡(luò)輿情行為模式識(shí)別技術(shù)
對(duì)于“行為模式識(shí)別”算法應(yīng)用最廣和成熟的是防垃圾郵件的“行為模式識(shí)別技術(shù)”。在垃圾郵件的行為模式識(shí)別技術(shù)的基礎(chǔ)上,根據(jù)網(wǎng)絡(luò)輿情的特點(diǎn),輿情內(nèi)容內(nèi)在結(jié)構(gòu)關(guān)系、演化規(guī)律等基礎(chǔ)信息,收集網(wǎng)絡(luò)上典型的熱點(diǎn)話題、敏感話題、政策熱議等方面的適當(dāng)數(shù)量的文章組成行為識(shí)別學(xué)習(xí)訓(xùn)練庫(kù),利用網(wǎng)上話題的熱度、焦度、敏度、頻度、銳度、歧度、粘度等度量指標(biāo)作為輿情分析的依據(jù),配以科學(xué)的算法,通過(guò)對(duì)“訓(xùn)練庫(kù)“進(jìn)行學(xué)習(xí)及總結(jié)、計(jì)算,結(jié)合網(wǎng)絡(luò)輿情信息產(chǎn)生和傳播的典型行為特征,建立網(wǎng)絡(luò)輿情行為模式數(shù)學(xué)統(tǒng)計(jì)模型,以此實(shí)現(xiàn)網(wǎng)絡(luò)輿情的智能發(fā)現(xiàn)。
4.2 自動(dòng)分類和聚類技術(shù)[1]
自動(dòng)分類是指按照已有的分類,把相關(guān)信息按照分類的標(biāo)準(zhǔn)進(jìn)行歸類。聚類則事先沒(méi)有定義特點(diǎn)的分類及標(biāo)準(zhǔn),是在分析過(guò)程中利用一定的算法,把類似的內(nèi)容進(jìn)行自動(dòng)劃類并聚合的處理過(guò)程。
根據(jù)輿情分析的特點(diǎn),本系統(tǒng)基于統(tǒng)計(jì)的自動(dòng)分類技術(shù),利用向量空間模型來(lái)表示輿情分析的文檔。對(duì)輿情文檔特征進(jìn)行抽取和加權(quán)、機(jī)器學(xué)習(xí)。在處理過(guò)程中,考慮到不同位置出現(xiàn)的語(yǔ)詞的價(jià)值不同而給定不同的加權(quán)系數(shù)。機(jī)器學(xué)習(xí)的方法主要有支撐向量機(jī)、最近K鄰居方法和貝葉斯算法[2] 等,可以根據(jù)輿情文檔的特點(diǎn)而選擇相應(yīng)的方法。
輿情文檔自動(dòng)聚類的關(guān)鍵步驟有文檔表示、相似度計(jì)算、聚類和給出聚類標(biāo)識(shí)等。常用的聚類方法有單遍聚類法、逆中心距聚類法、密度測(cè)試法、圖聚類法等。在網(wǎng)絡(luò)輿情分析中,根據(jù)輿情分析的目的,選擇那些最具有區(qū)分性的特征,而不是大多數(shù)文檔都具有的特征來(lái)實(shí)現(xiàn)自動(dòng)聚類。
在本系統(tǒng)解決方案中采取了自動(dòng)歸類和自動(dòng)聚類相結(jié)合的方式,先進(jìn)行自動(dòng)歸類,再在各類別之下進(jìn)行自動(dòng)聚類。
4.3 內(nèi)容分析技術(shù)
內(nèi)容分析法是一種對(duì)于傳播內(nèi)容進(jìn)行客觀,系統(tǒng)和定量的描述的研究方法。其實(shí)質(zhì)是對(duì)傳播內(nèi)容所含信息量及其變化的分析,即由表征的有意義的詞句推斷出準(zhǔn)確意義的過(guò)程。內(nèi)容分析的過(guò)程是層層推理的過(guò)程。隨著信息技術(shù)的發(fā)展,計(jì)算機(jī)的性能不斷提高,各種內(nèi)容分析技術(shù)也逐漸成熟,為網(wǎng)絡(luò)輿情的深度挖掘分析奠定了很好的基礎(chǔ)。
《內(nèi)容分析法:媒介信息量化研究技巧》[3]一書提供了系統(tǒng)全面的內(nèi)容分析研究的操作指南,深入分析了內(nèi)容分析中的各種常見(jiàn)問(wèn)題,如測(cè)量、抽樣、信度、效度和數(shù)據(jù)分析中的各種技術(shù)。在進(jìn)行網(wǎng)絡(luò)輿情內(nèi)容分析前,獲取相關(guān)網(wǎng)絡(luò)輿情數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)清洗,獲取有針對(duì)性的、信息量大、覆蓋全面的、連續(xù)的內(nèi)容樣例,定義分析單元。對(duì)數(shù)據(jù)進(jìn)行量化處理形成評(píng)判記錄和進(jìn)行信度分析兩部分內(nèi)容,再根據(jù)網(wǎng)絡(luò)輿情建立合適的維度,最后進(jìn)行統(tǒng)計(jì)分析,并形成分析結(jié)論。
5 系統(tǒng)實(shí)現(xiàn)
在系統(tǒng)開發(fā)過(guò)程中,要建立了若干知識(shí)庫(kù),利用垂直搜索、知識(shí)發(fā)現(xiàn)、自動(dòng)分詞和抽詞、自動(dòng)分類和聚類、內(nèi)容分析等技術(shù),實(shí)現(xiàn)對(duì)海量網(wǎng)絡(luò)信息進(jìn)行監(jiān)測(cè)、網(wǎng)絡(luò)輿情的自動(dòng)發(fā)現(xiàn)和分析。該系統(tǒng)建設(shè)的核心是要收集圍繞主題的、足夠量的數(shù)據(jù),并經(jīng)過(guò)整理形成規(guī)范數(shù)據(jù)再進(jìn)行挖掘,輸出有用的決策信息,系統(tǒng)結(jié)構(gòu)圖如圖1所示。
系統(tǒng)涉及五個(gè)主要方面:
5.1 數(shù)據(jù)收集處理
進(jìn)行網(wǎng)絡(luò)輿情分析的前提是獲取基于某個(gè)主題的、數(shù)量足夠多的、完整的網(wǎng)絡(luò)數(shù)據(jù)。為了解決這個(gè)問(wèn)題,系統(tǒng)建設(shè)時(shí)考慮通過(guò)建立數(shù)據(jù)收集規(guī)則來(lái)達(dá)到此目的。在數(shù)據(jù)收集規(guī)則時(shí)主要考慮要收集的主題、要搜索的范圍、更新頻度、收集要到達(dá)的數(shù)據(jù)量等。
在規(guī)則制定后,信息收集組件利用類似“網(wǎng)絡(luò)爬蟲”的技術(shù),按照已經(jīng)設(shè)置的收集規(guī)則,到網(wǎng)絡(luò)上進(jìn)行數(shù)據(jù)收集。 數(shù)據(jù)收集后按照主題歸于相應(yīng)的數(shù)據(jù)庫(kù)中,以便下一步的數(shù)據(jù)處理。
5.2 信息處理模塊
需要把收集的數(shù)據(jù)轉(zhuǎn)為有用的信息,在收集到相關(guān)數(shù)據(jù)后,先期對(duì)已經(jīng)收集完成的數(shù)據(jù)進(jìn)行格式化、數(shù)據(jù)清洗、信息處理加工等步驟,最終形成規(guī)范的、適于統(tǒng)計(jì)的數(shù)據(jù)。然后再利用數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)進(jìn)行挖掘,形成相應(yīng)的統(tǒng)計(jì)信息,便于查詢輸出。下面將就關(guān)鍵核心的處理步驟進(jìn)行說(shuō)明。
5.2.1 對(duì)原始數(shù)據(jù)的預(yù)處理
為了在數(shù)據(jù)挖掘分析前對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,形成最終有效的待分析數(shù)據(jù)。首先是繼續(xù)數(shù)據(jù)格式化,利用數(shù)據(jù)格式化實(shí)現(xiàn)對(duì)各種網(wǎng)頁(yè)格式的數(shù)據(jù)進(jìn)行模式化解析,形成系統(tǒng)統(tǒng)一的數(shù)據(jù)格式;然后進(jìn)行數(shù)據(jù)清洗把“臟”的“洗掉”。該處理步驟主要把不完整的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)、重復(fù)的數(shù)據(jù)等不規(guī)范的數(shù)據(jù)進(jìn)行清洗,去除無(wú)效的、重復(fù)的數(shù)據(jù),形成數(shù)量足夠的、時(shí)間段連續(xù)的、內(nèi)容圍繞主題的數(shù)據(jù),為下一步的深度挖掘做準(zhǔn)備。
5.2.2 實(shí)現(xiàn)對(duì)敏感輿情的報(bào)警
為了解決相關(guān)管理人員需要及時(shí)掌握敏感熱點(diǎn)或大事件的動(dòng)態(tài),系統(tǒng)特增加了此處理步驟,在此將利用對(duì)敏感熱點(diǎn)或大事件的特征進(jìn)行布控,在布控策略規(guī)則中設(shè)置需要關(guān)注的熱點(diǎn)敏感關(guān)鍵字,相關(guān)組件將對(duì)存儲(chǔ)的內(nèi)容進(jìn)行掃描、分析。對(duì)匹配上的內(nèi)容進(jìn)行預(yù)警并產(chǎn)生預(yù)警記錄,同時(shí)支持手機(jī)和郵件的報(bào)警方式,及時(shí)把相關(guān)信息發(fā)送給預(yù)設(shè)的人員。該模塊包括關(guān)鍵字匹配組件、報(bào)警處理組件。
5.2.3 數(shù)據(jù)的深度挖掘分析處理
經(jīng)過(guò)預(yù)處理的數(shù)據(jù)還只是數(shù)據(jù),并沒(méi)有形成有用的信息,所以引入數(shù)據(jù)挖掘分析處理步驟,以便對(duì)數(shù)據(jù)利用前面介紹的輿情行為模式分析、內(nèi)容分析等挖掘技術(shù)進(jìn)行深度挖掘及分析,形成系統(tǒng)的核心信息數(shù)據(jù),為數(shù)據(jù)展現(xiàn)提供數(shù)據(jù)來(lái)源。
為了對(duì)數(shù)據(jù)進(jìn)行挖掘,系統(tǒng)內(nèi)置的多種數(shù)據(jù)挖掘算法,實(shí)現(xiàn)自動(dòng)對(duì)信息進(jìn)行分類、總結(jié)。具體內(nèi)容如下:
針對(duì)中文信息的處理與分析,系統(tǒng)中的自動(dòng)分詞組件采用詞典和規(guī)則為基礎(chǔ),綜合利用了基于概率分析的語(yǔ)言模型方法,使分詞的準(zhǔn)確性達(dá)到99%以上。在語(yǔ)義分析的基礎(chǔ)上,綜合考慮詞頻、詞性、位置信息,實(shí)現(xiàn)準(zhǔn)確的自動(dòng)關(guān)鍵詞與自動(dòng)摘要。利用網(wǎng)絡(luò)輿情模式識(shí)別技術(shù)可以自動(dòng)發(fā)現(xiàn)新的網(wǎng)絡(luò)輿情模式,便于用戶盡早布防。
為解決自動(dòng)分類的難題,系統(tǒng)內(nèi)置自動(dòng)分類組件通過(guò)對(duì)訓(xùn)練庫(kù)的學(xué)習(xí),獲取每個(gè)分類的屬性特征模型,然后使用這一分類體系對(duì)未知分類情況的數(shù)據(jù)進(jìn)行分類。聚類組件將結(jié)構(gòu)化的數(shù)據(jù)集合中的數(shù)據(jù)根據(jù)需要統(tǒng)計(jì)的主題劃分不同的子集,自動(dòng)學(xué)習(xí)形成新的分類,滿足自動(dòng)擴(kuò)展分類的需要。
面對(duì)收集的海量數(shù)據(jù),如何獲取用戶所需的信息這個(gè)是一個(gè)關(guān)鍵問(wèn)題,系統(tǒng)通過(guò)關(guān)聯(lián)分析、趨勢(shì)分析,從海量數(shù)據(jù)中挖掘關(guān)聯(lián)規(guī)則。同時(shí),利用趨勢(shì)分析技術(shù),分析網(wǎng)絡(luò)輿論等隨時(shí)間的發(fā)展趨勢(shì)情況,以便實(shí)現(xiàn)對(duì)輿論環(huán)境的監(jiān)測(cè)與不良傾向的預(yù)警。
做到上面的內(nèi)容還只是實(shí)現(xiàn)了系統(tǒng)的一部分,系統(tǒng)另外提供對(duì)新的知識(shí)的自動(dòng)發(fā)現(xiàn)。利用自動(dòng)分類與聚類等技術(shù)基礎(chǔ),對(duì)知識(shí)進(jìn)行挖掘并匯總分析,能實(shí)現(xiàn)對(duì)新的網(wǎng)絡(luò)輿情的發(fā)現(xiàn)及獲取發(fā)展趨勢(shì)。同時(shí)把結(jié)果合并到系統(tǒng)已有的知識(shí)庫(kù),達(dá)到不斷擴(kuò)展知識(shí)庫(kù)的要求。
有時(shí)候用戶會(huì)要對(duì)特定的事件或輿情進(jìn)行跟蹤,為了解決此問(wèn)題,通過(guò)系統(tǒng)提供的對(duì)象跟蹤組件,利用用戶在系統(tǒng)中設(shè)置的需要特別跟蹤的對(duì)象的特征,在分析過(guò)程中對(duì)涉及該對(duì)象的數(shù)據(jù)進(jìn)行特別分析和處理,形成該對(duì)象的信息鏈存儲(chǔ)到數(shù)據(jù)庫(kù)中,在數(shù)據(jù)展現(xiàn)時(shí)可以通過(guò)圖表等方式展現(xiàn)對(duì)象跟蹤鏈的相關(guān)信息。
5.3 海量數(shù)據(jù)的存儲(chǔ)
網(wǎng)絡(luò)輿情數(shù)據(jù)量是海量的,如何提高查詢的反饋速度是另外一個(gè)重要的問(wèn)題,系統(tǒng)通過(guò)建立全文索引技術(shù),對(duì)存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)建立合理的索引,使數(shù)據(jù)查詢輸出時(shí)提高輸出速度及準(zhǔn)確性,特別是針對(duì)重要的關(guān)鍵字進(jìn)行檢索時(shí)能大大的提高查詢速度。
除了全文索引,數(shù)據(jù)管理系統(tǒng)的選擇是另外一個(gè)重點(diǎn)??疾炷壳耙呀?jīng)成熟的數(shù)據(jù)庫(kù)管理系統(tǒng),發(fā)現(xiàn)Oracle是最合適的。所以本系統(tǒng)就采用Oracle作為數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù)系統(tǒng),同時(shí)可以利用其提供的多維查詢技術(shù),實(shí)現(xiàn)Olap的查詢要求。
5.4 數(shù)據(jù)快速,準(zhǔn)確的展現(xiàn)
有了海量的、有用的信息,如何把這些數(shù)據(jù)展現(xiàn)給用戶?在本系統(tǒng)主要考慮對(duì)關(guān)鍵字的查詢輸出、輿情新關(guān)鍵字挖掘查詢、輿情報(bào)告的輸出、報(bào)警信息的查詢、各種統(tǒng)計(jì)報(bào)表的輸出。
對(duì)于輸出的技術(shù)要求,在數(shù)據(jù)輸出時(shí)系統(tǒng)利用Oracle系統(tǒng)的Olap技術(shù)結(jié)合系統(tǒng)提供的查詢頁(yè)面框架,可以實(shí)現(xiàn)用戶從多個(gè)角度對(duì)各類數(shù)據(jù)的查詢,在頁(yè)面處理上目前市面上已經(jīng)有相關(guān)的成熟的技術(shù)可以作為參考,相信不會(huì)有技術(shù)難點(diǎn)。
針對(duì)輸出的內(nèi)容,系統(tǒng)內(nèi)置了部分統(tǒng)計(jì)報(bào)表,這些報(bào)表是基于網(wǎng)絡(luò)輿情分析專家在輿情檢測(cè)與分析方面的專業(yè)知識(shí)進(jìn)行設(shè)計(jì),能滿足大多數(shù)用戶的需要。為了滿足個(gè)性化的查詢輸出,同時(shí)系統(tǒng)支持用戶自定義適合自己的統(tǒng)計(jì)報(bào)表。
5.5 通過(guò)系統(tǒng)管理功能保證系統(tǒng)正常運(yùn)行
為了滿足個(gè)性化的管理要求,系統(tǒng)提供系統(tǒng)設(shè)置、角色管理、用戶管理、數(shù)據(jù)備份等功能,支持定義常用的網(wǎng)頁(yè)結(jié)構(gòu)及識(shí)別規(guī)則的定義,用于在數(shù)據(jù)獲取后的格式化分析。解決網(wǎng)頁(yè)結(jié)構(gòu)識(shí)別規(guī)則定義、報(bào)警關(guān)鍵字設(shè)置、報(bào)警記錄接收手機(jī)號(hào)或郵箱設(shè)置、系統(tǒng)管理用戶權(quán)限管理等內(nèi)容。
6 小結(jié)
該文先介紹了目前網(wǎng)絡(luò)現(xiàn)狀、同時(shí)就同類分析產(chǎn)品的不足進(jìn)行了描述。另外著重從《網(wǎng)絡(luò)輿情智能檢測(cè)與分析系統(tǒng)》的兩個(gè)重點(diǎn)部分進(jìn)行描述,從最核心的技術(shù)與模塊組成來(lái)闡述系統(tǒng)是如何實(shí)現(xiàn)的。
參考文獻(xiàn):
一、學(xué)科館員在國(guó)內(nèi)外的起源現(xiàn)狀
德國(guó)學(xué)科館員制度最早可以追溯到19世紀(jì)早期;20世紀(jì)60年代早期,平均每個(gè)德國(guó)研究型大學(xué)圖書館設(shè)有4~15名學(xué)科館員;至20世紀(jì)70年代中期,德國(guó)大學(xué)圖書館一般都設(shè)有8―21名學(xué)科館員。英國(guó)的學(xué)科館員在20世紀(jì)初(1901―1922年)引進(jìn)倫敦大學(xué),在20世紀(jì)30年代被利茲大學(xué)采用并輻射到其它學(xué)校;至1975年,已有20個(gè)大學(xué)圖書館建立了此項(xiàng)制度。在美國(guó),1940年以前,哈佛大學(xué)等多家圖書館就已經(jīng)雇用了早期的學(xué)科館員――區(qū)域問(wèn)題參考館員;1950年,美國(guó)的內(nèi)不拉斯加大學(xué)圖書館設(shè)立分支圖書館并配備學(xué)科館員進(jìn)行管理,才是學(xué)科館員制度最公開、最正式的建立;1981年,美國(guó)卡內(nèi)基―梅隆大學(xué)圖書館率先推出了“跟蹤服務(wù)”(track service)。此外,俄亥俄大學(xué)圖書館相繼推出了“網(wǎng)絡(luò)化館員免費(fèi)導(dǎo)讀服務(wù)”(network librarian and free guide)。隨后,許多歐美國(guó)家的大學(xué)圖書館和研究型圖書館也紛紛推行了這種服務(wù)模式,并得到圖書館與讀者的普遍認(rèn)同[2]。
在我國(guó),學(xué)科館員制度起步比較晚,我國(guó)的學(xué)科館員制度是在借鑒國(guó)外學(xué)科館員制度成功實(shí)施的基礎(chǔ)上發(fā)展起來(lái)的。1998年清華大學(xué)圖書館率先推行學(xué)科館員制度,西安交通大學(xué)、北京大學(xué)、南開大學(xué)等圖書館相繼開展[2]。經(jīng)過(guò)10多年的發(fā)展,目前國(guó)內(nèi)已有百余家高校圖書館開展此項(xiàng)目,學(xué)科館員制在國(guó)內(nèi)大學(xué)圖書館中逐漸推廣并受關(guān)注,已逐步進(jìn)入正軌。
目前公共圖書館在數(shù)字化、信息化的進(jìn)程中,得到了快速的推進(jìn),已然站在了高校與科研圖書館同一水平線上,加之,公共圖書館文化信息資源共享工程得了很好的推進(jìn),這些為推動(dòng)學(xué)科館員制度提供了有力的支撐。
二、公共圖書館建立學(xué)科館員制度的必要性
在公共圖書館學(xué)科館員服務(wù)方面也有成功例子,例如國(guó)家圖書館已經(jīng)擁有一批具備法律學(xué)科館員,為用戶提供針對(duì)性極強(qiáng)的資料;建立輿情監(jiān)測(cè)分析系統(tǒng),幫助企業(yè)公司了解輿論動(dòng)向,以制定正確的應(yīng)對(duì)策略,引導(dǎo)輿論正向發(fā)展輿情分析;同時(shí)專門為立法和決策部門提供服務(wù)[3]。上海圖書館開展了對(duì)大型企業(yè)和中小企業(yè)的情報(bào)服務(wù),例如:海爾、飛躍電視機(jī)廠和“三槍”等單位,幫助企業(yè)在專利競(jìng)爭(zhēng)中贏得國(guó)際對(duì)手;同時(shí)提出建設(shè)行業(yè)情報(bào)平臺(tái),為政府經(jīng)濟(jì)決策提供信息服務(wù)。這都是取決于上海圖書館人員的專業(yè)背景、理念和經(jīng)驗(yàn)比較強(qiáng)以及科技文獻(xiàn)館藏品種全的緣故[4]。浙江圖書館不僅為大型企業(yè)提供專題服務(wù),如:國(guó)內(nèi)飲料行業(yè)知名企業(yè)娃哈哈集團(tuán)公司等企業(yè);而且還專門開設(shè)微小企業(yè)專題服務(wù)[5]。早在1988年深圳圖書館編發(fā)了“窗口信息”,內(nèi)容涉及電子、自行車、飲料、食品、珠寶、出版、環(huán)保、花卉等十二個(gè)專業(yè),取得較好的社會(huì)、經(jīng)濟(jì)效益[6]。他們是公共圖書館行業(yè)信息服務(wù)的領(lǐng)頭羊,給我們做出了好的榜樣。
目前,公共圖書館推行學(xué)科館員制則少有,究其原因是:(1)公共圖書館讀者眾多,各行各業(yè)、各個(gè)領(lǐng)域的讀者需求龐雜,由于受組織結(jié)構(gòu)、人員配置等諸多因素,公共圖書館學(xué)科館員甚少,達(dá)不到眾多領(lǐng)域都設(shè)有學(xué)科館員;(2)公共圖書館的學(xué)科館員,大多由專業(yè)知識(shí)不強(qiáng)的人員組成,知識(shí)能力參差不齊,加上部分領(lǐng)導(dǎo)對(duì)學(xué)科館員工作不夠重視,以致于公共圖書館大多只是停留在文獻(xiàn)傳遞的參考咨詢這個(gè)層面上,學(xué)科館員制度流于形式,服務(wù)沒(méi)有真正落到實(shí)處。
為了滿足眾多的讀者需求,更好地為大眾服務(wù),需要公共圖書館多樣化、個(gè)性化和深層次的知識(shí)服務(wù),由此,公共圖書館實(shí)行學(xué)科館員制,迫在眉睫。
三、公共圖書館學(xué)科館員制度的發(fā)展模式
1.建立學(xué)科館員制度
目前,國(guó)家并沒(méi)有政策性的規(guī)定這一制度圖書館必須建立。為了使學(xué)科館員的工作開展順利,領(lǐng)導(dǎo)的認(rèn)識(shí)和決心是密切相關(guān)的;其關(guān)鍵之一是:取決于館領(lǐng)導(dǎo)對(duì)學(xué)科館員制度的重視,以及對(duì)圖書館開展個(gè)性化服務(wù)的必要性的高度認(rèn)識(shí),應(yīng)結(jié)合本館的實(shí)際情況,在人才引進(jìn)和培養(yǎng)、管理體制上保證學(xué)科館員制度的順利建立,并盡可能地完善學(xué)科館員制度;其二:圖書館需要當(dāng)?shù)卣娜肆?、?cái)力及物力的大力支持,因?yàn)閷W(xué)科館員制度與軟硬件設(shè)施、優(yōu)秀的人才以及雄厚的財(cái)力支持是分不開的,否則將事倍功半。
2.學(xué)科館員的隊(duì)伍建設(shè)
根據(jù)各方面學(xué)科服務(wù)工作的需要,合理配置學(xué)科館員的隊(duì)伍結(jié)構(gòu)、崗位,確定學(xué)科館員隊(duì)伍建設(shè)的目標(biāo);在人力資源方面,我們可通過(guò)人才引進(jìn)和現(xiàn)有館員的培訓(xùn)采取以下三種方式:一、可以在本館挑選業(yè)務(wù)素質(zhì)好,能夠勝任某一科咨詢、服務(wù)的同志擔(dān)任學(xué)科館員;二、引進(jìn)復(fù)合型人才,引進(jìn)具有圖書館情報(bào)學(xué)知識(shí)背景又具備其他學(xué)科知識(shí)的雙學(xué)位人才;三、聘請(qǐng)資深離退專家或在職專業(yè)人員擔(dān)任兼職學(xué)科館員,這是最快捷有效的方法。
3.學(xué)科館員的素質(zhì)培養(yǎng)
學(xué)科館員除了具有淡泊名利的修養(yǎng)和無(wú)私奉獻(xiàn)的職業(yè)道德、“讀者第一,用戶至上”的服務(wù)理念之外,還應(yīng)具備過(guò)硬的業(yè)務(wù)知識(shí)水平。
為了能從大量的龐大無(wú)序的信息源中提取、鑒別、篩選、整理、挖掘出讀者要求的文獻(xiàn)信息,學(xué)科館員必須要熟悉相關(guān)學(xué)科數(shù)據(jù)庫(kù)資源的檢索方法與技巧,熟悉圖書館各部門的基本業(yè)務(wù)工作內(nèi)容和流程,這樣才能為用戶提供學(xué)科性專業(yè)信息資源導(dǎo)航。
要開展文獻(xiàn)信息的深層次開發(fā),學(xué)科館員必須緊密跟蹤對(duì)口學(xué)科的國(guó)內(nèi)外學(xué)術(shù)發(fā)展動(dòng)態(tài),對(duì)熱點(diǎn)問(wèn)題、新觀點(diǎn)、新動(dòng)態(tài)等進(jìn)行搜集并分析研究,做出知識(shí)性的評(píng)價(jià),編制二、三次文獻(xiàn),為用戶提供參考。
據(jù)統(tǒng)計(jì),網(wǎng)上90%的信息資源是英文資源。熟練地掌握一門外語(yǔ)到多門成為圖書館工作的必需。這要求學(xué)科館員既要有一定的外語(yǔ)水平,也要有一定的計(jì)算機(jī)操作能力和網(wǎng)絡(luò)知識(shí)。此外,學(xué)科館員還應(yīng)能提供外文資料的翻譯服務(wù)。
4. 學(xué)科館員的激勵(lì)機(jī)制
在市場(chǎng)經(jīng)濟(jì)條件下,僅僅靠宣傳奉獻(xiàn)精神或職業(yè)道德,已無(wú)法從根本上促使學(xué)科館員提高水平的服務(wù)。因此,在完善學(xué)科館員制度的同時(shí),還必須對(duì)分配制度進(jìn)行改革,否則館員制度的實(shí)施效果會(huì)打折扣。
有些中小型圖書館疏于對(duì)科學(xué)館員工作的激勵(lì),很大程度地抑制了學(xué)科館員的發(fā)展。
馬斯洛的需要層次論把人類的需要分為五個(gè)層次:生理需要、安全需要、社會(huì)需要、尊重需要、自我實(shí)現(xiàn)的需要。其中自我實(shí)現(xiàn)的需要是指通過(guò)自己努力,實(shí)現(xiàn)自己對(duì)生活的期望,從而對(duì)生活和工作感到很有意義。公共圖書館根據(jù)學(xué)科館員的需求與動(dòng)機(jī),有針對(duì)性地采用激勵(lì)方法激發(fā)全體學(xué)科館員的工作熱情,充分調(diào)動(dòng)主動(dòng)性和創(chuàng)造性。
建立考核制度,對(duì)學(xué)科館員進(jìn)行上崗后,加強(qiáng)人力資源管理,提高工作效率的重要環(huán)節(jié),認(rèn)真做好平時(shí)、年度、聘期內(nèi)的考核工作,將考核結(jié)果與職務(wù)的升降、館員的任職掛鉤,逐步形成一個(gè)“能者上、平者讓、庸者下”的有效競(jìng)爭(zhēng)機(jī)制,以激發(fā)學(xué)科館員的主觀能動(dòng)性。
圖書館應(yīng)結(jié)合自身實(shí)際,建立科學(xué)規(guī)范的激勵(lì)制度,極大地調(diào)動(dòng)積極性。只有這樣,才能吸引人才,并使其努力地學(xué)習(xí),盡力地工作。
5.學(xué)科館員的選拔、培訓(xùn)機(jī)制以及帶動(dòng)作用
對(duì)學(xué)科館員不斷地進(jìn)行知識(shí)信息素養(yǎng)的補(bǔ)充、更新、拓展和提高培訓(xùn),則是開發(fā)內(nèi)部的人力資源。
一,根據(jù)學(xué)科館員崗位設(shè)置要求,在全館范圍內(nèi)進(jìn)行考試并結(jié)合工作業(yè)績(jī),選拔出優(yōu)秀人才進(jìn)行脫產(chǎn)或不脫產(chǎn)培訓(xùn),進(jìn)一步提高他們的業(yè)務(wù)水平和工作技能,形成人才梯隊(duì),以保持學(xué)科服務(wù)的連續(xù)性和穩(wěn)定性??梢栽诂F(xiàn)有館員中選派業(yè)務(wù)水平高、責(zé)任心強(qiáng)者攻讀第二學(xué)位,使其通過(guò)系統(tǒng)的學(xué)習(xí)掌握對(duì)口學(xué)科的專業(yè)知識(shí),從而勝任學(xué)科化服務(wù)工作;二,強(qiáng)化繼續(xù)再教育,建立人才資源建設(shè)的長(zhǎng)效機(jī)制。為館員提供多種學(xué)習(xí)交流和業(yè)務(wù)培訓(xùn)的機(jī)會(huì),參與用戶科研活動(dòng)、專家講座及學(xué)術(shù)交流會(huì),讓館員及時(shí)掌握學(xué)科的前沿動(dòng)態(tài)。三,與兄弟單位進(jìn)行交流、溝通,互相學(xué)習(xí),取長(zhǎng)補(bǔ)短。四、貫穿人的一生是自學(xué),自學(xué)是繼續(xù)再教育途徑的補(bǔ)充。針對(duì)自己的知識(shí)水平不斷地學(xué)習(xí)、不斷地充實(shí)自己,擴(kuò)大知識(shí)面,完善自我。
學(xué)科館員是圖書館服務(wù)水平的標(biāo)志,是圖書館與外界聯(lián)系的橋梁;同時(shí)學(xué)科館員對(duì)內(nèi)也是各項(xiàng)業(yè)務(wù)工作的核心,是圖書館服務(wù)的中堅(jiān)力量,擔(dān)負(fù)著業(yè)務(wù)工作的指導(dǎo)和培訓(xùn)的重任,帶動(dòng)全館員工更好地為經(jīng)濟(jì)建設(shè)服務(wù)。
四、結(jié)束語(yǔ)
學(xué)科館員制度在我國(guó)公共圖書館工作中既是一種新的服務(wù)模式,也是管理上的一種創(chuàng)新行為。公共圖書館應(yīng)根據(jù)自身的實(shí)際情況,因地制宜地開展學(xué)科館員服務(wù)工作,拓寬圖書館的服務(wù)范圍,提升服務(wù)層次,走出一個(gè)具有中國(guó)特色的因館制宜的學(xué)科館員之路。
參考文獻(xiàn):
[1]胡越主編.圖書館服務(wù)的學(xué)科化與個(gè)性化[M].北京市:首都師范大學(xué)出版社,2008.10:525
[2]譚浩娟.中外圖書館學(xué)科館員制度的比較與啟示.科技情報(bào)開發(fā)與經(jīng)濟(jì).2006,(1):36-37
[3]趙紅.國(guó)家圖書館學(xué)科館員和學(xué)科化服務(wù)[J].法律文獻(xiàn)信息與研究.2010,(3):22-27
[4]上海圖書館學(xué)會(huì).挖掘知識(shí)價(jià)值:公共圖書館為企業(yè)的信息服務(wù)[EB]. [2007-11-19].[2013-10-15]
http:///tsgxh/list/list.aspx?id=3929
[5]范沈姍.企業(yè)競(jìng)爭(zhēng)情報(bào)一圖書館信息服務(wù)的新熱點(diǎn)[J].圖書館理論與實(shí)踐.2001,(1):22-26,34
[6]張廷杰.深圳圖書館臺(tái)港澳文獻(xiàn)資源的建設(shè)與開發(fā)[J].圖書館論壇.1993,(3):59-62
中圖分類號(hào):TP3-05文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):16727800(2012)009000303
1文本情感研究的背景
所謂文本情感分析(Sentiment Analysis),就是對(duì)說(shuō)話人的觀點(diǎn)、態(tài)度和情感傾向性進(jìn)行分析,即分析文本中表達(dá)的主觀性信息。根據(jù)立場(chǎng)、出發(fā)點(diǎn)、個(gè)人態(tài)度和喜好的不同,人們對(duì)各種對(duì)象和事件表達(dá)的信念、態(tài)度、意見(jiàn)和情感的傾向性不可避免地存在差異。在論壇、微博等反映人們觀點(diǎn)的網(wǎng)絡(luò)媒體上,尤其表現(xiàn)出了這種差異。
文本情感分析在實(shí)際生活中有著廣泛的應(yīng)用,可以應(yīng)用于產(chǎn)品推薦系統(tǒng)、有害信息過(guò)濾、社會(huì)輿情分析、產(chǎn)品在線跟蹤和質(zhì)量評(píng)價(jià)、影視評(píng)價(jià)、Blogger聲譽(yù)評(píng)價(jià)、新聞報(bào)道評(píng)述、事件分析、股票評(píng)論、圖書推薦、敵對(duì)信息檢測(cè)、企業(yè)情報(bào)系統(tǒng)等方面。
在已有研究中,文本情感分析也被稱作觀點(diǎn)鑒別(Opinion Classification)、流派分類(Genre classification)、情感的極性(Sentiment polarity)、語(yǔ)義傾向(semantic orientation)、觀點(diǎn)挖掘(opinion mining)、觀點(diǎn)抽?。╫pinion extractive)等,為了表述的一致性,本文中將其統(tǒng)一表述為情感分析。
文本情感分析通常包含4個(gè)子問(wèn)題:①確定文本情感的類別有多少;②文本的主客觀區(qū)分,即區(qū)分出文本內(nèi)容是主觀評(píng)論還是客觀陳述;③文本的極性分類(Polarity Classification),又稱為正負(fù)面傾向性分類,即判別文本內(nèi)容是肯定贊賞的,還是否定批判的;④文本情感強(qiáng)度分類,即判定文本情感傾向性的強(qiáng)弱程度,如強(qiáng)烈貶義、一般貶義、客觀、一般褒揚(yáng)、強(qiáng)烈褒揚(yáng)5個(gè)類別,這一問(wèn)題通常又被稱為等級(jí)推理(Rating Inference)。
2文本情感分析整體研究現(xiàn)狀
目前,公認(rèn)的關(guān)于文本情感分析的研究工作開始于Pang在2002年提出的基于文本的N元語(yǔ)法(Ngram)和詞類(POS)等特征,分別使用樸素貝葉斯(Naive Bayes),最大熵(Maximum Entropy)和支持向量機(jī)(Support Vector Machine,SVM)將電影評(píng)論文本的傾向性分為正向和負(fù)向兩類。此外還有Turney在2002年提出的基于無(wú)監(jiān)督學(xué)習(xí)(Unsupervised Learning)對(duì)文本情感傾向性分類的研究。同時(shí)他們?cè)趯?shí)驗(yàn)中使用的電影評(píng)論數(shù)據(jù)集目前已成為廣泛使用的情感分析的測(cè)試集。
如今,國(guó)內(nèi)外都已經(jīng)掀起了文本情感的研究熱潮,很多研究團(tuán)體、科研院校、公司已經(jīng)對(duì)文本情感展開了研究。把這些相關(guān)的研究分為4個(gè)階段:①語(yǔ)料階段;②文本的預(yù)處理階段;③特征標(biāo)注與特征選擇階段;④情感分類階段。
2.1語(yǔ)料階段
目前絕大部分語(yǔ)料都來(lái)自博客、專業(yè)的評(píng)論站點(diǎn)、新聞?wù)军c(diǎn)、電子商務(wù)站點(diǎn)。而其中影評(píng)資料、產(chǎn)品的用戶評(píng)論、Web 2.0博客文章是研究者的首選。
康奈爾大學(xué)的電影評(píng)論數(shù)據(jù)集以及Theresa Wilson等建立的MPQA庫(kù)是目前研究者廣泛使用的兩類情感分析數(shù)據(jù)集。
2.2文本的預(yù)處理階段
文本情感分析的預(yù)處理包括:停用詞、詞綴修剪、N元詞、詞性標(biāo)準(zhǔn)、簡(jiǎn)化替換(如書替換為NOUN、照相機(jī)替換產(chǎn)品名)等,但這些有意“美化”的處理都會(huì)降低情感分析的準(zhǔn)確率。
此外,主觀句識(shí)別也屬于文本情感分析的預(yù)處理階段。該研究的目標(biāo)是需要提取文本的真正表達(dá)情感的句子。Pang于2004年提出基于文本中的主觀句的選擇和Wilson等人于2005年開創(chuàng)了在短語(yǔ)層進(jìn)行主觀性分析的研究工作,提出基于文本中中性實(shí)例(Neutral Instances)的分析,他們根據(jù)28個(gè)混合特征訓(xùn)練了一個(gè)分類器,都是為了能夠盡量獲得文本中真正表達(dá)情感的句子。Abbasi于2008年提出通過(guò)信息增益(Information Gain,簡(jiǎn)稱IG)的方法來(lái)選擇大量特征集中對(duì)于情感分析有益的特征。
2.3特征標(biāo)注與特征選擇階段
情感特征的標(biāo)注方法目前主要包括:
(1)監(jiān)督機(jī)器學(xué)習(xí)的方法,由已有的電子詞典或詞語(yǔ)知識(shí)庫(kù)擴(kuò)展生成的情感傾向詞典。情感詞就是指具有情感傾向的詞語(yǔ)以名詞、動(dòng)詞、形容詞和副詞為主,包括人名、機(jī)構(gòu)名、產(chǎn)品名、事件名等命名實(shí)體。其中,部分詞語(yǔ)的褒貶性(或稱為極性,通常分為褒義、貶義和中性)可以通過(guò)查字典獲得,其它的極性與情感傾向性的強(qiáng)烈程度都無(wú)法直接獲得。
使用情感詞作為特征的研究有:
朱嫣嵐等人提出了基于知網(wǎng)的兩種詞匯語(yǔ)義傾向計(jì)算方法,即基于語(yǔ)義相似度的方法和基于語(yǔ)義相關(guān)場(chǎng)的方法。
婁德成和姚天昉也是通過(guò)計(jì)算文本中詞匯與知網(wǎng)中已標(biāo)注褒貶性詞匯間的相似度,來(lái)獲取詞匯的語(yǔ)義傾向性。
目前,依靠語(yǔ)料或字典語(yǔ)料結(jié)合構(gòu)建意見(jiàn)詞典成為主流。由于目前用于情感分析的中文標(biāo)注語(yǔ)料較少,即當(dāng)目標(biāo)領(lǐng)域不存在標(biāo)注語(yǔ)料時(shí),Xiaojun Wan通過(guò)谷歌翻譯等機(jī)器翻譯服務(wù),利用英語(yǔ)標(biāo)注語(yǔ)料和中文未標(biāo)注語(yǔ)料彌補(bǔ)中文標(biāo)注語(yǔ)料不足的問(wèn)題。此外,還有Danushka Bollegala等提出算法可以通過(guò)其它領(lǐng)域標(biāo)注語(yǔ)料和目標(biāo)領(lǐng)域的未標(biāo)注語(yǔ)料生成意見(jiàn)挖掘所需的情感敏感詞典。
(2)無(wú)監(jiān)督機(jī)器學(xué)習(xí)的方法。Turney在2002年基于點(diǎn)互信息(PMI)計(jì)算文本中抽取的關(guān)鍵詞和情感基準(zhǔn)詞(Excellent, Poor)的相似度來(lái)對(duì)文本的情感傾向性進(jìn)行判別(SOPMI算法)。實(shí)現(xiàn)方法簡(jiǎn)單,此算法得到了很多研究者的推薦。
Yuan等人在Turney的研究工作的基礎(chǔ)上,對(duì)漢語(yǔ)極性詞的自動(dòng)獲取進(jìn)行了研究,發(fā)現(xiàn)采用一個(gè)字符的漢語(yǔ)情感詞比漢語(yǔ)情感詞的效果要好。
(3)情感特征的選擇方法。目前很多情感分析的研究基于機(jī)器學(xué)習(xí),那么特征選擇就是一個(gè)很重要的問(wèn)題,N元語(yǔ)法等句法特征是使用最多的一類特征,Wilson等人于2009年提出混合單詞特征、否定詞特征、情感修飾特征、情感轉(zhuǎn)移特征等各類句法特征的情感分析,Abbasi等人于2008年提出混合句子的句法(N元語(yǔ)法、詞類、標(biāo)點(diǎn))和結(jié)構(gòu)特征(單詞的長(zhǎng)度、詞類中單詞的個(gè)數(shù)、文本的結(jié)構(gòu)特征等)的情感分析。Melville等人于2009年提出結(jié)合情感詞的先驗(yàn)的基于詞典的情感傾向性和訓(xùn)練文本中后驗(yàn)的基于上下文的情感傾向性共同判斷文本的情感傾向性。
另外,傳統(tǒng)的文本特征選擇方法有監(jiān)督特征選擇方法CHI、IG、MI和無(wú)監(jiān)督特征選擇方法DF、TS、TC、En。這些方法應(yīng)用到這些情感特征選擇上的效果如何還有待實(shí)驗(yàn)驗(yàn)證。
2.4情感分類階段
(1)情感建模的方法。基于監(jiān)督學(xué)習(xí)算法的情感分析仍然是主流,Zhang等人于2009年提出基于非負(fù)矩陣三分解(Nonnegative Matrix Trifactorization),Abbasi等人于2008年提出基于遺傳算法(Genetic Algorithm)的情感分析之外,使用最多的監(jiān)督學(xué)習(xí)算法是樸素貝葉斯、k最近鄰(KNearest Neighbor,KNN)、最大熵和支持向量機(jī)等。
此外還有基于規(guī)則和無(wú)監(jiān)督的建模方法。婁德成等人于2006年利用句法結(jié)構(gòu)和依存關(guān)系對(duì)中文句子語(yǔ)義進(jìn)行了情感分析,Zagibalov等人于2008年在SOPMI算法的基礎(chǔ)上通過(guò)對(duì)于中文文本特征的深入分析以及引入迭代機(jī)制在很大程度上提高了無(wú)監(jiān)督學(xué)習(xí)情感分析的準(zhǔn)確率。
(2)情感分析的其它研究點(diǎn)。除以上介紹的情感分析關(guān)注情感的分類以外,還有評(píng)論對(duì)象的識(shí)別、情感傾向性論述的持有者識(shí)別、抽取句子中評(píng)價(jià)詞語(yǔ)和目標(biāo)對(duì)象之間的關(guān)聯(lián)關(guān)系、評(píng)價(jià)傾向極性的強(qiáng)度等研究方向等等。
(3)目前已有系統(tǒng)。目前很多系統(tǒng)已經(jīng)問(wèn)世,例如:日本富士通公司開發(fā)了從中、日、英三國(guó)語(yǔ)言的博客和論壇中提取對(duì)企業(yè)及其產(chǎn)品的評(píng)價(jià)信息的技術(shù),根據(jù)從萬(wàn)維網(wǎng)上抓取的大量用戶的評(píng)論得到產(chǎn)品的整體信譽(yù)度。
上海交通大學(xué)開發(fā)了一個(gè)用于“漢語(yǔ)汽車論壇”的意見(jiàn)挖掘系統(tǒng)。目的是在電子公告板、門戶網(wǎng)站的各大論壇上挖掘并且概括顧客們對(duì)各種汽車品牌的不同性能指標(biāo)的評(píng)論和意見(jiàn),并判斷這些意見(jiàn)的褒貶性和強(qiáng)度。然后,通過(guò)對(duì)文本處理的綜合統(tǒng)計(jì),給出可視化的結(jié)果。該系統(tǒng)仍需要在特征獲取、權(quán)重計(jì)算等方面進(jìn)行完善。
綜合以上研究現(xiàn)狀,對(duì)比國(guó)內(nèi)外的研究進(jìn)展,對(duì)于國(guó)內(nèi)來(lái)講,中文文本情感分析可以說(shuō)剛剛起步,與國(guó)外的主要差距表現(xiàn)在:①在基礎(chǔ)資源建設(shè)方面,還沒(méi)有建立起一個(gè)公開、公用、權(quán)威、標(biāo)準(zhǔn)的詞典資源和具有一定規(guī)模的標(biāo)準(zhǔn)語(yǔ)料資源;②在研究方案方面,從詞語(yǔ)、短語(yǔ)、搭配、句子到文本,主要跟蹤借鑒國(guó)外研究思路與技術(shù)路線進(jìn)行嘗試。
3中文文本情感分析亟待解決的問(wèn)題
相比傳統(tǒng)的文本分類,情感分類有先天的困難和挑戰(zhàn),主要表現(xiàn)在:①自然文本中表達(dá)方式的多樣化:比喻、附和、諷刺、正話反說(shuō)等;②句式的復(fù)雜性:比較型的句子、各種不同的習(xí)慣用語(yǔ)、句式的不同搭配等;③訓(xùn)練數(shù)據(jù)的稀疏性和不均衡性。這些都造成了目前較為狹窄的應(yīng)用領(lǐng)域,不能同時(shí)獲得較高的準(zhǔn)確率和召回率。
中文文本情感分析研究方興未艾,仍然存在很多問(wèn)題亟待解決,未來(lái)的研究將主要圍繞以下幾個(gè)方向展開:
(1)建立標(biāo)準(zhǔn)的中文文本情感詞庫(kù)及標(biāo)準(zhǔn)的文本情感測(cè)試語(yǔ)料庫(kù)。標(biāo)準(zhǔn)完善的數(shù)據(jù)庫(kù)是驗(yàn)證算法的有力工具。因此創(chuàng)建更大規(guī)模且更標(biāo)準(zhǔn)的中文文本情感數(shù)據(jù)庫(kù)是下一步工作的重中之重。
(2)選擇最優(yōu)文本情感特征集。文本情感特征是中文文本情感分析研究的第一步,在很大程度上影響最終的列表識(shí)別結(jié)果。一個(gè)詞存在多維度的情感,因此,單純依靠情感詞并不能準(zhǔn)確判定所有情況下的情感和意見(jiàn)。所以,對(duì)于情感特征集選擇技術(shù)需要我們進(jìn)一步的研究和完善。
(3)選擇合理有效的文本情感分類方法。情感特征的權(quán)重簡(jiǎn)單累加并不意味著情感表達(dá)能力的累加,緊致有效的特征表達(dá)方法是跨越“語(yǔ)義鴻溝”的重要手段。人們往往通過(guò)各種手段多渠道地獲取各種各樣的情感特征,并通過(guò)不同分類器的融合表示它們。但這方法需要在更多的情感分析領(lǐng)域進(jìn)行實(shí)驗(yàn)驗(yàn)證,未來(lái)還需要開展融合多方面文本情感特征的工作。
(4)可靠性研究。文本情感中評(píng)論的真實(shí)性通過(guò)信用評(píng)價(jià)來(lái)衡量,不真實(shí)甚至是混淆視聽的評(píng)論稱為意見(jiàn)垃圾(Opinion Spam)或虛假評(píng)論,也將是未來(lái)研究的方向之一。
參考文獻(xiàn):
[1]LIU B. Web data mining: exploring hyperlinks, contents [M].Usage Data. Springer,2011.
[2]PANG B, LEE L, VAITHYANATHAN S. Thumbs sentiment classification using machine learning techniques[C]. EMNLP,2002.
[3]TURNEY P D. Thumbs up or thumbs down semantic orientation applied to unsupervised classification of reviews[C]. ACL,2002.
[4]PANG B, LEE L. A sentiment education: sentiment analysis using subjectivity summarization based on minimum cuts[C]. ACL,2004.
[5]WILSON T, WIEBE J, HOFFMANN P. Recognizing contextual polarity in phraselevel sentiment analysis [C]. HLTEMNLP,2005.
[6]ABBASI A, CHEN H, SALEM A. Sentiment analysis in multiple languages: feature selection for opinion classification in Web forums[C].ACM Transaction on Information Systems,2008.
[7]朱嫣嵐,閔錦,周雅倩,等.基于HowNet的詞匯語(yǔ)義傾向計(jì)算[J].中文信息學(xué)報(bào),2006(1).
[8]婁德成,姚天昉.漢語(yǔ)句子語(yǔ)義極性分析和觀點(diǎn)抽取方法的研究[J].計(jì)算機(jī)應(yīng)用,2006(11).
[9]XIAOJUN WAN. Bilingual cotraining for sentiment classification of Chinese product reviews[J]. Computational Linguistics,2011(3).
[10]CLIFTON, ANN AND SARKAR, ANOOP. Combining morphemebased machine translation with postprocessing morpheme prediction[C]. ACL HLT,2011.
[11]YUAN R W M, CHAN T Y W, LAI T B Y, KWONG O Y. Morphemebased derivation of bipolarsemantic rientation of chinese words[C]. COLING.2004.
[12]MELVILLE P, GRYC W, LARENCE R D. Sentiment analysis of blogs by combining lexical knowledge with text classification [C]. KDD,2009.
[13]ZHANG T L Y, SINDHWANI V. A nonnegative matrix trifactorization approach to sentiment classification with lexical Prior knowledge[C]. ACL,2009.