時間:2023-03-16 17:32:07
導(dǎo)言:作為寫作愛好者,不可錯過為您精心挑選的10篇數(shù)據(jù)挖掘技術(shù)論文,它們將為您的寫作提供全新的視角,我們衷心期待您的閱讀,并希望這些內(nèi)容能為您提供靈感和參考。
隨著信息技術(shù)迅速發(fā)展,數(shù)據(jù)庫的規(guī)模不斷擴(kuò)大,產(chǎn)生了大量的數(shù)據(jù)。但大量的數(shù)據(jù)往往無法辨別隱藏在其中的能對決策提供支持的信息,而傳統(tǒng)的查詢、報表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價值的潛在知識,數(shù)據(jù)挖掘(DataMining)技術(shù)由此應(yīng)運(yùn)而生。
一、數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測未來可能發(fā)生的行為。數(shù)據(jù)挖掘的過程也叫知識發(fā)現(xiàn)的過程。
二、數(shù)據(jù)挖掘的方法
1.統(tǒng)計方法。傳統(tǒng)的統(tǒng)計學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關(guān)系的線性回歸,還有用來為某些事件發(fā)生的概率建模為預(yù)測變量集的對數(shù)回歸、統(tǒng)計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。
2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡單,實用的分析規(guī)則,它描述了一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過關(guān)聯(lián)得到的屬性之間的關(guān)系都有實際應(yīng)用價值,要對這些規(guī)則要進(jìn)行有效的評價,篩選有意義的關(guān)聯(lián)規(guī)則。
3.聚類分析。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對樣本結(jié)構(gòu)做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運(yùn)用某一個算法之前,一般要先對數(shù)據(jù)的聚類趨勢進(jìn)行檢驗。
4.決策樹方法。決策樹學(xué)習(xí)是一種通過逼近離散值目標(biāo)函數(shù)的方法,通過把實例從根結(jié)點排列到某個葉子結(jié)點來分類實例,葉子結(jié)點即為實例所屬的分類。樹上的每個結(jié)點說明了對實例的某個屬性的測試,該結(jié)點的每一個后繼分支對應(yīng)于該屬性的一個可能值,分類實例的方法是從這棵樹的根結(jié)點開始,測試這個結(jié)點指定的屬性,然后按照給定實例的該屬性值對應(yīng)的樹枝向下移動。決策樹方法是要應(yīng)用于數(shù)據(jù)挖掘的分類方面。
5.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)之上,能夠?qū)Υ罅繌?fù)雜的數(shù)據(jù)進(jìn)行分析,并可以完成對人腦或其他計算機(jī)來說極為復(fù)雜的模式抽取及趨勢分析,神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導(dǎo)的學(xué)習(xí)也可以是無指導(dǎo)聚類,無論哪種,輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類多種神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點。
6.遺傳算法。遺傳算法是一種受生物進(jìn)化啟發(fā)的學(xué)習(xí)方法,通過變異和重組當(dāng)前己知的最好假設(shè)來生成后續(xù)的假設(shè)。每一步,通過使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個部分,來更新當(dāng)前群體的一組假設(shè),來實現(xiàn)各個個體的適應(yīng)性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強(qiáng)的個體,產(chǎn)生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進(jìn)行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進(jìn)行變異的過程。在數(shù)據(jù)挖掘中,可以被用作評估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗知識的情況下,只以考察數(shù)據(jù)的分類能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問題。粗糙集用于從數(shù)據(jù)庫中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫中的屬性分為條件屬性和結(jié)論屬性,對數(shù)據(jù)庫中的元組根據(jù)各個屬性不同的屬性值分成相應(yīng)的子集,然后對條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補(bǔ)集元素的元素。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。
8.支持向量機(jī)。支持向量機(jī)(SVM)是在統(tǒng)計學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出來的一種新的機(jī)器學(xué)習(xí)方法。它基于結(jié)構(gòu)風(fēng)險最小化原則上的,盡量提高學(xué)習(xí)機(jī)的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學(xué)習(xí)問題,現(xiàn)已成為訓(xùn)練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外,支持向量機(jī)算法是一個凸優(yōu)化問題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其他算法所不能及的。支持向量機(jī)可以應(yīng)用于數(shù)據(jù)挖掘的分類、回歸、對未知事物的探索等方面。
事實上,任何一種挖掘工具往往是根據(jù)具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。
三、結(jié)束語
2.綜合應(yīng)用性強(qiáng)數(shù)據(jù)挖掘技術(shù)已經(jīng)被廣泛地應(yīng)用在統(tǒng)計工作中的多個領(lǐng)域,并且發(fā)揮著重要的作用。數(shù)據(jù)挖掘技術(shù)不僅是一種綜合應(yīng)用性強(qiáng)的技術(shù)手段,同時又能滿足統(tǒng)計數(shù)據(jù)使用者的特定數(shù)據(jù)需要。因此,數(shù)據(jù)挖掘技術(shù)能夠?qū)?jīng)濟(jì)統(tǒng)計數(shù)據(jù)進(jìn)行定向的整理和開發(fā),為數(shù)據(jù)使用者提供更好的服務(wù)。
3.宏觀型的數(shù)據(jù)庫有利于數(shù)據(jù)挖掘技術(shù)的應(yīng)用當(dāng)前,我國的經(jīng)濟(jì)統(tǒng)計大多還是采用傳統(tǒng)的經(jīng)濟(jì)統(tǒng)計方法,統(tǒng)計收集的數(shù)據(jù)信息不能形成有機(jī)整體,在對數(shù)據(jù)進(jìn)行管理過程中,出現(xiàn)了很多問題。因此。經(jīng)濟(jì)統(tǒng)計工作需要能夠提供數(shù)據(jù)整理開發(fā)的新技術(shù)。宏觀經(jīng)濟(jì)統(tǒng)計數(shù)據(jù)庫,為數(shù)據(jù)挖掘技術(shù)的開展提供了平臺。數(shù)據(jù)管理系統(tǒng)的經(jīng)濟(jì)統(tǒng)計信息要正確無誤,然后經(jīng)過數(shù)據(jù)挖掘技術(shù)的整合,就能得到更豐富的數(shù)據(jù)資源。
二、數(shù)據(jù)挖掘技術(shù)的運(yùn)用
數(shù)據(jù)挖掘技術(shù)的特性決定了其對經(jīng)濟(jì)統(tǒng)計數(shù)據(jù)整理的重要性,經(jīng)濟(jì)統(tǒng)計所得到的數(shù)據(jù)信息要求必須有實用性和真實性,數(shù)據(jù)挖掘技術(shù)的特性正好滿足了經(jīng)濟(jì)統(tǒng)計工作的需要。數(shù)據(jù)挖掘的過程主要包括以下四種方法:
1.預(yù)處理方法首先,要對統(tǒng)計數(shù)據(jù)進(jìn)行預(yù)處理。由于經(jīng)濟(jì)統(tǒng)計信息在收集過程中存在一些問題,導(dǎo)致收集到的數(shù)據(jù)存在缺失和模糊現(xiàn)象,這種有缺憾的數(shù)據(jù)信息不能作為數(shù)據(jù)挖掘的基礎(chǔ),因此一定要對數(shù)據(jù)挖掘?qū)ο筮M(jìn)行事先的處理。其中包括對基礎(chǔ)數(shù)據(jù)中不正確、不真實、不準(zhǔn)確和偏差較大的數(shù)據(jù)進(jìn)行甄別。
2.集成化處理方法其次,要對統(tǒng)計數(shù)據(jù)進(jìn)行集成化處理。經(jīng)濟(jì)統(tǒng)計過程中,會出現(xiàn)對多個數(shù)據(jù)源進(jìn)行重疊統(tǒng)計的現(xiàn)象,這就要求對數(shù)據(jù)進(jìn)行挖掘之前,要有一個統(tǒng)一整理的過程,即數(shù)據(jù)的集成化處理。數(shù)據(jù)集成在統(tǒng)計中被廣泛的使用。經(jīng)過數(shù)據(jù)集成處理的統(tǒng)計信息更加全面,更加真實,可以作為數(shù)據(jù)挖掘基礎(chǔ)信息。
3.轉(zhuǎn)換方法再有,要對統(tǒng)計數(shù)據(jù)根據(jù)需要進(jìn)行轉(zhuǎn)換。經(jīng)濟(jì)統(tǒng)計數(shù)據(jù)的描述形式比較單一,為了滿足數(shù)據(jù)信息使用者的需要,就要對數(shù)據(jù)進(jìn)行轉(zhuǎn)換,使其的表現(xiàn)形式具有泛化或是更加規(guī)范。這里所說的泛化指的是利用更深層次和更加抽象的定義來代替原有的低層數(shù)據(jù)。
4.決策樹方法除卻上述四種處理方法外,還有決策樹方法,指的是對龐雜的經(jīng)濟(jì)數(shù)據(jù)進(jìn)行分類,把有利用價值的統(tǒng)計數(shù)據(jù)提煉出來,這種數(shù)據(jù)挖掘形式能夠?qū)Ψ治鰧ο筮M(jìn)行體現(xiàn),并能快速的對信息進(jìn)行分類處理,能夠解決在經(jīng)濟(jì)統(tǒng)計過程中出現(xiàn)的各種問題。
二、Web數(shù)據(jù)挖掘技術(shù)的工作流程
Web數(shù)據(jù)挖掘技術(shù)的主要工作流程可以分為以下幾個步驟:第一步,確立目標(biāo)樣本,這一步是用戶選取目標(biāo)文本,以此來作為提取用戶的特征信息;第二步,提取特征信息,這一步就是根據(jù)第一步得到的目標(biāo)樣本的詞頻分布,從現(xiàn)有的統(tǒng)計詞典中獲取所要挖掘的目標(biāo)的特征向量,并計算出其相應(yīng)的權(quán)值;第三步,從網(wǎng)絡(luò)上獲取信息,這一步是利用通過搜索引擎站點選擇采集站點,然后通過Robot程序采集靜態(tài)的Web頁面,最后再獲取這些被訪問站點的網(wǎng)絡(luò)數(shù)據(jù)庫中的動態(tài)信息,然后生成WWW資源庫索引;第四步,進(jìn)行信息特征匹配,通過提取源信息的特征向量,去和目標(biāo)樣本的特征向量進(jìn)行匹配,最后將符合閾值條件的信息返回個用戶。
三、Web數(shù)據(jù)挖掘技術(shù)在高校數(shù)字圖書館中的應(yīng)用
高校數(shù)字圖書館為師生主要提供以下功能:查找圖書、期刊論文、會議文獻(xiàn)等數(shù)字資源;圖書借閱、歸還等服務(wù);圖書信息、管理制度;導(dǎo)航到圖書光盤、視頻資源等數(shù)據(jù)庫系統(tǒng)。師生時常登錄到網(wǎng)站中查找其需要的信息,根據(jù)師生所學(xué)專業(yè)、研究方向不同,關(guān)注目標(biāo)也不同。通常這類師生會到常用的圖書館網(wǎng)站上,查找自己所需要的特定領(lǐng)域的資源;瀏覽一下有哪些內(nèi)容發(fā)生變化,是否有新知識增加,而且所有改變常常是用戶所關(guān)注的內(nèi)容;另外,當(dāng)目標(biāo)網(wǎng)頁所在的位置有所改變或這個網(wǎng)站的組織結(jié)構(gòu)、層次關(guān)系有所變動時,所有這些問題只要稍加改動,容易使用戶難以找到所需內(nèi)容。本課題采用Web挖掘技術(shù)與搜索技術(shù)相結(jié)合。首先允許用戶對感興趣的內(nèi)容進(jìn)行定制,構(gòu)造數(shù)據(jù)挖掘的先驗知識,然后通過構(gòu)造瀏覽器插件,捕獲用戶在瀏覽器上的行為數(shù)據(jù),采用Web數(shù)據(jù)挖掘的方法,深入分析用戶的瀏覽行為數(shù)據(jù),獲得用戶的信息資料集,最終為用戶提供不同的個性化服務(wù)頁面,并提供用戶對站內(nèi)信息進(jìn)行搜索功能,同時可以滿足師生對于圖書館資源進(jìn)行查找訪問的需求,實現(xiàn)高校圖書館網(wǎng)站資源真正意義上的個性化服務(wù)。
1、為開發(fā)網(wǎng)絡(luò)信息資源提供了工具
數(shù)字圖書館需要的是一種可以有效的將信息進(jìn)行組織管理,同時還能夠?qū)π畔⑦M(jìn)行深層的加工管理,提供多層次的、智能化的信息服務(wù)和全方位的知識服務(wù),提供經(jīng)過加工、分析綜合等處理的高附加值的信息產(chǎn)品和知識產(chǎn)品的工具。目前許多高校數(shù)字圖書館的查詢手段還只局限于一些基本的數(shù)據(jù)操作,對數(shù)據(jù)只能進(jìn)行初步的加工,不具有從這些數(shù)據(jù)中歸納出所隱含的有用信息的功能,也使得這些信息不為人知,從而得不到更好的使用,這些都是對網(wǎng)絡(luò)信息資源的一種浪費(fèi)。而通過Web數(shù)據(jù)挖掘技術(shù)科研有效的解決這一問題。這種技術(shù)可以用于挖掘文檔的隱含的有用的內(nèi)容,或者可以在其他工具搜索的基礎(chǔ)上進(jìn)一步進(jìn)行處理,得到更為有用和精確的信息。通過Web數(shù)據(jù)挖掘技術(shù)科研對數(shù)字圖書關(guān)注中的信息進(jìn)行更加有效地整合。
2、為以用戶為中心的服務(wù)提供幫助
通過瀏覽器訪問數(shù)字圖書館后,可被記載下來的數(shù)據(jù)有兩類,一類是用戶信息,另一類是用戶訪問記錄。其中用戶信息包括了用戶名,用戶訪問IP地址,用戶的職業(yè)、年齡、愛好等。用戶名師用戶登錄圖書館時輸入,用戶訪問IP地址通過程序獲得,其他的信息都是用戶在注冊時所填寫的,訪問記錄則是在用戶登錄時所記錄的,也是由程序獲得。對這些用戶信息進(jìn)行分析可以更加有效的了解用戶的需求通過分析服務(wù)器中用戶請求失敗的數(shù)據(jù),結(jié)合聚集算法,可以發(fā)現(xiàn)信息資源的缺漏,從而指導(dǎo)對信息資源采集的改進(jìn),讓高校數(shù)字圖書館的信息資源體系建設(shè)的更加合理。對數(shù)字圖書館系統(tǒng)的在線調(diào)查、留言簿、薦書條等的數(shù)據(jù)進(jìn)行收集整理,并使之轉(zhuǎn)化為標(biāo)準(zhǔn)的結(jié)構(gòu)化數(shù)據(jù)庫,然后在通過數(shù)據(jù)挖掘,皆可以發(fā)現(xiàn)用戶所感興趣的模式,同時還可以預(yù)先發(fā)現(xiàn)用戶群體興趣的變遷,調(diào)整館藏方向,提前做好信息資源的采集計劃。通過Web數(shù)據(jù)挖掘,可以對用戶的信息需求和行為規(guī)律進(jìn)行總結(jié),從而為優(yōu)化網(wǎng)絡(luò)站點的結(jié)構(gòu)提供參考,還可以適當(dāng)各種資源的配置更加的合理,讓用戶可以用更少的時間找到自己所需要的資源。例如可以通過路徑分析模式采掘捕捉確定用戶頻繁瀏覽訪問的路徑,調(diào)整站點結(jié)構(gòu),并在適當(dāng)處加上廣告或薦書條。
3、Web數(shù)據(jù)挖掘技術(shù)在圖書館采訪工作中的應(yīng)用
在圖書館的工作中有一步十分的重要,這就是采訪工作,采訪工作的做的好壞程度會直接的對圖書館的服務(wù)質(zhì)量產(chǎn)生影響。通常情況圖書館的工作人員會根據(jù)圖書館的性質(zhì)、服務(wù)對象及其任務(wù)來決定采訪的內(nèi)容。但是這種采訪局限性很大,很多時候會受采訪人員的主觀意識的影響,同時這種方式也會顯得死板不靈活。很多時候會出現(xiàn)應(yīng)該購進(jìn)的文獻(xiàn)沒有買,不應(yīng)該買的文獻(xiàn)卻買了很多等與讀者的需求不符的現(xiàn)象。這些現(xiàn)象的產(chǎn)生都是因為缺乏對讀者需求的了解和分析。要解決這些問題就必須對讀者的需求進(jìn)行全面的了解和分析,而Web數(shù)據(jù)挖掘則為解決該問題提供了一種較好的方法。通過對各種日志文件和采訪時獲得的數(shù)據(jù)進(jìn)行分析,可以很清楚的得到讀者需要的是什么樣的書籍、不需要的又是什么樣的書籍,從而為采購提供各種科學(xué)合理的分析報告和預(yù)測報告。根據(jù)對分析還能幫組圖書館管理人員確定各種所需書籍的比例,從而確定哪些文獻(xiàn)應(yīng)該及時的進(jìn)行補(bǔ)充,哪些文獻(xiàn)應(yīng)該進(jìn)行剔除,對館藏機(jī)構(gòu)進(jìn)行優(yōu)化,真正的為高校里的師生提供所需要的文獻(xiàn)和資料。
4、使用Web數(shù)據(jù)挖掘技術(shù)提供個性化服務(wù)
(2)數(shù)據(jù)準(zhǔn)備:首先,對于業(yè)務(wù)目標(biāo)相關(guān)的內(nèi)部和外部數(shù)據(jù)信息進(jìn)行查找,從中找出可以用于數(shù)據(jù)挖掘的信息;其次,要對數(shù)據(jù)信息的內(nèi)容進(jìn)行全面細(xì)致分析,確定需要進(jìn)行挖掘操作的類型;然后,結(jié)合相應(yīng)的挖掘算法,將數(shù)據(jù)轉(zhuǎn)化稱為相應(yīng)的分析模型,以保證數(shù)據(jù)挖掘的順利進(jìn)行。
(3)數(shù)據(jù)挖掘:在對數(shù)據(jù)進(jìn)行轉(zhuǎn)化后,就可以結(jié)合相應(yīng)的挖掘算法,自動完成相應(yīng)的數(shù)據(jù)分析工作。
(4)結(jié)果分析:對得到的數(shù)據(jù)分析結(jié)果進(jìn)行評價,結(jié)合數(shù)據(jù)挖掘操作明確分析方法,一般情況下,會用到可視化技術(shù)。
(5)知識同化:對分析得到的數(shù)據(jù)信息進(jìn)行整理,統(tǒng)一到業(yè)務(wù)信息系統(tǒng)的組成結(jié)構(gòu)中。這個步驟不一定能夠一次完成,而且其中部分步驟可能需要重復(fù)進(jìn)行。
二、數(shù)據(jù)挖掘技術(shù)在水利工程管理中的實施要點
水利工程在經(jīng)濟(jì)和社會發(fā)展中是非常重要的基礎(chǔ)設(shè)施,做好水利工程管理工作,確保其功能的有效發(fā)揮,是相關(guān)管理人員需要重點考慮的問題。最近幾年,隨著社會經(jīng)濟(jì)的飛速發(fā)展,水利工程項目的數(shù)量和規(guī)模不斷擴(kuò)大,產(chǎn)生的水利科學(xué)數(shù)據(jù)也在不斷增加,這些數(shù)據(jù)雖然繁瑣,但是在許多科研生產(chǎn)活動和日常生活中都是不可或缺的。例如,在對洪澇、干旱的預(yù)防以及對生態(tài)環(huán)境問題的處理方面,獲取完整的水利科學(xué)數(shù)據(jù)是首要任務(wù)。那么,針對日益繁雜的海量水利科學(xué)數(shù)據(jù),如何對有用的信息知識進(jìn)行提取呢?數(shù)據(jù)挖掘技術(shù)的應(yīng)用有效的解決了這個問題,可以從海量的數(shù)據(jù)信息中,挖掘出潛在的、有利用價值的知識,為相關(guān)決策提供必要的支持。
1.強(qiáng)化數(shù)據(jù)庫建設(shè)
要想對各類數(shù)據(jù)進(jìn)行科學(xué)有效的收集和整理,就必須建立合理完善的數(shù)據(jù)庫。對于水利工程而言,應(yīng)該建立分類數(shù)據(jù)庫,如水文、河道河情、水量調(diào)度、防洪、汛情等,確保數(shù)據(jù)的合理性、全面性和準(zhǔn)確性,選擇合適的方法,對有用數(shù)據(jù)進(jìn)行挖掘。
2.合理選擇數(shù)據(jù)挖掘算法
(1)關(guān)聯(lián)規(guī)則挖掘算法:關(guān)聯(lián)規(guī)則挖掘問題最早提出于1993年,在當(dāng)前數(shù)據(jù)挖掘領(lǐng)域,從事務(wù)數(shù)據(jù)庫中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,已經(jīng)成為一個極其重要的研究課題。關(guān)聯(lián)規(guī)則挖掘的主要目的,是尋找和挖掘隱藏在各種數(shù)據(jù)之間的相互關(guān)系,通過量化的數(shù)據(jù),來描述事務(wù)A的出現(xiàn)對于事務(wù)B出現(xiàn)可能產(chǎn)生的影響,關(guān)聯(lián)規(guī)則挖掘就是給定一組Item以及相應(yīng)的記錄組合,通過對記錄組合的分析,推導(dǎo)出Item間存在的相關(guān)性。當(dāng)前對于關(guān)聯(lián)規(guī)則的描述,一般是利用支持度和置信度,支出度是指產(chǎn)品集A、B同時出現(xiàn)的概率,置信度則是在事務(wù)集A出現(xiàn)的前提下,B出現(xiàn)的概率。通過相應(yīng)的關(guān)聯(lián)分析,可以得出事務(wù)A、B同時出現(xiàn)的簡單規(guī)則,以及每一條規(guī)則的支持度和置信度,支持度高則表明規(guī)則被經(jīng)常使用,置信度高則表明規(guī)則相對可靠,通過關(guān)聯(lián)分析,可以明確事務(wù)A、B的關(guān)聯(lián)程度,決定兩種事務(wù)同時出現(xiàn)的情況。
(2)自頂而下頻繁項挖掘算法:對于長頻繁項,如果采用關(guān)聯(lián)規(guī)則挖掘算法,需要進(jìn)行大量的計算分析,不僅耗時耗力,而且影響計算的精準(zhǔn)度,這時,就可以采用自頂而下頻繁項挖掘算法,這種算法是一種相對優(yōu)秀的長頻繁項挖掘算法,利用了事務(wù)項目關(guān)聯(lián)信息表、項目約簡、關(guān)鍵項目以及投影數(shù)據(jù)庫等新概念與投影、約簡等新方法,在對候選集進(jìn)行生成的過程中,應(yīng)該對重復(fù)分支進(jìn)行及時修剪,提升算法的實際效率,從而有效解決了長頻繁項的挖掘問題。結(jié)合計算機(jī)實驗以及算法分析,可以看出,這種方法是相對完善的,同時也是十分有效的。不過需要注意的是,當(dāng)支持度較大、頻繁項相對較短時,利用關(guān)聯(lián)規(guī)則挖掘中典型的Apriori方法,可以起到更好的效果。
(3)頻繁項雙向挖掘算法:這種算法是一種融合了自頂向下以及自底向上的雙向挖掘算法,可以較好的解決長頻繁項以及段頻繁項的挖掘問題,主挖掘方向是利用自頂向下挖掘策略,但是結(jié)合自底向上方法生成的非頻繁項集,可以對候選集進(jìn)行及時修剪,提升算法的實際效率。
1.2綜合應(yīng)用性強(qiáng)如前文所述,數(shù)據(jù)挖掘技術(shù)是一個工具系統(tǒng)而不是單一的工具,能夠?qū)崿F(xiàn)使用主體的各種信息需求,隨著現(xiàn)代社會經(jīng)濟(jì)的快速發(fā)展,當(dāng)前我國經(jīng)濟(jì)管理的各個部門都需要大量的經(jīng)濟(jì)統(tǒng)計信息來作為經(jīng)濟(jì)管理決策的基礎(chǔ)。但是因為各個管理部門經(jīng)濟(jì)管理的領(lǐng)域不同、經(jīng)濟(jì)管理的方式不同、經(jīng)濟(jì)的管理權(quán)限不同,所以相應(yīng)的經(jīng)濟(jì)統(tǒng)計數(shù)據(jù)呈現(xiàn)形式的需求就不同。這就為經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計系統(tǒng)提出了更高的要求,其不僅要對符合各個經(jīng)濟(jì)管理部門需求的數(shù)據(jù)內(nèi)容進(jìn)行統(tǒng)計,同時要將統(tǒng)計完成的數(shù)據(jù)換算成各種不同的呈現(xiàn)形式,并根據(jù)統(tǒng)計信息的來源和統(tǒng)計信息的計算方式對其可靠性進(jìn)行評估[2]。最終這些數(shù)據(jù)信息的輸出格式還應(yīng)該符合所服務(wù)的經(jīng)濟(jì)管理部門管理系統(tǒng)的格式要求,保證統(tǒng)計數(shù)據(jù)能夠在管理部門的管理系統(tǒng)中正常錄入、應(yīng)用,數(shù)據(jù)挖掘技術(shù)很好地滿足了上述的復(fù)雜經(jīng)濟(jì)數(shù)據(jù)管理要求,其功能的綜合性促進(jìn)了其應(yīng)用深度的提高和范圍的擴(kuò)大。
1.3宏觀數(shù)據(jù)庫有利于數(shù)據(jù)挖掘技術(shù)的應(yīng)用當(dāng)前因為經(jīng)濟(jì)管理部門的職權(quán)較為分散,各個經(jīng)濟(jì)管理部門的經(jīng)濟(jì)統(tǒng)計數(shù)據(jù)需求不盡相同。所以我國的經(jīng)濟(jì)統(tǒng)計活動絕大多數(shù)還采用傳統(tǒng)的經(jīng)濟(jì)統(tǒng)計方法,統(tǒng)計收集的經(jīng)濟(jì)信息存在一定的局限性,不能夠服務(wù)于經(jīng)濟(jì)管理活動的整體,或者造成一些數(shù)據(jù)統(tǒng)計工作的重復(fù),對經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計工作造成了一系列的質(zhì)量和效率上的影響。經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計活動急需一個能夠整合各個統(tǒng)計系統(tǒng),實現(xiàn)統(tǒng)計數(shù)據(jù)信息融合的新技術(shù)。宏觀經(jīng)濟(jì)統(tǒng)計數(shù)據(jù)庫為數(shù)據(jù)挖掘技術(shù)的開展提供了平臺,數(shù)據(jù)管理系統(tǒng)的經(jīng)濟(jì)統(tǒng)計信息要正確無誤,然后經(jīng)過數(shù)據(jù)挖掘技術(shù)的整合,就能得到更加豐富的數(shù)據(jù)資源[3]。
2數(shù)據(jù)挖掘技術(shù)的應(yīng)用
在社會經(jīng)濟(jì)管理活動中,管理主體對經(jīng)濟(jì)統(tǒng)計數(shù)據(jù)的要求主要有兩個。一個是統(tǒng)計數(shù)據(jù)的真實性、一個是數(shù)據(jù)統(tǒng)計信息的實用性。單就這兩個經(jīng)濟(jì)統(tǒng)計數(shù)據(jù)要求而言,數(shù)據(jù)挖掘技術(shù)能夠很好地滿足經(jīng)濟(jì)統(tǒng)計工作的需求,是適用性極強(qiáng)的一種經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計技術(shù),其在具體的經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計活動中主要有以下三種應(yīng)用方法。
2.1預(yù)處理方法在經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計活動中,最為基礎(chǔ)的一種處理方式就是經(jīng)濟(jì)數(shù)據(jù)的預(yù)處理方法,因為數(shù)據(jù)挖掘本身是一種基于提供基礎(chǔ)信息的智能分析技術(shù)。其本身是受基礎(chǔ)經(jīng)濟(jì)信息限制的,不可能無中生有代替經(jīng)濟(jì)數(shù)據(jù)收集系統(tǒng)的功能。所以所有作為數(shù)據(jù)挖掘系統(tǒng)數(shù)據(jù)基礎(chǔ)的經(jīng)濟(jì)統(tǒng)計數(shù)據(jù)信息都應(yīng)該進(jìn)行預(yù)處理,處理的內(nèi)容主要包括對這些數(shù)據(jù)中不正確、不真實、不準(zhǔn)確,以及不同經(jīng)濟(jì)統(tǒng)計數(shù)據(jù)信息之間差距較大的現(xiàn)象。對這些基礎(chǔ)數(shù)據(jù)存在的問題進(jìn)行處理的過程被稱為數(shù)據(jù)清理,當(dāng)前數(shù)據(jù)清理主要采用的方法有均值法、平滑法和預(yù)測法。其中均值法是現(xiàn)代分析技術(shù)中模糊理念的一種應(yīng)用形式,當(dāng)基礎(chǔ)數(shù)據(jù)中的一個數(shù)據(jù)點是空值或者噪聲數(shù)據(jù)的時候,可以采用均值法進(jìn)行處理,即用數(shù)據(jù)庫中所有該屬性已知的屬性均值來填補(bǔ)空缺。保證數(shù)據(jù)挖掘系統(tǒng)對基礎(chǔ)數(shù)據(jù)的分析和整理能夠正常進(jìn)行,得出相對而言準(zhǔn)確度較高的統(tǒng)計分析數(shù)據(jù)。其中Ci表示當(dāng)前數(shù)據(jù)點的取值,Cj表示當(dāng)前數(shù)據(jù)點前后不為空的數(shù)據(jù)點,K表示當(dāng)前數(shù)據(jù)點進(jìn)行計算所取的參考數(shù)據(jù)點數(shù)量[4]。平滑法依然是對基礎(chǔ)數(shù)據(jù)中空值和噪聲數(shù)據(jù)的計算方法,其與均值法的區(qū)別是用加權(quán)平均數(shù)代替了平均數(shù),考慮了計算過程中提取的每一個數(shù)據(jù)對數(shù)據(jù)結(jié)果的影響權(quán)重,所以計算出的結(jié)果往往更加接近真實的數(shù)值。其中Ci表示當(dāng)前數(shù)據(jù)點的取值,Cj表示當(dāng)前數(shù)據(jù)點前后不為空的數(shù)據(jù)點,K表示為對當(dāng)前數(shù)據(jù)點進(jìn)行計算所取的數(shù)據(jù)點數(shù)量。WJ表示Cj數(shù)據(jù)點的權(quán)值。
2.2集成化處理方法在數(shù)據(jù)挖掘技術(shù)的應(yīng)用活動中,因為相同地區(qū)的數(shù)據(jù)統(tǒng)計主體不同,或者在不同地區(qū)對相同經(jīng)濟(jì)數(shù)據(jù)的統(tǒng)計標(biāo)準(zhǔn)不統(tǒng)一,會產(chǎn)生一系列的數(shù)據(jù)集成問題,如何對這些調(diào)查方向不同或者是呈現(xiàn)方式不同的數(shù)據(jù)進(jìn)行有效集成而不影響經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計的準(zhǔn)確性,是數(shù)據(jù)挖掘技術(shù)的重要任務(wù)。在具體的數(shù)據(jù)集成過程中主要考慮以下幾個方面的問題[5]。
2.2.1模式集成當(dāng)前因為社會經(jīng)濟(jì)活動中經(jīng)濟(jì)數(shù)據(jù)的統(tǒng)計內(nèi)容過于廣泛,很多經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計并不是來自于官方的統(tǒng)計局而是來自一些民間統(tǒng)計組織,或者是由一線社會經(jīng)濟(jì)主體直接提供的經(jīng)濟(jì)數(shù)據(jù),在數(shù)據(jù)挖掘過程中將這些來自多個數(shù)據(jù)源存在多種數(shù)據(jù)呈現(xiàn)模式的經(jīng)濟(jì)數(shù)據(jù)信息進(jìn)行集成就涉及實體識別的問題。例如在數(shù)據(jù)挖掘過程中如何確定一個數(shù)據(jù)庫中“std-id”與另一個數(shù)據(jù)庫中的“std-no”是否表示同一實體,當(dāng)前一般使用數(shù)據(jù)庫與數(shù)據(jù)庫之間的含元數(shù)據(jù)對比來保證實體識別高效率和高質(zhì)量[6]。
2.2.2冗余問題數(shù)據(jù)挖掘本身是對經(jīng)濟(jì)統(tǒng)計數(shù)據(jù)的一種深加工技術(shù),經(jīng)過其加工的經(jīng)濟(jì)統(tǒng)計技術(shù)應(yīng)該在本質(zhì)上達(dá)到最簡狀態(tài)。在數(shù)據(jù)挖掘過程中要將與其他數(shù)據(jù)呈現(xiàn)某種正相關(guān)關(guān)系的數(shù)據(jù)項目進(jìn)行精簡,以保證數(shù)據(jù)庫中數(shù)據(jù)量維持在一個較低的水平,為數(shù)據(jù)管理和應(yīng)用提供便利。在經(jīng)濟(jì)數(shù)據(jù)挖掘活動中人均國民生產(chǎn)總值就是典型的冗余屬性,因為其數(shù)值是可以通過國內(nèi)生產(chǎn)總值和總?cè)丝趯傩杂嬎愠鰜淼?,所以類似人均國民生產(chǎn)總值這種冗余屬性在數(shù)據(jù)挖掘過程中就應(yīng)該精簡,應(yīng)用的時候在利用國民生產(chǎn)總值和人口屬性計算得出[7]。對冗余屬性的判斷主要通過相關(guān)度對比來實現(xiàn)。其中n表示元組的個數(shù),分別是屬性A和屬性B的平均值,分別是屬性A和屬性B的標(biāo)準(zhǔn)方差,在這一公式中如果則表示A、B兩個屬性是正相關(guān),也就是說A越大B就越大,值越高二者的正相關(guān)關(guān)系就越密切;如果則表示屬性A、B之間沒有直接關(guān)系,是相互獨(dú)立的;如果則表示A、B兩個屬性呈負(fù)相關(guān),屬性B會隨著屬性A的減小而增大,的絕對值越大,二者的負(fù)相關(guān)關(guān)聯(lián)關(guān)系就越密切。
2.3決策樹方法在數(shù)據(jù)挖掘技術(shù)應(yīng)用過程中,經(jīng)過系統(tǒng)的分析和總結(jié)以后,分析數(shù)據(jù)的輸出是一個關(guān)鍵的環(huán)節(jié),其輸出的數(shù)據(jù)形式會對使用者的經(jīng)濟(jì)管理決策產(chǎn)生直接的影響。決策樹是一種較為常見的、直觀的快速分類方法。其應(yīng)用的關(guān)鍵是決策樹的構(gòu)建,具體而言主要分為兩步:第一步是利用訓(xùn)練集建立并精簡一棵決策樹,建立輸出分析的模型;第二步是利用構(gòu)建完畢的決策樹進(jìn)行輸入數(shù)據(jù)的分類,這一分類是一個遞歸的過程,從決策樹的根部開始進(jìn)入到樹干、枝丫,直到輸入數(shù)據(jù)的分類滿足了某種條件而停止。在具體的應(yīng)用中停止分割的條件有兩個:一個是當(dāng)一個節(jié)點上的所有數(shù)據(jù)都屬于同一個類別的時候;另一個是沒有分類屬性可以對輸入數(shù)據(jù)進(jìn)行再分割[8]。在決策樹構(gòu)建完成后,還要根據(jù)使用者的具體要求對決策樹進(jìn)行“剪枝”,剪枝的主要目的是要降低因為使用訓(xùn)練集而對決策樹本身數(shù)據(jù)輸出產(chǎn)生的起伏影響。
云計算是并行計算和分布計算以及網(wǎng)格計算的發(fā)展,是一種在海量數(shù)據(jù)大規(guī)模的集合中能動態(tài)處理各種服務(wù)器數(shù)據(jù)資源的一類計算平臺,在電子商務(wù)、商業(yè)金融、科研開發(fā)等領(lǐng)域能得到廣泛的應(yīng)用。它具有大規(guī)模、虛擬化、高效率、通用性、廉價等特點,能針對不同的用戶的不同需求,動態(tài)透明地提供其所需的虛擬化計算和資源儲存,并能及時動態(tài)回收當(dāng)前用戶暫不利用的數(shù)據(jù)資源以提供給其他用戶,而其廉價、通用的特點,使得一般用戶實現(xiàn)大規(guī)模的數(shù)據(jù)操作成為可能。目前來說,云計算的平臺已得到良好的發(fā)展,日益成熟,基于云計算的應(yīng)用已經(jīng)可以相當(dāng)方便的部署和操作其數(shù)據(jù)資源。
1.2數(shù)據(jù)挖掘
數(shù)據(jù)挖掘技術(shù)是現(xiàn)代知識發(fā)現(xiàn)領(lǐng)域的一個重要技術(shù),它是指一個從隨機(jī)的大量而不完整的模糊的實際數(shù)據(jù)中提取其中某些隱含著的具有潛在價值的實用知識與信息的過程。其具體技術(shù)有特征化、聚類、關(guān)聯(lián)和預(yù)測分析等等,涉及到的高級技術(shù)領(lǐng)域有統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)、模式識別、人工智能等方面。
2基于云計算的數(shù)據(jù)挖掘平臺構(gòu)架
網(wǎng)絡(luò)云的發(fā)展給數(shù)據(jù)挖掘提出了新的問題和時代的挑戰(zhàn),同時,也為數(shù)據(jù)挖掘提供了新的計算平臺和發(fā)展機(jī)遇?;谠朴嬎愕臄?shù)據(jù)挖掘系統(tǒng)平臺的發(fā)現(xiàn),解決了傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)出現(xiàn)的時代滯慢、效率較低、功能落后、成本高昂等問題。云計算是一種商業(yè)計算模式,是網(wǎng)格計算與并行計算及分布式計算在一定程度上的商業(yè)實現(xiàn),其動態(tài)、可伸縮的計算基于云計算的數(shù)據(jù)挖掘平臺架構(gòu)及其關(guān)鍵技術(shù)探討文/張瑤劉輝云計算是一種在互聯(lián)網(wǎng)時代中應(yīng)運(yùn)而生的新興的網(wǎng)絡(luò)技術(shù),具有高效率、高容量、動態(tài)處理的特點,在社會的商業(yè)領(lǐng)域和科研領(lǐng)域表現(xiàn)出了其相當(dāng)高的應(yīng)用價值。將云計算應(yīng)用于數(shù)據(jù)挖掘平臺的構(gòu)架之中后,將能在很大程度上為現(xiàn)代社會中越來越海量的數(shù)據(jù)挖掘提供一個高效率的技術(shù)平臺。本文將結(jié)合云計算和數(shù)據(jù)挖掘的基本概念和現(xiàn)代意義,對數(shù)據(jù)挖掘的平臺構(gòu)架和相應(yīng)的關(guān)鍵技術(shù)做出簡要的分析探討。摘要能力使得進(jìn)行高效的海量數(shù)據(jù)挖掘的目標(biāo)不再遙遠(yuǎn)。同時,云計算SaaS功能日益被理解和標(biāo)準(zhǔn)化,使得基于云計算SaaS化的數(shù)據(jù)挖掘有了理論和技術(shù)的指導(dǎo),并具有了企業(yè)化與大眾化的發(fā)展趨勢。
2.1數(shù)據(jù)挖掘平臺構(gòu)架
建立在關(guān)系型數(shù)據(jù)庫之上的傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)構(gòu)架在現(xiàn)時代數(shù)據(jù)急劇膨脹和分析需求漸增的發(fā)展下已經(jīng)難以應(yīng)付社會的數(shù)據(jù)處理問題。而云計算的分布式存儲與計算形式則接受了當(dāng)代的數(shù)據(jù)挖掘難題,促成了適應(yīng)時代的云計算數(shù)據(jù)挖掘平臺構(gòu)架的形成。其包含了面向組件的設(shè)計理念和分層設(shè)計的思想方法。其構(gòu)架自下向上總共分為3層,分別為底層的云計算支撐平臺層、中間的數(shù)據(jù)挖掘能力層和上層的數(shù)據(jù)挖掘云服務(wù)層。
2.2基于云計算的數(shù)據(jù)挖掘平臺構(gòu)架各層意義
云計算支撐平臺層:顧名思義,該平臺層是云計算數(shù)據(jù)挖掘平臺的基礎(chǔ)處理平臺,其主要具有的功能是對分布式文件存儲與數(shù)據(jù)庫提供資源存儲,以及實行對數(shù)據(jù)的有關(guān)處理和計算功能。數(shù)據(jù)挖掘能力層:該平臺結(jié)構(gòu)層主要是提供挖掘的基礎(chǔ)能力,是數(shù)據(jù)挖掘的核心支撐平臺,并對數(shù)據(jù)挖掘云服務(wù)層提供能力支撐。該平臺層包含了算法數(shù)據(jù)并行處理、調(diào)度引起和服務(wù)管理的框架,該平臺層可以提供系統(tǒng)內(nèi)部的數(shù)據(jù)挖掘處理和推薦算法庫,亦支持第三方的數(shù)據(jù)挖掘算法工具的進(jìn)入。數(shù)據(jù)挖掘云服務(wù)層:數(shù)據(jù)挖掘云服務(wù)層的主要功能是對外提供數(shù)據(jù)挖掘操作的云服務(wù),同時也能提供基于結(jié)構(gòu)化查詢的語言語句訪問,提供相關(guān)的解析引擎,以便于自動調(diào)用云服務(wù)。對外數(shù)據(jù)挖掘云服務(wù)能力封裝的接口形式多樣,包含了基于簡單對象訪問協(xié)議下的Webservice、XML、HTTP以及本地應(yīng)用程序的編程接口等多種形式。另外,在必要的時候,云服務(wù)層的各個業(yè)務(wù)系統(tǒng)可以進(jìn)行數(shù)據(jù)挖掘云服務(wù)的調(diào)用和組裝。
3基于云計算的數(shù)據(jù)挖掘平臺構(gòu)架的關(guān)鍵技術(shù)探討
基于云計算的數(shù)據(jù)挖掘平臺構(gòu)架的形成,離不開現(xiàn)代先進(jìn)的科技技術(shù),其中幾項關(guān)鍵的技術(shù)應(yīng)用將在這里進(jìn)行簡要的闡述:
3.1云計算技術(shù)
3.1.1分布式儲存技術(shù)
通過采用分布式存儲的方式來存儲數(shù)據(jù),是云計算技術(shù)保證數(shù)據(jù)處理高可靠性和經(jīng)濟(jì)性的重要保證。用可靠的軟件來彌補(bǔ)硬件的不足,是分布式存儲技術(shù)提供廉價而又海量的數(shù)據(jù)挖掘支持的重要途徑。
3.1.2虛擬化技術(shù)
在云計算的環(huán)境下,數(shù)據(jù)挖掘能實現(xiàn)對大量的可用的虛擬化技術(shù)的應(yīng)用、整合,發(fā)展出一套全面虛擬化的運(yùn)行戰(zhàn)略。云計算和虛擬化的共同組合,使數(shù)據(jù)挖掘?qū)崿F(xiàn)了跨系統(tǒng)下的資源調(diào)度,將海量的來源數(shù)據(jù)進(jìn)行IT資源匯合,動態(tài)地實現(xiàn)對用戶的虛擬化資源的供給,從而以高效率、海量動態(tài)的特點完成服務(wù)任務(wù)。
3.1.3并行云計算技術(shù)
并行云計算技術(shù)是一種對于高效執(zhí)行數(shù)據(jù)挖掘計算任務(wù)極其重要的技術(shù),并且它對云計算的某些技術(shù)細(xì)節(jié)做出了封裝,例如任務(wù)并行、任務(wù)調(diào)度、任務(wù)容錯和系統(tǒng)容錯以及數(shù)據(jù)分布等。該功能代替了用戶對這些細(xì)節(jié)的考慮,使得研發(fā)效率得到了提高。
3.2數(shù)據(jù)匯集調(diào)度中心
數(shù)據(jù)匯集調(diào)度中心的功能主要是完成對不同類型的數(shù)據(jù)進(jìn)行匯集。它實現(xiàn)了對接入該云計算數(shù)據(jù)挖掘平臺的業(yè)務(wù)數(shù)據(jù)收集匯合,能夠解決與不同數(shù)據(jù)的相關(guān)規(guī)約問題,并能支持多樣的源數(shù)據(jù)格式。
3.3服務(wù)調(diào)度與管理技術(shù)
對于基于云計算的數(shù)據(jù)挖掘平臺,為了使不同業(yè)務(wù)系統(tǒng)能夠使用本計算平臺,必須要提供相應(yīng)的服務(wù)調(diào)度與管理功能。服務(wù)調(diào)度解決云服務(wù)下的并行互斥以及隔離等問題,以保證安全、可靠的平臺的云服務(wù)。服務(wù)管理功能要實現(xiàn)統(tǒng)一的服務(wù)注冊與服務(wù)暴露功能,并且支持接入第三方的數(shù)據(jù)挖掘,以更好地擴(kuò)展平臺的服務(wù)能力。
二、在部隊食品采購系統(tǒng)中的應(yīng)用以及其價值評價
在部隊食品采購系統(tǒng)實際應(yīng)用工程中,其實可以運(yùn)用MicrosoftSQLServerAnalysisServices來對數(shù)據(jù)進(jìn)行分析,并且在數(shù)據(jù)挖掘過程中對多維數(shù)據(jù)進(jìn)行描述與查找起到一定作用。因為多維數(shù)據(jù)比較復(fù)雜,增長的也比較快,因此,進(jìn)行手動查找是很困難的,數(shù)據(jù)挖掘技術(shù)提供的計算模式可以很好的對數(shù)據(jù)進(jìn)行分析與查找。在建設(shè)部隊食品采購倉庫數(shù)據(jù)的時候,數(shù)據(jù)內(nèi)容主要包括了人員的健康、兵員的飲食以及訓(xùn)練等,進(jìn)行數(shù)據(jù)挖掘主要包括以下內(nèi)容:第一,把每個主題信息數(shù)據(jù)進(jìn)行收集、匯總、分析等,對人員情況、健康、飲食、訓(xùn)練等進(jìn)行合理分析;第二,多維分析數(shù)據(jù)信息。根據(jù)部隊的實際情況,利用數(shù)據(jù)挖掘技術(shù)對部隊人員健康、飲食、訓(xùn)練等數(shù)據(jù)信息進(jìn)行多維分析,其中包含上鉆、切片、下鉆等;第三,挖掘健康與飲食之間的內(nèi)在關(guān)系。根據(jù)數(shù)據(jù)庫中許多面向主題的歷史數(shù)據(jù),采用數(shù)據(jù)挖掘技術(shù)進(jìn)行分析與演算得到部隊人員的訓(xùn)練和健康情況與部隊飲食之間內(nèi)在關(guān)系,以便于為部隊食品采購提供合理的、有效的保障,從而提高部隊整體人員的健康水平、身體素質(zhì)以及訓(xùn)練質(zhì)量,對提高我國部隊?wèi)?zhàn)斗力有著深遠(yuǎn)的意義。
2交互式關(guān)聯(lián)規(guī)則挖掘算法
關(guān)聯(lián)規(guī)則挖掘算法在數(shù)據(jù)庫的記錄或?qū)ο笾谐槿£P(guān)聯(lián)性,展示了數(shù)據(jù)間位置依賴關(guān)系,其目的是尋找在大量的數(shù)據(jù)項中隱藏著的聯(lián)系或相關(guān)性。其優(yōu)越性在于能將用戶的定制信息整合到挖掘過程中,以一種友好的方式引入約束,使挖掘出更加符合用戶需要的信息,并且提高了挖掘的效率和有效性。
2.1目標(biāo)數(shù)據(jù)庫的確定
數(shù)據(jù)挖掘應(yīng)熟悉對象的背景知識,明確挖掘的目標(biāo),根據(jù)目標(biāo)確定相關(guān)數(shù)據(jù),以此作為目標(biāo)數(shù)據(jù)庫,來完成對數(shù)據(jù)的預(yù)處理、挖掘和規(guī)則評價。
2.2交互式關(guān)聯(lián)規(guī)則挖掘算法
表示A成立則B成立,其中給出了可信度C和支持度S。可信度C是對關(guān)聯(lián)規(guī)則準(zhǔn)確度的衡量,即在出現(xiàn)A的情況下出現(xiàn)B的概率;支持度S是對關(guān)聯(lián)規(guī)則重要性的衡量,即A和B同時出現(xiàn)的概率。
3熔煉機(jī)組數(shù)據(jù)挖掘的實現(xiàn)
本文采用的是冀某工廠于2013年5月運(yùn)行的數(shù)據(jù),采樣頻率為2~3秒/次,采樣模式為實時監(jiān)測值,得到7595組數(shù)據(jù)。在分析階段,對影響機(jī)組的主要可控參數(shù)進(jìn)行了提取及預(yù)處理,參數(shù)主要包括:轉(zhuǎn)速、有功功率、主蒸汽壓力、調(diào)節(jié)級壓力、中壓缸排汽壓力。以機(jī)組轉(zhuǎn)速設(shè)計值為3600r/min為例來分析。對各個可控參數(shù)數(shù)據(jù)進(jìn)行曲線化處理,作為分析它們之間的關(guān)聯(lián)規(guī)則的數(shù)據(jù)表。上述關(guān)聯(lián)規(guī)則表示,在三種負(fù)荷工況下,工廠熔煉機(jī)組有功功率與主蒸汽壓力、調(diào)節(jié)級壓力、中壓缸排汽壓力三者之間最優(yōu)變化區(qū)間的關(guān)聯(lián)。經(jīng)分析,在機(jī)組中應(yīng)用關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù)與傳統(tǒng)方法相比,優(yōu)點是其可以對不同的可測參數(shù)進(jìn)行挖掘,方法簡單有效、可操作性強(qiáng);運(yùn)用關(guān)聯(lián)規(guī)則進(jìn)行挖掘,對過程能夠較靈活控制,處理后的目標(biāo)值直觀,便于操作指導(dǎo)和提高運(yùn)行效率。
2、國內(nèi)外文獻(xiàn)綜述
挑選中國知網(wǎng)數(shù)據(jù)庫,以“知識管理”為主題關(guān)鍵詞進(jìn)行精確檢索,共找到 31,324 篇文獻(xiàn),其中 2004 年至2014 年間共發(fā)表文獻(xiàn) 24,895 篇,近十年是知識管理領(lǐng)域研究的高峰期。以“高校知識管理”或“大學(xué)知識管理”為主題關(guān)鍵字進(jìn)行精確檢索,得到 248 篇相關(guān)文獻(xiàn),可發(fā)現(xiàn)針對高校的知識管理研究較少。針對結(jié)果進(jìn)行二次檢索,增加主題關(guān)鍵詞“數(shù)據(jù)挖掘”得到相關(guān)文獻(xiàn) 3 篇,表明對高校知識管理與數(shù)據(jù)挖掘技術(shù)結(jié)合的研究較少,所得文獻(xiàn)主要觀點包括:1.數(shù)據(jù)挖掘技術(shù)可用于高校知識發(fā)現(xiàn);2.數(shù)據(jù)挖掘?qū)χR管理體系建設(shè)有推動作用;3. 高校知識管理成果可通過數(shù)據(jù)挖掘技術(shù)進(jìn)行評價。對國外學(xué)者的研究情況進(jìn)行分析,挑選 Web ofScience 數(shù)據(jù)庫。以“knowledge management”為主題關(guān)鍵字進(jìn)行檢索,共得到 62,474 篇文獻(xiàn),以“knowledgemanagement of college”為主題關(guān)鍵字檢索,得到 647篇文獻(xiàn),再結(jié)合關(guān)鍵詞“Data mining”,共得到文獻(xiàn) 5 篇。由此可見,國外相關(guān)研究比國內(nèi)多出近一倍,并且研究的程度深、范圍廣。但關(guān)于高校知識管理與具體信息技術(shù)結(jié)合應(yīng)用的文獻(xiàn)仍較少,且發(fā)表日期多為 2010 年后。
3、知識管理與數(shù)據(jù)挖掘結(jié)合的軟件要求
知識管理與數(shù)據(jù)挖掘技術(shù)的結(jié)合運(yùn)用對高校相關(guān)設(shè)備提出了一定的要求,包括對服務(wù)器、客戶端計算機(jī)的硬件要求以及對知識管理平臺、數(shù)據(jù)挖掘工具的軟件要求,本文中將重點敘述軟件要求。
知識管理平臺要求
知識管理平臺是高校知識管理的實施基礎(chǔ),它為高校人員提供了可視化的操作界面,其應(yīng)實現(xiàn)的基本功能包括:1.數(shù)據(jù)接口;2.工具接口;3.數(shù)據(jù)挖掘(內(nèi)置或外接);4.知識倉庫;5.知識索引、推薦;6.信息檢索;7.組織內(nèi)交流;8. 管理評價。一個知識管理平臺應(yīng)分為:表現(xiàn)層、服務(wù)層、處理層、存儲層。表現(xiàn)層是面向用戶的可視化界面,用于人機(jī)交互,接受用戶的任務(wù);服務(wù)層對任務(wù)進(jìn)行調(diào)度、處理,直接執(zhí)行無需數(shù)據(jù)挖掘的任務(wù)并反饋至表現(xiàn)層,調(diào)度需要數(shù)據(jù)挖掘的任務(wù)至處理層;處理層負(fù)責(zé)數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、知識發(fā)現(xiàn)等功能;存儲層包括校方數(shù)據(jù)庫及知識倉庫。具體層次如圖 1 所示。根據(jù)高校組織的特征,知識管理平臺應(yīng)在實現(xiàn)基本功能的前提下具有以下特點:1. 接口質(zhì)量高。高校集行政、科研、社會服務(wù)等任務(wù)于一體,需要處理海量數(shù)據(jù),應(yīng)提供接口以使用專業(yè)處理工具處理復(fù)雜任務(wù),保證數(shù)據(jù)處理的效率與深度;2. 內(nèi)置數(shù)據(jù)挖掘功能。高校所含數(shù)據(jù)種類多、范圍廣,對結(jié)構(gòu)簡單、數(shù)據(jù)量小的數(shù)據(jù)可直接使用內(nèi)置數(shù)據(jù)挖掘功能處理,節(jié)省時間;3. 交流功能強(qiáng)。高校為知識密集型組織,其學(xué)科、職能間存在交叉,優(yōu)秀的交流功能保證了知識的共享及創(chuàng)新。4. 完善的激勵體系。激勵體系不僅體現(xiàn)在平臺的評價功能中,更體現(xiàn)在管理人員的管理中,通過提高人員的積極性促進(jìn)知識管理進(jìn)程的實施。
數(shù)據(jù)挖掘工具要求
高校所含知識從相關(guān)對象分類可分為兩類:1. 管理知識,指高校各部門(教學(xué)、后勤部門等)用于高校管理的知識;2. 科研知識,指各學(xué)科的專業(yè)知識。前者主要與高校行政、管理人員相關(guān),后者則與高校學(xué)者、教授關(guān)系更大。針對不同的用戶,知識管理與數(shù)據(jù)挖掘的結(jié)合運(yùn)用對數(shù)據(jù)挖掘軟件提出了不同的要求。高校行政、管理人員所面對的數(shù)據(jù)多來自高校各類信息系統(tǒng)的記錄,如:校園卡消費(fèi)信息、機(jī)房上機(jī)信息,具有量大、范圍廣、結(jié)構(gòu)一致等特點。用于該類數(shù)據(jù)挖掘的挖掘工具可內(nèi)置于知識管理平臺中,便于數(shù)據(jù)存取,提高挖掘速度。常用功能為預(yù)測、分類、評價三項,主要方法可選用回歸分析、趨勢外推、特征分類、層次分析、模糊綜合評價法等。結(jié)合使用者特點,該類挖掘工具應(yīng)提供獨(dú)立的、具有既定模式的工作界面,減少用戶與算法的接觸,挖掘結(jié)果應(yīng)具有較強(qiáng)可視性,提供圖、表界面,以便用戶理解。高??蒲兄R主要來自于學(xué)者、教授的科學(xué)研究,包括:實驗數(shù)據(jù)、主觀推測描述等,具有專業(yè)性強(qiáng)、層次深、結(jié)構(gòu)復(fù)雜等特點。針對挖掘要求較低的數(shù)據(jù),可使用知識管理平臺中的內(nèi)置挖掘工具,而針對挖掘要求高的數(shù)據(jù),可選用專業(yè)數(shù)據(jù)挖掘軟件,如:Intelligent Miner、QUEST 等,通過知識管理平臺的接口進(jìn)行對接。
4、知識管理與數(shù)據(jù)挖掘結(jié)合的具體策略
知識管理的基本職能可概括為外化、內(nèi)化、中介、認(rèn)知四大部分,其中前三項職能對信息技術(shù)的依賴較強(qiáng),可用數(shù)據(jù)挖掘技術(shù)進(jìn)行輔助。數(shù)據(jù)挖掘的過程分為條件匹配、選擇、激活、應(yīng)用四部分,即對數(shù)據(jù)進(jìn)行預(yù)處理后,選擇相關(guān)數(shù)據(jù)記錄,根據(jù)用戶要求選擇相應(yīng)技術(shù)進(jìn)行數(shù)據(jù)挖掘,得出并解釋數(shù)據(jù)挖掘結(jié)果,最終將這些記錄應(yīng)用于實踐中。兩者的具體結(jié)合策略如下:
輔助知識管理體系建設(shè)
知識管理本質(zhì)是一個周期性管理過程,在這一過程中實現(xiàn)組織知識共享、創(chuàng)新等,最終提升組織綜合實力,其中知識管理體系建設(shè)是實現(xiàn)知識管理的宏觀條件。知識管理體系建設(shè)是一個系統(tǒng)、全面的工程,包括組織結(jié)構(gòu)調(diào)整、確定激勵制度、知識管理文化培養(yǎng)、成效評估等任務(wù)。數(shù)據(jù)挖掘技術(shù),可以為知識管理體系建設(shè)提供依據(jù),保證相關(guān)決策的科學(xué)性。數(shù)據(jù)挖掘?qū)χR管理體系建設(shè)的幫助主要體現(xiàn)在以知識主管為主的知識管理部門對高校的管理、決策當(dāng)中。知識管理部門收集并預(yù)處理外校、本校知識管理體系建設(shè)的相關(guān)數(shù)據(jù),完成輔助決策的數(shù)據(jù)倉庫的建設(shè)。管理人員可根據(jù)要求,從數(shù)據(jù)倉庫中選擇數(shù)據(jù),利用對應(yīng)模型完成挖掘,通過挖掘結(jié)果對決策做出幫助。以制定激勵制度為例,管理人員選擇與高校人員喜好相關(guān)的數(shù)據(jù),如至少包含“部門”、“喜好”、“性別”字段,利用關(guān)聯(lián)算法對其進(jìn)行計算,即可得出各部門工作人員的喜好,以此為據(jù)制定相應(yīng)激勵制度。
知識外化
知識外化是指組織從組織外部獲取與本組織相關(guān)的知識、發(fā)現(xiàn)歸集組織內(nèi)部存在的知識并進(jìn)行存儲以備用的過程。完成知識外化的關(guān)鍵即知識發(fā)現(xiàn),其較為常用的方法包括主觀歸納、隱性知識外顯等。目前學(xué)界中較為認(rèn)可、使用較普遍的方法即數(shù)據(jù)知識發(fā)現(xiàn)(KnowledgeDiscovery in Database, KDD),指從數(shù)據(jù)集中識別出表明一定模式的、有效的、潛在的信息歸納為知識的過程。這是數(shù)據(jù)挖掘與知識管理結(jié)合應(yīng)用的最重要部分。同時,數(shù)據(jù)挖掘技術(shù)只給定挖掘目標(biāo),不給出假設(shè)、前提,因此在使用數(shù)據(jù)挖掘的過程中可獲取一些計劃外的知識,為知識管理提供一個可靠的知識源。此處存在兩個前提:第一,知識發(fā)現(xiàn)不能僅僅依靠信息技術(shù),更需要人員對挖掘結(jié)果進(jìn)行主觀歸納,解釋其語義以完成知識的推理;第二,挖掘?qū)ο笮柽M(jìn)行預(yù)處理,并轉(zhuǎn)化成邏輯數(shù)據(jù)。利用數(shù)據(jù)挖掘技術(shù)進(jìn)行知識發(fā)現(xiàn)有多種可用方法:利用分類和聚類分析可提供知識索引和發(fā)現(xiàn)特殊情況下的離群值和孤立點,知識索引可細(xì)化知識所屬領(lǐng)域和確定挖掘范圍,離群值和孤立點可為挖掘人員提供歸納的線索,若其存在一定規(guī)律則可得出模型、規(guī)則;使用模糊技術(shù)、統(tǒng)計方法可得出對高校決策的評測分析,判斷方案的有效性,并得出模式,用于同類決策處理;使用粗糙集和主成份分析法定義知識發(fā)現(xiàn)中的主要特征,結(jié)合已有知識庫對不確定、不精準(zhǔn)的知識進(jìn)行細(xì)化;使用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)大量數(shù)據(jù)集各字段中潛在的聯(lián)系。以關(guān)聯(lián)規(guī)則的使用為例,選擇 Apriori 算法,挖掘目的是發(fā)現(xiàn)學(xué)生學(xué)習(xí)情況中的潛在知識。首先從數(shù)據(jù)倉庫中選出與學(xué)生課程成績相關(guān)的數(shù)據(jù)集,包括姓名、院系、性別、課程號、課程類別、成績等字段,進(jìn)行預(yù)處理,將字段中的取值轉(zhuǎn)化為邏輯值,代表不同語義,如:性別字段,男設(shè)值 1,女設(shè)值 2。操作人員設(shè)置最小支持度、置信度,通過數(shù)據(jù)挖掘工具進(jìn)行挖掘,得出關(guān)聯(lián)規(guī)則并進(jìn)行解釋。若結(jié)果顯示 XX 院系、男生、A 類別 => 成績優(yōu)秀構(gòu)成管理規(guī)則,則表示XX院系的男生對于A類別科目較感興趣,學(xué)習(xí)成績優(yōu)秀,可在歸納后存入知識倉庫。
知識內(nèi)化、中介
知識內(nèi)化是發(fā)現(xiàn)特定人員知識需求,并為其提供相應(yīng)知識的過程,內(nèi)化的關(guān)鍵是對知識的聚類、對人員的興趣挖掘。知識中介是指組織中存在一定量無法編碼儲存的知識,針對這些知識,通過一定手段,將知識的需求者與知識來源進(jìn)行匹配,為兩者提供交流的途徑。數(shù)據(jù)挖掘在知識內(nèi)化、中介中所起的作用主要是對高校人員特征的挖掘。在利用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)知識后,通過知識管理平臺進(jìn)行分類存儲、添加索引,作為備選。對高校人員數(shù)據(jù)庫中數(shù)據(jù)進(jìn)行挖掘,可利用聚類分析、預(yù)測模型等,得出特定人員的特長領(lǐng)域、興趣愛好,從而根據(jù)先前設(shè)置的知識索引為其提供信息。若定期對人員特征數(shù)據(jù)進(jìn)行挖掘,并根據(jù)結(jié)果為高校人員推送相關(guān)知識、信息,即可實現(xiàn)個性化推送,其推送內(nèi)容由人員特征數(shù)據(jù)決定。高校組織中擁有大量教授、學(xué)者,其所擁有的知識是一筆巨大財富,加強(qiáng)相關(guān)領(lǐng)域間人員的交流、溝通,可以促進(jìn)知識共享、創(chuàng)新,提升組織綜合實力,這正是知識管理中介職能的作用。通過上文中相同的挖掘方法,在對教授、學(xué)者特征進(jìn)行挖掘后,對他們的研究方向進(jìn)行聚類分析,由挖掘結(jié)果,為相關(guān)人員提供合適的建議、利用知識管理平臺為特征相似或同一聚類中的教授、學(xué)者提供交流的途徑,進(jìn)而促進(jìn)知識的共享。
數(shù)據(jù)挖掘技術(shù)推動圖書館管理
圖書館是高校組織中的特殊資源,含有大量精確或模糊、成型或不成型的知識,是一種實體的知識倉庫。對圖書館的有效管理有助于高校知識管理的實施。目前,已有不少圖書館專家將數(shù)據(jù)挖掘技術(shù)引入圖書館管理,提出了針對圖書館的數(shù)據(jù)挖掘應(yīng)用理論。圖書館數(shù)據(jù)挖掘?qū)ο笾饕ㄈ齻€:1.圖書信息;2.讀者信息 3. 讀者借閱信息。通過對三者挖掘結(jié)果的綜合,可為圖書館資源建設(shè)、讀者服務(wù)、個性化服務(wù)提供幫助。根據(jù)挖掘結(jié)果分析,可做到客觀、合理引入資源,做到讓數(shù)據(jù)說話而不是讓管理人員說話,減少了管理人員個體的主觀影響,使高校圖書館經(jīng)費(fèi)發(fā)揮最大效用;提升讀者服務(wù)質(zhì)量,在讀者進(jìn)行檢索時減少等待時間,改變以往被動檢索的情況,通過用戶數(shù)據(jù)挖掘為用戶提供主動的信息推送;提供個性化服務(wù),以挖掘結(jié)果為依據(jù),針對不同用戶提供不同服務(wù),比如不同的圖書館系統(tǒng)管理界面。
充分發(fā)揮管理職能
知識管理是一個系統(tǒng)工程,包含平臺開發(fā)、體系構(gòu)建、文化培養(yǎng)等,其在實踐中設(shè)計大量的數(shù)據(jù)操作。數(shù)據(jù)挖掘技術(shù)可在知識管理的實踐過程中為各項信息處理工作提供支撐,從而為操作人員提供便利,間接縮短知識管理的周期時間。將高校知識管理與數(shù)據(jù)挖掘技術(shù)相結(jié)合可有效促進(jìn)知識管理具體操作中的工作效率。兩者的結(jié)合對高校人員管理具有積極作用,數(shù)據(jù)挖掘與知識管理在實踐中相互影響,提升操作人員素養(yǎng)。數(shù)據(jù)挖掘需要專業(yè)人員進(jìn)行操作,操作人員的綜合素養(yǎng)將決定挖掘成果的質(zhì)量。知識管理可有效促進(jìn)數(shù)據(jù)挖掘人員對知識的認(rèn)知,使操作人員對不同要求所對應(yīng)的挖掘技術(shù)、模型的選擇更為準(zhǔn)確,提升挖掘成果的質(zhì)量,使知識更加清晰、獨(dú)立、可接受。
摘要:學(xué)習(xí)成績是評價學(xué)生素質(zhì)的重要方面,也是教師檢驗教學(xué)能力、反思教學(xué)成果的重要標(biāo)準(zhǔn)。利用大連民族大學(xué)統(tǒng)計學(xué)專業(yè)本科生有關(guān)數(shù)據(jù)(專業(yè)基礎(chǔ)課成績、平時成績和回歸分析期末成績),建立多元線性回歸模型,對影響回歸分析期末成績的因素進(jìn)行深入研究,其結(jié)果對今后的教學(xué)方法改進(jìn)和教學(xué)質(zhì)量提高具有十分重要的指導(dǎo)意義。
關(guān)鍵詞:多元線性回歸;專業(yè)基礎(chǔ)課成績;平時成績;期末成績
為了實現(xiàn)教學(xué)目標(biāo),提高教學(xué)質(zhì)量,有效提高學(xué)生學(xué)習(xí)成績是很有必要的。我們知道專業(yè)基礎(chǔ)課成績必定影響專業(yè)課成績,而且平時成績也會影響專業(yè)課成績,這兩類成績與專業(yè)課成績基本上是呈正相關(guān)的,但它們之間的關(guān)系密切程度有多大?它們之間又存在怎樣的內(nèi)在聯(lián)系呢?就這些問題,本文主要選取了2016級統(tǒng)計專業(yè)50名學(xué)生的四門專業(yè)基礎(chǔ)課成績以及回歸分析的平時成績和期末成績,運(yùn)用SPSS統(tǒng)計軟件進(jìn)行分析研究,尋求回歸分析期末成績影響因素的變化規(guī)律,擬合出關(guān)系式,從而為強(qiáng)化學(xué)生的后續(xù)學(xué)習(xí)和提高老師的教學(xué)質(zhì)量提供了有利依據(jù)。
一、數(shù)據(jù)選取
回歸分析是統(tǒng)計專業(yè)必修課,也是統(tǒng)計學(xué)中的一個非常重要的分支,它在自然科學(xué)、管理科學(xué)和社會、經(jīng)濟(jì)等領(lǐng)域應(yīng)用十分廣泛。因此研究影響統(tǒng)計學(xué)專業(yè)回歸分析成績的相關(guān)性是十分重要的。
選取了統(tǒng)計專業(yè)50名學(xué)生的專業(yè)基礎(chǔ)課成績(包括數(shù)學(xué)分析、高等代數(shù)、解析幾何和概率論)、回歸分析的平時成績和期末成績,結(jié)合多元線性回歸的基礎(chǔ)理論知識[1-2],建立多元回歸方程,進(jìn)行深入研究,可以直觀、高效、科學(xué)地分析各種因素對回歸分析期末成績造成的影響。
二、建立多元線性回歸模型1及數(shù)據(jù)分析
運(yùn)用SPSS統(tǒng)計軟件對回歸分析期末成績的影響因素進(jìn)行研究,可以得到準(zhǔn)確、科學(xué)合理的數(shù)據(jù)結(jié)果,全面分析評價學(xué)生考試成績,對教師以后的教學(xué)工作和學(xué)生的學(xué)習(xí)會有較大幫助。自變量x1表示數(shù)學(xué)分析成績,x2表示高等代數(shù)成績,x3表示解析幾何成績,x4表示概率論成績,x5表示平時成績;因變量y1表示回歸分析期末成績,根據(jù)經(jīng)驗可知因變量y1和自變量xi,i=1,2,3,4,5之間大致成線性關(guān)系,可建立線性回歸模型:
(1)
線性回歸模型通常滿足以下幾個基本假設(shè),
1.隨機(jī)誤差項具有零均值和等方差,即
(2)
這個假定通常稱為高斯-馬爾柯夫條件。
2.正態(tài)分布假定條件
由多元正態(tài)分布的性質(zhì)和上述假定可知,隨機(jī)變量y1服從n維正態(tài)分布。
從表1描述性統(tǒng)計表中可看到各變量的平均值1=79.68,2=74.66,3=77.22,4=78.10,5=81.04,1=75.48;xi的標(biāo)準(zhǔn)差分別為10.847,11.531,8.929,9.018,9.221,y1的標(biāo)準(zhǔn)差為8.141;有效樣本量n=50。
回歸分析期末成績y1的多元回歸模型1為:
y1=-5.254+0.221x1-0.4x2+0.154x3
+0.334x4+0.347x5
從表2中可以看到各變量的|t|值,在給定顯著水平?琢=0.05的情況下,通過t分布表可以查出,自由度為44的臨界值t?琢/2(44)=2.015,由于高等代數(shù)x2的|t|值為0.651小于t?琢/2(44),因此x2對y1的影響不顯著,其他自變量對y1都是線性顯著的。下面利用后退法[3]剔除自變量x2。
三、后退法建立多元線性回歸模型2及數(shù)據(jù)分析
從模型1中剔除了x2變量,多元回歸模型2為:
y1=-5.459+0.204x1+0.149x3+0.377x4+0.293x5(5)
在表4中,F(xiàn)統(tǒng)計量為90.326,在給定顯著水平?琢=0.05的情況下,查F分布表可得,自由度為p=4和n-p-1=45的臨界值F0.05(4,45)=2.579,所以F>F0.05(4,45),在表5中,所有自變量的|t|值都大于t?琢/2(45)=2.014,因此,多元回歸模型2的線性關(guān)系是顯著的。
四、結(jié)束語
通過對上述模型進(jìn)行分析,即各個自變量對因變量的邊際影響,可以得到以下結(jié)論:在保持其他條件不變的情況下,當(dāng)數(shù)學(xué)分析成績提高一分,則回歸分析成績可提高0.242分[4-5];同理,當(dāng)解析幾何成績、概率論成績和平時成績每提高一分,則回歸分析成績分別提高0.149分、0.377分和0.293分。
通過對學(xué)生專業(yè)基礎(chǔ)課成績、平時成績與回歸分析期末成績之間相關(guān)關(guān)系的研究,一方面有利于教師把控回歸分析教學(xué)課堂,提高教師意識,注重專業(yè)基礎(chǔ)課教學(xué)的重要性,同時,當(dāng)學(xué)生平時成績不好時,隨時調(diào)整教學(xué)進(jìn)度提高學(xué)生平時學(xué)習(xí)能力;另一方面使學(xué)生認(rèn)識到,為了更好地掌握回歸分析知識,應(yīng)加強(qiáng)專業(yè)基礎(chǔ)課的學(xué)習(xí),提高平時學(xué)習(xí)的積極性。因此,通過對回歸分析期末成績影響因素的研究能有效的解決教師教學(xué)和學(xué)生學(xué)習(xí)中的許多問題。
統(tǒng)計學(xué)畢業(yè)論文范文模板(二):大數(shù)據(jù)背景下統(tǒng)計學(xué)專業(yè)“數(shù)據(jù)挖掘”課程的教學(xué)探討論文
摘要:互聯(lián)網(wǎng)技術(shù)、物聯(lián)網(wǎng)技術(shù)、云計算技術(shù)的蓬勃發(fā)展,造就了一個嶄新的大數(shù)據(jù)時代,這些變化對統(tǒng)計學(xué)專業(yè)人才培養(yǎng)模式的變革起到了助推器的作用,而數(shù)據(jù)挖掘作為拓展和提升大數(shù)據(jù)分析方法與思路的應(yīng)用型課程,被廣泛納入統(tǒng)計學(xué)本科專業(yè)人才培養(yǎng)方案。本文基于數(shù)據(jù)挖掘課程的特點,結(jié)合實際教學(xué)經(jīng)驗,對統(tǒng)計學(xué)本科專業(yè)開設(shè)數(shù)據(jù)挖掘課程進(jìn)行教學(xué)探討,以期達(dá)到更好的教學(xué)效果。
關(guān)鍵詞:統(tǒng)計學(xué)專業(yè);數(shù)據(jù)挖掘;大數(shù)據(jù);教學(xué)
一、引言
通常人們總結(jié)大數(shù)據(jù)有“4V”的特點:Volume(體量大),Variety(多樣性),Velocity(速度快)和Value(價值密度低)。從這樣大量、多樣化的數(shù)據(jù)中挖掘和發(fā)現(xiàn)內(nèi)在的價值,是這個時代帶給我們的機(jī)遇與挑戰(zhàn),同時對數(shù)據(jù)分析技術(shù)的要求也相應(yīng)提高。傳統(tǒng)教學(xué)模式并不能適應(yīng)和滿足學(xué)生了解數(shù)據(jù)處理和分析最新技術(shù)與方法的迫切需要。對于常常和數(shù)據(jù)打交道的統(tǒng)計學(xué)專業(yè)的學(xué)生來說,更是如此。
二、課程教學(xué)探討
針對統(tǒng)計學(xué)本科專業(yè)的學(xué)生而言,“數(shù)據(jù)挖掘”課程一般在他們?nèi)昙壔蛘咚哪昙壦_設(shè),他們在前期已經(jīng)學(xué)習(xí)完統(tǒng)計學(xué)、應(yīng)用回歸分析、多元統(tǒng)計分析、時間序列分析等課程,所以在“數(shù)據(jù)挖掘”課程的教學(xué)內(nèi)容選擇上要有所取舍,同時把握好難度。不能把“數(shù)據(jù)挖掘”課程涵蓋了的所有內(nèi)容不加選擇地要求學(xué)生全部掌握,對學(xué)生來說是不太現(xiàn)實的,需要為統(tǒng)計學(xué)專業(yè)本科生“個性化定制”教學(xué)內(nèi)容。
(1)“數(shù)據(jù)挖掘”課程的教學(xué)應(yīng)該偏重于應(yīng)用,更注重培養(yǎng)學(xué)生解決問題的能力。因此,教學(xué)目標(biāo)應(yīng)該是:使學(xué)生樹立數(shù)據(jù)挖掘的思維體系,掌握數(shù)據(jù)挖掘的基本方法,提高學(xué)生的實際動手能力,為在大數(shù)據(jù)時代,進(jìn)一步學(xué)習(xí)各種數(shù)據(jù)處理和定量分析工具打下必要的基礎(chǔ)。按照這個目標(biāo),教學(xué)內(nèi)容應(yīng)以數(shù)據(jù)挖掘技術(shù)的基本原理講解為主,讓學(xué)生了解和掌握各種技術(shù)和方法的來龍去脈、功能及優(yōu)缺點;以算法講解為輔,由于有R語言、python等軟件,學(xué)生了解典型的算法,能用軟件把算法實現(xiàn),對軟件的計算結(jié)果熟練解讀,對各種算法的改進(jìn)和深入研究則不作要求,有興趣的同學(xué)可以自行課下探討。
(2)對于已經(jīng)學(xué)過的內(nèi)容不再詳細(xì)講解,而是側(cè)重介紹它們在數(shù)據(jù)挖掘中的功能及綜合應(yīng)用。在新知識的講解過程中,注意和已學(xué)過知識的融匯貫通,既復(fù)習(xí)鞏固了原來學(xué)過的知識,同時也無形中降低了新知識的難度。比如,在數(shù)據(jù)挖掘模型評估中,把混淆矩陣、ROC曲線、誤差平方和等知識點就能和之前學(xué)過的內(nèi)容有機(jī)聯(lián)系起來。
(3)結(jié)合現(xiàn)實數(shù)據(jù),讓學(xué)生由“被動接收”式的學(xué)習(xí)變?yōu)椤爸鲃犹骄俊毙偷膶W(xué)習(xí)。在講解每種方法和技術(shù)之后,增加一個或幾個案例,以加強(qiáng)學(xué)生對知識的理解。除了充分利用已有的國內(nèi)外數(shù)據(jù)資源,還可以鼓勵學(xué)生去搜集自己感興趣的或者國家及社會大眾關(guān)注的問題進(jìn)行研究,提升學(xué)生學(xué)習(xí)的成就感。
(4)充分考慮前述提到的三點,課程內(nèi)容計劃安排見表1。
(5)課程的考核方式既要一定的理論性,又不能失掉實踐應(yīng)用性,所以需要結(jié)合平時課堂表現(xiàn)、平時實驗項目完成情況和期末考試來綜合評定成績。采取期末閉卷理論考試占50%,平時實驗項目完成占40%,課堂表現(xiàn)占10%,這樣可以全方位的評價學(xué)生的表現(xiàn)。
三、教學(xué)效果評估
經(jīng)過幾輪的教學(xué)實踐后,取得了如下的教學(xué)效果:
(1)學(xué)生對課程的興趣度在提升,課下也會不停地去思考數(shù)據(jù)挖掘有關(guān)的方法和技巧,發(fā)現(xiàn)問題后會一起交流與討論。
(2)在大學(xué)生創(chuàng)新創(chuàng)業(yè)項目或者數(shù)據(jù)分析的有關(guān)競賽中,選用數(shù)據(jù)挖掘方法的人數(shù)也越來越多,部分同學(xué)的成果還能在期刊上正式發(fā)表,有的同學(xué)還能在競賽中取得優(yōu)秀的成績。
(3)統(tǒng)計學(xué)專業(yè)本科生畢業(yè)論文的選題中利用數(shù)據(jù)挖掘有關(guān)方法來完成的論文越來越多,論文的完成質(zhì)量也在不斷提高。
(4)本科畢業(yè)生的就業(yè)崗位中從事數(shù)據(jù)挖掘工作的人數(shù)有所提高,說明滿足企業(yè)需求技能的人數(shù)在增加。繼續(xù)深造的畢業(yè)生選擇數(shù)據(jù)挖掘研究方向的人數(shù)也在逐漸增多,表明學(xué)生的學(xué)習(xí)興趣得以激發(fā)。