伊人色婷婷综在合线亚洲,亚洲欧洲免费视频,亚洲午夜视频在线观看,最新国产成人盗摄精品视频,日韩激情视频在线观看,97公开免费视频,成人激情视频在线观看,成人免费淫片视频男直播,青草青草久热精品视频99

數(shù)據(jù)挖掘總結(jié)模板(10篇)

時間:2022-02-07 02:08:09

導(dǎo)言:作為寫作愛好者,不可錯過為您精心挑選的10篇數(shù)據(jù)挖掘總結(jié),它們將為您的寫作提供全新的視角,我們衷心期待您的閱讀,并希望這些內(nèi)容能為您提供靈感和參考。

數(shù)據(jù)挖掘總結(jié)

篇1

中圖分類號:TN 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-914X(2015)23-0208-01

一 概述

客戶決定企業(yè)命運。企業(yè)關(guān)注重點從產(chǎn)品逐步轉(zhuǎn)換到客戶,逐漸形成客戶為中心的客戶關(guān)系管理理念。客戶關(guān)系管理是信息技術(shù)和商業(yè)發(fā)展過程中得出的理論體系,客戶管理需要客戶的支持??蛻絷P(guān)系管理是企業(yè)利用信息技術(shù)和企業(yè)生產(chǎn)銷售相結(jié)的產(chǎn)物??蛻絷P(guān)系管理核心價值就是實現(xiàn)客戶價值??蛻絷P(guān)系管理利用計算機技術(shù),實現(xiàn)市場信息化、銷售自動化過程、對客戶分析的全過程??蛻絷P(guān)系管理可以使企業(yè)及時了解客戶實際情況,增強客戶對企業(yè)歸屬感和信任感。它是一種全新的管理客戶模式。數(shù)據(jù)挖掘在客戶關(guān)系管理研究與實踐,大大促進(jìn)客戶價值實現(xiàn)。數(shù)據(jù)挖掘?qū)蛻敉诰蚪Y(jié)果會給企業(yè)帶來指導(dǎo)意見,決定企業(yè)未來發(fā)展方向。

聯(lián)通的客戶關(guān)系管理系統(tǒng)是基于客戶戰(zhàn)略的,它為企業(yè)傳遞的是一種新的客戶服務(wù)理念,是聯(lián)通客戶需求的風(fēng)向標(biāo),它直接影響聯(lián)通如何認(rèn)識客戶以及如何對待客戶, 也直接影響聯(lián)通公司的客戶服務(wù)形象。通過數(shù)據(jù)挖掘系統(tǒng)與客戶管理系統(tǒng)的結(jié)合,可以有效的實現(xiàn)對客戶消費模式和客戶市場推廣的分析,實現(xiàn)對客戶的動態(tài)防欺詐、流失分析及競爭對手分析。正確有效的運用數(shù)據(jù)挖掘意義重大。

二 數(shù)據(jù)挖掘的步驟

1.理解數(shù)據(jù)和數(shù)據(jù)的來源,進(jìn)行數(shù)據(jù)收集

大量全面豐富的數(shù)據(jù)是數(shù)據(jù)挖掘的前提,沒有數(shù)據(jù),數(shù)據(jù)挖掘也就無從做起。數(shù)據(jù)挖掘牽涉了大量的準(zhǔn)備工作與規(guī)劃工作,事實上許多專家都認(rèn)為整套數(shù)據(jù)挖掘的過程中,有80%的時間和精力是花費在數(shù)據(jù)預(yù)處理階段,其中包括數(shù)據(jù)的凈化、數(shù)據(jù)格式轉(zhuǎn)換、變量整合,以及數(shù)據(jù)表的鏈接。可見,在進(jìn)行數(shù)據(jù)挖掘技術(shù)的分析之前,還有許多準(zhǔn)備工作要完成。數(shù)據(jù)收集是數(shù)據(jù)挖掘的首要步驟。

2.整合與檢查數(shù)據(jù)

收集到的數(shù)據(jù)必須是有用的,避免可能存在自身的不一致性,或者有缺失數(shù)據(jù)的存在等,因此數(shù)據(jù)的整理是必須的。同時,通過數(shù)據(jù)整理,可以對數(shù)據(jù)做簡單的泛化處理,從而在原始數(shù)據(jù)的基礎(chǔ)上得到更為豐富的數(shù)據(jù)信息,進(jìn)而便于下一步數(shù)據(jù)挖掘的順利進(jìn)行。

3.利建立模型和假設(shè)

主要采用時序算法、聚類算法、關(guān)聯(lián)算法等,根據(jù)采集數(shù)據(jù)建立模型。

4.模型評估

模型建立完畢后,需要驗證模型的正確性,并進(jìn)行調(diào)整。應(yīng)該利用未參與建模的數(shù)據(jù)對模型進(jìn)行檢驗。這樣做的原因是按照使用建模的數(shù)據(jù)進(jìn)行檢驗,由于模型就是按照這些數(shù)據(jù)建立的,檢驗結(jié)果自然會很好。但是一旦運用到實際數(shù)據(jù)中,就會產(chǎn)生很大的偏差。檢驗的方法是對已知客戶狀態(tài)的數(shù)據(jù)利用模型進(jìn)行預(yù)測,并將所得到的模型預(yù)測值,和實際的客戶狀態(tài)相比較,預(yù)測正確值最多的模型就是最優(yōu)模型。不斷重復(fù)進(jìn)行數(shù)據(jù)挖掘一評估過程,多次的循環(huán)反復(fù),以達(dá)到預(yù)期的效果。

5.決策分析

數(shù)據(jù)挖掘的最終目的是輔助決策。決策者可以根據(jù)數(shù)據(jù)挖掘的結(jié)果,結(jié)合實際情況,調(diào)整競爭策略等。

三.數(shù)據(jù)挖掘在聯(lián)通客戶管理業(yè)務(wù)中的作用

1 數(shù)據(jù)總結(jié)

數(shù)據(jù)總結(jié)目的是對大量的數(shù)據(jù)進(jìn)行濃縮,將數(shù)據(jù)庫中的有關(guān)數(shù)據(jù)從較低的個體層次抽象總結(jié)到較高的總體層次上,從而實現(xiàn)對原始基本數(shù)據(jù)的總體把握。是數(shù)據(jù)挖掘的基本作用。用統(tǒng)計學(xué)中的方法計算出數(shù)據(jù)庫的各個數(shù)據(jù)項的總和、平均、方差、最大值、最小值等基本描述統(tǒng)計量,或者通過利用統(tǒng)計圖形工具,對數(shù)據(jù)制作直方圖、餅狀圖等,是最簡單的數(shù)據(jù)總結(jié)方法。另一種廣泛使用的數(shù)據(jù)總結(jié)方法是聯(lián)機分析處理,是對用戶當(dāng)前及歷史數(shù)據(jù)進(jìn)行分析、輔助領(lǐng)導(dǎo)決策,主要通過多維數(shù)據(jù)的查詢、旋轉(zhuǎn)、鉆取和切片等關(guān)鍵技術(shù)對數(shù)據(jù)進(jìn)行分析和報表。

2 關(guān)聯(lián)分析

數(shù)據(jù)庫中的數(shù)據(jù)一般都存在著關(guān)聯(lián)關(guān)系,也就是說,兩個或多個變量的取值之間存在某種規(guī)律性。

3 分類

分析數(shù)據(jù)的各種屬性,一個分類函數(shù)或分類模型(也常常稱作分類器),該模型能夠根據(jù)數(shù)據(jù)的屬性將數(shù)據(jù)分派到不同的組中,并預(yù)測新數(shù)據(jù)將屬于哪一個組。

4 聚類

聚類分析是按照某種相近程度度量方法,將用戶數(shù)據(jù)分成一系列有意義的子集合。每一個集合中的數(shù)據(jù)性質(zhì)相近,不同集合之間的數(shù)據(jù)性質(zhì)相差較大。

四.數(shù)據(jù)挖掘技術(shù)在聯(lián)通客戶管理管理方面的應(yīng)用

1.客戶市場推廣分析

通過優(yōu)惠策略預(yù)測仿真的方法,利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)優(yōu)惠策略的仿真。根據(jù)數(shù)據(jù)挖掘模型,進(jìn)行模擬計費和模擬出賬,其仿真結(jié)果可以揭示優(yōu)惠策略中存在的問題,并進(jìn)行相應(yīng)的調(diào)整優(yōu)化,以達(dá)到優(yōu)惠促銷活動的收益最大化。

2.客戶消費模式分析

客戶分類是客戶數(shù)據(jù)分析基礎(chǔ),數(shù)據(jù)挖據(jù)對客戶分類使用聚類和分類。通過分類可以發(fā)現(xiàn)不同客戶群體的習(xí)慣和規(guī)律,找到客戶價值點,準(zhǔn)確預(yù)測客戶消費方向??蛻舴诸愖屖袌鰻I銷活動更有目的性,提高市場營銷效率,企業(yè)合理配置企業(yè)資源??蛻舴诸惤Y(jié)果實現(xiàn)客戶利益最大化。如固話及移動話費行為分析,是對客戶歷年來長話、市話、信息臺的大量詳單數(shù)據(jù)以及客戶檔案資料等相關(guān)數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,增值業(yè)務(wù)話費分析,結(jié)合客戶的分類,可以從消費能力、消費習(xí)慣、消費周期等諸方面對客戶的話費行為進(jìn)行分析和預(yù)測,從而為聯(lián)通全業(yè)務(wù)運營商的相關(guān)經(jīng)營決策提供依據(jù)。

3.客戶流失分析

這是根據(jù)已有的客戶流失數(shù)據(jù),建立客戶屬性、服務(wù)屬性、客戶消費情況等數(shù)據(jù)與客戶流失概率相關(guān)聯(lián)的數(shù)學(xué)模型,找出這些數(shù)據(jù)之間的關(guān)系,給出明確的數(shù)學(xué)公式,并根據(jù)此模型來監(jiān)控客戶流失的可能性。如果客戶流失的可能性過高,可通過促銷等手段來提高客戶忠誠

度,防止客戶流失的發(fā)生,這就徹底改變了以往電信運營商在成功獲得客戶以后無法監(jiān)控客戶流失、無法有效實現(xiàn)客戶關(guān)懷等狀況。

4.對客戶欠費進(jìn)行分析和動態(tài)防欺詐

通過數(shù)據(jù)挖掘,總結(jié)現(xiàn)存的各種騙費及其欠費行為的內(nèi)在規(guī)律,并建立一套防欺詐和防欠費行為的規(guī)則庫,當(dāng)客戶的話費行為與該庫中規(guī)則吻合時,系統(tǒng)可以提示運營商相關(guān)部門采取措施,從而降低運營商的損失風(fēng)險。

5.競爭對手分析

篇2

一、數(shù)據(jù)挖掘的基本原理

數(shù)據(jù)挖掘就是利用數(shù)學(xué)模型、統(tǒng)計和人工智能技術(shù)等方法,把一些高深、復(fù)雜的技術(shù)封裝起來,使人們不用自己掌握這些技術(shù)也能完成同樣的功能,因而可專注于自己所要解決的問題。數(shù)據(jù)挖掘按其功能可分為:描述性數(shù)據(jù)挖掘方法和預(yù)測性數(shù)據(jù)挖掘方法。

1描述性數(shù)據(jù)挖掘

在取得大量的數(shù)據(jù)之后,首先要對數(shù)據(jù)進(jìn)行總結(jié),也即數(shù)據(jù)的泛化;在泛化的基礎(chǔ)上再對數(shù)據(jù)進(jìn)行高層次的處理,包括數(shù)據(jù)的聚集、關(guān)聯(lián)分析等。

(1)數(shù)據(jù)總結(jié):數(shù)據(jù)總結(jié)的目的是對數(shù)據(jù)進(jìn)行濃縮,給出它們的緊湊描述。數(shù)據(jù)泛化是一種將數(shù)據(jù)庫中的有關(guān)數(shù)據(jù)從低層次抽象到高層次的過程。

(2)聚集:聚集的目的是要盡量縮小屬于同一類別的個體之間的距離,而盡可能擴大不同類別個體間的距離。層次法、密度法、網(wǎng)格法、神經(jīng)元網(wǎng)絡(luò)和K-均值是比較常用的聚集算法。

(3)關(guān)聯(lián)分析:關(guān)聯(lián)分析是尋找數(shù)據(jù)的相關(guān)性。關(guān)聯(lián)規(guī)則是尋找在同一個事件中出現(xiàn)的不同項的相關(guān)性,其核心是使用Apriori算法,找出事物的相應(yīng)支持度和置信度,最后找到相應(yīng)的關(guān)聯(lián)規(guī)則。

2預(yù)測型數(shù)據(jù)挖掘

在預(yù)言模型中,把我們要預(yù)測的值或所屬類別稱為響應(yīng)變量、依賴變量或目標(biāo)變量;用于預(yù)測的輸入變量是預(yù)測變量或獨立變量。主要通過分類、回歸分析、時間序列來建立預(yù)測模型。

二、商品銷售領(lǐng)域數(shù)據(jù)挖掘的依據(jù)

在商品銷售領(lǐng)域采用數(shù)據(jù)挖掘是商品銷售發(fā)展到一定階段的必然要求,它有助于提高商品銷售效率,降低商品銷售成本。其理論依據(jù)有消費者消費行為、細(xì)分市場理論、顧客關(guān)系、顧客數(shù)據(jù)庫和直接商品銷售。

在制定商品銷售計劃之前,商品銷售者需要研究消費者市場和消費者行為。在分析消費者市場時,公司需要了解市場情況,購買對象,購買目的等因素。通過搜集顧客消費數(shù)據(jù),采用數(shù)據(jù)挖掘技術(shù),可以簡潔、明了地得到這些信息。

三、商品銷售中的數(shù)據(jù)挖掘過程

1商品銷售目標(biāo)理解

在進(jìn)行數(shù)據(jù)挖掘之前,必須從商品銷售角度去分析要達(dá)到的目標(biāo)和需求,也即要分析什么商品銷售問題,達(dá)到什么商品銷售目標(biāo)。首先對商品銷售現(xiàn)狀進(jìn)行分析,找出存在的問題,并確定需要實現(xiàn)的營銷目標(biāo),再將商品銷售目標(biāo)轉(zhuǎn)換成數(shù)據(jù)挖掘目標(biāo),然后將這種知識轉(zhuǎn)換成一種數(shù)據(jù)挖掘的問題定義,并設(shè)計一個達(dá)到目標(biāo)的初步計劃。

2數(shù)據(jù)理解

先搜集初步的數(shù)據(jù),然后進(jìn)行熟悉數(shù)據(jù)的各種活動,包括識別數(shù)據(jù)的質(zhì)量問題,找到對數(shù)據(jù)的基本觀察,或假設(shè)隱含的信息來檢測感興趣的數(shù)據(jù)子集。

3數(shù)據(jù)準(zhǔn)備

首先進(jìn)行數(shù)據(jù)抽樣,從大量數(shù)據(jù)中篩選出一些相關(guān)的樣板數(shù)據(jù)子集。通過對數(shù)據(jù)樣本的精選,不僅能減少數(shù)據(jù)處理量,節(jié)省系統(tǒng)資源,使數(shù)據(jù)更加具有規(guī)律性。然后,進(jìn)行數(shù)據(jù)探索,通常是所進(jìn)行的對數(shù)據(jù)深入調(diào)查的過程,從樣本數(shù)據(jù)集中找出規(guī)律和趨勢,用聚類分析法區(qū)分類別,最終要達(dá)到的目的就是搞清多因素相互影響的復(fù)雜關(guān)系,發(fā)現(xiàn)因素之間的相關(guān)性。最后,需要對數(shù)據(jù)進(jìn)行調(diào)整,通過上述兩個步驟的操作,對數(shù)據(jù)的狀態(tài)和趨勢有了進(jìn)一步的了解,這時要盡可能對解決問題的要求進(jìn)行明確化和進(jìn)一步的量化。

4建模

篇3

社會的不斷進(jìn)步,高端科學(xué)技術(shù)在社會上的廣泛應(yīng)用,人們生活質(zhì)量也在不斷提高。同樣教育行業(yè)的教學(xué)質(zhì)量也在不斷地提升,教學(xué)方法和手段不斷處于更新?lián)Q代過程中。近幾年來,數(shù)據(jù)挖掘技術(shù)在教育領(lǐng)域中不斷地得到應(yīng)用,為學(xué)校、教師、學(xué)生都提供了便利的教學(xué)條件,而對于數(shù)據(jù)挖掘技術(shù)在教育領(lǐng)域的應(yīng)用也受到廣泛的關(guān)注,本技術(shù)在大學(xué)英語考試結(jié)果中的應(yīng)用屬于重要的一方面。

一、數(shù)據(jù)挖掘的定義

數(shù)據(jù)挖掘?qū)儆跀?shù)據(jù)分析的一種,即在大量的數(shù)據(jù)信息資料中的篩選出與人們特定的要求相符和的數(shù)據(jù)內(nèi)容。數(shù)據(jù)挖掘就是通過全智能化的途徑,在眾多的、不確定的、海量的信息中總結(jié)和分析出,原本就存在的但不易被人們感知,具有總結(jié)性特點的相關(guān)內(nèi)容。

二、數(shù)據(jù)挖掘的方法和步驟

1.數(shù)據(jù)挖掘的分析方法。數(shù)據(jù)挖掘分析方法主要包括聚類分析、決策樹和人工神經(jīng)網(wǎng)絡(luò)。

(1)聚類分析就是將具有相同或相似特點的研究對象進(jìn)行整合,通過數(shù)據(jù)挖掘技術(shù)的分析過濾,在無序的、混亂的研究對象中,輸出其中被隱藏的、不明顯的的行的特點結(jié)果。

(2)決策樹是數(shù)據(jù)挖掘中的另一方面,具有對研究對象進(jìn)行分類和預(yù)測的作用。也就是對眾多分析對象按照一定的要求進(jìn)行重新分組,并達(dá)到對某些事項預(yù)測結(jié)果的目的。

(3)人工神經(jīng)網(wǎng)絡(luò)是指類似于人的大腦的神經(jīng)分布與信息處理的一種分析方法。

如圖1所示。

2.數(shù)據(jù)挖掘的步驟。數(shù)據(jù)挖掘涵蓋了四個部分:目標(biāo)定義、數(shù)據(jù)收集、數(shù)據(jù)分析、數(shù)據(jù)挖掘結(jié)果評析。

(1)數(shù)據(jù)挖掘的目標(biāo)定義是指人們利用數(shù)據(jù)挖掘技術(shù)所要的達(dá)到的最終目的和預(yù)期結(jié)果。

(2)數(shù)據(jù)收集是指確定了數(shù)據(jù)挖掘目標(biāo)以后,所要進(jìn)行的對相關(guān)數(shù)據(jù)的收集和整理,即人們所說的對研究對象的集中。

(3)數(shù)據(jù)分析是指在完成數(shù)據(jù)收集之后,通過使用數(shù)據(jù)挖掘技術(shù),運用上述三種方法對研究對象進(jìn)行集中處理。

(4)數(shù)據(jù)挖掘結(jié)果評析是指數(shù)據(jù)挖掘的最終的結(jié)果的輸出,即預(yù)期目標(biāo)的實現(xiàn)。如圖2所示

三、數(shù)據(jù)挖掘技術(shù)在大學(xué)英語考試中的應(yīng)用

在大學(xué)英語考試中,數(shù)據(jù)挖掘技術(shù)的應(yīng)用主要體現(xiàn)在對于學(xué)生的身份、考試內(nèi)容、考試成績結(jié)果等方面。按學(xué)生的學(xué)號、姓名、年級、指導(dǎo)教教師等標(biāo)準(zhǔn),進(jìn)行數(shù)據(jù)挖掘,分析學(xué)生的分布情況??荚噧?nèi)容是指針對于考試內(nèi)容的難易層次、答題正確率情況,進(jìn)行數(shù)據(jù)收集,通過數(shù)據(jù)挖掘技術(shù),分析學(xué)生考試成績高中低的大體情況,從而確定以后考試試題的難易程度,對應(yīng)不同層次的學(xué)生。

整個考試流程的最終目的是,通過數(shù)據(jù)挖掘技術(shù),對考試成績進(jìn)行分析評估,提取出學(xué)生各個層次學(xué)生對教學(xué)過程中英語知識的掌握程度,進(jìn)行有針對性的教學(xué),改善教育方法,提高教育水平。

語言是人們與外界溝通的最重要的媒介。英語作為世界上應(yīng)用最廣泛的語言,英語的學(xué)習(xí)最為關(guān)鍵。大學(xué)英語考試是大學(xué)教學(xué)對大學(xué)生的英語接收程度的一種考核方法,大學(xué)英語考試結(jié)果運用數(shù)據(jù)挖掘技術(shù),有助于提升教師對考試結(jié)果了解效率,化解教與學(xué)之間的隔閡,優(yōu)化大學(xué)英語教育方法,提高教學(xué)水平。

參考文獻(xiàn):

[1]張和華,向華,吳旋.數(shù)據(jù)挖掘技術(shù)在醫(yī)療設(shè)備行業(yè)中的應(yīng)用研究[J].中國醫(yī)學(xué)裝備,2015,10(01):48-50.

篇4

中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-914X(2014)29-0354-01

數(shù)據(jù)挖掘技術(shù)是近年來興起的被各方關(guān)注的技術(shù)之一,其在實際應(yīng)用中的顯著優(yōu)勢。我國零售業(yè)在近幾年的發(fā)展速度越來越快,對零售業(yè)中的量級較大的數(shù)據(jù)及信息需要專業(yè)化、科學(xué)化、有笑話的提取方法以供零售業(yè)行業(yè)的持續(xù)發(fā)展。

一、 零售業(yè)領(lǐng)域中數(shù)據(jù)挖掘技術(shù)應(yīng)用概況

數(shù)據(jù)挖掘技術(shù)以數(shù)據(jù)庫技術(shù)、人工智能、機器學(xué)習(xí)、統(tǒng)計分析、模糊邏輯等多門學(xué)科的理論為基礎(chǔ)依托,結(jié)合不斷的探索、實踐、規(guī)律總結(jié)不斷演化出來的具有高端應(yīng)用價值的技術(shù)。

(一)零售業(yè)數(shù)據(jù)挖掘技術(shù)的發(fā)展歷程

從數(shù)據(jù)挖掘技術(shù)的發(fā)展可以清晰看出人類對社會認(rèn)知的轉(zhuǎn)變歷程。就數(shù)據(jù)挖掘技術(shù)而言,其核心技術(shù)在于數(shù)理統(tǒng)計理論,人們對于數(shù)據(jù)、信息的敏感程度可以對數(shù)據(jù)挖掘技術(shù)的不斷提升有所幫助。鑒于數(shù)據(jù)挖掘技術(shù)的優(yōu)點,零售業(yè)領(lǐng)域中復(fù)雜多樣的數(shù)據(jù)屬性,不斷與該項技術(shù)融合,促進(jìn)零售業(yè)領(lǐng)域企業(yè)的商業(yè)利益最大化。

在應(yīng)用數(shù)據(jù)挖掘技術(shù)的眾多行業(yè)中,零售業(yè)可以說是最早將此項具有現(xiàn)代化意義的技術(shù)應(yīng)用于自身行業(yè)中的領(lǐng)軍行業(yè)。從摸索階段到現(xiàn)如今的已有基本規(guī)律的狀態(tài),數(shù)據(jù)挖掘技術(shù)的應(yīng)有優(yōu)勢愈發(fā)凸顯,零售業(yè)相關(guān)企業(yè)期待著更好利用數(shù)據(jù)挖掘技術(shù)促進(jìn)企業(yè)做出有利決策。比如在零售業(yè)領(lǐng)域中關(guān)于數(shù)據(jù)挖掘技術(shù)的經(jīng)典例子包括沃爾瑪超市對啤酒和尿布在銷售方面的規(guī)律的提煉,以及臺風(fēng)天氣對巧克力等食品的更多需求的研究。

在零售業(yè)領(lǐng)域嘗到數(shù)據(jù)挖掘技術(shù)的顯著優(yōu)勢后,包括制造業(yè)、財務(wù)金融保險業(yè)、醫(yī)療企業(yè)等多個其余行業(yè)也紛紛開始效仿,鑒于數(shù)據(jù)挖掘技術(shù)鮮明的實用性及可操作性,一些公司運用數(shù)據(jù)挖掘的成功案例,充分顯示了這項技術(shù)的強大生命力。

(二)零售業(yè)數(shù)據(jù)挖掘技術(shù)研究的意義

在零售業(yè)領(lǐng)域中,條形碼管理、銷售管理系統(tǒng)、客戶資料管理系統(tǒng)等關(guān)于商品信息、客戶信息、供應(yīng)商信息、店鋪信息、會員信息等海量數(shù)據(jù),以零散狀態(tài)呈現(xiàn)在人們面前,表面看,這些類別的數(shù)據(jù)之間毫無關(guān)聯(lián),但透過數(shù)據(jù)挖掘的眼光便可以清晰看出這些類別數(shù)據(jù)之間、同一類別數(shù)據(jù)之間存在著千絲萬縷的聯(lián)系。大數(shù)據(jù)理論提出以來,零售業(yè)領(lǐng)域研究者們變采取研究手段探究領(lǐng)域內(nèi)海量數(shù)據(jù)與商品銷售、客戶群體選擇等眾多零售商們頭疼的問題之間的關(guān)系。實踐證明,利用數(shù)據(jù)挖掘技術(shù)可以幫助零售商們解決上述看似無解決方法的疑難雜癥。比如,購物籃分析可以探究商品搭配方式與用戶訴求之間的匹配程度、消費者對于商品擺放樣式的好感度等。

從反方向看數(shù)據(jù)挖掘技術(shù)對于零售業(yè)領(lǐng)域的應(yīng)用意義,對于零售業(yè)領(lǐng)域內(nèi)的規(guī)律,人們僅憑經(jīng)驗、人工查找總結(jié)的方法將很難實現(xiàn),缺乏有效數(shù)據(jù)挖掘手段的零售業(yè)領(lǐng)域的規(guī)律的探究的可能性非常小。而數(shù)據(jù)挖掘技術(shù)恰恰可以迎合人們這一需求,省去了人工查找的麻煩與困擾。特別是在銷售相關(guān)數(shù)據(jù)越來越多的環(huán)境中,依靠人工積累的方法很難實現(xiàn)行業(yè)發(fā)展的突破,對于海量數(shù)據(jù)問題的解決,數(shù)據(jù)挖掘技術(shù)是非常好的選擇。

可見,零售業(yè)領(lǐng)域中數(shù)據(jù)挖掘技術(shù)的應(yīng)用不僅歷史久遠(yuǎn),并且成果顯著。但人們不能將眼光僅僅停留在數(shù)據(jù)挖掘技術(shù)給零售業(yè)領(lǐng)域帶來的已有成功影響,隨著社會的不斷發(fā)展、市場經(jīng)濟(jì)環(huán)境的不斷變化,業(yè)內(nèi)人士需要對于社會市場體系未來的發(fā)展要素予以準(zhǔn)確把握,并將此作為零售業(yè)領(lǐng)域內(nèi)數(shù)據(jù)挖掘技術(shù)研究的方向。本文的議題設(shè)置初衷也在于此。

二、零售業(yè)領(lǐng)域中數(shù)據(jù)挖掘技術(shù)的應(yīng)用范圍

查閱大量相關(guān)資料、整合已有成功經(jīng)驗后,可以發(fā)現(xiàn),數(shù)據(jù)挖掘技術(shù)在零售業(yè)領(lǐng)域內(nèi)的功能性體現(xiàn)在三個方面:

首先,數(shù)據(jù)挖掘技術(shù)以海量數(shù)據(jù)為基礎(chǔ)的技術(shù)要求恰恰符合了零售業(yè)領(lǐng)域內(nèi)超大數(shù)量級的數(shù)據(jù)現(xiàn)狀。數(shù)據(jù)挖掘技術(shù)利用計算機設(shè)備的準(zhǔn)確、快速的算法更新技術(shù),實現(xiàn)了短時間內(nèi)對零售業(yè)領(lǐng)域內(nèi)的數(shù)據(jù)進(jìn)行聚類、提煉規(guī)律性成果的可能。

其次,數(shù)據(jù)挖掘神經(jīng)網(wǎng)絡(luò)算法的出現(xiàn),進(jìn)一步提升了零售業(yè)領(lǐng)域內(nèi)數(shù)據(jù)挖掘的應(yīng)用效率。這一新型算法的出現(xiàn)有效緩解了外部商業(yè)競爭對于零售業(yè)領(lǐng)域發(fā)展的影響。零售業(yè)領(lǐng)域內(nèi)企業(yè)的發(fā)展離不開高端有效的數(shù)據(jù)挖掘技術(shù)。

再次,數(shù)據(jù)挖掘技術(shù)令企業(yè)充分了解客戶對于商品銷售的喜好及興趣,幫助企業(yè)有效、準(zhǔn)確、及時了解并掌握市場的動態(tài)變化,可以做到及時針對市場環(huán)境的變化調(diào)整自身企業(yè)的銷售模式及銷售方案。在對市場動態(tài)變化的及時掌握中,零售業(yè)企業(yè)可以及時洞察市場上的新商機,謀求企業(yè)緊急效益。

三、零售業(yè)領(lǐng)域中數(shù)據(jù)挖掘技術(shù)應(yīng)用存在的問題及未來的發(fā)展趨勢

第一,零售業(yè)中數(shù)據(jù)挖掘技術(shù)在分析變量的選擇上仍有不足。數(shù)據(jù)挖掘的技術(shù)關(guān)鍵在于聚類方式的確定,而就相對更加復(fù)雜的零售業(yè)領(lǐng)域內(nèi)的有關(guān)數(shù)據(jù)信息而言,其在分析變量的確定方式上仍舊需要持續(xù)關(guān)注實踐結(jié)果進(jìn)行及時調(diào)整。選擇合適的數(shù)據(jù)挖掘分析變量,可以明顯提升數(shù)據(jù)挖掘技術(shù)在零售業(yè)領(lǐng)域中的應(yīng)用效率。

第二,數(shù)據(jù)挖掘技術(shù)所依托的數(shù)據(jù)抽取方式需要結(jié)合用戶需要進(jìn)行及時調(diào)整。抽取數(shù)據(jù)的目的在于從眾多雜亂數(shù)據(jù)中提煉有用信息,減少不必要的工作量。比如求和、平均值、方差、直方圖、餅狀圖等方式都可以結(jié)合實際情況嘗試。

第三,數(shù)據(jù)挖掘技術(shù)的數(shù)據(jù)趨勢需要有效預(yù)測。在紛繁復(fù)雜的數(shù)據(jù)信息中,也是有一些規(guī)律性的趨勢可以預(yù)測的。在零售業(yè)領(lǐng)域中,數(shù)據(jù)趨勢的預(yù)測工作十分重要。

四、結(jié)語

截至目前,真正適合零售業(yè)領(lǐng)域的數(shù)據(jù)挖掘模型還缺乏統(tǒng)一化,真正具有意義、有效性的數(shù)據(jù)模型的應(yīng)用范圍應(yīng)該是在各個行業(yè)中都具有互通性的,即便行業(yè)在特點方面存在差異,但符合當(dāng)前社會發(fā)展形勢的數(shù)據(jù)挖掘技術(shù)需要往統(tǒng)一化中帶有特色化的方向發(fā)展。因此,要保障數(shù)據(jù)挖掘的基礎(chǔ)數(shù)據(jù)模型可靠。數(shù)據(jù)模型包括的種類很多,比如概念數(shù)據(jù)模型、邏輯數(shù)據(jù)模型、物理模型、采集模型、處理模型、其他模型等。但目前情況看,上述模型的可靠性均需要經(jīng)過時間的考驗,因此,在零售業(yè)領(lǐng)域中的數(shù)據(jù)挖掘技術(shù)需要加大對模型可靠性的研究力度。

篇5

學(xué)習(xí)內(nèi)容分析

本課是蘇科版七年級初中信息技術(shù)第三章第3節(jié)的內(nèi)容,主要包括“數(shù)據(jù)挖掘的作用”和“數(shù)據(jù)挖掘的過程”兩個部分,可深入細(xì)分為“什么是數(shù)據(jù)挖掘”“數(shù)據(jù)準(zhǔn)備”“數(shù)據(jù)挖掘”“規(guī)律表示”四個內(nèi)容。教學(xué)中,為了讓學(xué)生深刻體會數(shù)據(jù)挖掘的意義和價值,教師應(yīng)鼓勵他們對數(shù)據(jù)進(jìn)行多角度加工與分析,找到規(guī)律或有用的信息,用恰當(dāng)?shù)姆绞街庇^地表達(dá)出來,學(xué)會搜集、分析身邊的數(shù)據(jù),用數(shù)據(jù)說話,讓數(shù)據(jù)挖掘更好地服務(wù)于生活與學(xué)習(xí)。

教學(xué)目標(biāo)

知識與技能目標(biāo):理解數(shù)據(jù)挖掘的概念,體會數(shù)據(jù)挖掘的作用。

過程與方法目標(biāo):嘗試進(jìn)行數(shù)據(jù)挖掘,經(jīng)歷數(shù)據(jù)挖掘的一般過程。

情感態(tài)度與價值觀目標(biāo):樹立用數(shù)據(jù)說話、用數(shù)據(jù)指導(dǎo)生活的思想意識。

教學(xué)重難點

重點:數(shù)據(jù)挖掘的概念及數(shù)據(jù)挖掘的一般過程。

難點:數(shù)據(jù)準(zhǔn)備及挖掘的過程。

教學(xué)策略

數(shù)據(jù)挖掘是一種強大的分析數(shù)據(jù)的方法,因涉及到專業(yè)軟件和統(tǒng)計學(xué)術(shù)語、數(shù)學(xué)模型等,會讓學(xué)生難以理解。而日常使用的WPS表格,作為數(shù)據(jù)挖掘的有效工具,可以讓學(xué)生在分析具體數(shù)據(jù)的過程中,掌握數(shù)據(jù)挖掘的方法。因此,本節(jié)課教學(xué)應(yīng)讓學(xué)生從已有經(jīng)驗出發(fā),運用WPS表格中的簡單工具,學(xué)習(xí)數(shù)據(jù)挖掘的一般方法。

“數(shù)據(jù)挖掘”對學(xué)生而言,是一個全新的概念,概念的建構(gòu)需要一步步地不斷累積,從表層到內(nèi)涵,逐步深化。學(xué)生只有在了解了“數(shù)據(jù)挖掘”的基本含義,并嘗試挖掘的基礎(chǔ)上,才能體會其作用和意義。所以,筆者設(shè)計了層層遞進(jìn)的學(xué)習(xí)活動(情境再現(xiàn),感受數(shù)據(jù)挖掘―案例研習(xí),認(rèn)識數(shù)據(jù)挖掘―比較空氣質(zhì)量,嘗試數(shù)據(jù)挖掘―同比空氣質(zhì)量,再探數(shù)據(jù)挖掘―暢想未來,展望數(shù)據(jù)挖掘),并且在活動中適時搭建學(xué)習(xí)所需的“支架”,來幫助學(xué)生完成知識的建構(gòu)。筆者通過一系列的活動,讓學(xué)生在做中學(xué),在學(xué)中思,在思中用,在情境化的技術(shù)活動中,歸納出數(shù)據(jù)挖掘的方法,從而樹立用數(shù)據(jù)說話、用數(shù)據(jù)指導(dǎo)生活的思想意識。

教學(xué)過程

1.情境再現(xiàn),感受數(shù)據(jù)挖掘

活動1:情境再現(xiàn),感受數(shù)據(jù)挖掘。

①猜一猜:不同的人群瀏覽同一個網(wǎng)頁時,所看到的內(nèi)容是否一致。

②觀察鳳凰網(wǎng)的廣告區(qū)域截圖,在組內(nèi)交流(如下頁圖1,不同人群瀏覽的同一網(wǎng)頁,推送的廣告不同)。

③京東為什么能夠根據(jù)個人喜好推送商品?

小結(jié):京東在挖掘和分析用戶瀏覽行為的基礎(chǔ)上,進(jìn)行定向產(chǎn)品推廣。

設(shè)計意圖:思維總是由問題開始的,激發(fā)問題,能讓學(xué)生積極主動地參與到學(xué)習(xí)活動中。以京東廣告推送功能來設(shè)置情境,把兩種不同的瀏覽行為對照比較,設(shè)置懸念,第一時間抓住學(xué)生,激發(fā)學(xué)生學(xué)習(xí)新知識、新技術(shù)的渴望。

2.案例研習(xí),認(rèn)識數(shù)據(jù)挖掘

活動2:學(xué)生觀看視頻,并思考、總結(jié)。

①安保為什么使用熱力圖(如圖2)?(對百度的定位數(shù)據(jù)、搜索數(shù)據(jù)進(jìn)行挖掘,把握人群密集點動態(tài)趨勢,幫助警方提前疏導(dǎo)、化解安全風(fēng)險)

②百度大數(shù)據(jù)對旅游有什么作用(如圖3)?(對用戶搜索數(shù)據(jù)深入挖掘,預(yù)測熱門旅游景點)

③導(dǎo)航是如何規(guī)劃路徑的(如圖4)?(對道路環(huán)境、天氣情況、特征日等數(shù)據(jù)進(jìn)行挖掘和分析,得出每條道路在不同環(huán)境或不同時間的路況規(guī)律,確定最優(yōu)的交通路線)

師生對數(shù)據(jù)進(jìn)行分析、總結(jié)(如表1)。

小結(jié):數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù)。數(shù)據(jù)挖掘的目的主要有三個:把握趨勢、預(yù)測和求最優(yōu)解。

設(shè)計意圖:選取日常生活中運用數(shù)據(jù)挖掘的三個典型事例視頻――熱力圖、旅游預(yù)測、導(dǎo)航,借助半成品表格作為輸出支架,歸納出數(shù)據(jù)挖掘的概念和數(shù)據(jù)挖掘的三個目的。體會挖掘數(shù)據(jù)價值性的同時,認(rèn)識數(shù)據(jù)加工的重要性,為數(shù)據(jù)挖掘的學(xué)習(xí)做好鋪墊。

3.比較空氣質(zhì)量,嘗試數(shù)據(jù)挖掘

師:圖5中空氣質(zhì)量預(yù)報實現(xiàn)了數(shù)據(jù)挖掘的哪一種目標(biāo)?(把握趨勢)鹽城市空氣質(zhì)量如何?借助熟悉的WPS表格工具,嘗試挖掘空氣質(zhì)量狀況。

活動3:比較鹽城、秦州、淮安等周邊城市空氣質(zhì)量狀況。

①登錄中國空氣質(zhì)量在線監(jiān)測分析平臺(http:///historydata/),建立鹽城周邊三市空氣質(zhì)量狀況工作表(如圖6)。

影響空氣質(zhì)量的因素很多,AQI指數(shù)是衡量空氣質(zhì)量的重要指標(biāo)。

教師演示:瀏覽數(shù)據(jù),提取數(shù)據(jù),組成工作表(如圖7)。

②計算各市4月份空氣質(zhì)量指數(shù)AQI的平均數(shù)。(提示:AVERAGE公式使用方法以及自動填充柄的使用)

③比較4月份空氣質(zhì)量狀況。(結(jié)論:質(zhì)量指數(shù)平均值大小依次是鹽城、秦州、淮安)

師:根據(jù)質(zhì)量指數(shù),利用函數(shù)工具計算平均數(shù),得出空氣質(zhì)量狀況,其實就是數(shù)據(jù)的挖掘。數(shù)據(jù)挖掘的一般過程如圖8所示。

設(shè)計意圖:從全國空氣質(zhì)量在線監(jiān)測分析平臺搜集數(shù)據(jù),選擇WPS函數(shù)工具挖掘數(shù)據(jù),并對挖掘結(jié)果加以解釋,來建構(gòu)數(shù)據(jù)挖掘的一般過程。在嘗試數(shù)據(jù)挖掘的過程中,學(xué)會運用計算思維解決問題,借助流程圖總結(jié)挖掘過程,有助于學(xué)生從整體上把握知識,進(jìn)一步促進(jìn)認(rèn)知體系的構(gòu)建。

4.同比空氣質(zhì)量,再探數(shù)據(jù)挖掘

師:通過挖掘比較,我們得出鹽城市4月份空氣質(zhì)量在周邊城市當(dāng)中最好,各市以前的空氣質(zhì)量狀況如何?

活動4:比較各市2014年、2015年空氣質(zhì)量數(shù)據(jù),說明哪一年空氣質(zhì)量更好(如圖9)。

①在選定城市后,思考如何同比質(zhì)量。

②選取函數(shù)或圖表工具,完成挖掘。

③規(guī)律表示。

④從“我的數(shù)據(jù)分析報告”中的各組中任選城市,從“2014年數(shù)據(jù)、2015年數(shù)據(jù)”工作表中,選取數(shù)據(jù)到“同比空氣質(zhì)量”進(jìn)行分析(如下頁表2)。

小組匯報挖掘過程和得出的結(jié)論,形成對數(shù)據(jù)挖掘的新認(rèn)識。

小結(jié):用平均數(shù)比較,各市兩年的數(shù)據(jù)基本相同,但是合格月份數(shù)不一定相同,同比AQI低的月份數(shù)也不相同。學(xué)生同比之后發(fā)現(xiàn),2015年空氣質(zhì)量好于2014年。

設(shè)計意圖:學(xué)生借助分析報告,以分組合作的形式,再次經(jīng)歷挖掘數(shù)據(jù)的過程,找到規(guī)律或有用的信息,加深對挖掘過程的理解。鼓勵學(xué)生對數(shù)據(jù)進(jìn)行多角度的加工與分析,選擇合適的工具進(jìn)行挖掘,體現(xiàn)了多元化的思想。

5.暢想未來,展望數(shù)據(jù)挖掘

觀看視頻(如上頁圖10,圖10中左圖為京東慧眼的視頻截圖,右圖為基因測序的視頻截圖),想象:數(shù)據(jù)挖掘技術(shù)的廣泛應(yīng)用,對生活會產(chǎn)生怎樣的影響?

如今,數(shù)據(jù)挖掘改變了傳統(tǒng)的生活模式,未來將會產(chǎn)生更加深遠(yuǎn)的影響。因此,我們應(yīng)學(xué)會搜集、分析身邊的數(shù)據(jù),用數(shù)據(jù)說話,挖掘數(shù)據(jù)創(chuàng)造出更智慧的生活方式。

設(shè)計意圖:通過視頻播放,讓學(xué)生深度感受“數(shù)據(jù)挖掘”與生活息息相關(guān),挖掘數(shù)據(jù)將給人們生活帶來的改變,培養(yǎng)學(xué)生搜集、分析身邊的數(shù)據(jù),用數(shù)據(jù)說話的意識。

點 評

篇6

數(shù)據(jù)挖掘在目前的信息社會環(huán)境下利用十分的普遍,而所謂的數(shù)據(jù)挖掘?qū)嶋H上就是利用數(shù)據(jù)所表現(xiàn)出來的特點以及關(guān)聯(lián)性將其他的因素做帶入性分析,這樣,無論是產(chǎn)業(yè)發(fā)展還是產(chǎn)品的生產(chǎn),其最終的結(jié)果都會具有綜合性。就軟件工程行業(yè)的具體實踐分析來看,軟件開發(fā)需要大量的數(shù)據(jù),而且數(shù)據(jù)信息之間的聯(lián)系需要明確,這樣,具體軟件開發(fā)的時候設(shè)計和考慮會更加的全面,最終的軟件適用性效果會更加突出?;诖耍治鲅芯寇浖こ绦袠I(yè)中數(shù)據(jù)挖掘的具體應(yīng)用有突出的現(xiàn)實價值。

一、數(shù)據(jù)挖掘的一般流程分析

數(shù)據(jù)挖掘是一個動態(tài)的過程,就目前的分析來看,數(shù)據(jù)挖掘需要經(jīng)歷三個基本的步驟:(1)數(shù)據(jù)的預(yù)處理。數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘最基礎(chǔ)的部分,也是數(shù)據(jù)挖掘關(guān)鍵性的步驟,其主要包括四項基本的內(nèi)容,分別是原始數(shù)據(jù)獲取、數(shù)據(jù)清洗、數(shù)據(jù)抽取和數(shù)據(jù)交換。通過數(shù)據(jù)的預(yù)處理,數(shù)據(jù)之間的邏輯關(guān)系會更加清晰,數(shù)據(jù)的具體利用價值會有明顯性提升。(2)數(shù)據(jù)挖掘。在數(shù)據(jù)預(yù)處理的基礎(chǔ)上進(jìn)行數(shù)據(jù)挖掘需要經(jīng)過兩個步驟,其一是對挖掘的任務(wù)進(jìn)行明確,具體包括數(shù)據(jù)的分類、數(shù)據(jù)總結(jié)等等。其二是對數(shù)據(jù)挖掘的算法進(jìn)行確定,這樣,數(shù)據(jù)挖掘的效率性和質(zhì)量性會更好。(3)模式評估和知識表示。在數(shù)據(jù)挖掘中不同的模式有不同的效果,因此對當(dāng)前確定的數(shù)據(jù)挖掘模式做有效性評估,這樣可以確定模式利用的最終價值。

二、軟件工程行業(yè)中的數(shù)據(jù)挖掘應(yīng)用

在軟件工程行業(yè),數(shù)據(jù)挖掘的應(yīng)用十分的廣泛,總結(jié)分析目前軟件工程行業(yè)中數(shù)據(jù)挖掘的主要應(yīng)用,這可以為數(shù)據(jù)挖掘的深入推廣提供可靠的參考。

(一)軟件版本信息挖掘

就當(dāng)前軟件工程行業(yè)中數(shù)據(jù)挖掘的具體應(yīng)用分析來看,最為廣泛的對象之一便是軟件工程版型控制信息的挖掘。就現(xiàn)階段的分析來看,對軟件工程版本進(jìn)行控制,其目的是對軟件工程開發(fā)人員在軟件工程開發(fā)過程中所編輯的信息進(jìn)行統(tǒng)一化的管理,這樣,軟件開發(fā)過程中數(shù)據(jù)的更新進(jìn)度可以更好的保持一致性。分析研究當(dāng)前環(huán)境下的軟件工程系統(tǒng)版本信息控制,利用數(shù)據(jù)挖掘技術(shù)可以將軟件開發(fā)過程中的具體變更信息做更加全面的掌握,這樣,在探討同一軟件平臺不同程序模塊的聯(lián)系和差異方面,具體的信息分析結(jié)果會更加的準(zhǔn)確,而利用具體的結(jié)果對軟件開發(fā)中需要解決的系統(tǒng)漏洞問題做處理,軟件的開發(fā)會更具完善性。簡言之,在軟件版本的更新設(shè)計中利用數(shù)據(jù)挖掘技術(shù),版本更新設(shè)計的整體質(zhì)量會更加突出。

(二)軟件漏洞檢測挖掘

在軟件工程行業(yè),數(shù)據(jù)挖掘的應(yīng)用還廣泛分布在軟件漏洞檢測方面。從軟件的具體應(yīng)用來看,漏洞的檢測和修復(fù)是軟件利用需要重點注意的內(nèi)容,因為這關(guān)系著軟件利用的綜合實效和安全性。就當(dāng)前軟件漏洞具體檢測中的數(shù)據(jù)挖掘分析來看,其主要包括5個方面的內(nèi)容:(1)軟件漏洞檢測項目的明確,有了明確的檢測項目,具體的數(shù)據(jù)挖掘范圍也會得到確定,這樣,數(shù)據(jù)挖掘的效果會更突出。(2)對軟件功能漏洞檢測數(shù)據(jù)信息做深入獲取,并就獲取的信息做清理和轉(zhuǎn)換工作,這樣可以提煉更多有用的知識和信息。(3)對軟件工程合適的數(shù)據(jù)挖掘信息做科學(xué)合理的選擇,這樣可以使數(shù)據(jù)信息的驗證效果更加突出。(4)對軟件工程中存在的系統(tǒng)平臺缺陷和漏洞做科學(xué)劃分并予以描述和定位。(5)基于挖掘的信息數(shù)據(jù)進(jìn)行系統(tǒng)測試工作。

(三)開源軟件代碼挖掘

軟件工程行業(yè)中的數(shù)據(jù)挖掘應(yīng)用還體現(xiàn)在開源軟件代碼挖掘中。從現(xiàn)階段的分析來看,開源軟件代碼挖掘可歸結(jié)為對象挖掘類型,其應(yīng)用最為廣泛的是代碼的克隆檢測,而克隆檢測工程在軟件代碼以及系統(tǒng)應(yīng)用數(shù)據(jù)的復(fù)制和拷貝中進(jìn)行使用。通過系統(tǒng)中具體的代碼源檢測操作能夠?qū)④浖こ讨写嬖诘拇a漏洞問題做有效解決,這樣軟件工程在后期的運行維護(hù)方面效果會有極大的提升。

(四)軟件執(zhí)行記錄挖掘

數(shù)據(jù)挖掘在軟件工程行業(yè)中的突出利用還體現(xiàn)在軟件執(zhí)行記錄的挖掘方面。在軟件執(zhí)行記錄當(dāng)中使用數(shù)據(jù)挖掘技術(shù),可以借助對軟件執(zhí)行的記錄做有效的大數(shù)據(jù)分析,這樣,不同的軟件或者是相同的軟件在不同模塊代碼間的關(guān)聯(lián)關(guān)系會得到全面性的分析,基于此分析,數(shù)據(jù)執(zhí)行的路徑等可以得到跟蹤,逆向建模的最終效果會更加的突出。簡言之,在軟件執(zhí)行記錄中利用數(shù)據(jù)挖掘會對軟件的系統(tǒng)代碼維護(hù)等起到突出的作用,這樣,軟件工程的穩(wěn)定性效果會更加突出。

三、結(jié)束語

綜上所述,在軟件工程行業(yè)中,具體的軟件開發(fā)需要對多方面的數(shù)據(jù)進(jìn)行利用,更要對各方面數(shù)據(jù)表現(xiàn)出來的關(guān)聯(lián)性以及數(shù)據(jù)應(yīng)用結(jié)果做分析,這樣,軟件最終開發(fā)需要考慮的內(nèi)容和避免的問題會更加的清楚。文章就軟件工程行業(yè)中數(shù)據(jù)挖掘的一般步驟和具體內(nèi)容做分析,最終的目的是為軟件工程行業(yè)的實踐活動開展提供幫助,從而提升軟件開發(fā)的綜合性,提高軟件在具體生活實踐中的利用價值和效果,達(dá)到軟件開發(fā)的最終目的。

參考文獻(xiàn)

[1]呂品,于文兵,汪鑫等.數(shù)據(jù)挖掘挑戰(zhàn)賽驅(qū)動的本科生大數(shù)據(jù)分析能力培養(yǎng)——以上海電機學(xué)院軟件工程專業(yè)學(xué)生為例[J].計算機教育,2017(11):36-39.

篇7

一、引言

客戶保有的前提是理解客戶行為,電信運營商已經(jīng)積累了大量的客戶行為信息,有效結(jié)合數(shù)據(jù)挖掘技術(shù),對已有的無規(guī)則客戶行為信息進(jìn)行分析識別,并通過各類算法歸納總結(jié)出客戶流失的規(guī)律及特點,最終建立起數(shù)據(jù)挖掘模型,經(jīng)過不斷的校驗,可以預(yù)測客戶流失傾向,并將預(yù)測結(jié)果轉(zhuǎn)化為企業(yè)客戶保有行為,為企業(yè)的營銷工作提供幫助、指導(dǎo),為企業(yè)決策提供支持,最終實現(xiàn)電信企業(yè)客戶保有及價值提升的目的。

二、數(shù)據(jù)挖掘概述

(1)數(shù)據(jù)挖掘概念。數(shù)據(jù)挖掘是指從大量的、隨機的、不規(guī)則的應(yīng)用數(shù)據(jù)中通過算法(如分類、總結(jié)、關(guān)聯(lián)規(guī)則、聚類等)搜索隱藏于其中的不為人知的、但潛在的有用知識的過程。數(shù)據(jù)挖掘提供預(yù)測性的信息,質(zhì)上是一個歸納推理的過程,不是驗證一個假定模型的正確性,而是在數(shù)據(jù)庫中自己尋找模型。數(shù)據(jù)挖掘是多學(xué)科的產(chǎn)物,包含數(shù)據(jù)庫技術(shù)、統(tǒng)計學(xué)、可視化、高性能計算、人工智能、機器學(xué)習(xí)。數(shù)據(jù)挖掘的三個過程,即數(shù)據(jù)整理、數(shù)據(jù)挖掘和結(jié)果的解釋評估。(2)數(shù)據(jù)挖掘方法。數(shù)據(jù)挖掘常用的方法有關(guān)聯(lián)分析、分類、聚類、回歸分析、神經(jīng)網(wǎng)絡(luò)等,這些方法從不同的角度對數(shù)據(jù)進(jìn)行挖掘分析,可以應(yīng)用到企業(yè)客戶行為分析、決策支撐等不同階段和領(lǐng)域。

三、電信客戶流失預(yù)警中數(shù)據(jù)挖掘的實施步驟

(1)明確目標(biāo)。要充分發(fā)揮數(shù)據(jù)挖掘的作用,必須明確目標(biāo)。電信客戶流失預(yù)警的重要目標(biāo)就是提前預(yù)知客戶流失風(fēng)險,從而指導(dǎo)維系人員準(zhǔn)確定位目標(biāo)客戶,及時給與流失干預(yù),提升電信客戶保有率。(2)建立數(shù)據(jù)挖掘庫。我們需要從各類海量電信客戶數(shù)據(jù)庫中抽取與客戶流失相關(guān)數(shù)據(jù)內(nèi)容,建立獨立的客戶流失預(yù)警挖掘數(shù)據(jù)庫,該數(shù)據(jù)庫可以是已有數(shù)據(jù)倉庫的一個邏輯子集,而不一定非要是物理上獨立的數(shù)據(jù)庫。單獨設(shè)立的客戶預(yù)警數(shù)據(jù)庫可以提高分析效率、避免由于數(shù)據(jù)巨大帶來的數(shù)據(jù)沖突問題的解決。通過對客戶流失關(guān)鍵點的數(shù)據(jù)抽取、精選,可以極大的減少數(shù)據(jù)處理量,節(jié)約系統(tǒng)資源,更好的輔助數(shù)據(jù)分析目標(biāo)的達(dá)成。(3)數(shù)據(jù)分析。需要從海量客戶、海量信息、海量數(shù)據(jù)中找到客戶流失的關(guān)鍵點,不斷從流失數(shù)據(jù)挖掘庫中找到相應(yīng)的規(guī)律和潛在趨勢,使用聚類分析的方法進(jìn)行客戶信息類別區(qū)分,逐步梳理出影響客戶流失的眾多因素,并進(jìn)行重要性分析,找出這些因素之間相互影響、牽連的關(guān)系,從而發(fā)現(xiàn)因素之間的相關(guān)性。(4)準(zhǔn)備及調(diào)整數(shù)據(jù)。通過數(shù)據(jù)分析步驟,將符合分析要求數(shù)據(jù)進(jìn)行數(shù)據(jù)庫導(dǎo)入,并對數(shù)據(jù)進(jìn)行進(jìn)一步的調(diào)整,關(guān)鍵是實現(xiàn)進(jìn)一層次的明確及量化,為模型化奠定基礎(chǔ)。(5)建立模型。建立模型是數(shù)據(jù)挖掘的核心環(huán)節(jié),在分析數(shù)據(jù),并對數(shù)據(jù)進(jìn)行系統(tǒng)調(diào)整的基礎(chǔ)上即可以開始建立模型。通常我們利用聚類分析、時間序列分析等方法來實現(xiàn)建模。(6)評價及解釋。從之前的步驟中我們已經(jīng)很明確的得出客戶流失的一系列分析數(shù)據(jù)及模型,我們會得出對客戶流失問題多種描述,綜合各類描述的規(guī)律性,提供合理的分析支持信息。

四、數(shù)據(jù)挖掘在電信客戶維系中的應(yīng)用

1、流失客戶分析及建模

以往運營商服務(wù)模型基本圍繞全生命周期時間軸主線,重點描述單客戶服務(wù)動作,缺少客戶聚類特征總結(jié)。結(jié)合客戶流失特征,運用聚類統(tǒng)計分析方法將客戶進(jìn)行特征聚類,區(qū)分為入網(wǎng)半年內(nèi)客戶群、入網(wǎng)半年至一年客戶群、入網(wǎng)一年以上客戶群,其客戶流失特征及原因存在區(qū)隔,入網(wǎng)半年內(nèi)客戶的流失與前期客戶發(fā)展質(zhì)量關(guān)系密切,主要取決于在新發(fā)展客戶營銷過程中存在的問題或弊端;而入網(wǎng)半年至一年客戶群的流失與功能性的服務(wù)感知相關(guān);入網(wǎng)一年以上或更長時間的客戶流失與后期客戶持續(xù)提供的服務(wù)及感知密切相關(guān)。同時三大聚類客戶群又分別具有三個流失關(guān)鍵點,我們可以運用數(shù)據(jù)挖掘技術(shù)“信息熵理論”、“二元分類模型”,找到幾個聚類群體流失相關(guān)因子,從而構(gòu)建針對性精準(zhǔn)的維系模型,如圖1所示。

在基于聚類模型構(gòu)建起精準(zhǔn)的客戶維系體系后,對應(yīng)影響三個聚類群體的核心因子及模型分析,針對性制定標(biāo)準(zhǔn)化維系動作及強化服務(wù)方案,增強原有的客戶服務(wù)體系,從而達(dá)到提升客戶感知及粘性的目的。

結(jié)合三個關(guān)鍵點,從現(xiàn)有的海量客戶行為數(shù)據(jù)中找到維系因子,對影響用戶群流失的因子做聚類分析,梳理出關(guān)鍵因子,并進(jìn)行重要性分析,選定對整體流失影響力較大的因子作為高危挽留的重點突破口,如表1所示。

通過高危因子重要度的區(qū)分,每月月初系統(tǒng)自動預(yù)警,為客戶挽留提供數(shù)據(jù)支持。

2、客戶挽留流程

(1)挽留機會分析。根據(jù)三大聚類客戶群特點,對三類客戶流失傾向進(jìn)行評價,按風(fēng)險的高低進(jìn)行評判,入網(wǎng)初期客戶流失風(fēng)險最高,其次是高??蛻袅魇A向明顯,一年以上到期合約客戶也存在流失風(fēng)險,根據(jù)風(fēng)險度及入網(wǎng)時間的不同,進(jìn)行流失客戶預(yù)測,從而及時找到挽留機會。(2)挽留策略的制定。通過高危因子重要度分析,系統(tǒng)自動預(yù)警圈定需要挽留的客戶群,對不同因子客戶進(jìn)行分析逐一制定挽留策略。針對新入網(wǎng)客戶流失分析,梳理主要流失原因,制定相應(yīng)的入網(wǎng)門檻,并配合相應(yīng)酬金發(fā)放機制,在入網(wǎng)半年內(nèi)分批分比例發(fā)放酬金,提升入網(wǎng)質(zhì)量;針對入網(wǎng)半年以上客戶,結(jié)合高危因子,梳理不同因子客戶群流失原因,針對性制定挽留策略,如合約計劃、網(wǎng)齡升級計劃、流量回饋等;對于一年以上合約到期客戶,制定老客戶合約續(xù)費政策,提升合約續(xù)費率。(3)采取保有行為并反饋。通過以上兩個步驟,找到挽留機會,并制定相應(yīng)策略后,需將挽留行為分配給不同的渠道人員實施,新入網(wǎng)客戶的入網(wǎng)策略由各發(fā)展渠道落實并反饋客戶信息;半年以上中期高??蛻艏耙荒暌陨虾霞s到期客戶的挽留與維系需由維系中心與各實體渠道相互配合,由維系中心進(jìn)行電話回訪式維系,實體渠道配合通過理財專席等方式在日常業(yè)務(wù)辦理中提高客戶在網(wǎng)粘性。

五、結(jié)束語

事實上,流失模型的建立不可能直接帶來客戶流失率的減少,但基于數(shù)據(jù)挖掘的客戶流失預(yù)警模型的應(yīng)用,可以很大程度上提升客戶維系與挽留的有效性,有效的預(yù)警、預(yù)測結(jié)合針對性的挽留策略及有效的挽留行為,才能夠真正實現(xiàn)客戶流失率的降低,達(dá)到提升客戶感知及粘性的最終目的。

篇8

中圖分類號:TP311.13

隨著經(jīng)濟(jì)的發(fā)展和科技的進(jìn)步,手機、電腦在中國隨處可見,互聯(lián)網(wǎng)甚至是移動互聯(lián)網(wǎng)融入了人們的日常生活,互聯(lián)網(wǎng)中無法估量的大量數(shù)據(jù)不斷增長,愈演愈烈,面對著海一般的數(shù)據(jù)信息,人們不能準(zhǔn)確的找到自己想要的數(shù)據(jù),像手機APP,手游等移動互聯(lián)網(wǎng)產(chǎn)品,每天都承載著非常多的數(shù)據(jù),對運營商而言,如何進(jìn)行數(shù)據(jù)分析以及數(shù)據(jù)挖掘成為一個亟待解決的難題。

較于傳統(tǒng)數(shù)據(jù)處理系統(tǒng),云計算系統(tǒng)的出現(xiàn)讓人眼前一亮,基于云的數(shù)據(jù)挖掘平臺的建構(gòu)為數(shù)據(jù)挖掘開辟了一條新路,云計算提供一個虛擬的平臺,用戶可以在任何地區(qū)運用任何終端選擇自己想要的數(shù)據(jù),而大規(guī)模的數(shù)據(jù)本身就存在一些問題,數(shù)據(jù)挖掘存在難度,本文就云計算的數(shù)據(jù)挖掘進(jìn)行具體的分析如下:

1 云計算概述

一直以來云計算都沒有一個統(tǒng)一明確的定義,根據(jù)多數(shù)人對云計算的定義,總結(jié)出以下兩方面:(1)云計算通俗一點說就是一個資源盤,其擁有數(shù)以萬計的可用虛擬資源,有些虛擬資源擁有不同的負(fù)載量,云計算的優(yōu)勢就是可用將這些負(fù)載量不同的資源進(jìn)行新的合理分配;(2)就用戶而言云計算的服務(wù)是方便簡單的,且透明化,用戶的最終目的是在云計算中獲取想要的數(shù)據(jù)和服務(wù),用戶不用在意云計算本身的運行機制,然而云計算的系統(tǒng)也是存在隱患的,如果一個規(guī)模龐大的計算機群在運作的過程中仍然不間斷的增加計算機的數(shù)量,那么云計算系統(tǒng)可能會出錯甚至系統(tǒng)崩潰,可見單純依靠硬件設(shè)施是不可取的,此時需要可靠的軟件發(fā)揮作用,需使用冗余和分布式存儲的方式,云計算系統(tǒng)另一個優(yōu)勢就是擁有自我檢測系統(tǒng)模式,該模式在不影響正常運行的情況下,可以檢測出無效節(jié)點并進(jìn)行刪除,總之,云計算系統(tǒng)數(shù)據(jù)多、存儲能力強、計算能力快且準(zhǔn)確率高,給用戶帶來高效、優(yōu)質(zhì)的服務(wù)。

經(jīng)過一直以來對云計算的研究總結(jié)其特點有五個方面,分別是虛擬化、通用性、擴展性強且規(guī)模大、可靠性高、經(jīng)濟(jì)性好等特點,具體來說就是云計算不是個實物,是個虛擬的擁有海量數(shù)據(jù)的平臺,用戶可以在世界的任何位置通過任何終端獲取想要的數(shù)據(jù)信息和服務(wù);云計算沒有局限性,在云計算下可以構(gòu)建出不同的應(yīng)用,而且這些應(yīng)用可同時運行;在不影響用戶正常使用的情況下,云計算是可以擴展的,而且是動態(tài)擴展,現(xiàn)今最多可擴展幾十萬臺電腦,整個擴展過程用戶是可以看到的,是對外的;為了保證服務(wù)的質(zhì)量和可靠性,云計算運用了多種方法如多副本容錯和多計算節(jié)點同構(gòu)可互換等;云計算由于自身的優(yōu)勢運用大量廉價節(jié)點構(gòu)成云,采用自動化集中式管理機制,解決企業(yè)高昂的數(shù)據(jù)中心成本,較于傳統(tǒng)系統(tǒng)云計算系統(tǒng)成本較低。

2 數(shù)據(jù)挖掘的方式

數(shù)據(jù)挖掘是一個循環(huán)反復(fù)、不斷調(diào)整和修改的過程,這個過程漫長且復(fù)雜。從數(shù)據(jù)預(yù)處理到數(shù)據(jù)挖掘再到評估和表示這是數(shù)據(jù)挖掘的整個過程,數(shù)據(jù)挖掘的過程中方法很多,歸納如下:(1)廣義知識挖掘,廣義知識被挖掘出來后,與可視化技術(shù)相結(jié)合,用戶可以直觀的通過圖表形式來了解;(2)關(guān)聯(lián)知識挖掘;(3)類知識挖掘,分分類和聚類兩種。決策樹、神經(jīng)網(wǎng)絡(luò)、貝葉斯分類、支持向量機、遺傳算法與進(jìn)化理論、粗糙集、關(guān)聯(lián)分類、類比學(xué)習(xí)、模糊集等為分類法。聚類法包括五種,分別是基于劃分、密度、層次、模型及網(wǎng)格的不同方法;(4)預(yù)測型知識挖掘,包括一些方法和技術(shù),方法有經(jīng)典的統(tǒng)計方法,技術(shù)包括神經(jīng)網(wǎng)絡(luò)和機器學(xué)習(xí)技術(shù);(5)特異型知識挖掘,所謂特異型指特殊的背離常規(guī)的異常規(guī)律。包括三個類別,分別是孤立點分析、序列異常分析和特異規(guī)則發(fā)現(xiàn);(6)自定義數(shù)據(jù)挖掘算法。

數(shù)據(jù)挖掘的過程以及方法可以通過圖1直觀的了解。

3 基于云的數(shù)據(jù)挖掘平臺架構(gòu)

針對傳統(tǒng)數(shù)據(jù)挖掘平臺而言,云計算的產(chǎn)生對其影響很大,云計算的分布式存儲和計算使數(shù)據(jù)挖掘開始變革,數(shù)據(jù)挖掘云服務(wù)只有基于云計算平臺才能得以實現(xiàn),其設(shè)計思想是分層設(shè)計,思路是面向組件設(shè)計,整個平臺自下向上分為三層,最下面一層也是最基礎(chǔ)的一層是云計算支撐平臺層,再往上一層是數(shù)據(jù)挖掘能力層,最頂層是數(shù)據(jù)挖掘云服務(wù)層。

云計算支撐平臺層的功能主要是提供數(shù)據(jù)的分布式存儲和計算,最底層構(gòu)建可以以企業(yè)自主研發(fā)的云計算平臺為基礎(chǔ) ,也可以以第三方提供的云計算平臺為基礎(chǔ)。

數(shù)據(jù)挖掘能力層的能力有算法服務(wù)管理、調(diào)度引起、數(shù)據(jù)并行處理框架等,這些都是基礎(chǔ)能力,數(shù)據(jù)挖掘能力層支撐著它的上一層(數(shù)據(jù)挖掘云服務(wù)層)。這層不但支持內(nèi)部數(shù)據(jù)挖掘算法和推薦算法庫,對于外在的第三方數(shù)據(jù)挖掘算數(shù)法也可以接入。

最頂層數(shù)據(jù)挖掘云服務(wù)層的主要功能是為外在企業(yè)和個人提供數(shù)據(jù)挖掘云服務(wù),其涵蓋多種多樣的服務(wù)能力封裝的接口形式,例如針對于簡單對象的訪問協(xié)議簡稱SOAP的XML等,本地應(yīng)用程序編程接口也是其形式之一,基于結(jié)構(gòu)化查詢語言語句的訪問在數(shù)據(jù)挖掘云服務(wù)層也是支持的,同時此層還提供解析引擎和自動調(diào)用云服務(wù)。

總之,基于云計算的數(shù)據(jù)挖掘平臺從很多方面是優(yōu)于傳統(tǒng)數(shù)據(jù)挖掘平臺的,如大規(guī)模數(shù)據(jù)處理能力、數(shù)據(jù)動態(tài)擴展能力以及低廉的云服務(wù)和成本等。

4 云計算關(guān)鍵技術(shù)

如今大量數(shù)據(jù)挖掘最直接有效的方法是分布式計算方法,這個方法包括兩部分一部分是分布式數(shù)據(jù)存儲,一部分是分布式并行計算,現(xiàn)在的云計算平臺已經(jīng)涵蓋了這兩部分的能力,這兩部分是云計算數(shù)據(jù)挖掘平臺的核心支撐能力,GFS、KFS、HDFS等三種分布式文件系統(tǒng)是目前比較受歡迎的分布式文件系統(tǒng),Google公司的分布式文件系統(tǒng)理論是三者的理論基礎(chǔ),KFS、HDFS兩種分布式文件系統(tǒng)多被用于商業(yè)和學(xué)術(shù)領(lǐng)域。

分布式并行計算框架在分布式計算方法中非常重要,其在計算過程中封裝了一些技術(shù)細(xì)節(jié),如任務(wù)調(diào)度、任務(wù)容錯等,這樣便捷了用戶,用戶只要把握好任務(wù)間的邏輯關(guān)系,不必注意這些技術(shù)細(xì)節(jié),目前較為廣泛應(yīng)用的分布式計算框架有并行計算框架Mapreduce和迭代處理計算框架Pregel這兩者都由谷歌公司提出,還有微軟公司研發(fā)的Dryad。

5 結(jié)束語

隨著互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)時代的到來,海量復(fù)雜的數(shù)據(jù)處理與數(shù)據(jù)挖掘困擾著各大運營商,與傳統(tǒng)數(shù)據(jù)系統(tǒng)相比,云計算優(yōu)勢明顯,強大動態(tài)擴展能力、獨特的分布式存儲和計算方法、以及低廉的成本優(yōu)勢吸引了越來越多企業(yè)和個人,基于云的數(shù)據(jù)挖掘平臺,企業(yè)和運行商都因此減少了數(shù)據(jù)挖掘方面的資金投入,對這些企業(yè)來說無疑是減小了生產(chǎn)成本。

參考文獻(xiàn):

篇9

中圖分類號TP392 文獻(xiàn)標(biāo)識碼A 文章編號 1674-6708(2013)102-0222-02

所謂數(shù)據(jù)挖掘,就是將那些隱含的在數(shù)據(jù)中的、不能先知以及包含潛在價值的大量信息,從數(shù)據(jù)中提煉出來以供技術(shù)人員參考分析。通過數(shù)據(jù)挖掘理論所得到的信息,可以為地理信息的測繪提供依據(jù),并且還具有預(yù)測和決策的功能。為了能夠得到更加精確的信息,我們建立了數(shù)據(jù)采集平臺。數(shù)據(jù)采集平臺側(cè)重于數(shù)據(jù)的收集,將大量的數(shù)據(jù)進(jìn)行有效的匯總,使之轉(zhuǎn)化成有助于測繪地理信息管理和決策的有效信息。我們在實際工作中,常??梢钥吹?,由于對數(shù)據(jù)沒有進(jìn)行系統(tǒng)科學(xué)的分析,使得一些潛在的威脅留在了我們要做的工程中,甚至?xí)榇藛适У艉芏嗬?。如果我們不能夠盡力把威脅清除掉,后果可能不堪設(shè)想,數(shù)據(jù)表面,看不出東西(即其隱藏的信息量),絕對是關(guān)鍵所在。因此,我們不僅要做好數(shù)據(jù)采集工作,更要有效的利用好數(shù)據(jù)挖掘理論,做好數(shù)據(jù)分析工作,充分挖掘出這些數(shù)據(jù)背后所帶來的意義。

1數(shù)據(jù)挖掘的功能

在測繪地理信息技術(shù)領(lǐng)域,數(shù)據(jù)挖掘理論能夠?qū)⒉杉臄?shù)據(jù)轉(zhuǎn)化為我們需要的知識。下面就數(shù)據(jù)挖掘的功能,并結(jié)合其在數(shù)據(jù)采集中的運用,我概括了幾點,主要功能有以下幾點:1)聚類功能。即按照數(shù)據(jù)內(nèi)在的規(guī)則,把數(shù)據(jù)聚合分類;2)關(guān)聯(lián)分析功能。關(guān)聯(lián)分析是從數(shù)據(jù)庫中發(fā)現(xiàn)知識的一類重要方法。當(dāng)建立在多次檢測的基礎(chǔ)上的某兩個或多個數(shù)據(jù)之間算出來的數(shù)據(jù)相似,差異極小的時候, 那么我們就說這些事件之間存在著某種關(guān)聯(lián), 能夠建立起這些關(guān)聯(lián)項的關(guān)聯(lián)規(guī)則;3)分類功能。將不同數(shù)據(jù)按照不同的分類標(biāo)準(zhǔn)進(jìn)行分類組合;4)偏差檢測功能。對那些不常見,極端的特例進(jìn)行歸檔分析, 并揭示其發(fā)生偏差的原因,以便以后好做調(diào)整;5)預(yù)測功能。通過數(shù)據(jù)信息所顯示的一些潛在的知識,我們能夠做好對未來測繪數(shù)據(jù)的預(yù)測。實踐證明,事物的聯(lián)系是普遍存在的,即數(shù)據(jù)挖掘的各項功能協(xié)調(diào)組合,以便發(fā)揮更大的作用。數(shù)據(jù)挖掘通過對數(shù)據(jù)的總結(jié)、分類、聚類和關(guān)聯(lián)等分析, 對采集的數(shù)據(jù)進(jìn)行深層次的剖析,把那些潛在的東西給挖掘出來,便于技術(shù)人員的管理與預(yù)測。

2 “數(shù)據(jù)挖掘”理論在數(shù)據(jù)采集平臺上的應(yīng)用基礎(chǔ)

2.1數(shù)據(jù)采集平臺的建立

由于科技發(fā)展的需要,數(shù)據(jù)采集平臺應(yīng)勢而生。數(shù)據(jù)采集平臺,是一個擁有大量數(shù)據(jù)的數(shù)據(jù)庫。據(jù)最新的統(tǒng)計數(shù)據(jù)顯示,整個平臺采集一次便可產(chǎn)生多達(dá)50萬以上的數(shù)據(jù)量。數(shù)據(jù)采集平臺最大的作用就是能夠產(chǎn)生巨大的數(shù)據(jù)。

我們知道數(shù)據(jù)本身就是數(shù)據(jù)而已,不能夠得到對我們有幫助的東西。而數(shù)據(jù)挖掘理論,基于相應(yīng)的知識,做出極具準(zhǔn)確性的預(yù)測性,能夠把單純的數(shù)據(jù),通過總結(jié)、分類、聚類、偏差檢測和關(guān)聯(lián)等功能可以把那些分散在數(shù)據(jù)庫里面的各種數(shù)據(jù),進(jìn)行綜合分析整合。數(shù)據(jù)挖掘理論,是以對數(shù)據(jù)的分析作為基礎(chǔ)的,其功能與分析方法對數(shù)據(jù)采集平臺管理和運用,有著不可估量的作用和意義。

2.2“數(shù)據(jù)挖掘”理論應(yīng)用基礎(chǔ)

由于科技的不斷發(fā)展,數(shù)據(jù)庫不斷充實,數(shù)據(jù)采集平臺也在不斷的完善和發(fā)展中。在國家政策,和科技不斷發(fā)展的趨勢下,數(shù)據(jù)采集平臺近幾年來,其結(jié)構(gòu)和采集信息量上也發(fā)生了翻天覆地的改變。主要表現(xiàn)在版本、匯總部分字段以及采集字段上。即:版本不斷的更新,由原先的“08c版”一直發(fā)展到現(xiàn)在的“10a001版”; 匯總部分字段和采集字段的增加,使得數(shù)據(jù)庫里的數(shù)據(jù)成海量的增長,甚至多達(dá)數(shù)十萬。這樣使得數(shù)據(jù)采集平臺更加規(guī)?;瑫r也加強了數(shù)據(jù)與數(shù)據(jù)之間的聯(lián)系,這也使得采集的數(shù)據(jù)成了 “數(shù)據(jù)挖掘”的數(shù)據(jù)基礎(chǔ),給了“數(shù)據(jù)挖掘”一個更好的平臺。也為技術(shù)人員運用數(shù)據(jù)挖掘理論提供了數(shù)據(jù)來源。

3 “數(shù)據(jù)挖掘”理論在數(shù)據(jù)采集平臺上的實際應(yīng)用

在上面我籠統(tǒng)的介紹了數(shù)據(jù)挖掘的基本功能,即分類、估計、關(guān)聯(lián)、聚類、偏差檢測和預(yù)測。在這里我具體的介紹一下“關(guān)聯(lián)規(guī)則挖掘” 理論。通過“關(guān)聯(lián)規(guī)則挖掘”理論,我們知道,如果僅僅是單獨、孤立的數(shù)據(jù),那是形成不了重要信息的,但是,如果我們將那些相互關(guān)聯(lián)的數(shù)據(jù)集中起來,并從不同的角度,不同的方面去分析這些數(shù)據(jù),那么潛伏在這些數(shù)據(jù)表面以下的部分就會浮出表面,這樣我們就能看到事物的全部。這對我們做決策有著重要的意義。所以我們要可以通過“關(guān)聯(lián)規(guī)則挖掘”理論辨證的去分析事物內(nèi)部所蘊含的關(guān)系。相反,如果只是盲目的看到表面的數(shù)據(jù),甚至割裂地、孤立地去看待數(shù)據(jù),這樣不僅找不到數(shù)據(jù)與數(shù)據(jù)之間關(guān)聯(lián)關(guān)系,更不能通過聚合這些相互關(guān)聯(lián)的數(shù)據(jù),這不能做出科學(xué)有效的決策。在測繪地理信息的時候,“關(guān)聯(lián)規(guī)則挖掘”的理論,為我們提供了更廣闊的分析方法和思維模式,為我們做出正確合理的決策提供了理論依據(jù)。在實際操作中,我們感覺到任何一個重要問題的分析,我們都要依賴“關(guān)聯(lián)規(guī)則挖掘”理論,對具體的數(shù)據(jù)進(jìn)行科學(xué)分析,以呈現(xiàn)其數(shù)據(jù)和事物之間的關(guān)聯(lián)性。

4 結(jié)論

結(jié)合個人的工作經(jīng)驗和實際操作,就數(shù)據(jù)挖掘理論在數(shù)據(jù)采集中的應(yīng)用展開了探討和研究。介紹了數(shù)據(jù)挖掘的功能;“數(shù)據(jù)挖掘”理論在數(shù)據(jù)采集平臺上的應(yīng)用基礎(chǔ):數(shù)據(jù)采集平臺的建立和“數(shù)據(jù)挖掘”理論應(yīng)用基礎(chǔ);以及“數(shù)據(jù)挖掘”理論在數(shù)據(jù)采集平臺上的實際應(yīng)用。但是由于自身學(xué)識和理解的局限性,說的不是很全面,只是希望大家可以關(guān)注一下數(shù)據(jù)挖掘理論在數(shù)據(jù)采集中的應(yīng)用,并能在你所在的領(lǐng)域內(nèi)有所應(yīng)用。

參考文獻(xiàn)

[1]譚廣宇.數(shù)據(jù)挖掘理論在狀態(tài)數(shù)據(jù)采集平臺上的應(yīng)用[J].廣西教育,2011(6).

[2]蔣盛益,李霞,鄭琪.數(shù)據(jù)挖掘原理與實踐[J].圖書,2011(8).

篇10

在社會的發(fā)展之下,網(wǎng)絡(luò)已經(jīng)成為人們生活與生產(chǎn)中必不可少的工具,但是網(wǎng)絡(luò)中充斥的大量繁雜信息也在一定程度上影響著人們的信息獲取速度,網(wǎng)絡(luò)信息檢索在檢準(zhǔn)率與檢全率方面依然難以滿足人們的需求,而將網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)應(yīng)用在其中即可很好的解決這一問題。

1 數(shù)據(jù)挖掘技術(shù)簡介

數(shù)據(jù)挖掘技術(shù)就是從大量模糊、隨機、不完全、有噪聲信息中提出有用信息的一個過程,與數(shù)據(jù)挖掘技術(shù)相關(guān)的技術(shù)還有數(shù)據(jù)分析技術(shù)、數(shù)據(jù)融合技術(shù)、知識發(fā)現(xiàn)技術(shù)等等,在技術(shù)水平的發(fā)展下,統(tǒng)計學(xué)方法、決策樹、關(guān)聯(lián)分析等一些新型數(shù)據(jù)挖掘技術(shù)也相繼出現(xiàn)。與數(shù)據(jù)挖掘不同,信息檢索實質(zhì)上是一種信息發(fā)現(xiàn)任務(wù),也是知識發(fā)展過程中的重要環(huán)節(jié),信息檢索能夠幫助人們了解各項靜態(tài)信息,但是難以分析到數(shù)據(jù)間的關(guān)系及其未來發(fā)展趨勢。而應(yīng)用數(shù)據(jù)挖掘技術(shù)則可以有效提升系統(tǒng)檢索能力,預(yù)測出未來的走勢,因此,將數(shù)據(jù)挖掘技術(shù)應(yīng)用在搜索引擎中也是大勢所趨。

2 搜索引擎與網(wǎng)絡(luò)數(shù)據(jù)挖掘

網(wǎng)絡(luò)數(shù)據(jù)挖掘是一種將數(shù)據(jù)挖掘技術(shù)與網(wǎng)絡(luò)融合的一種新模式,網(wǎng)絡(luò)數(shù)據(jù)挖掘也能夠稱之為Web挖掘,網(wǎng)絡(luò)數(shù)據(jù)的頁面復(fù)雜、數(shù)據(jù)內(nèi)容繁雜,文章也具有不規(guī)則性,將數(shù)據(jù)挖掘技術(shù)應(yīng)用在數(shù)據(jù)挖掘中可以有效的解決上述問題,根據(jù)處理對象,網(wǎng)絡(luò)數(shù)據(jù)挖掘任務(wù)有三種類型,即網(wǎng)絡(luò)內(nèi)容挖掘、網(wǎng)絡(luò)使用挖掘與網(wǎng)絡(luò)結(jié)構(gòu)挖掘。

2.1 網(wǎng)絡(luò)內(nèi)容的挖掘

網(wǎng)絡(luò)內(nèi)容挖掘就是從網(wǎng)絡(luò)數(shù)據(jù)、網(wǎng)絡(luò)內(nèi)容與網(wǎng)絡(luò)文檔中挖掘信息,很多網(wǎng)絡(luò)信息是能夠在網(wǎng)絡(luò)中過去的,但是依然有很大一部分?jǐn)?shù)據(jù)難以采用該種方法獲取,如使用PHP、JSP與ASP的動態(tài)網(wǎng)頁,拒絕訪問的網(wǎng)站,商業(yè)數(shù)據(jù)庫中的數(shù)據(jù)。這些內(nèi)容都能夠使用網(wǎng)絡(luò)內(nèi)容挖掘法來獲取,這可以使用兩個方法:網(wǎng)絡(luò)頁面內(nèi)容挖掘法與搜索結(jié)果再挖掘法。

2.2 網(wǎng)絡(luò)結(jié)構(gòu)挖掘法

網(wǎng)絡(luò)結(jié)構(gòu)挖掘法強調(diào)挖掘網(wǎng)頁中的鏈接結(jié)構(gòu),并從中推導(dǎo)相關(guān)的知識,這種挖掘法與引文分析有著密切的關(guān)系,網(wǎng)絡(luò)中的鏈接信息能夠為數(shù)據(jù)挖掘提供全面的支持,為了獲取到理想的效果,可以來分析網(wǎng)頁鏈接與鏈接數(shù)量,并建立起鏈接結(jié)構(gòu)模式。其常用的算法有Propriteary算法、Google算法、HITS算法與PageRank算法四種。

2.3 網(wǎng)絡(luò)使用挖掘法

網(wǎng)絡(luò)使用挖掘法就是通過日志發(fā)現(xiàn)來訪問頁面的一種模式,與網(wǎng)絡(luò)內(nèi)容挖掘模式和網(wǎng)絡(luò)結(jié)構(gòu)挖掘模式不同,網(wǎng)絡(luò)使用挖掘法的挖掘?qū)ο蠓鞘蔷W(wǎng)絡(luò)與用戶交互中的二手?jǐn)?shù)據(jù),這些數(shù)據(jù)大多來自Cookies或者Web服務(wù)器中的信息、系統(tǒng)交互信息與訪問記錄。

3 數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)信息檢索中的應(yīng)用作用

目前,人們已經(jīng)進(jìn)入了一個信息爆炸時代,雖然眾多搜索引擎網(wǎng)絡(luò)可以滿足人們對于信息檢索的基本需求,但是還是有很多地方不到位,目前,網(wǎng)絡(luò)挖掘技術(shù)已經(jīng)開始在網(wǎng)絡(luò)領(lǐng)域中得到了應(yīng)用,也取得了一定的成效。實踐顯示,將數(shù)據(jù)挖掘技術(shù)應(yīng)用在網(wǎng)絡(luò)信息檢索中能夠取得如下的效用:

3.1 提升標(biāo)引準(zhǔn)確性

標(biāo)引能夠準(zhǔn)確選擇出文獻(xiàn)的檢索標(biāo)示,網(wǎng)絡(luò)信息范圍廣、復(fù)雜性高、數(shù)量多,使用人工標(biāo)引很難取得理想的檢索效果,因此,必須要使用自動標(biāo)引。將網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)應(yīng)用在其中能夠深刻的揭示出相關(guān)信息的聯(lián)系,幫助用戶在文檔中進(jìn)行標(biāo)注,提升信息攝取的準(zhǔn)確性。而以此為基礎(chǔ)來應(yīng)用加權(quán)算法則能夠得出具體的信息關(guān)聯(lián),對于提升檢索效果有著十分積極的效用。

3.2 可以對檢索結(jié)果進(jìn)行分類

在網(wǎng)絡(luò)世界中,各個網(wǎng)站之間的轉(zhuǎn)載情況嚴(yán)重,用戶在使用搜索引擎時必然會檢索出大量的重復(fù)信息,這不僅會降低檢索效率,也會浪費資源。將數(shù)據(jù)挖掘技術(shù)應(yīng)用在檢索工作中就能夠挖掘出網(wǎng)頁中的語義內(nèi)容,有效提升檢索效率。此外,數(shù)據(jù)挖掘技術(shù)也可以有效提升檢索質(zhì)量,該種方法是建立在層次法與劃分法基礎(chǔ)上,如果檢索文檔相似性大,即可進(jìn)行聚類處理,將處理后的信息用層次化方式提供給用戶,用戶可以根據(jù)自己的需要自行選擇,這就有效減少了瀏覽數(shù)量。

3.3 能夠提升自動摘要質(zhì)量

自動摘要即利用網(wǎng)絡(luò)來分析文章結(jié)構(gòu)、主題語句的方式,自動摘要可以有效幫助用戶來加工與整合信息,與自動摘要相比,人工編制摘要會浪費大量的時間,將網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)應(yīng)用在搜索引擎中能夠提升自動摘要的質(zhì)量,該種技術(shù)是通過文檔內(nèi)容來總結(jié)文本信息,能夠?qū)eb中的重要內(nèi)容總結(jié)起來,并提取出摘要。這對于優(yōu)化網(wǎng)絡(luò)信息資源的處理質(zhì)量有著十分積極的意義。

4 結(jié)語

總而言之,將數(shù)據(jù)網(wǎng)絡(luò)挖掘技術(shù)應(yīng)用在搜索引擎中已經(jīng)成為了一個大勢所趨,采用該種技術(shù)可以有效提升標(biāo)引、自動分類、自動摘要以及自動聚類的準(zhǔn)確性,可以根據(jù)用戶的具體需求來建立模型,從而為用戶提供出更加針對性的信息支持。其中,最為常用的技術(shù)就是自由分類法,自由分類法能夠?qū)㈦y以用傳統(tǒng)方式細(xì)化的信息歸入熟悉類目中,并在排序檢索與信息組織上很好的彌補與了傳統(tǒng)搜索方法的缺陷,但是,該種方法也存在一些局限性,多應(yīng)用在小范圍網(wǎng)絡(luò)中,相信在不久的將來,網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)定可以在搜索引擎中得到更加廣泛的使用。

參考文獻(xiàn):