關(guān)鍵詞:不確定數(shù)據(jù) 數(shù)據(jù)挖掘 頻繁模式 spark
摘要:如何在海量不確定數(shù)據(jù)集中提高頻繁模式挖掘性能是目前研究的熱點.傳統(tǒng)算法大多是以期望、概率或者權(quán)重等單一指標為數(shù)據(jù)項集支持度,在大數(shù)據(jù)背景下,同時考慮概率和權(quán)重支持度的算法難以兼顧其執(zhí)行效率.為此,本文提出一種基于Spark的不確定數(shù)據(jù)集頻繁模式挖掘算法(UWEFP),首先,為了同時兼顧數(shù)據(jù)項的概率和權(quán)重,計算一項集的最大概率權(quán)重值并進行剪枝;然后,為了減少對數(shù)據(jù)集的多次掃描,結(jié)合Spark框架的優(yōu)點,設計了一種具有FP-tree特征的新穎的UWEFP-tree結(jié)構(gòu)進行模式樹的構(gòu)建及挖掘;最后在Spark環(huán)境下,以UCI數(shù)據(jù)集進行實驗驗證.實驗結(jié)果表明本文的方法在保證挖掘結(jié)果的同時,提高了效率.
信息與控制雜志要求:
{1}基金或課題項目:若要標注獲得基金或課題贊助的論文,應注明基金或課題項目名稱,并在圓括號內(nèi)注明項目編號。
{2}本刊歡迎具有創(chuàng)見性、應用性、前瞻性的論文,對觸及社會和學術(shù)界熱點、重點及時代感、現(xiàn)實性較強的論文優(yōu)先錄用。
{3}圖片要求為原始稿件單獨發(fā)送,清晰,色彩、亮度適中,圖像分辨率應為1024×768像素,4M以上。
{4}文中需進一步解釋的內(nèi)容作為頁末注釋,用宋體五號字。文中用上標標注,編號為:①②③。
{5}附錄內(nèi)容較少,與參考文獻排在同一頁;如出現(xiàn)內(nèi)容較多,則另起一頁。附錄的字體為12磅,Times New Roman字體,加粗。附錄內(nèi)容格式要求與正文一致。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社