關(guān)鍵詞:主題爬蟲 主題相關(guān)度
摘要:本文通過對(duì)分布式技術(shù)和主題網(wǎng)絡(luò)爬蟲的研究,設(shè)計(jì)了一個(gè)能處理海量數(shù)據(jù)的分布式主題爬蟲。設(shè)計(jì)內(nèi)容主要包括分布式主題網(wǎng)絡(luò)爬蟲的各個(gè)功能模塊及其實(shí)現(xiàn)方法。如頁面的主題相關(guān)度判定方法、URL去重過濾方法等。主要使用了Hadoop技術(shù)和向量空間模型。該分布式主題爬蟲的研究與設(shè)計(jì)為后面分布式主題爬蟲的實(shí)現(xiàn)奠定了基礎(chǔ)。
計(jì)算機(jī)光盤軟件與應(yīng)用雜志要求:
{1}文章正文的標(biāo)題、表格、圖、公式以及腳注應(yīng)分別連續(xù)編號(hào)。
{2}參考文獻(xiàn):本刊參考文獻(xiàn)附于文末,執(zhí)行國家標(biāo)準(zhǔn)《信息與文獻(xiàn)參考文獻(xiàn)著錄規(guī)則》GB7714—2015的規(guī)定,序號(hào)用數(shù)字加方括號(hào)表示,如[1]、[2]...
{3}中文摘要為150-300字。摘要的內(nèi)容應(yīng)包括目的、方法、實(shí)驗(yàn)結(jié)果和結(jié)論;綜述性、評(píng)論性文章可寫指示性摘要。摘要中不應(yīng)出現(xiàn)“本文、我們、作者”之類的詞語。
{4}請(qǐng)作者提交附件,注明姓名,職稱,所在學(xué)術(shù)機(jī)構(gòu),通訊地址,電話,電子郵箱。
{5}基金項(xiàng)目名稱應(yīng)按照國家有關(guān)部門規(guī)定的正式名稱填寫,多項(xiàng)基金項(xiàng)目應(yīng)依次列出,其間以分號(hào)隔開。
注:因版權(quán)方要求,不能公開全文,如需全文,請(qǐng)咨詢雜志社