關(guān)鍵詞:lightgbm 隨機(jī)森林 極端梯度增強(qiáng)算法 卷積自編碼器
摘要:目的非編碼RNA-蛋白質(zhì)的相互作用(noncoding RNA-protein interactions,ncRPI)具有重要的生物學(xué)意義,目前預(yù)測(cè)其相互作用已成為當(dāng)下研究非編碼RNA (noncoding RNA,ncRNA)和蛋白質(zhì)功能的重要途徑之一。方法本研究基于ncRNA和蛋白質(zhì)的序列信息提取特征,運(yùn)用卷積自編碼器預(yù)處理原始數(shù)據(jù),訓(xùn)練三個(gè)機(jī)器學(xué)習(xí)模型:LightGBM(LBM)、隨機(jī)森林(random forest,RF)和極端梯度增強(qiáng)算法(extreme gradient boosting,XGB),預(yù)測(cè)ncRNA與蛋白質(zhì)的相互作用。結(jié)果在RPI369和RPI488兩個(gè)數(shù)據(jù)集做5倍交叉驗(yàn)證,LBM、RF與XGB三個(gè)模型在兩個(gè)數(shù)據(jù)集均達(dá)到較高的預(yù)測(cè)準(zhǔn)確率,在RPI369數(shù)據(jù)集三個(gè)模型的預(yù)測(cè)準(zhǔn)確率分別為0.757(LBM)、0.791(RF)、0.791(XGB),在RPI488數(shù)據(jù)集三個(gè)模型的預(yù)測(cè)準(zhǔn)確率分別為0.918(LBM)、0.908(RF)、0.918(XGB);三個(gè)模型在RPI1807、RPI2241、RPI13254大數(shù)據(jù)集也取得較高的AUC(area under curve)值,在RPI1807三個(gè)模型的AUC值均為0.99,在RPI2241三個(gè)模型最低AUC值為0.87,在RPI13254三個(gè)模型最低AUC值為0.81,都表現(xiàn)出較好的預(yù)測(cè)準(zhǔn)確性。結(jié)論機(jī)器學(xué)習(xí)方法能夠預(yù)測(cè)ncRNA與蛋白質(zhì)是否存在相互作用。
北京生物醫(yī)學(xué)工程雜志要求:
{1}注釋對(duì)正文特定內(nèi)容的解釋與說(shuō)明,以及未公開(kāi)發(fā)表的資料和“轉(zhuǎn)引自”等類(lèi)文獻(xiàn)的著錄,用圈碼標(biāo)引,在頁(yè)下注文。
{2}稿件要遵守國(guó)家的相關(guān)法律法規(guī),題材貼近實(shí)際、貼近基層、貼近群眾,主題新穎、健康向上。
{3}來(lái)稿應(yīng)包括題名、作者署名及通訊地址、作者簡(jiǎn)介、摘要、關(guān)鍵詞、中圖分類(lèi)號(hào)、正文、注釋、參考文獻(xiàn),并將題名、作者署名及通訊地址、摘要和關(guān)鍵詞。
{4}摘要:一般為500~600字。研究論文摘要應(yīng)包括研究目的、方法、結(jié)果和結(jié)論;綜述論文摘要應(yīng)包括論述主題、重要進(jìn)展和前景展望。
{5}文章正文的標(biāo)題、表格、圖、公式以及腳注應(yīng)分別連續(xù)編號(hào)。
注:因版權(quán)方要求,不能公開(kāi)全文,如需全文,請(qǐng)咨詢(xún)雜志社