av免费精品-综合久久久久久久-国产又粗又猛又黄-日本精品一区二区三区视频-美女午夜影院-91在线资源-欧美激情综合色综合啪啪五月-精品综合久久久久久8888-成人123区-黄色小说乱-香蕉av一区二区三区-国产91免费-欧美日韩在线看-国产成年女人特黄特色大片免费-在线免费色视频-日韩av综合在线-日本一二三四区视频

神經(jīng)網(wǎng)絡(luò)文本分類大全11篇

時間:2023-05-31 14:59:15

緒論:寫作既是個人情感的抒發(fā),也是對學(xué)術(shù)真理的探索,歡迎閱讀由發(fā)表云整理的11篇神經(jīng)網(wǎng)絡(luò)文本分類范文,希望它們能為您的寫作提供參考和啟發(fā)。

神經(jīng)網(wǎng)絡(luò)文本分類

篇(1)

文本分類數(shù)是據(jù)挖掘的一個重要研究領(lǐng)域,國內(nèi)外的眾多學(xué)者已經(jīng)進行了比較深入的研究,取得了不少研究成果。常見的文本分類技術(shù)有最小距離方法、樸素貝葉斯方法、KNN方法、支持向量機方法(SVM)、模糊c均值(FCM)算法和等,現(xiàn)在有很多學(xué)者把神經(jīng)網(wǎng)絡(luò)的方法應(yīng)用到分類算法中,在這些分類算法中,神經(jīng)網(wǎng)絡(luò)的文本分類更具有優(yōu)越的性能。袁飛云利用SOINN自動產(chǎn)生聚類數(shù)目和保留數(shù)據(jù)拓撲結(jié)構(gòu)的兩項能力,尋找更有效的單詞和設(shè)計更有效的編碼方式,提出了基于自組織增量神經(jīng)網(wǎng)絡(luò)(SOINN)的碼書產(chǎn)生方法;申明金利用自組織特征映射神經(jīng)網(wǎng)絡(luò)(SOM)以無監(jiān)督方式進行網(wǎng)絡(luò)訓(xùn)練,具有自組織功能的特點,利用自組織特征映射神經(jīng)網(wǎng)絡(luò)對不同產(chǎn)地金銀花進行分類;彭俊等將不同空氣質(zhì)量等級下的各空氣指標作為原型模式,通過輸入樣本模式,利用競爭網(wǎng)絡(luò)的競爭特點得到勝者,以此得出空氣質(zhì)量等級;郝曉麗等通過篩選基于輪廓系數(shù)的優(yōu)秀樣木群,來尋找最佳初始聚類中心,并將該改進算法用于構(gòu)造徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)分類器和快速有效地確定隱含層節(jié)點徑向基函數(shù)中心及函數(shù)的寬度,從而提高了分類精度;孫進進利用神經(jīng)網(wǎng)絡(luò)技術(shù)中的自組織映射SOM)網(wǎng)絡(luò)對我國主要機場進行聚類分析評價,得出我國主要機場分為8層的主要結(jié)論;劉艷杰在非監(jiān)督的自組織映射神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上進行了一定的改進,構(gòu)建了有監(jiān)督的神經(jīng)網(wǎng)絡(luò)分類模型;李楊將神經(jīng)網(wǎng)絡(luò)與群體智能算法、云計算相結(jié)合的方法,實現(xiàn)對不同規(guī)模農(nóng)業(yè)數(shù)據(jù)集的分類,提出基于神經(jīng)網(wǎng)絡(luò)分類器的設(shè)計與優(yōu)化方法。而競爭型神經(jīng)網(wǎng)絡(luò)的自組織、自適應(yīng)學(xué)習(xí)能力,進一步拓寬了神經(jīng)網(wǎng)絡(luò)在模式分類和識別方面的應(yīng)用。競爭型神經(jīng)網(wǎng)絡(luò)依靠神經(jīng)元之間的興奮、協(xié)調(diào)、抑制或競爭的作用來進行信息處理,可在訓(xùn)練中無監(jiān)督自組織學(xué)習(xí),通過學(xué)習(xí)提取數(shù)據(jù)中的重要特征或內(nèi)在規(guī)律,進而實現(xiàn)分類分析的功能。

1競爭型神經(jīng)網(wǎng)絡(luò)的描述

1.1競爭型網(wǎng)絡(luò)的結(jié)構(gòu)

競爭學(xué)習(xí)網(wǎng)絡(luò)的結(jié)構(gòu)如圖1所示,該網(wǎng)絡(luò)具有R維輸入和s個輸出,由前饋層和競爭層組成。圖中的llndlstll模塊表示對輸入矢量P和神經(jīng)元權(quán)值矢量w之間的距離取負。該網(wǎng)絡(luò)的輸出層是競爭層,圖中的模塊c表示競爭傳遞函數(shù),其輸出矢量由競爭層各神經(jīng)元的輸出組成,這些輸出指明了原型模式與輸入向量的相互關(guān)系。競爭過后只有一個神經(jīng)元有非零輸出,獲勝的神經(jīng)元指明輸入屬于哪類(每個原型向量代表一個類)。

1.2競爭型神經(jīng)網(wǎng)絡(luò)的原理

競爭型神經(jīng)網(wǎng)絡(luò)在結(jié)構(gòu)上,既不同于階層型的各層神經(jīng)元間非單向連接,也不同于全連接型。它有層次界限,一般是由輸入層和競爭層構(gòu)成的兩層網(wǎng)絡(luò)。兩層之間各神經(jīng)元實現(xiàn)雙向全連接,沒有隱含層,有時競爭層各神經(jīng)元之間還存在橫向連接。在學(xué)習(xí)方法上,不是以網(wǎng)絡(luò)的誤差或能量函數(shù)的單調(diào)遞減作為算法準則。而是依靠神經(jīng)元之間的興奮、協(xié)調(diào)、抑制、競爭的作用來進行信息處理,指導(dǎo)網(wǎng)絡(luò)的學(xué)習(xí)與工作。

網(wǎng)絡(luò)在剛開始建立的時候,輸入層和輸出層之間的連接權(quán)值已經(jīng)開始了,如果與競爭層某一神經(jīng)元對應(yīng)的矢量子類別屬于線性層某個神經(jīng)元所對應(yīng)的目標類別,則這兩個神經(jīng)元的連接權(quán)值為1,否則二者的連接權(quán)值為0,這樣的權(quán)值矩陣就實現(xiàn)了子類別到目標類別的合并。在建立競爭型網(wǎng)絡(luò)時,每類數(shù)據(jù)占數(shù)據(jù)總數(shù)的百分比是已知的,這也是競爭層神經(jīng)元歸并到線性層的各個輸出時所依據(jù)的比例。

1.3存在的問題

競爭型神經(jīng)網(wǎng)絡(luò)按Kohonen學(xué)習(xí)規(guī)則對獲勝神經(jīng)元的權(quán)值進行調(diào)整,通過輸入向量進行神經(jīng)元權(quán)值的調(diào)整,因此在模式識別的應(yīng)用中是很有用的。通過學(xué)習(xí),那些最靠近輸入向量的神經(jīng)元權(quán)值向量得到修正,使之更靠近輸入向量,其結(jié)果是獲勝的神經(jīng)元在下一次相似的輸入向量出現(xiàn)時,獲勝的可能性更大;而對于那些與輸入向量相差很遠的神經(jīng)元權(quán)值向量,獲勝的可能性將變得很小。這樣,當(dāng)經(jīng)過越來越多的訓(xùn)練樣本學(xué)習(xí)后,每一個網(wǎng)絡(luò)層中的神經(jīng)元權(quán)值向量很快被調(diào)整為最接近某一類輸入向量的值。最終的結(jié)果是,如果神經(jīng)元的數(shù)量足夠多,則具有相似輸入向量的各類模式作為輸入向量時,其對應(yīng)的神經(jīng)元輸出為1;而對于其他模式的輸入向量,其對應(yīng)的神經(jīng)元輸出為0。所以,競爭型神經(jīng)網(wǎng)絡(luò)具有對輸入向量進行學(xué)習(xí)分類的能力。

例子:以競爭型神經(jīng)網(wǎng)絡(luò)為工具,對下面的數(shù)據(jù)進行分類:

運用Matlab編程實現(xiàn),發(fā)現(xiàn)網(wǎng)絡(luò)的訓(xùn)練誤差能達到要求,最后也能實現(xiàn)很好的分類效果。運行結(jié)果如圖2所示。

有運行結(jié)果可以看到,訓(xùn)練誤差達到要求,分類結(jié)果也很合理。

但是在實際應(yīng)用過程中,我們發(fā)現(xiàn),當(dāng)對于訓(xùn)練數(shù)據(jù)的數(shù)據(jù)特征十分明顯的時候,本文設(shè)計的網(wǎng)絡(luò)模型可以對訓(xùn)練的數(shù)據(jù)進行合理有效的分類,但是,當(dāng)訓(xùn)練數(shù)據(jù)的特征不太明顯區(qū)分的時候,本文設(shè)計的訓(xùn)練模型的分類效果就不是太有優(yōu)勢,所得到的分類結(jié)果就不能達到我們預(yù)期的效果。

我們利用競爭型神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)樣本進行分類,其中參數(shù)設(shè)置為學(xué)習(xí)效率0.1,網(wǎng)絡(luò)競爭層有4個神經(jīng)元,運用Matlab編程實現(xiàn),發(fā)現(xiàn)結(jié)果如下:

例子:我們利用本文設(shè)計的網(wǎng)絡(luò)分類模型進行對數(shù)據(jù)分類處理:進行分類處理數(shù)據(jù)的樣本數(shù)據(jù)如下所示:

通過運行學(xué)習(xí)發(fā)現(xiàn)訓(xùn)練誤差較大,分類結(jié)果也達不到要求。

2改進的方法

2.1問題分析

通過比較分析我們發(fā)現(xiàn),上面的數(shù)據(jù)樣本沒有明顯的分類特征,所以,以競爭型神經(jīng)網(wǎng)絡(luò)進行分類,其輸入向量僅僅依靠數(shù)據(jù)本身的固有的特征時不夠的,但我們可以把數(shù)據(jù)樣本看作是二維數(shù)據(jù),假設(shè)同符號的特征值為1,不同符號的特征值為2,于是一個新的訓(xùn)練樣本就確定了,即成為三維數(shù)據(jù)模型。

2.2改進的算法

第一步:給定數(shù)據(jù)集X=[X1,X2……,Xi),對網(wǎng)絡(luò)進行初始化,隨機給定網(wǎng)絡(luò)競爭層與輸入層間的初始權(quán)向量wj(=wj[w1j w2j…wnj];j=1,2,…,m xp;wijE(0,1));給定輸出層與競爭層間的連接權(quán)值wjo=1/m,o=1,2,…P (P表示第二隱層和輸出層的連接權(quán)矢量)。

第二步:創(chuàng)建競爭型神經(jīng)網(wǎng)絡(luò),首先根據(jù)給定的問題確定訓(xùn)練樣本的輸入向量,當(dāng)學(xué)習(xí)模式樣本本身雜亂無章,沒有明顯的分類特征,網(wǎng)絡(luò)對輸入模式的響應(yīng)呈現(xiàn)震蕩的現(xiàn)象,不足以區(qū)分各類模式時,在創(chuàng)建網(wǎng)絡(luò)之前,提取訓(xùn)練樣本的特征值,設(shè)置輸入樣本的特征向量,然后再創(chuàng)建網(wǎng)絡(luò)模型,并根據(jù)模式分類數(shù)確定神經(jīng)元的數(shù)目,最后任取一輸入模式Ak。

第三步:計算競爭層各神經(jīng)元的輸入值si:

第四步:對本文建立的網(wǎng)絡(luò)進行訓(xùn)練學(xué)習(xí),網(wǎng)絡(luò)訓(xùn)練最大次數(shù)的初始值設(shè)置為230,當(dāng)訓(xùn)練誤差大于預(yù)期的設(shè)定值的時候,可以嘗試增加訓(xùn)練的最大次數(shù),按“勝者為王”(Winner Takes All)原則,將訓(xùn)練網(wǎng)絡(luò)中獲得最接近預(yù)期值的神經(jīng)元作為勝者,輸出狀態(tài)設(shè)置為1,沒有獲勝的神經(jīng)元的輸出狀態(tài)設(shè)置為0。如果有兩個以上神經(jīng)元的sj相同,取左邊的為獲勝單元。

第五步:獲勝神經(jīng)元連接權(quán)修正如下:

第六步:另選一學(xué)習(xí)模式,返回步驟3,直至所有學(xué)習(xí)模式提供一遍。

第七步:如果不滿足要求,則返回到最初的訓(xùn)練狀態(tài),反復(fù)訓(xùn)練直至訓(xùn)練網(wǎng)絡(luò)中神經(jīng)元獲得最接近預(yù)期值,最終的訓(xùn)練結(jié)束。

第八步:根據(jù)測試樣本利用Matlab編寫程序進行仿真實驗。

篇(2)

引言

隨著設(shè)備復(fù)雜化程度的提高,對故障診斷的快速性和準確性提出了更高的要求。將神經(jīng)網(wǎng)絡(luò)應(yīng)用于故障診斷中已成為一個非?;钴S的研究領(lǐng)域。利用神經(jīng)網(wǎng)絡(luò)強大的分類能力,進行故障模式的分類與學(xué)習(xí),診斷出故障。

Huang在前人研究的基礎(chǔ)上提出了一種稱為極限學(xué)習(xí)機(Extreme Learning Machine,ELM)的學(xué)習(xí)方法,在保留計算精度的同時可以大幅度的縮減訓(xùn)練的時間。將ELM運用到設(shè)備故障診斷中,極大提高了診斷的快速性和準確性。

一、極限學(xué)習(xí)機研究現(xiàn)狀

ELM自2004年提出就一直受到學(xué)者的極大興趣。我們從ELM的理論和應(yīng)用兩方面進行闡述。

1.1 ELM的理論

對于傳統(tǒng)ELM算法,網(wǎng)絡(luò)結(jié)構(gòu)、激活函數(shù)類型以及隱層神經(jīng)元的選擇對其泛化性能都有重要的影響。為了提高計算效率,使得ELM適用于更多應(yīng)用領(lǐng)域,研究者提出了許多ELM擴展算法。

1.2 ELM的應(yīng)用

研究人員已嘗試利用ELM方法解決現(xiàn)實中各種模式分類問題。隨著ELM自身理論的進一步發(fā)展和完善,在人臉識別、文本分類、醫(yī)療診斷等領(lǐng)域中應(yīng)用廣泛。

二、故障診斷技術(shù)研究現(xiàn)狀

故障診斷技術(shù)是由于建立監(jiān)控系統(tǒng)的需要而發(fā)展起來的。其發(fā)展至今經(jīng)歷了3個階段。新的診斷技術(shù)帶來了領(lǐng)域內(nèi)算法的革新,設(shè)備精密程度的提高也對診斷實時性提出了更高的要求。如何保證故障的快速準確診斷成了診斷技術(shù)發(fā)展重要內(nèi)容。

基于神經(jīng)網(wǎng)絡(luò)的故障診斷運用廣泛,然而傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法存在許多問題。與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)相比,極限學(xué)習(xí)機方法通過隨機選取輸入權(quán)值及隱層單元的偏置值,可以產(chǎn)生唯一的最優(yōu)解,并具有參數(shù)易于選擇以及泛化能力好等特點,在眾多領(lǐng)域有著廣泛應(yīng)用。

三、基于極限學(xué)習(xí)機的故障診斷方法研究

3.1基于ELM的故障診斷流程

(1)數(shù)據(jù)預(yù)處理。按照選取的特征向量和故障類型對故障樣本進行預(yù)處理,并將處理后的樣本按比例分為訓(xùn)練樣本集和測試樣本集。

(2)ELM的學(xué)習(xí)算法主要有以下3個步驟:確定隱含層神經(jīng)元個數(shù);隨機設(shè)定輸入層與隱含層間的連接權(quán)值和隱含層神經(jīng)元的偏置;選擇隱含層神經(jīng)元激活函數(shù),進而計算隱含層輸出矩陣計算輸出層權(quán)值。

(3)用訓(xùn)練好的ELM模型對測試樣本集進行分類,并輸出分類結(jié)果。

3.2基于改進ELM的故障診斷

篇(3)

基于自編碼神經(jīng)網(wǎng)絡(luò)建立搜索信息模型的目的是根據(jù)用戶搜索信息的歷史,推斷出網(wǎng)頁中的內(nèi)容是用戶關(guān)注的信息并即時顯示。首先將用戶關(guān)注的歷史信息按標題分類,通過自編碼神經(jīng)網(wǎng)絡(luò)建立標題特征值數(shù)據(jù)庫。當(dāng)自編碼神經(jīng)網(wǎng)絡(luò)搜索信息模型工作時,按照用戶提供的關(guān)鍵詞順序,打開用戶經(jīng)常瀏覽的網(wǎng)頁,讀入標題文本,若具有數(shù)據(jù)庫中的標題特征,則將該標題的文本內(nèi)容即時顯示。

直接解析網(wǎng)頁中的標題文本,面臨的基本問題是文本的表示。如果把標題文本所有的詞都作為特征項,那么太多的特征向量維數(shù)導(dǎo)致計算量太大。例如50個標題,每個標題25個漢字,特征項將有50×25=1250個。如果將標題中的某個關(guān)鍵詞作為特征詞,將會有幾千個包含關(guān)鍵詞的標題,從而導(dǎo)致讀入分析量過于巨大。本文采用自編碼神經(jīng)網(wǎng)絡(luò),用映射變換的方法把原始文本特征變換為較少的新特征,提高信息搜索效率。

1 自編碼神經(jīng)網(wǎng)絡(luò)

1.1 自編碼神經(jīng)網(wǎng)絡(luò)理論

Auto-Encoder(自編碼)[1],自編碼算法是一種基于神經(jīng)網(wǎng)絡(luò)算法的無監(jiān)督學(xué)習(xí)算法,與神經(jīng)網(wǎng)絡(luò)算法的不同之處是將輸入值作為輸出節(jié)點的輸出。自編碼算法的另一個特征是隱藏層節(jié)點的個數(shù)一般少于輸入輸出節(jié)點的個數(shù)。這樣的意義是將輸入的特征通過神經(jīng)網(wǎng)絡(luò)的非線性變換到節(jié)點數(shù)更少的隱藏層。因此,可以通過自編碼神經(jīng)網(wǎng)絡(luò)對給定的樣本進行訓(xùn)練學(xué)習(xí),從而得到輸入數(shù)據(jù)降維后的特征,即為隱藏層的節(jié)點數(shù),省去了人工特征提取的麻煩。

自編碼神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖1所示[2]。這是一種深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),包含了多個隱含層,整個網(wǎng)絡(luò)是一種對稱的結(jié)構(gòu),中心層的神經(jīng)元的個數(shù)最少。網(wǎng)絡(luò)通過對樣本的訓(xùn)練可以得到一組權(quán)值系數(shù),而輸入數(shù)據(jù)通過這組權(quán)值系數(shù)表達成低維形式,從而達到了用降維后的特征表示出輸入的數(shù)據(jù)。

圖1 自編碼神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)

Fig.1 The structure of auto-encoder neural network

1.1.1 預(yù)訓(xùn)練

(1) 輸入?yún)?shù)的確定:標題是作者給出的提示文章內(nèi)容的短語,標題一般都簡練、醒目,有不少縮略語,與報道的主要內(nèi)容有著重要的聯(lián)系。如登陸我的鋼鐵網(wǎng)站,搜索鋼管熱點資訊,顯示的標題有“我國自主研制*****油管成功替代進口”,學(xué)習(xí)樣本選擇50組標題,每個標題不超過25個漢字,如表1所示。

表1 學(xué)習(xí)樣本

Tab. 1 Learning samples

1

我國自主研制高端耐熱鋼無縫鋼管成功替代進口

2

我國自主研制K55石油套管成功替代進口

3

我國自主研制J55稠油熱采套管成功替代進口

4

我國自主研制專用耐高溫防火船舶用套管成功替代進口

5

我國自主研制20G高壓鍋爐管成功替代進口

6

我國自主研制特殊用途低溫用管成功替代進口

7

我國自主研制起重機臂架無縫鋼管成功替代進口

8

我國自主研制精密合金4J36船用管材成功替代進口

9

我國自主研制高強韌性高抗擠毀套管成功替代進口

10

我國自主研制三種極限規(guī)格管線管成功替代進口

……

50

我國自主研制醫(yī)藥化工用管成功替代進口

(2) 語句預(yù)處理[3]:學(xué)習(xí)樣本句子進行預(yù)處理是把句子中的每一個漢字變換成自編碼神經(jīng)網(wǎng)絡(luò)模型能接受的數(shù)字化形式。為了使神經(jīng)網(wǎng)絡(luò)能接受外部數(shù)據(jù),首先要對句子中的漢字進行編碼,編碼方式是采用漢字的計算機內(nèi)碼(GBK碼)。每個漢字機內(nèi)碼有16位二進制,如:“我國自主研制”的二進制碼為

1100111011010010 我(GBK碼)

1011100111111010 國(GBK碼)

1101011111010100 自(GBK碼)

1101011011110111 主(GBK碼)

1101000111010000 研(GBK碼)

1101011011000110 制(GBK碼)

將16位二進制數(shù)轉(zhuǎn)換為十進制數(shù)并進行線性變換,映射到實數(shù)[0 1]之間,作為輸入神經(jīng)元初值。變換公式如下:

式中:maxi和mini;tmax和tmin分別為x(p)i,t(p)量程范圍的最大值和最小值。

(3)預(yù)訓(xùn)練:幾個獨立的RBM構(gòu)成“堆棧”構(gòu)成了預(yù)訓(xùn)練部分,而RBM是BM (boltzmannmachine)的一種特殊連接方式。圖2即為RBM的網(wǎng)絡(luò)構(gòu)成。它是一種隱含層神經(jīng)元無連接,并且只有可見層和隱含層兩層神經(jīng)元。

圖2 RBM網(wǎng)絡(luò)構(gòu)成

Fig. 2 Construction of restricted boltzmannmachine

BM的權(quán)值調(diào)整公式為[4]

(1)

式中:在第t步時神經(jīng)元i、j間的連接權(quán)值為wij(t);η為學(xué)習(xí)速率;T為網(wǎng)絡(luò)溫度;<uihj>+、<uihj>-分別為正向平均關(guān)聯(lián)和反向平均關(guān)聯(lián)。

在RBM中,可見層神經(jīng)元的輸出和隱含層神經(jīng)元輸出的乘積即為平均關(guān)聯(lián)。系數(shù)ε由η和T統(tǒng)一合并而成,迭代步長即由權(quán)值調(diào)整公式ε表示。

圖3 RBM網(wǎng)絡(luò)結(jié)構(gòu)圖

Fig. 3 RBM network structure diagram

(4)MATLAB實現(xiàn):

本文建立的BP神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)為

[25,15,25],[15,12,15],[12,10,12],[10,8,10],[8,5,8]

設(shè)定網(wǎng)絡(luò)隱含層的激活函數(shù)為雙曲正切S型函數(shù)tansig,輸出層的激活函數(shù)為線性激活函數(shù)purelin,網(wǎng)絡(luò)的訓(xùn)練函數(shù)為Levenberg-Marquardt算法訓(xùn)練函數(shù)trainlm。因此對應(yīng)的MATLAB神經(jīng)網(wǎng)絡(luò)工具箱的程序語句為

net=newff(minmax(P),[25,25],{‘tansig’,’purelin’}, ’trainlm’);

net=newff(minmax(P),[15,15],{‘tansig’,’purelin’},’trainlm’);

net=newff(minmax(P),[12,12],{‘tansig’,’purelin’},’trainlm’);

net=newff(minmax(P),[10,10],{‘tansig’,’purelin’},’trainlm’);

net=newff(minmax(P),[8,8],{‘tansig’,’purelin’},’trainlm’);

設(shè)定學(xué)習(xí)速率為0.01,最大訓(xùn)練步數(shù)為300,目標誤差為0.00001。

(5)預(yù)訓(xùn)練結(jié)果:

預(yù)訓(xùn)練結(jié)果如表2所示。

表2 預(yù)訓(xùn)練結(jié)果

Tab. 2 The results of pre training

誤差

學(xué)習(xí)速率

步長

[25,15,25]

0.003248

0.01

150

[15,12,15]

0.0022809

0.01

125

[12,10,12]

0.0025866

0.01

100

[10,8,10]

0.0039575

0.01

75

[8,5,8]

0.013529

0.01

50

1.1.2 展開

如圖4所示,將各個RBM連接,得到自編碼神經(jīng)網(wǎng)絡(luò)。預(yù)訓(xùn)練所得到的權(quán)值,將作為整個自編碼神經(jīng)網(wǎng)絡(luò)的初始權(quán)值,參與整個網(wǎng)絡(luò)的微調(diào)訓(xùn)練。

圖4 RBM展開圖

Fig. 4 Development of RBM network structure

1.1.3 微調(diào)

微調(diào)訓(xùn)練是在預(yù)訓(xùn)練得到初始權(quán)值的基礎(chǔ)上,對權(quán)值進一步調(diào)整。采用以交叉熵為目標函數(shù)[5]的BP算法完成網(wǎng)絡(luò)的微調(diào)訓(xùn)練。交叉熵是用來度量兩個概率分布間差異性的,它是一個非負數(shù),兩個分布越相似,其越小。原始的交叉熵定義為

(4)

式中:x為隨機變量;q(x)為已知概率分布;p(x)為估計概率分布。

對于隨機變量x,當(dāng)用q(x)估計p(x)時,通過調(diào)整受x影響的p(x)來最小化交叉熵D(pq),用于自編碼神經(jīng)網(wǎng)絡(luò)權(quán)值調(diào)整的BP算法交叉熵函數(shù)形式為

(5)

式中:ti目標概率分布;yi實際概率分布。

整個網(wǎng)絡(luò)訓(xùn)練的目的是調(diào)整權(quán)值以使交叉熵函數(shù)達到最小,權(quán)值調(diào)整公式為

根據(jù)上面的權(quán)值調(diào)整公式,可以完成網(wǎng)絡(luò)的微調(diào)訓(xùn)練。訓(xùn)練結(jié)果如表3所示。

表3 微調(diào)訓(xùn)練結(jié)果

1.1.4 特征提取

50組標題(每個標題不超過25個漢字)的學(xué)習(xí)訓(xùn)練,通過自編碼網(wǎng)絡(luò)的逐層特征變換,將樣本數(shù)據(jù)約1250(50×25)個漢字編碼,在原空間的特征表示變換到一個新特征空間。其中網(wǎng)絡(luò)最深隱含層的輸出值(5個)和權(quán)值矩陣W6(5×8=40個),共計45個,為提取標題文本1250個漢字編碼的特征值。

2 實 例

本文選取10組標題文本見表4,分別輸入自編碼神經(jīng)網(wǎng)絡(luò)。預(yù)測結(jié)果表示基本符合要求。

表4 預(yù)測結(jié)果

Tab. 4 The prediction results

序號

樣本輸入

結(jié)果顯示

1

我國自主研制的蛟龍?zhí)柹钏綔y器成功替代進口

2

我國自主研制首臺3.6萬噸垂直擠壓機擠合格鋼管成功替代進口

我國自主研制首臺3.6萬噸垂直擠壓機擠合格鋼管成功替代進口

3

我國自主研制的超級計算機系統(tǒng)成功替代進口

4

我國自主研發(fā)的1000MPa高壓共軌管成功替代進口

我國自主研發(fā)的1000MPa高壓共軌管成功替代進口

5

我國自主研制超臨界電站無縫鋼管T92、P92成功替代進口

我國自主研制超臨界電站無縫鋼管T92、P92成功替代進口

6

我國自主研制重載火車頭下線成功替代進口

7

我國自主研制成功特高壓交、直流套管成功替代進口

我國自主研制成功特高壓交、直流套管成功替代進口

8

我國自主研制的Q355GNH系列耐候鋼成功替代進口

我國自主研制的Q355GNH系列耐候鋼成功替代進口

9

我國自主研制的渦槳支線飛機成功替代進口

10

我國自主研制釩微合金L290管線鋼成功替代進口

我國自主研制釩微合金L290管線鋼成功替代進口

3 結(jié) 語

篇(4)

一種新的基于多描述編碼的應(yīng)用層組播系統(tǒng)

基于屬性理論的教師教學(xué)質(zhì)量動態(tài)評估

RIP和OSPF路由協(xié)議在Click軟件路由器中的實現(xiàn)

面向集裝箱字符識別的預(yù)處理算法

基于身份與位置分離策略可選的多宿主研究

基于分層Petri網(wǎng)的倉儲管理建模與驗證

一種基于云模型數(shù)據(jù)填充的算法

高速公路的匝道與可變限速聯(lián)合模糊控制

MPLS網(wǎng)絡(luò)中LSP模型改進研究

軟件組件的共代數(shù)語意

基于主被動連接的P2P節(jié)點識別算法

FARIMA網(wǎng)絡(luò)流量預(yù)測模型的研究與改進

基于H.264的視頻監(jiān)控系統(tǒng)關(guān)鍵代碼實現(xiàn)與優(yōu)化

PAIS中過程挖掘技術(shù)的研究

安慶氣溫的多重分形消除趨勢波動分析與預(yù)測

基于WordNet和Kernel方法的Web服務(wù)發(fā)現(xiàn)機制研究

一種新型的實時調(diào)度算法

基于反饋的高職網(wǎng)格資源共享方案研究與實現(xiàn)

面向目標檢測的高光譜圖像壓縮技術(shù)

基于單源多段圖方法的多目標決策算法與應(yīng)用

基于Gram-Schmidt過程的支持向量機降維方法

基于AHP-FCE的供應(yīng)商選擇問題研究與應(yīng)用

對IPSec中AH和ESP協(xié)議的分析與建議

一種基于混沌優(yōu)化的混合粒子群算法

多軟件分時段租賃系統(tǒng)構(gòu)想及其實現(xiàn)

SCTP協(xié)議分析與仿真研究

數(shù)碼輸入法字碼本的自動獲取技術(shù)

SVM和K-means結(jié)合的文本分類方法研究

二群協(xié)同的人工魚群優(yōu)化算法

基于特征匹配的漸變紋理圖像合成算法

三元Box樣條構(gòu)造方法的實現(xiàn)

基于二元語義的語言加權(quán)取大改進算法的研究

面向TD協(xié)議棧的內(nèi)存管理技術(shù)研究

隨機Petri網(wǎng)性能計算軟件關(guān)鍵技術(shù)的研究

基于Petri網(wǎng)的Web服務(wù)動態(tài)組合

BP神經(jīng)網(wǎng)絡(luò)預(yù)測算法的改進及應(yīng)用

移動自組網(wǎng)中基于推薦的信任模型

基于BPEL和QoS的動態(tài)Web服務(wù)組合框架研究

面向目標檢測的高光譜圖像壓縮技術(shù)

基于單源多段圖方法的多目標決策算法與應(yīng)用

基于Gram-Schmidt過程的支持向量機降維方法

基于AHP-FCE的供應(yīng)商選擇問題研究與應(yīng)用

對IPSec中AH和ESP協(xié)議的分析與建議

一種基于混沌優(yōu)化的混合粒子群算法

多軟件分時段租賃系統(tǒng)構(gòu)想及其實現(xiàn)

SCTP協(xié)議分析與仿真研究

數(shù)碼輸入法字碼本的自動獲取技術(shù)

SVM和K-means結(jié)合的文本分類方法研究

二群協(xié)同的人工魚群優(yōu)化算法

基于特征匹配的漸變紋理圖像合成算法

三元Box樣條構(gòu)造方法的實現(xiàn)

基于二元語義的語言加權(quán)取大改進算法的研究

面向TD協(xié)議棧的內(nèi)存管理技術(shù)研究

隨機Petri網(wǎng)性能計算軟件關(guān)鍵技術(shù)的研究

基于Petri網(wǎng)的Web服務(wù)動態(tài)組合

篇(5)

多溫下KCl+CsCl+C_2H_5OH/CH_3OH+H_2O四元體系的相平衡研究

MSTN基因的研究進展及其應(yīng)用

制備條件對Ru/ZrO_2·xH_2O催化酯加氫制備醇活性的影響

微波萃取法制備桔梗總皂苷

基于DSP的紅外成像電力在線檢測系統(tǒng)的研究

LBG與SOFM應(yīng)用于矢量量化的比較研究

超寬帶高功率脈沖輻射源氣體開關(guān)的研究

高壓直流牽引供電網(wǎng)的初步研究

智能醫(yī)用超聲波霧化器的設(shè)計

基于Wincc的炭黑裝置監(jiān)控系統(tǒng)

定點CORDIC算法的誤差控制

基于各向異性擴散的多細節(jié)圖像消噪方案

基于S7-300和ACS800的橋式起重機控制系統(tǒng)改造

LiH薄膜制備技術(shù)進展

拉普拉斯方程有限差分法的MATLAB實現(xiàn)

關(guān)于不定方程組y~2-10x~2=9,z~2-17x~2=16

關(guān)于不定方程x~2+49~n=y~3的唯一整數(shù)解

基于非單調(diào)線搜索的無記憶擬牛頓法的全局收斂性

不動點、壓縮映射原理的進一步研究

弱橫向擾動下的熱塵埃等離子體中的塵埃聲孤波

時間域上拋物型方程正反演解的穩(wěn)定性分析

Frattini子群的一些推廣

不動點定理在微分方程中的應(yīng)用

超空間F_1(X)的可縮性

熱傳導(dǎo)方程反問題的數(shù)值解法

一類時滯廣義系統(tǒng)的魯棒控制

距離矢量路由算法的改進方案

基于JSP的電子郵件系統(tǒng)設(shè)計與實現(xiàn)

基于web的自適應(yīng)學(xué)習(xí)系統(tǒng)的研究與設(shè)計

一種改進的基于分布式Caching的自適應(yīng)搜索機制

Linux下嵌入式動態(tài)Web技術(shù)設(shè)計實現(xiàn)

基于窗函數(shù)的FIR濾波器的設(shè)計

力學(xué)試題庫管理系統(tǒng)的開發(fā)

單片機C51與匯編語言混合調(diào)用的實現(xiàn)

基于P2P覆蓋樹網(wǎng)絡(luò)的流媒體傳輸技術(shù)

數(shù)字校園信息顯示系統(tǒng)建設(shè)方案研究溫度對長鏈α-烯烴溶液聚合法合成原油減阻劑的影響

β-環(huán)糊精與常用的兩種光譜探針包絡(luò)作用對比研究

微波技術(shù)在竹漿漂白中的應(yīng)用

基于蟻群尋路的圖像分割算法

公交車自動報站系統(tǒng)的設(shè)計

基于遺傳BP神經(jīng)網(wǎng)絡(luò)的非平穩(wěn)時間序列預(yù)

基于BP算法的神經(jīng)網(wǎng)絡(luò)內(nèi)??刂破?/p>

基于51單片機的可變調(diào)音樂演奏系統(tǒng)

基于神經(jīng)網(wǎng)絡(luò)對光纖智能結(jié)構(gòu)的損傷評估

基于改進互信息的特征提取的文本分類系統(tǒng)

CTIA型讀出電路的噪聲抑制

離心流化床的基本原理及發(fā)展趨勢

電驅(qū)微差6R關(guān)節(jié)型開鏈機械手工作空間運動學(xué)逆解

焦磷酸鹽鍍銅工藝研究

篇(6)

中圖分類號: TP391; TP18 文獻標識碼:B文章編號:1672-5913(2007)02-0072-04

支持向量機(Support Vector Machine,簡稱SVM)是Cortes和Vapnik于1995年首先提出的,它在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢,并能夠推廣應(yīng)用到函數(shù)擬合等其他機器學(xué)習(xí)問題中。傳統(tǒng)統(tǒng)計模式識別的方法都是在樣本數(shù)目足夠多的前提下進行研究,所提出的各種方法只有在樣本數(shù)趨于無窮大時其性能才有理論上的保證,而在多數(shù)實際應(yīng)用中,樣本數(shù)目通常是有限的,很多傳統(tǒng)方法都難以取得理想的效果。Vapnik等人早在20世紀60年代就開始研究有限樣本情況下的機器學(xué)習(xí)問題。20世紀90年代,有限樣本情況下的機器學(xué)習(xí)理論研究逐漸成熟起來,形成了一個較完善的理論體系――統(tǒng)計學(xué)習(xí)理論(Statistical Learning Theory)。1992年到1995年,在統(tǒng)計學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出了一種新的模式識別方法――支持向量機。隨著WWW的迅猛發(fā)展,文本分類成為處理和組織大量文檔數(shù)據(jù)的關(guān)鍵技術(shù)。SVM是繼k-近鄰、神經(jīng)網(wǎng)絡(luò)、相素貝葉斯等方法之后被用于文本分類,并且是在Reuter語料(包括21450版本和Apte給出的集合)上能取得非常好的結(jié)果的文本分類算法之一。

本文重點研究SVM在兩個不同的語料集上,選擇不同的特征維數(shù),采用四種不同的核函數(shù)的分類性能比較。實驗結(jié)果表明,這種方法削弱了訓(xùn)練樣本分布的不均勻性對分類性能的影響,可以將微平均準確率提高大約1%~2%。

本文第1節(jié)將闡述支持向量機算法的基本思想;第2節(jié)介紹目前廣泛應(yīng)用的三種核函數(shù);第3節(jié)給出了在著名的英文語料集Reuters-21578上的實驗結(jié)果與分析;第4節(jié)是結(jié)論和進一步工作展望。

1統(tǒng)計學(xué)習(xí)理論與支持向量機

統(tǒng)計學(xué)習(xí)理論就是研究小樣本統(tǒng)計估計和預(yù)測的理論,具有很好的泛化能力,為解決有限樣本學(xué)習(xí)問題提供了一個統(tǒng)一的框架。它能將很多現(xiàn)有方法納入其中,有望幫助解決許多原來難以解決的問題(比如神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇問題、局部極小點問題等);同時,在這一理論基礎(chǔ)上發(fā)展了一種新的通用學(xué)習(xí)方法――支持向量機(SVM) 。

SVM是一種建立在統(tǒng)計學(xué)習(xí)理論基礎(chǔ)上的機器學(xué)習(xí)方法,有較好的推廣性能和較高的分類準確率。該算法基于結(jié)構(gòu)風(fēng)險最小化原理,將數(shù)據(jù)集合壓縮到支持向量集合(通常為前者的3%~5%),學(xué)習(xí)得到分類決策函數(shù)。其基本思想是構(gòu)造一個超平面作為決策平面,使正負模式之間的間隔最大。

SVM方法是從線性可分情況下的最優(yōu)分類面提出的。如圖1所示,圓圈和實心點分別代表兩類的訓(xùn)練樣本,H為把兩類沒有錯誤地分開的分類線,H1、H2分別為過各類樣本中離分類線最近的點且平行于分類線的直線,H1和H2之間的距離叫做兩轉(zhuǎn)類的分類間隔(Margin)。支持向量與超平面之間的距離為1/ω,則支持向量間距為2/ω尋找超平面的問題,可化為求解以下二次規(guī)劃問題:

3.3實驗結(jié)果與分析

為了考察算法的效果,我們采用了VC++6.0實現(xiàn)本文算法,部分源代碼采用復(fù)旦大學(xué)計算機與信息技術(shù)系李榮陸提供的文本分類器系統(tǒng)源代碼。實驗分為三個階段。

表1、表2實驗結(jié)果表明,不論是在英文語料集還是中文語料集,使用SVM分類系統(tǒng)均能達到較好的分類效果,而實驗中采用多項式核函數(shù)和Sigmoid函數(shù)進行比較,經(jīng)證明,在多數(shù)情況下前者優(yōu)于后者。

4結(jié)束語

本文就文本分類的過程和關(guān)鍵技術(shù)進行了論述,并就不同核函數(shù)下文本分類的效果進行了實驗驗證,證明SVM是一種行之有效的文本分類方法。在今后的研究中,如何提高SVM算法的效率將是工作的重點。

參考文獻:

[1] V. Vapnik. The nature of Statistical Learning Theory[J]. Springer, New York, 1995.

篇(7)

中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2017)03-0052-02

1 概述

隨著信息化時代的到來,計算機網(wǎng)絡(luò)以飛快的速度發(fā)展起來,用戶規(guī)模呈現(xiàn)出爆炸式的增長趨勢,且對網(wǎng)絡(luò)的通信質(zhì)量要求越來越高;與此同時,基于網(wǎng)絡(luò)的各種軟件也層出不窮,大量不同類型的應(yīng)用軟件導(dǎo)致了在網(wǎng)絡(luò)中傳輸?shù)臄?shù)據(jù)類型的差異性較之以往大大增加了,傳輸?shù)膹?fù)雜性也隨之提高。在此情況下,如何提供一種更加符合網(wǎng)絡(luò)現(xiàn)狀的管理方法,向用戶提供更加符合其需求的通信服務(wù)成為了當(dāng)前計算機網(wǎng)絡(luò)領(lǐng)域研究的重點內(nèi)容。在諸多的研究課題中,對網(wǎng)絡(luò)流量的科學(xué)分類受到了廣泛的關(guān)注,通過高質(zhì)量的流量分類,可以追溯用戶的活動情況,從而在一定范圍內(nèi)判斷當(dāng)前數(shù)據(jù)的傳輸狀況,并可在此基礎(chǔ)上實現(xiàn)對網(wǎng)絡(luò)資源的QoS(Quality of Service)調(diào)度,進而為網(wǎng)絡(luò)的維護和后續(xù)擴張?zhí)峁┛煽康囊罁?jù)。除此之外,流量分類還可在網(wǎng)絡(luò)安全、用戶識別、寬帶流量計費等方面發(fā)揮重要的作用。

傳統(tǒng)的流量分類方式是由IANA提出的基于端口號的識別方式,該方式在以往應(yīng)用服務(wù)種類不多的情況下是較為實用的,即根據(jù)熟知端口號識別有限數(shù)量的不同類型的應(yīng)用服務(wù)進程,但隨著網(wǎng)絡(luò)規(guī)模的飛速增長,尤其是隨著P2P對等網(wǎng)絡(luò)的大發(fā)展,使得用戶數(shù)據(jù)的類型與日俱增,眾多的進程啟用了大量的隨機端口號,這對數(shù)據(jù)流量的識別是非常不利的,未來必須加以改進。

第二種方式是基于特征字段識別的,在早期該字段并沒有得到充分的利用,而目前隨著數(shù)據(jù)類型識別需求的不斷提高,該字段也被越來越多的通信服務(wù)所采用,但隨之而來的問題是該字段位于IP數(shù)據(jù)報的首部,這意味著需要在網(wǎng)絡(luò)層解決數(shù)據(jù)類型的差異問題,在通信過程中該數(shù)據(jù)報經(jīng)過的路由器將不得不花費大量的資源和時間來解析和識別該字段,這勢必會拖慢網(wǎng)絡(luò)通信效率,同時增加網(wǎng)絡(luò)擁塞的風(fēng)險。目前在P2P對等網(wǎng)絡(luò)中此方法使用較多,但對于實時性要求較高的通信服務(wù)而言,此方法導(dǎo)致的通信時延過高,并且會隨著應(yīng)用層服務(wù)的改變而失效,表1給出了這兩種流量分類方式的對比分析。

表1 兩種傳統(tǒng)的流量分類方法對比

2 基于機器學(xué)習(xí)方法的流量分類

隨著網(wǎng)絡(luò)的發(fā)展,傳統(tǒng)方式已經(jīng)無法勝任對數(shù)據(jù)流量進行合理的分類工作,這導(dǎo)致了數(shù)據(jù)沖突、資源耗費、通信延遲、通信效率不斷降低等一系列問題。因此,有研究人員將人工智能領(lǐng)域內(nèi)的機器學(xué)習(xí)機制引入到流量分類工作中,針對網(wǎng)絡(luò)流一些屬性的統(tǒng)計信息進行識別,以提高流量分類的準確性和快捷性,效果較為顯著,其算法過程如圖1所示:

圖1 基于機器學(xué)習(xí)方法的流量分類流程

算法步驟如下:

1)通過統(tǒng)計方法獲取流量的特征屬性最優(yōu)組合集

流量屬性集通過統(tǒng)計形成網(wǎng)絡(luò)流的數(shù)據(jù)包的包頭信息得到。在進行統(tǒng)計分析之前,為了減少計算量,提高分析精確度,應(yīng)對數(shù)據(jù)包信息進行篩選的預(yù)操作,其目的是將與分類需求相關(guān)的屬性盡可能的保留下來,反之則篩除,從而形成所謂的最有屬性集合,隨后在針對此集合進行分析,實現(xiàn)事半功倍的效果。在此特征選擇的過程中可以采用多種優(yōu)化算法,如快速統(tǒng)計過濾法FCBF、順序前進法SFS、相關(guān)性特征選擇CFS和遺傳算法GA等。

2)采用機器學(xué)習(xí)方法進行分類

機器學(xué)習(xí)屬于人工智能領(lǐng)域內(nèi)的一個分支,也存在多種不同的優(yōu)化算法,目前在流量分類工作中得到應(yīng)用的優(yōu)化算法有K-近鄰K-NN、樸素貝葉斯方法NB、支持向量機SVM等。其中K-NN方法是最早得到應(yīng)用的一種優(yōu)化算法,分析結(jié)果較為準確,但缺點是計算量偏大,且魯棒性較低,受干擾影響較大,這對實時性和穩(wěn)定性要求都很高的網(wǎng)絡(luò)通信而言無疑是一大障礙,因此其應(yīng)用規(guī)模相對有限;NB算法也是早期在網(wǎng)絡(luò)流量分類得到應(yīng)用的機器學(xué)習(xí)方法,其缺點在于算法得出的分析結(jié)果的質(zhì)量高低存在一定的不可知性,若樣本選取的合理,則該算法相對可靠,若樣本分布質(zhì)量不高,則該算法得出的分類結(jié)果往往也偏離真實情況;SVM可取得較高的分類準確率,但必須事先標記流量的應(yīng)用類型,因此不能適應(yīng)完全意義上的實時分類。

基于流統(tǒng)計特征的機器學(xué)習(xí)分類方法收到的外界干擾較小,且不需要執(zhí)行繁瑣耗時的數(shù)據(jù)報首部解析工作,對于P2P網(wǎng)絡(luò)中出現(xiàn)的大量端口號也可以不受其影響,平均準確率比以上其他算法都要好,能夠準確的識別多個不同類型的數(shù)據(jù)流量,同時對于異常流量(如非法的數(shù)據(jù)流量)也可以實現(xiàn)一定程度的識別和判斷。但其缺點是敏感度過高,對于網(wǎng)絡(luò)的動態(tài)變化往往會出現(xiàn)過度響應(yīng),將原先正常的數(shù)據(jù)流量標注為異常點,從而導(dǎo)致系統(tǒng)的誤判,另一方面,該算法實現(xiàn)起來也相對復(fù)雜,需要進一步改進。

3 混合模式的流量分類方案

3.1 方案流程分析

本設(shè)計將傳統(tǒng)的分類方法和機器學(xué)習(xí)機制有機結(jié)合,對端口識別的流量分類模式進行改進,形成了一種新型的混合型流量分類方法,既保留了基于端口號識別模式的簡單、低開銷的優(yōu)點,又有效地利用了機器學(xué)習(xí)機制的自適應(yīng)性強、準確性高的優(yōu)勢,明顯地改善了網(wǎng)絡(luò)流量分類的效率和可靠性,算法流程如圖2所示。

圖2 改進后的流量分類算法流程

混合模式的流量分類方案具體實現(xiàn)過程如下。

1)對流量樣本采用屬性選擇方法選出最優(yōu)屬性集,降低算法輸入向量維數(shù)。

2)與常用協(xié)議的默認端口號匹配,實現(xiàn)粗分。若匹配成功則可不必啟用機器學(xué)習(xí)機制進行后續(xù)的分類,節(jié)約了工作量。

3)進入細分環(huán)節(jié),此環(huán)節(jié)是為了進一步提高對流量分類的精確性而設(shè)定,主要采用基于自組織映射網(wǎng)絡(luò)的分類方法來完成。根據(jù)輸出標簽確定某一流量類別分布在port flow映射圖或non-port flow映射圖上。結(jié)合訓(xùn)練樣本,確定輸出映射圖中相應(yīng)區(qū)域的流量類型。

3.2 自組織映射

在本環(huán)節(jié),采用深度學(xué)習(xí)算法中著名的神經(jīng)網(wǎng)絡(luò)算法來實現(xiàn)進一步的優(yōu)化,該算法具有識別能力強、自適應(yīng)度高等優(yōu)點,非常適合用來對數(shù)據(jù)流量進行準確分類,可以很好地解決對非線性曲面的逼近,其收斂速度遠高于傳統(tǒng)分類方法。

自組織映射SOM網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)中的一種常用算法,屬于無人監(jiān)督的競爭型神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)中的各個節(jié)點模擬為神經(jīng)元節(jié)點,而在該網(wǎng)絡(luò)中傳輸?shù)母鱾€信息狀態(tài)則模擬為神經(jīng)信號;該算法最大的特點就是將高維的輸入流量樣本以拓撲有序的方式變換到二維的離散空間上,其輸出分類結(jié)果可以直觀的以棋盤狀的二維平面陣顯示。根據(jù)此規(guī)律,可將SOM網(wǎng)絡(luò)用于對輸入的數(shù)據(jù)包特征信息的分類工作中,實現(xiàn)樣本的自動聚類,同時可方便的識別新的數(shù)據(jù)類型和異常數(shù)據(jù)類型,其具體過程如下:

設(shè)輸入樣本[X=(x1,x2,…,xn)T],權(quán)向量為[Wj=(wj1,wj2,…,wjn)T(j=1,2,…m)],

其中n為輸入樣本的維數(shù),m為映射圖神經(jīng)元數(shù)量。對樣本和權(quán)向量進行歸一化處理,得到[X]和[Wj],通過SOM神經(jīng)網(wǎng)絡(luò)執(zhí)行以下兩個步驟

1)選擇競爭占優(yōu)的神經(jīng)元

[dj*=minj∈1,2,…,mX-Wj] (1)

2)計算該類神經(jīng)元和與之相鄰的其他節(jié)點的網(wǎng)絡(luò)權(quán)值

[Wj*(t+1)=Wj*(t)+η(t)N(t)(X-Wj*(t))] (2)

式(2)中,t為學(xué)習(xí)次數(shù),[η(t)]為學(xué)習(xí)成功率,[N(t)]為獲勝的鄰域。

做完了準備工作后,SOM網(wǎng)絡(luò)就可將所有權(quán)值W轉(zhuǎn)化為在[-1,1]區(qū)間的隨機數(shù),并根據(jù)此選擇一個流量樣本n,解析其特征屬性并送至神經(jīng)網(wǎng)絡(luò)的輸入接口,設(shè)置初始t=0,因此有N(0)和[η(0)]。輸出層各神經(jīng)元通過式(1)全局搜索最接近的優(yōu)勝神經(jīng)元j*。按式(2),對j*及其鄰域內(nèi)的所有神經(jīng)元調(diào)整權(quán)值,然后縮小鄰域[N(t)],減小學(xué)習(xí)率[η(t)],重新調(diào)整鄰域內(nèi)神經(jīng)元的權(quán)值直到學(xué)習(xí)率衰減為0。當(dāng)算法運行到這一步時,若流量樣本集合不為空集,則可繼續(xù)執(zhí)行下去,在非空集合內(nèi)隨機選擇一樣本,重新執(zhí)行本輪的學(xué)習(xí)過程,直至所有樣本均完成訓(xùn)練,此時就可生成一張完整的流量類別映射圖,最后根據(jù)樣本激活神經(jīng)元的位置可判斷流量類別,實現(xiàn)數(shù)據(jù)流量的精確分類。

4 結(jié)束語

目前,在網(wǎng)絡(luò)流量分類的研究工作中,更多地傾向于將優(yōu)秀的智能算法同以往傳統(tǒng)的分類方法相結(jié)合的研究路線,其中

很多優(yōu)化算法仍舊處于起步階段,從理論上看,基于流統(tǒng)計特征的機器學(xué)習(xí)的方法自適應(yīng)性強,可擴展性好,可靠性也有足夠的保障,應(yīng)用在流量分類領(lǐng)域內(nèi)是非常合適的,但其計算量較大仍舊是該算法推廣過程中遇到的主要障礙,相信隨著人工智能領(lǐng)域研究的不斷突破,會出現(xiàn)更多的優(yōu)秀方法應(yīng)用在網(wǎng)絡(luò)流量分類工作中,進一步增強流量分類的工作效率,為廣大用戶提供更高|量的數(shù)據(jù)通信服務(wù)。

參考文獻:

[1] 徐鵬,劉瓊,林森.基于支持向量機的Internet流量分類研究[J].計算機研究與發(fā)展,2009,46(3): 407-414.

[2] 王琳.面向高速網(wǎng)絡(luò)的智能化應(yīng)用分類的研究[D].濟南:濟南大學(xué),2008.

篇(8)

DOIDOI:10.11907/rjdk.162026

中圖分類號:TP319

文獻標識碼:A 文章編號文章編號:16727800(2016)011013403

0 引言

中國是世界上最大的煙草生產(chǎn)國和消費國[1]。煙草銷售是煙草行業(yè)管理中最為關(guān)鍵的部分,準確的煙草銷售預(yù)測能為煙草生產(chǎn)、運輸、配送提供指導(dǎo),而要進行準確的煙草銷售預(yù)測必須找到合適的預(yù)測方法。因此,如何設(shè)計高精度的煙草銷售預(yù)測方法是煙草行業(yè)管理的重要課題。

傳統(tǒng)煙草銷售量預(yù)測方法的研究主要集中在對煙草零售經(jīng)營者訂單的管理分析中,而且采用銷售人員意見匯總法、德爾菲法(經(jīng)理及員工的意見)等為主的人工預(yù)測方法[2]。這種人工預(yù)測方法業(yè)務(wù)流程較多,浪費大量的人力、物力,并且還可能引起煙草資源分配的不公平,難以滿足市場需求。從機器學(xué)習(xí)的角度上看,煙草銷售量的預(yù)測屬于回歸問題[3],而回歸包括線性回歸和非線性回歸。文獻[4]在對煙草銷售量數(shù)據(jù)進行分析的基礎(chǔ)上,提出了一種線性預(yù)測模型,但由于煙草銷售量受季節(jié)、人口、市場、節(jié)假日等一系列因素的共同影響,并不適合采用線性回歸方法進行預(yù)測。在非線性回歸方法中,較為常用的有神經(jīng)網(wǎng)絡(luò)和支持向量機(SVM)。文獻[5]基于BP神經(jīng)網(wǎng)絡(luò)對煙草銷售量進行建模并預(yù)測,而神經(jīng)網(wǎng)絡(luò)是基于經(jīng)驗風(fēng)險最小化,不僅泛化能力較差,而且存在局部極小點問題[6],因此神經(jīng)網(wǎng)絡(luò)雖然對原始數(shù)據(jù)的擬合能力較強,但對未來數(shù)據(jù)的推廣能力較差,而對未來數(shù)據(jù)的推廣能力往往更能反映學(xué)習(xí)機器的實用價值。支持向量機基于結(jié)構(gòu)風(fēng)險最小化,泛化能力強且預(yù)測精度高。因此,本文采用支持向量機方法對煙草銷售量進行建模預(yù)測。

1 支持向量回歸機

2 預(yù)測方法

2.1 數(shù)據(jù)預(yù)處理

本文收集到了云煙品牌一個品類2006年1月~2011年10月共6年的銷售數(shù)據(jù),銷售數(shù)據(jù)信息中包括銷售量、銷售日期(年月日)、倉庫編號、發(fā)票信息、審核人信息等,其中對銷售量預(yù)測影響最大的是銷售日期及對應(yīng)的銷售量。由于中國的香煙銷售對陰歷呈現(xiàn)出更強的規(guī)律性,因此將銷售統(tǒng)計數(shù)據(jù)轉(zhuǎn)換為以陰歷月為標準。

2.2 數(shù)據(jù)歸一化處理

由表1可以看出,各列數(shù)據(jù)屬性不同,數(shù)值范圍相差較大。為避免數(shù)值范圍較大的屬性控制數(shù)值范圍較小的屬性,使數(shù)據(jù)具有統(tǒng)一性和可比性,將屬性值都歸一化[10]為[0,1]之間。歸一化所用公式為:

2.3 模型定階

由于煙草銷售量預(yù)測屬于經(jīng)濟預(yù)測,因此它不僅與當(dāng)前日期有關(guān),更與之前的銷售信息有關(guān)。為確定當(dāng)前銷售量與前多少個月的銷售信息關(guān)系最大,需要通過拓階[11]的方法來確定。

設(shè)煙草銷售量數(shù)據(jù)的一個樣本為{yi,yeari,monthi},yi為第i個樣本中的煙草銷售量,yeari為當(dāng)前年份,monthi為當(dāng)前月份。其中,yeari和monthi為樣本的自變量,yi為樣本的因變量。通過拓階能夠更為準確地得到自變量和因變量的函數(shù)依賴關(guān)系。當(dāng)階數(shù)為n時,表示將前n個樣本中的信息添加到當(dāng)前樣本中的自變量中。即用前n個月的銷售信息和當(dāng)前年月來預(yù)測當(dāng)前銷售量。此時,自變量總數(shù)為(3×n+2),其中n為階數(shù)。通過SVM由低階到高階逐步進行拓階,模型每拓一階,自變量相應(yīng)地增加 3個。對于每一次的拓階,以MSE最小為標準決定是否接受拓階。設(shè)SVM(n)為拓階n次后的模型,SVM(n+1)為拓階n+1次后的模型,比較兩者的MSE大小,如果SVM(n+1)的MSE小于SVM(n)的MSE,表示接受本次拓階,并進行下一步拓階;如果SVM(n+1)的MSE大于SVM(n)的MSE,表示不接受本次拓階,并停止拓階,最終得到最優(yōu)階數(shù)n。通過對煙草數(shù)據(jù)的拓階,得到拓階結(jié)果如圖2所示。

2.4 回歸模型的參數(shù)選擇

當(dāng)訓(xùn)練模型確定后,通過支持向量回歸機進行預(yù)測。由于徑向基核函數(shù)的準確率較高,并且大多數(shù)SVM默認的核函數(shù)也是徑向基核函數(shù)[12],本文亦采用徑向基核函數(shù)。

3 實驗結(jié)果與分析

以云煙數(shù)據(jù)集為例,選擇2006年1月-2010年12月的銷售量數(shù)據(jù)為訓(xùn)練樣本,以2011年1-10月的銷售量數(shù)據(jù)為測試樣本。在本文算法實現(xiàn)過程中,實驗環(huán)境配置如表2所示。

4 結(jié)語

通過預(yù)測煙草銷售量可以提前了解煙草的銷售動態(tài),為煙草物流、倉儲等部門提供決策依據(jù)。本文基于支持向量機建立煙草銷售預(yù)測的多維時間序列模型。實驗證明,根據(jù)本文方法建立的模型所預(yù)測的結(jié)果與實際結(jié)果基本一致,能夠比較準確地反映煙草銷售量的變化趨勢。對比實驗也證明,與其它幾種方法相比,本文方法預(yù)測誤差最小。綜上,本文所述方法是合理有效的,可以應(yīng)用到實際煙草銷售量預(yù)測中。

參考文獻:

[1] 蔣德B.我國煙草業(yè)國際化戰(zhàn)略研究[J].北方經(jīng)濟,2012(14):9495.

[2] 利普?科特勒,洪瑞云,梁紹明,等.市場營銷管理 [M].亞洲版?2版.北京:中國人民大學(xué)出版社,2001.

[3] 鄭逢德,張鴻賓.拉格朗日支持向量回歸的有限牛頓算法[J].計算機應(yīng)用,2012,32(9):25042507.

[4] 張素平.基于乘法模型的內(nèi)蒙古烏蘭察布市卷煙總銷量預(yù)測研究[J].內(nèi)蒙古科技與經(jīng)濟,2012(21):3335.

[5] 仲東亭,張h.BP神經(jīng)網(wǎng)絡(luò)對煙草銷售量預(yù)測方法的改進研究[J].工業(yè)技術(shù)經(jīng)濟,2007,26(9):115118.

[6] 劉蘇蘇,孫立民.支持向量機與RBF神經(jīng)網(wǎng)絡(luò)回歸性能比較研究[J].計算機工程與設(shè)計,2011,32(12):42024205.

[7] 鄧乃揚,田英杰.數(shù)據(jù)挖掘的新方法――支持向量機[M].北京:科學(xué)出版社,2004

[8] 肖建,于龍,白裔峰.支持向量回歸中核函數(shù)和超參數(shù)選擇方法綜述[J].西南交通大學(xué)學(xué)報,2008,43(3):297303.

[9] 單黎黎,張宏軍,張睿,等.基于主導(dǎo)因子法的裝備維修保障人員調(diào)度值預(yù)測[J].計算機應(yīng)用,2012,32(8):23642368.

[10] 彭麗芳,孟志青,姜華,等.基于時間序列的支持向量機在股票預(yù)測中的應(yīng)用[J].計算技術(shù)與自動化,2006,25(3):8891.

[11] 向昌盛,周子英.基于支持向量機的害蟲多維時間序列預(yù)測[J].計算機應(yīng)用研究,2010,27(10):36943697.

[12] 譚征,孫紅霞,王立宏,等.中文評教文本分類模型的研究[J].煙臺大學(xué)學(xué)報:自然科學(xué)與工程版,2012,25(2):122126.

[13] CHERKASSKY V,MULIER F.Learning from data: concepts,theory and methods[M].NY:JohnViley&Sons,1997.

[14] YONG M,XIAOBO Z,DAOYING P,et al.Parameters selection in gene selection using Gaussian kernel support vector machines by genetic algorithm[J].Journal of zhejiang university science B,2005,6(10):961973.

篇(9)

中圖分類號:TP391文獻標識碼:A文章編號:1009-3044(2009)04-1020-02

自動分類技術(shù)是利用計算機系統(tǒng)對文本集按照一定的分類體系或標準進行自動類別標記,分類工具根據(jù)文檔的信息將其分配到已經(jīng)存在的類別中,也稱“主題”。

隨著網(wǎng)絡(luò)的迅猛發(fā)展,網(wǎng)頁、電子郵件、數(shù)據(jù)庫、聊天室和數(shù)字圖書館等電子文本成幾何級數(shù)不斷增長,處理這些海量數(shù)據(jù)的一個重要方法就是將它們分類。當(dāng)我們?yōu)g覽一個網(wǎng)站查找信息時,如果網(wǎng)頁凌亂的堆積在一起沒有類別供我們查找,會使我們很難找到自己所需的信息?,F(xiàn)在,大型網(wǎng)站都將網(wǎng)頁分類,以方便人們?yōu)g覽。比如,Yahoo就將網(wǎng)頁放在一個巨大的層次分類結(jié)構(gòu)中,通過組裝維護這些類別,可以幫助人們查找知識和信息。網(wǎng)頁自身并沒有類型區(qū)分,這就需要人工分類,將網(wǎng)頁、郵件等各種格式的文檔經(jīng)過文法分析都可以轉(zhuǎn)化為純文本,而自動文本分類系統(tǒng)可以幫助人們檢查文本、判斷文本所屬類別。

1 自動分類技術(shù)的現(xiàn)狀

到目前為止,國外已在自動分類領(lǐng)域進行了較為深入的研究。已經(jīng)從最初的可行性基礎(chǔ)研究經(jīng)歷了實驗性研究進入實用階段,并在郵件分類、電子會議、信息過濾等方面取得了較為廣泛的應(yīng)用[1]。

國內(nèi)對自動分類技術(shù)的研究相對較晚。1986年,上海交通大學(xué)電腦應(yīng)用技術(shù)研究所開發(fā)的中文科技文獻(計算機類)實驗性分類系統(tǒng)。1995年,清華大學(xué)電子工程系研制的漢語語料自動分類系統(tǒng)。1998年,東北大學(xué)計算機系的新聞?wù)Z料漢語文本自動分類模型。1999年,由鄒濤等人開發(fā)的中文技術(shù)文本分類系統(tǒng)CTDS。除此之外,國內(nèi)眾多學(xué)者對中文文本分類算法也進行了深入研究,黃萱箐等提出的基于機器學(xué)習(xí)的、獨立于語種的文本分類模型[3],周永庚等研究的隱含語義索引在中文文本處理中的應(yīng)用[4],李榮陸等的最大熵模型[5],張劍等提出的一種以WordNet語言本體庫為基礎(chǔ),建立文本的概念向量空間模型作為文本特征向量的特征提取方法[6],朱靖波等將領(lǐng)域知識引入文本分類,利用領(lǐng)域知識作為文本特征,提出一種基于知識的文本分類方法等[7]。

從20世紀90年代以來,基于機器學(xué)習(xí)的文本分類逐漸成為文本分類的主流技術(shù)。近年來文本分類技術(shù)取得了很大的進展,提出了多種特征抽取方法和分類方法,如回歸模型、支持向量機、最大熵模型等,建立了OHSUMED,Reuters等開放的分類語料庫。

2 自動分類技術(shù)的類型

根據(jù)目的性,信息自動分類包括自動聚類和自動歸類兩種類型。

2.1 自動聚類

由計算機系統(tǒng)對待分類文本進行分析并提取有關(guān)的特征,然后對提取的特征進行比較,根據(jù)一定規(guī)則將具有相同或相近特征的對象定義為一類。自動聚類的目的是在已有信息中定義符合實際情況的類。在網(wǎng)站的非主要分類體系中,也可以用自動聚類的方法自動生成欄目內(nèi)的類別。

2.2 自動歸類

計算機系統(tǒng)對分類文本提取有關(guān)特征,然后與既定分類系統(tǒng)中對象所具有的公共特征進行相關(guān)性比較。將對象歸入其特征最相近的類中。自動歸類的目的是把各種信息納入已建立的分類系統(tǒng)中,用于搜索引擎或網(wǎng)站導(dǎo)航系統(tǒng)的管理和數(shù)據(jù)更新。根據(jù)使用的技術(shù),自動歸類通常分為基于詞的自動分類(詞典法)和基于專家系統(tǒng)的自動分類(知識法)兩大類,也有人將界于兩種技術(shù)之間的稱為基于信息的自動分類。

3 文檔分類關(guān)鍵技術(shù)分類及方法

現(xiàn)有的文本分類技術(shù)主要采用3 種方法:基于連接的方法、基于規(guī)則的方法和基于統(tǒng)計的方法。

3.1 基于連接的文本分類方法

基于連接的方法主要是利用人工神經(jīng)網(wǎng)絡(luò)來模擬人腦神經(jīng)網(wǎng)絡(luò),并期望其能像大腦一樣地運作,一樣地學(xué)習(xí),從而產(chǎn)生智慧。這種方法可以實現(xiàn)信息的分布存取,運算的全局并行,并且可在進行非線性處理的同時具有高容錯性等特點,適用于學(xué)習(xí)一個復(fù)雜的非線性映射。但是使用他學(xué)習(xí)所形成的知識結(jié)構(gòu)是人所難以理解的,系統(tǒng)本身也不具有良好的透明性。

3.2 基于規(guī)則的文本分類方法

基于規(guī)則的方法本質(zhì)上是一種確定性的演繹推理方法。其優(yōu)點在于他能根據(jù)上下文對確定性事件進行定性描述,并且能充分利用現(xiàn)有的語言學(xué)成果。其成立的前提是有大量的知識,而這些知識必須是人類專家總結(jié)出來的。由于必須有人的參與,這種方法側(cè)重于知識的可理解性和可讀性,對于有些統(tǒng)計方法無法解決的問題,利用基于規(guī)則的方法可以很容易地解決。但是,這種方法在不確定性事件的描述、規(guī)則之間的相容性等方面存在一些缺陷和限制。常用的基于規(guī)則的方法有決策樹、關(guān)聯(lián)規(guī)則等。

3.3 基于統(tǒng)計的文本分類方法

基于統(tǒng)計的方法本質(zhì)上是一種非確定性的定量推理方法?;诮y(tǒng)計的方法的優(yōu)勢在于他的全部知識是通過對大規(guī)模語料庫分析得到的,可以取得很好的一致性和非常高的覆蓋率,對語言處理提供了比較客觀的數(shù)據(jù)依據(jù)和可靠的質(zhì)量保證。但由于其是基于概率的一種方法,因此必然會對小類別文本即小概率事件造成忽視。常用的基于統(tǒng)計的方法有KNN、樸素貝葉斯、類中心向量、回歸模型、支持向量機、最大熵模型等。

3.4 經(jīng)典文本分類方法

3.4.1 KNN算法

KNN算法即k- Nearest Neighbor 分類方法,是一種穩(wěn)定而有效的文本分類方法。采用KNN 方法進行文檔分類的過程如下:對于某一給定的測試文檔d,在訓(xùn)練集中,通過相似度找到與之最相似的k個訓(xùn)練文檔。在此基礎(chǔ)上,給每個文檔類打分,分值為k個訓(xùn)練文檔中屬于該類的文檔與測試文檔之間的相似度之和。也就是說, 如果在這k個文檔中,有多個文檔屬于一個類,則該類的分值為這些文檔與測試文檔之間的相似度之和。對這k個文檔所屬類的分值統(tǒng)計完畢后,即按分值進行排序。還應(yīng)當(dāng)選定一個閾值,只有分值超過閾值的類才予考慮。測試文檔屬于超過閾值的所有類。形式化表示為:

■(1)

其中,dj∈ci時y(dj,ci)=1;dj?埸ci時y(dj,ci) 。

bi為閾值,Sim(d,dj)為文檔d和dj的相似度,score(d,ci)為測試文檔d屬于ci類的分值。一般的,bi是一個有待優(yōu)化的值可以通過一個驗證文檔集來進行調(diào)整。驗證文檔集是訓(xùn)練文檔集的一部分,根據(jù)公式(1)可確定測試文檔的類別。很顯然,對于每一個測試文檔,必須求解其和訓(xùn)練文檔庫中所有文檔的相似度。因此, KNN方法的時間復(fù)雜度為o(|D|ni)。其中,|D|和ni分別為訓(xùn)練文檔總數(shù)和測試文檔總數(shù)。

3.4.2 SVM

支持向量機(Support Vector Machine,SVM)是在統(tǒng)計學(xué)習(xí)理的基礎(chǔ)上發(fā)展而來的一種機器學(xué)習(xí)方法, 該模型是基于結(jié)構(gòu)風(fēng)險最小化原理的方法,把原始數(shù)據(jù)集合壓縮為支持向量集合,其基本思想是構(gòu)造出一個超平面作為決策平面,使正負模式之間的空白為最大化。在解決小樣本、非線性及高維模式識別問題中SVM表現(xiàn)出了許多特有的優(yōu)勢, 并在很大領(lǐng)域得到了成功的應(yīng)用,如:人臉識別、手寫字體識別、文本分類等。其中,SVM在文本分類方面的表現(xiàn)尤為突出。

SVM 的基本思想可用圖1的兩維情況進行說明。圖1中,圓形實心點和菱形實心點代表2類樣本,H為分類線,H1,H2分別為過各類中離分類線最近的樣本且平行于分類線的直線,他們之間的距離叫做分類間隔。所謂最優(yōu)分類線就是要求分類線不但能將兩類正確分開(訓(xùn)練錯誤率為0),而且使分類間隔最大。分類線方程為:

x?w+b=0

在此可以對他進行歸一化,使得對線性可分的樣本集:

(xi,yi),i=1,…,n,x∈R4,y∈{+1,-1}

滿足:yi[(w.xi)+b]-1≥0 i=1,2,…n

此時分類間隔等于2/w, 使間隔最大等價于使w2最小。滿足式且使間距為w/2的分類面就叫做最優(yōu)分類面, H1 , H2上的訓(xùn)練樣本點就稱作支持向量。

基本的SVM是針對兩類分類問題的,為了實現(xiàn)對多個類別的識別,需要對SVM進行擴展。常用的SVM多類分類方法有One-vs-Res, One-vs-One,ECOC( Error Correcting Output Coding)、DAGSVM和二叉樹等方法。實驗結(jié)果表明DAGSVM 方法要優(yōu)于其他2 種方法。Weston和Watkins[2]對SVM的理論進行了擴充,使其一次就可以完成多類分類,但是實驗結(jié)果顯示其分類查準率要低于One-vs-Rest 和One-vs-One方法。

4 技術(shù)的發(fā)展趨勢與展望

本文介紹了文本分類的研究背景,國內(nèi)外關(guān)于文本分類技術(shù)研究的最新動態(tài),總結(jié)了近年來文本分類研究的關(guān)鍵技術(shù)。文本分類技術(shù)有著廣泛的應(yīng)用,逐漸趨于實用。

但隨著自動分類技術(shù)相關(guān)應(yīng)用的發(fā)展,及對其需求的不斷提升,文本分類技術(shù)仍有非常多的問題值得研究:可靠、有效及快速的在線分類;基于語義度量的數(shù)據(jù)模型和分類方法;緩解樣本標注瓶頸以及樣本數(shù)據(jù)分布帶來的影響等。隨著數(shù)據(jù)挖掘領(lǐng)域和機器學(xué)習(xí)理論、技術(shù)研究的不斷深入, 針對解決不同實際應(yīng)用和數(shù)據(jù)特征的問題將成為文本分類相關(guān)研究,及其應(yīng)用的主要突破方向和攻克難點。

參考文獻:

[1] 李榮陸.文本分類及相關(guān)技術(shù)研究[D].上海:復(fù)旦大學(xué),2005.

[2] 李應(yīng)紅.慰詢楷. 劉建勛.支持向量機的工程應(yīng)用[M].北京:兵器工業(yè)出版社,2004.

[3] 黃萱菁,吳立德,石崎洋之,等. 獨立于語種的文本分類方法[J].中文信息學(xué)報,2000,14(6):1-7.

[4] 周水庚,關(guān)佶紅,胡運發(fā). 隱含語義索引及其在中文文本處理中的應(yīng)用研究[J].小型微型計算機系統(tǒng),2001,22(2):239-244.

[5] 李榮陸,王建會,陳曉云,胡運發(fā)等. 使用最大熵模型進行中文文本分類[J].計算機研究與發(fā)展.2005,42(1):94-101.

篇(10)

自80年代,我國工程項目管理事業(yè)得到了飛速發(fā)展,工程項目建設(shè)過程中的質(zhì)量、進度和成本得到有效控制。施工企業(yè)的經(jīng)營管理水平和項目經(jīng)理部的施工現(xiàn)場管理水平有了較大的提高。特別是《建設(shè)工程項目管理規(guī)范(GB/T50326一2001)》[1]的為我國的工程項目管理逐步向制度化、規(guī)范化、信息化邁進提供了保證。但由于我國的工程項目管理起步較晚,在管理的信息化和管理手段的現(xiàn)代化方面距全面實現(xiàn)計算機輔助管理及咨詢決策尚有較大差距。

1 系統(tǒng)主要功能

CPMMIS的基本功能包括工程項目現(xiàn)場管理信息系統(tǒng)、公司的信息管理系統(tǒng)、公司的咨詢決策系統(tǒng)三大部分,三個系統(tǒng)運行在一個共享信息的網(wǎng)絡(luò)平臺上。該系統(tǒng)的工作流程與目前工程項目管理的實際情況一致。它既能用于公司內(nèi)部管理(局域網(wǎng)),也能用于現(xiàn)場項目部的管理(單機或局域網(wǎng)),還能夠通過與Internet連接,實現(xiàn)公司對項目部的適時管理;具有一定的決策支持功能。

1.1 工程項目現(xiàn)場施工管理系統(tǒng)

工程項目現(xiàn)場施工管理的主要工作可以概括為“三控兩管一協(xié)調(diào)”,因此該部分主要是為各項目部提供輔助管理的功能模塊(日常管理、質(zhì)量管理、進度管理、成本控制與結(jié)算管理、合同管理、生產(chǎn)要素管理等模塊),為正確作出決策提供保證,并按規(guī)定格式形成報表。

1)日常管理子系統(tǒng):主要完成施工準備期、施工期、交(竣)工驗收及保修期的項目管理工作。主要收集設(shè)計信息;施工準備階段的管理信息(法律法規(guī)與部門規(guī)章、市場信息、自然條件);工程概況信息(工程實體概況、場地與環(huán)境概況、參與建設(shè)的各單位概況、施工合同、工程造價計算書);施工信息(施工記錄、施工技術(shù)資料);項目管理信息(項目管理規(guī)劃大綱、項目管理實施規(guī)劃);施工過程項目管理各專業(yè)的信息(進度控制、質(zhì)量控制、安全控制、成本控制、現(xiàn)場管理、合同管理);生產(chǎn)要素信息(材料管理、構(gòu)配件管理、工器具管理、人力資源、機械設(shè)備);項目結(jié)算信息;組織協(xié)調(diào)信息;竣工驗收信息;考核評價信息;項目統(tǒng)計信息等。日常管理子系統(tǒng)的另一項工作是及時收集和處理從監(jiān)理、業(yè)主、分包、設(shè)計、材料供應(yīng)等單位送交的報告資料。為了及時、規(guī)范地處理這些報告,系統(tǒng)設(shè)置了大量的知識庫、模板庫、素材庫,運用基于神經(jīng)網(wǎng)絡(luò)的群體決策支持技術(shù)[2、3],幫助現(xiàn)場管理人員及時有效地處理有關(guān)報告資料。

2)質(zhì)量管理子系統(tǒng):主要完成質(zhì)量目標確定;項目質(zhì)量計劃編制;項目質(zhì)量計劃實施。施工合同簽訂后,項目部應(yīng)索取設(shè)計圖紙和技術(shù)資料,指定專人管理并公布有效文件清單。單位工程、分部工程和分項工程開工前,項目技術(shù)負責(zé)人應(yīng)向承擔(dān)施工的負責(zé)人或分包人進行書面技術(shù)交底。對工程測量、材料的質(zhì)量、機械設(shè)備的質(zhì)量、工序質(zhì)量、特殊過程質(zhì)量、工程變更及施工中發(fā)生的質(zhì)量事故應(yīng)進行有效控制和處理。同時建立和維護質(zhì)量檢驗評定標準、進行原材料質(zhì)量檢驗、現(xiàn)場施工質(zhì)量檢查、分項(單元)工程質(zhì)量數(shù)據(jù)收集,分項工程、分部工程、單位工程、工程項目的質(zhì)量評定,施工質(zhì)量文檔管理,質(zhì)量報表與統(tǒng)計圖形輸出。另外,還包括質(zhì)量安全事故分析處理功能模塊,如事故調(diào)查分析、事故檢驗分析、事故評價、事故處理等。

3)進度管理子系統(tǒng):包括項目初始進度(總進度、單項工程進度、分部工程進度、關(guān)鍵工序施工進度)數(shù)據(jù)的建立和維護、網(wǎng)絡(luò)計劃的形成和優(yōu)化、計劃進度輸出、實際進度統(tǒng)計、進度的動態(tài)跟蹤管理。在施工方案選擇、施工進度計劃編制和施工平面圖設(shè)計中,系統(tǒng)運用了基于神經(jīng)網(wǎng)絡(luò)的施工方案決策支持系統(tǒng)。

4)成本控制和結(jié)算子系統(tǒng):包括各類計量結(jié)算項目編碼和查詢(如清單項目、工程變更項目、工程索賠項目、其他需要結(jié)算的項目)。系統(tǒng)能根據(jù)每月分部分項成本的累計偏差和相應(yīng)的計劃目標成本余額預(yù)測后期成本的變化趨勢和狀況,根據(jù)偏差原因制定改善成本控制的措施,控制下月施工任務(wù)的成本。并能用對比法分析影響成本節(jié)超的主要因素。在確定施工項目成本各因素對計劃成本影響的程度時,可采用連環(huán)替代法或差額計算法進行成本分析。

5)合同管理子系統(tǒng):包括合同分類、合同目錄一覽表、合同文本管理(如各類合同條款的建立、修改、查詢)、分包工程管理、工程變更管理、工程索賠管理、工程暫停及復(fù)工管理、工程延期及工程延誤的處理以及爭端的調(diào)解等。另外還能完成合同數(shù)據(jù)統(tǒng)計、匯總、查詢、打印,與合同管理有關(guān)的資料的收集與分析。

1.2 公司信息管理系統(tǒng)

篇(11)

在針對金融學(xué)領(lǐng)域進行實證研究時,傳統(tǒng)研究方法通常選擇結(jié)構(gòu)化數(shù)據(jù)作為研究依據(jù),常見類型如股票市場數(shù)據(jù)、財務(wù)報表等。大數(shù)據(jù)技術(shù)發(fā)展后,計算機技術(shù)逐漸成熟,在實證研究中可獲取更加多樣化的數(shù)據(jù),非結(jié)構(gòu)化文本大數(shù)據(jù)得到應(yīng)用,例如:P2P網(wǎng)絡(luò)借貸文本、財經(jīng)媒體報道、網(wǎng)絡(luò)搜索指數(shù)、上市公司披露文本、社交網(wǎng)絡(luò)文本等。本文探討了相關(guān)文本可讀性、相似性、語氣語調(diào)與語義特征等。

1.在金融學(xué)研究中文本大數(shù)據(jù)的挖掘方法

傳統(tǒng)研究方法通常采用人工閱讀方法對文本信息進行識別,因為文本數(shù)量龐大、信息構(gòu)成復(fù)雜,人工識別效率較低,而且信息識別質(zhì)量不穩(wěn)定,信息識別效果受到閱讀者專業(yè)素養(yǎng)、理解能力等多方面因素影響。計算機技術(shù)發(fā)展后逐漸被應(yīng)用于分析文本大數(shù)據(jù),利用計算機技術(shù)獲取語料,對文本資料進行預(yù)處理、文本表示、抽取特征等操作。完成上述步驟后,在研究分析中使用文檔特征,從而開展深入分析[1]。在分析文本大數(shù)據(jù)時,主要采取如下流程:(1)從眾多信息來源中獲取語料,對語料文檔進行解析,明確文本定位,清洗數(shù)據(jù),獲得文本分詞,標注詞性,將其中停用詞清除。(2)構(gòu)建詞云、詞嵌入、詞袋模型與主題模型。(3)分析文本情緒、可讀性、相似性,分析語義關(guān)聯(lián)性。(4)監(jiān)督機器學(xué)習(xí)、詞典語法處理[2]。

1.1獲取語料

獲取語料的方法主要分為兩種:(1)人工獲??;(2)利用網(wǎng)絡(luò)工具爬取或抓取。其中人工獲取語料投入成本較高,耗時較長,需要投入大量人力,因此網(wǎng)絡(luò)抓取的可行性相對較高[3]。網(wǎng)絡(luò)抓取方法可有效應(yīng)對大量文本量,在一定程度上降低文本大數(shù)據(jù)獲取難度。在網(wǎng)絡(luò)抓取語料時,需要借助編程語言,通過直接抓取或爬取的方法獲取文本大數(shù)據(jù)。采用此種語料獲取模式具有兩方面顯著優(yōu)勢,不僅獲取文本信息耗時較短,效率較高,而且可直接使用編程語言整理內(nèi)容和規(guī)范形式,為后續(xù)文本分析工作奠定基礎(chǔ)[4]。

1.2預(yù)處理環(huán)節(jié)

獲取目標語料后,前期需要預(yù)處理文本,解析、定位文本,清洗數(shù)據(jù),標注分詞與詞性,最后去除停用詞。金融市場通常要求企業(yè)采用PDF格式作為信息披露文檔格式,文本預(yù)處理中首先需要解析富格式文檔,獲取文檔信息。定位文本和清洗數(shù)據(jù)環(huán)節(jié)中,利用計算機程序定位文本信息[5]。在該類研究中,MD&A研究熱度較高,使用正則表達式進行財務(wù)報告正文MD&A定位首尾信息部分,提取上述信息。此外,文本信息中除核心內(nèi)容結(jié)構(gòu)外,還包括超文本標記語文、腳本語等代碼信息、圖片信息、廣告信息等,該類信息在文本分析中屬于噪聲內(nèi)容,需要刪除和清洗相關(guān)信息,從文本中篩選有價值的核心內(nèi)容[6]。文本分詞處理與文本語言密切相關(guān)。英文文本使用空格劃分單詞,即自然存在分詞形式,也可采取提取詞干、還原詞形等方法劃分單詞。中文文本中不使用空格分詞,根據(jù)中文語言習(xí)慣,詞語為最小語言單位,可獨立使用?;诖朔N背景,分析文本時需要專門分詞處理中文文本,例如:使用Python開源“jieba”中的中文分詞處理模塊處理文本,股票論壇帖子文本、年度業(yè)績說明會以及企業(yè)財務(wù)報告均可使用該類工具處理,完成分詞。在針對中文文本進行分詞處理時,其中實施難度較高的部分是識別新詞、歧義詞與控制切分顆粒度。在處理歧義詞時,需要科學(xué)選擇分詞方法,采用“jieba”針對文本進行分詞處理時,選擇分詞模式是否科學(xué)直接影響分詞精準度。分詞處理新詞時,需要用戶在相應(yīng)模塊中自行添加新詞,完善自定義詞典,從而使分詞軟件識別新詞[7]。語義信息被識別的關(guān)鍵依據(jù)是詞性等語法特征,詞語切分后標記詞語詞性操作被稱為詞性標注。詞性標注操作可幫助計算機進行詞語種類識別,避免詞語歧義,對語法結(jié)構(gòu)進行有效識別,從而促進計算機順利進行語義分析。詞性標注時,中英文操作方法不同,詞性劃分英文單詞要求比較嚴謹,利用詞尾變化反映詞性變化。在英文詞匯中,許多固定詞尾可提示詳細詞性信息。在處理中文詞語中,并無明確詞性指示,詞性識別依據(jù)主要為語法、語義等。簡言之,英文詞性識別標記注重形式,漢語詞性標記以語義為主。在處理文本信息時,需要將文本信息中停用詞去除,從而保證文本挖掘信息具有較高精度。所謂停用詞,即自身詞義表達有限,然而對于句子語法結(jié)構(gòu)完整性而言非常重要的詞語。停用詞導(dǎo)致文本數(shù)據(jù)具有更繁瑣維度,導(dǎo)致分析文本的成本較高。英文中動詞、連詞、冠詞均為常見停用詞。中文處理方法比較復(fù)雜,必須結(jié)合語言習(xí)慣分析停用詞,不僅需要處理特殊符號、標點符號,還需要處理連詞、俚語。除此之外,應(yīng)根據(jù)具體研究內(nèi)容確定停用詞。在進行文本情緒研究時,特定標點符號、語氣詞等會影響文本表達的情感信息,對于此類信息需要予以保留,從而保證文本情感程度得到準確分析。

1.3文檔表示環(huán)節(jié)

文本數(shù)據(jù)為高維度數(shù)據(jù),具有稀疏特點,使用計算機處理文本數(shù)據(jù)時難度較高,預(yù)處理實施后,必須通過特定方式表示文檔信息,通過此種處理降低后續(xù)計算機分析和人工研究難度。詞云、詞嵌入、詞袋模型、主題模型均為核心表示方法[8]。詞語技術(shù)具有可視化特點,是文本大數(shù)據(jù)技術(shù)之一。所謂本文可視化,即使用視覺符號顯示復(fù)雜內(nèi)容,展示文本規(guī)律。根據(jù)生物特性,人們習(xí)慣于通過視覺獲取文本信息,實現(xiàn)文本可視化可提高信息提取效率。使用詞云技術(shù)可有效描述文本中詞匯使用頻率,采用醒目形式顯示高頻詞匯。詞袋模型的構(gòu)建基礎(chǔ)是無嚴格語序要求的文字詞組存在[9],以此種假設(shè)為前提,文本相當(dāng)于眾多詞語集合,采用向量化方法表達文本,在此過程中只計算各個詞語出現(xiàn)頻率。在詞袋模型中含有兩種構(gòu)建方法:(1)獨熱表示法;(2)詞頻-逆文檔頻率法。前者的應(yīng)用優(yōu)勢是可行性較高,操作難度較低。例如:現(xiàn)有如下兩個文檔:(1)文檔一:“經(jīng)濟學(xué)中文本大數(shù)據(jù)使用”;(2)文檔二:“金融學(xué)中文本大數(shù)據(jù)使用”。以文檔一、文檔二為基礎(chǔ)建設(shè)詞表,根據(jù)詞序?qū)嵤┰~袋化處理,確定詞袋向量。對于出現(xiàn)的詞,以“1”表示,未出現(xiàn)的詞以“0”表示。但是在實際操作中,不同詞語在文檔中出現(xiàn)頻率存在差異,通常文本中高頻詞數(shù)量較少,許多詞匯使用頻率較低。為體現(xiàn)文檔中不同詞語的作用,對單詞詞語賦予權(quán)重。TF-IDF是計算文檔定詞語權(quán)重的有效方法。含有詞語i文檔數(shù)描述為dfi,集合中文檔總量描述為N,逆文檔頻率描述為idfi,第j個文件中詞語i頻率描述為tfi,j,第j個文檔內(nèi)詞語數(shù)量描述為aj,第i個文檔內(nèi)詞語i權(quán)重描述為tf-idfi,j,則公式應(yīng)表示為[10]其中,的前提條件是不低于1,0定義為其他情況。較之獨熱表示法,TF-IDF方法的特點是對每個單詞賦予不同權(quán)重。在賦予其權(quán)重的基本方法時文本中該詞匯出現(xiàn)頻率越高,其重要性越高,與此同時語料庫中該詞匯出現(xiàn)頻率越高,則其重要性相應(yīng)降低。詞嵌入處理中,主要是在低緯度連續(xù)向量空間嵌入指定高維空間,該高維空間維數(shù)包括全部詞數(shù)量。在金融學(xué)領(lǐng)域中進行文本研究時,詞嵌入技術(shù)通常采用Word2vec技術(shù),該技術(shù)中主要使用CBOW技術(shù)與Skip-Gram神經(jīng)網(wǎng)絡(luò)模型,針對神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,促使其有效捕獲詞語中包含的上下文信息,對詞語進行向量化映射,得到的向量語義信息更加豐富,信息密度更大,信息維度更低。主題模型中應(yīng)用頻率較高的是LDA模型,應(yīng)用此種模型進行文本分析屬于無監(jiān)督機器學(xué)習(xí)法,通過此種方法才能夠大量集中語料中提取主題信息。在應(yīng)用該方法時,將生成文檔的過程分為兩步,首先假定各文檔具有對應(yīng)主題,從這些主題中抽取一個主題,然后假定文檔具有對應(yīng)詞匯,對比之前抽取的主題,從詞語中選取一個與主題對應(yīng)的詞語。完成上述迭代后,將其與文檔中各詞語擬合,從而獲得各文檔主題、主題中詞語分布情況。LDA模型主要優(yōu)勢是,與手動編碼相比,該模型性能更完善,可有效分類大規(guī)模文檔。該模型做出的文本主題分類支持復(fù)制,準確性較高,而采用人工手段分類文本時較易受到主觀性影響。此外,使用此種模型時,無需人工分類進行關(guān)鍵詞、規(guī)則設(shè)定。LDA模型的缺點是在主題預(yù)設(shè)個數(shù)時,受到研究者主觀因素影響,選擇主題個數(shù)的數(shù)量受此影響顯著,因此生成主題過程與歸類文本主題時較易受到相關(guān)影響。

1.4抽取文本特征的方法

文本特征是指文本可讀性、相似性、文本情緒以及語義關(guān)聯(lián)性。其中文本可讀性即讀者在閱讀文本時是否可較容易地理解文本信息。在編輯文本時應(yīng)保證文本具有較高可讀性,保證投資者通過閱讀文本可有效理解文本信息,即確保文本對投資者投資行為產(chǎn)生積極影響。有研究者在文本分析中使用迷霧指數(shù),該類研究認為,迷霧指數(shù)與年報可讀性呈負相關(guān)。年報文本字數(shù)、電子文檔規(guī)格也是影響年報可讀性的重要因素。在使用迷霧指數(shù)評價文本可讀性時,常見的問題是,隨機排序句子中詞語將導(dǎo)致文本難以理解,然而正常文本和經(jīng)過隨機排序處理的文本在分析計算時,顯示相同迷霧指數(shù)。不僅如此,在進行商業(yè)文本測量時采用迷霧指數(shù)作為依據(jù)具有顯著缺陷,例如,當(dāng)對企業(yè)披露信息進行可讀性分析時,難以有效劃分年報可讀性與該企業(yè)實際復(fù)雜性。基于此種背景,在針對年報文本可讀性進行評價時,需要結(jié)合企業(yè)業(yè)務(wù)復(fù)雜性等影響,提出非文本因素[11]。在提取文本情緒時,通常采用有監(jiān)督機器學(xué)習(xí)法與詞典法進行提取操作。詞典法即在文本情緒、語氣語調(diào)研究中使用情緒詞典輔助分析。詞典確定后,該類研究即支持復(fù)制。不僅如此,建設(shè)詞典時還需要融合大量金融學(xué)專業(yè)知識,從而使詞典與金融文本分析需求一致。使用現(xiàn)有多種類詞典、文獻等分析媒體報道情緒,針對財務(wù)報告進行語氣語調(diào)分析,以及進行電話會議等進行語氣語調(diào)分析等。中文大數(shù)據(jù)分析時,通常是以英文詞典、詞庫等為模板,構(gòu)建中文情緒詞典。使用該類詞典輔助分析股票成交量、收益率,評估股市崩盤風(fēng)險高低。在詞典法應(yīng)用中需要結(jié)合加權(quán)法進行文本情緒分析[12]。有監(jiān)督機器學(xué)習(xí)法包括支持向量機、樸素貝葉斯等方法。采用此類方法時,重點環(huán)節(jié)在于對分類效果進行檢驗和評價。交叉驗證法是常見檢驗方法。有監(jiān)督機器學(xué)習(xí)法的缺點是必須人工編碼設(shè)置訓(xùn)練集,工作量較大,并且人工編碼較易受到主觀因素影響,分類效果魯棒性較差,并且研究難以復(fù)制。其優(yōu)點是分類精確度較好。

2.文本大數(shù)據(jù)分析

大數(shù)據(jù)分析主要是進行財務(wù)報告等公司披露文本信息、搜索指數(shù)、社交網(wǎng)絡(luò)文本以及財經(jīng)媒體報道等進行分析。通過文本挖掘從海量文本中抽取核心特征,分析其可行性、相似性、語義特征、語氣語調(diào)等,然后分析股票市場行為與文本特征等相關(guān)性。分析披露文本信息時,主要是利用文本信息對企業(yè)財務(wù)、經(jīng)營、管理層長效經(jīng)營信息等進行研究。在進行此類研究時,重點是分析文本可讀性、相似性,以及分析語氣語調(diào)。披露文本可讀性較高時,有利于投資者有效獲取公司信息,影響投資行為。迷霧指數(shù)理論認為,財務(wù)報告具有較高可讀性的企業(yè)通常具有更長久的利潤。此外,有研究者提出,財務(wù)報告可讀性直接影響盈余預(yù)測離散性和可靠性。財務(wù)報告可讀性較低時,公司為減輕此種消極影響,可采取自愿披露措施緩解消極影響。管理者通過控制財務(wù)報告可讀性可對投資者行為做出影響[13]。在針對企業(yè)發(fā)展情況和股票市場發(fā)展趨勢進行分析時,披露文本語氣語調(diào)具有重要參考價值。相關(guān)研究認為,MD&A語氣內(nèi)含有增量信息,該類信息為企業(yè)長效經(jīng)營能力進行預(yù)測,同時可根據(jù)該類信息分析企業(yè)破產(chǎn)風(fēng)險。管理者情緒狀態(tài)可表現(xiàn)在電話會議語氣中,此種語氣分散情況與經(jīng)營決策具有相關(guān)性,同時語氣對投資者感知、分析師評價產(chǎn)生影響。分析財經(jīng)媒體報道時,主要關(guān)注媒體情緒,分析媒體報道著眼點,針對經(jīng)濟政策進行分析,了解其不確定性,此外還需要研究媒體報道偏向信息、假新聞等。進行社交網(wǎng)絡(luò)文本研究時,主要是分析策略性信息披露情況與文本情緒。搜索指數(shù)研究方面,主要通過搜索指數(shù)了解投資者關(guān)注度。

桃园县| 津南区| 桃源县| 汽车| 山东| 江永县| 濉溪县| 彰化市| 鹤壁市| 霍林郭勒市| 长武县| 鸡西市| 开封县| 屏东市| 建昌县| 平武县| 通州区| 长春市| 敦化市| 永安市| 白朗县| 西乌珠穆沁旗| 彝良县| 吉木萨尔县| 哈密市| 灵丘县| 新沂市| 禹城市| 且末县| 沽源县| 浮山县| 龙南县| 上高县| 武夷山市| 利川市| 神农架林区| 海晏县| 西藏| 额敏县| 瓮安县| 临洮县|