前言:想要寫(xiě)出一篇引人入勝的文章?我們特意為您整理了論異構(gòu)數(shù)據(jù)庫(kù)語(yǔ)義聚類(lèi)范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。
定義人工魚(yú)個(gè)體的狀態(tài)為X=(x1,x2,…,xn),其中xi(i=1,…,n)為第i條人工魚(yú)的狀態(tài),即欲尋優(yōu)的變量;人工魚(yú)當(dāng)前所在位置的食物濃度為Yi=f(xi),其中Yi為目標(biāo)函數(shù);dij=‖Xi-Xj‖表示人工魚(yú)個(gè)體之間的距離;visual表示人工魚(yú)的視野范圍;step表示人工魚(yú)移動(dòng)的步長(zhǎng);try_number表示最大嘗試次數(shù);δ表示擁擠度因子。1)覓食行為設(shè)人工魚(yú)當(dāng)前狀態(tài)為Xi,在其視野范圍內(nèi)隨機(jī)選擇一個(gè)狀態(tài)Xj(dij<‖Xi-Xj‖),如果Yj>Yi,則Xi向Xj前進(jìn)一步;反之重新選擇狀態(tài)Xj,判斷是否滿(mǎn)足前進(jìn)條件。試探try_number次后,如果仍然不滿(mǎn)足前進(jìn)條件,則執(zhí)行隨機(jī)行為。2)聚群行為設(shè)人工魚(yú)當(dāng)前狀態(tài)為Xi,搜索其視野范圍內(nèi)(dij<vis-ual)的同伴的個(gè)數(shù)Nf以及中心位置Xc,若Yc/Nf>δYi,說(shuō)明同伴中心食物濃度較高而且周?chē)惶珦頂D,則Xi向同伴中心方向前進(jìn)一步;否則執(zhí)行覓食行為。3)追尾行為設(shè)人工魚(yú)當(dāng)前狀態(tài)為Xi,搜索其視野范圍內(nèi)(dij<vis-ual)的同伴中Yj為最大的Xj,若Yj/Nf>δYi,說(shuō)明同伴Xj的狀態(tài)具有濃度較高的食物而且周?chē)惶珦頂D,則Xi向Xj方向前進(jìn)一步;否則執(zhí)行覓食行為。4)隨機(jī)行為設(shè)人工魚(yú)當(dāng)前狀態(tài)為Xi,在其感知范圍內(nèi)隨機(jī)選擇一個(gè)狀態(tài)Xj進(jìn)行移動(dòng)。
異構(gòu)數(shù)據(jù)庫(kù)語(yǔ)義聚類(lèi)
由于硬件平臺(tái)、操作系統(tǒng)等的不同,來(lái)自不同數(shù)據(jù)庫(kù)的數(shù)據(jù)對(duì)相同屬性的描述存在不一致性。語(yǔ)義聚類(lèi)就是解決上述問(wèn)題的一種方法。語(yǔ)義聚類(lèi)是根據(jù)文字自動(dòng)識(shí)別所表達(dá)的語(yǔ)義,然后對(duì)不同的信息源的數(shù)據(jù)進(jìn)行正確的聚類(lèi)。這是將異構(gòu)數(shù)據(jù)庫(kù)的數(shù)據(jù)整合在一起所要克服的最大的困難之一。在進(jìn)行聚類(lèi)之前,首先需要對(duì)數(shù)據(jù)庫(kù)的屬性信息作預(yù)處理,例如文獻(xiàn)[10]針對(duì)異構(gòu)數(shù)據(jù),將預(yù)處理階段分為文本數(shù)據(jù)預(yù)處理和數(shù)值數(shù)據(jù)預(yù)處理。通過(guò)刪除與數(shù)據(jù)聚類(lèi)無(wú)關(guān)的數(shù)據(jù),并將保留下的數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的格式,實(shí)現(xiàn)數(shù)據(jù)的清洗。因此本文中的異構(gòu)數(shù)據(jù)庫(kù)語(yǔ)義聚類(lèi)過(guò)程分為預(yù)處理和數(shù)據(jù)聚類(lèi)兩個(gè)階段[11]。如圖1所示。通過(guò)對(duì)異構(gòu)數(shù)據(jù)庫(kù)語(yǔ)義的聚類(lèi),可以在異構(gòu)數(shù)據(jù)庫(kù)的整合中提供依據(jù)。預(yù)處理階段的任務(wù):首先將關(guān)系型數(shù)據(jù)庫(kù)中數(shù)據(jù)表各列的屬性信息存放到文件中,使用簡(jiǎn)單的語(yǔ)法規(guī)則對(duì)其進(jìn)行規(guī)范化,將規(guī)范化后的屬性信息使用空間向量進(jìn)行表示。隨后對(duì)屬性信息進(jìn)行矢量化,這使得從異構(gòu)數(shù)據(jù)庫(kù)中提取的屬性信息的正確性和完整性得到了保證,也為隨之的數(shù)據(jù)聚類(lèi)作了準(zhǔn)備。聚類(lèi)階段是使用人工魚(yú)群算法對(duì)各個(gè)屬性進(jìn)行語(yǔ)義聚類(lèi)。
基于魚(yú)群算法的語(yǔ)義聚類(lèi)算法描述
步驟1:語(yǔ)義信息預(yù)處理;步驟2:算法初始化。設(shè)定人工魚(yú)的視野范圍visual,擁擠度因子δ,試探的最大次數(shù)try_number,最大化迭代次數(shù)Number;步驟3:計(jì)算各條人工魚(yú)當(dāng)期狀態(tài)下的食物濃度,并登記在公告板上;步驟4:每條人工魚(yú)分別進(jìn)行群居行為和追尾行為,選擇食物濃度高且不擁擠的方向前進(jìn),如果優(yōu)于公告板的狀態(tài),則用該狀態(tài)替換原有狀態(tài);步驟5:執(zhí)行步驟3和步驟4,直到滿(mǎn)足終止條件或滿(mǎn)足最大迭代次數(shù);步驟6:對(duì)上述步驟得到的聚類(lèi)結(jié)果應(yīng)用模糊C-均值聚類(lèi)算法,對(duì)結(jié)果作進(jìn)一步的局部?jī)?yōu)化,從而產(chǎn)生精度較高的最終聚類(lèi)結(jié)果。
仿真實(shí)驗(yàn)及分析
首先以一個(gè)簡(jiǎn)單的例子來(lái)說(shuō)明該算法的可行性。假設(shè)現(xiàn)有一個(gè)關(guān)系數(shù)據(jù)庫(kù)中的七個(gè)屬性:Oracle數(shù)據(jù)庫(kù)學(xué)生基本信息表中有四個(gè)屬性,SQL Sever數(shù)據(jù)庫(kù)圖書(shū)借閱信息表中有三個(gè)屬性,如表1所示。 將表1中的屬性信息向量化,降至三維數(shù)據(jù)后進(jìn)行聚類(lèi),結(jié)果如圖2所示。可以看出輸入數(shù)據(jù)聚集為兩類(lèi),其中與用戶(hù)相關(guān)的信息聚集為一類(lèi),與圖書(shū)相關(guān)的信息聚集為一類(lèi)。因此基于魚(yú)群算法的語(yǔ)義聚類(lèi)算法可以很好地將輸入的數(shù)據(jù)對(duì)象按照語(yǔ)義進(jìn)行分類(lèi)。為了驗(yàn)證算法的有效性,采用聚類(lèi)準(zhǔn)確率對(duì)聚類(lèi)結(jié)果進(jìn)行分析。聚類(lèi)準(zhǔn)確率是指各個(gè)聚類(lèi)中所有被正確聚類(lèi)的樣本數(shù)的總和與樣本集樣本總數(shù)的比值[12]。聚類(lèi)準(zhǔn)確率越大表明聚類(lèi)準(zhǔn)確度高,聚類(lèi)效果好,反之聚類(lèi)效果越差。該實(shí)驗(yàn)所采用的實(shí)驗(yàn)數(shù)據(jù)樣本集是根據(jù)某單位四個(gè)信息管理系統(tǒng)所使用的數(shù)據(jù)庫(kù)的屬性信息組成,如表2所示。樣本集Ⅰ由70個(gè)數(shù)據(jù)對(duì)象組成,包含3類(lèi)4維的數(shù)據(jù)對(duì)象,其中3類(lèi)數(shù)據(jù)對(duì)象的數(shù)目分別為:25,22,23;樣本集Ⅱ由113個(gè)數(shù)據(jù)對(duì)象組成,包含6類(lèi)16維的數(shù)據(jù)對(duì)象,其中6類(lèi)數(shù)據(jù)對(duì)象的數(shù)目分別為:25,20,17,10,22,19;樣本集Ⅲ由199個(gè)數(shù)據(jù)對(duì)象組成,包含4類(lèi)7維的數(shù)據(jù)對(duì)象,其中4類(lèi)數(shù)據(jù)對(duì)象的數(shù)目分別為:43,58,47,51。 表3是上述三個(gè)樣本集的聚類(lèi)結(jié)果以及聚類(lèi)準(zhǔn)確率;表4是該算法與其他算法在樣本集Ⅲ上的比較。這說(shuō)明算法具有比較好的聚類(lèi)效果,對(duì)于異構(gòu)數(shù)據(jù)庫(kù)語(yǔ)義聚類(lèi)比較理想。
通過(guò)對(duì)人工魚(yú)群算法的局部搜索和全局搜索能力的研究,將魚(yú)群算法應(yīng)用在異構(gòu)數(shù)據(jù)庫(kù)語(yǔ)義聚類(lèi)方面。通過(guò)模仿魚(yú)群的社會(huì)行為來(lái)對(duì)異構(gòu)數(shù)據(jù)庫(kù)相似語(yǔ)義進(jìn)行合理的聚類(lèi)。實(shí)驗(yàn)證明該方法達(dá)到了較好的聚類(lèi)結(jié)果,在正確率方面取得了較好的結(jié)果,具有一定的實(shí)用價(jià)值。(本文作者:朱新寧、馮輝 單位:東北石油大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院、東北石油大學(xué)經(jīng)濟(jì)管理學(xué))