前言:想要寫出一篇引人入勝的文章?我們特意為您整理了提升音樂推薦系統(tǒng)性能構(gòu)想探討范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:本文從用戶的聽歌數(shù)據(jù)入手,通過數(shù)據(jù)預(yù)處理技術(shù)提取相關(guān)特征,利用FP-tree算法得到歌曲之間的關(guān)聯(lián)規(guī)則;在此基礎(chǔ)上,利用DBSCAN聚類算法將歌曲根據(jù)其本身屬性進(jìn)行聚類,找到同類歌曲。最終把兩者有機(jī)結(jié)合,互相補(bǔ)充,使新的推薦系統(tǒng)發(fā)揮更加理想的功能。
關(guān)鍵詞:歌曲;FP-tree;關(guān)聯(lián)規(guī)則;聚類;推薦系統(tǒng);DBSCAN
一、推薦系統(tǒng)簡介
談起推薦系統(tǒng)首先要從個性化推薦談起。個性化推薦是根據(jù)用戶的興趣特點和購買行為,向用戶推薦其感興趣的商品和服務(wù)。隨著電子商務(wù)規(guī)模迅速擴(kuò)大,商品數(shù)量和種類急速增長,顧客需要花費大量時間才能找到自己想買的商品。這種瀏覽大量無關(guān)信息和產(chǎn)品的過程會給用戶帶來極大的不便,從而導(dǎo)致消費者不斷流失。為了解決這些問題,個性化推薦系統(tǒng)應(yīng)運而生。本文主要研究大數(shù)據(jù)在音樂推薦系統(tǒng)中的應(yīng)用。通過一些挖掘算法,發(fā)現(xiàn)數(shù)據(jù)之間的相關(guān)性,預(yù)測用戶喜歡的歌曲類別以及更加具體的特點構(gòu)建用戶畫像,快速準(zhǔn)確推測使用者的喜好,及時為用戶推薦更多感興趣的信息、數(shù)據(jù)及鏈接,以達(dá)到方便用戶吸引消費者的目的。
(一)推薦系統(tǒng)現(xiàn)狀和弊端
現(xiàn)在商業(yè)智能平臺上信息量呈爆炸式發(fā)展,但數(shù)據(jù)本身所具有的規(guī)模巨大和不穩(wěn)定性,對人們?nèi)绾螠?zhǔn)確迅速提取出有價值的信息,仍具有不可忽視的制約作用。比如,實際上喜歡聽流行歌曲的用戶,因參與合唱活動反復(fù)聽了一些經(jīng)典革命歌曲,使軟件在他結(jié)束合唱活動后,仍然繼續(xù)推薦大量經(jīng)典老歌,導(dǎo)致出現(xiàn)不符合用戶需求的情況。這就是由于推薦系統(tǒng)數(shù)據(jù)處理系統(tǒng)過于僵化造成的不良后果。所以,推薦系統(tǒng)還有很多方面的技術(shù)需要優(yōu)化升級。
(二)優(yōu)化升級推進(jìn)系統(tǒng)的創(chuàng)新點
在設(shè)計推薦系統(tǒng)過程中,如果強(qiáng)化數(shù)據(jù)預(yù)處理技術(shù),并采用關(guān)聯(lián)規(guī)則與聚類算法相結(jié)合的方法,則會盡最大可能地避免推薦系統(tǒng)僵化的問題。1、強(qiáng)化優(yōu)化數(shù)據(jù)預(yù)處理功能。在用戶選擇的歌曲中,并非都是用戶所喜愛的,所以,需要將數(shù)據(jù)先進(jìn)行簡單處理。在用戶選擇過的歌曲中,將播放時間短于總歌曲時長60%的歌曲剔除;2、采用關(guān)聯(lián)規(guī)則與聚類算法相結(jié)合的方法。聽歌是一種較為個性的行為,單使用關(guān)聯(lián)規(guī)則推薦,會導(dǎo)致推薦范圍過于寬泛,沒有針對性;單使用同屬性歌曲推薦,會使用戶永遠(yuǎn)無法嘗試新的歌曲,無法了解與自己類似愛好用戶的選擇。所以把兩者有機(jī)結(jié)合,互相補(bǔ)充,才能使新的推薦系統(tǒng)發(fā)揮更加理想的功能。使用關(guān)聯(lián)規(guī)則是從每一位用戶出發(fā),挖掘聽了“a”歌曲的人同時聽的其它相關(guān)歌曲,形成“a”的關(guān)聯(lián)規(guī)則。這樣就可以在后續(xù)推薦中,為聽了“a”歌曲的人推薦與“a”相關(guān)的其他歌曲。使用聚類算法是對歌曲的各項屬性進(jìn)行區(qū)別。各項屬性包括節(jié)奏、發(fā)行時間、語言和情感等。在實際情況中,用戶的喜好都是獨特的,不能單純的依靠其他用戶的選擇來推測,這樣就可以做到,為聽過“a”歌曲的用戶推薦與其屬于同一類別的歌曲。
二、實際應(yīng)用
(一)關(guān)聯(lián)規(guī)則FP-tree的應(yīng)用
在進(jìn)行關(guān)聯(lián)規(guī)則分析時,以每個用戶在一個時間段的聽歌情況為一個元組。值得注意的是,用戶點擊的歌曲并非都是他喜歡的,首先需要對其進(jìn)行預(yù)處理,把用戶聽了一小部分就直接跳過的歌曲直接清除,進(jìn)而排除異常值對最終結(jié)果的影響。首先,設(shè)定最小支持度閾值為50%,最小置信度閾值為75%,將每一位用戶的每一首歌按照遞減的支持度排序,并構(gòu)造FP-tree。從樹根處的節(jié)點向上尋找路徑,挖掘頻繁項集。例如,從h處向上的路徑只有一條且支持度小于最小支持度閾值,所以沒有包含歌曲h的頻繁項集。在歌曲h挖掘完成后對其它歌曲用此方式挖掘FP-tree。從d向上兩條路徑中發(fā)現(xiàn){c,d}支持度為50%和在歌曲c中置信度75%,滿足條件。從歌曲c向上尋找路徑,可發(fā)現(xiàn){a,c}也為頻繁項集,支持度為75%,歌曲c中置信度為75%。通過FP-tree算法,我們得到頻繁項集{a,d},{a,c}。
(二)DBSCAN聚類算法的應(yīng)用
第二組數(shù)據(jù)是以一首歌為元組,包括歌曲的各個量化的自身屬性。用DBSCAN算法,每一個點代表一首歌,使數(shù)據(jù)聚類成簇,對歌曲進(jìn)行分組。在實際情況中,一首歌曲的屬性多種多樣,有節(jié)奏快慢、發(fā)行時間、傳達(dá)的情緒等等,每一個屬性決定著一個維度,他們構(gòu)成多維數(shù)據(jù)。屬性種類越廣泛,越齊全,得到的結(jié)果也將越精確。本次實驗將其簡化為二維,僅用節(jié)奏快慢和發(fā)行時間的數(shù)據(jù)進(jìn)行聚類。這兩類數(shù)據(jù)在去除單位后的數(shù)值上有差異,并不方便進(jìn)行比較和處理。因此,要把數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。通過該聚類算法得到歌曲分類為{a,c,g,h}、{b,d},其中,{f},{e}可算作噪聲點。
(三)兩類算法結(jié)果綜合分析的應(yīng)用
假設(shè)用戶聽了歌曲c,要對該用戶推薦歌曲,綜合結(jié)果如下:從上面兩種方法中得到的兩個關(guān)于c的結(jié)果,分別是關(guān)聯(lián)規(guī)則{a,c}和同類歌曲{a,c,g,h},再將兩個集合取并集,根據(jù)受歡迎程度(本次只按照點擊量表示)將歌曲分別排序,推薦并集內(nèi)熱度高的歌曲。
三、音樂推薦系統(tǒng)拓展延伸
(一)音樂社交
音樂推薦系統(tǒng)與音樂交流平臺相結(jié)合。把音樂推薦軟件可以搭建在音樂交流平臺上,讓獲得相同或類似推薦的用戶參與交流和分享,讓最受青睞的歌曲及時得到分享,最大限度地發(fā)揮音樂推薦系統(tǒng)的作用。
(二)音樂與天氣
音樂推薦與地域天氣相結(jié)合。使喜歡關(guān)注天氣預(yù)報的人,能方便的看到自己喜歡的音樂歌曲,使喜歡歌曲的人也能隨時觀察到他需要的天氣情況。天氣也是影響用戶聽歌的重要因素,把歌曲的特點與天氣影響人們情緒變化規(guī)律的特點恰當(dāng)?shù)亟Y(jié)合起來,在推薦歌曲時,根據(jù)該地區(qū)的天氣預(yù)報選擇歌曲。例如,在下雨天推薦舒緩溫柔的歌曲,天氣晴朗時推薦活潑歡快的歌曲,在炎熱的夏天推薦清爽宜人的音樂歌曲。
四、結(jié)束語
推薦系統(tǒng)作為大數(shù)據(jù)的重要應(yīng)用正在日新月異地發(fā)展創(chuàng)新,推薦系統(tǒng)可以由點到線,再由線拓展到面,繼續(xù)呈扇面擴(kuò)展開來,進(jìn)而形成功能巨大的發(fā)散型推薦系統(tǒng),使其信息數(shù)據(jù)和服務(wù)范圍涵蓋音樂、圖書、影視、日常百貨以及所有商品,為用戶提供越來越全面、推薦更加精準(zhǔn)化人性化的服務(wù),實現(xiàn)企業(yè)商家效益最大化的目的。
參考文獻(xiàn):
[1]JiaweiHan,MichelineKamber,JianPei數(shù)據(jù)挖掘概念與技術(shù),機(jī)械工業(yè)出版社
[2]張良均,楊坦等,《MATLAB數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》,北京:機(jī)械工業(yè)出版社,2015年6月
[3]周英,卓金武等,《大數(shù)據(jù)挖掘系統(tǒng)方法與實例分析》,北京:機(jī)械工業(yè)出版社,2016年4月
作者:楊雯珺 單位:山東省實驗中學(xué)