來(lái)源:幼教網(wǎng) 2018-07-17 15:22:52
摘要:本文從用戶(hù)的聽(tīng)歌數(shù)據(jù)入手,通過(guò)數(shù)據(jù)預(yù)處理技術(shù)提取相關(guān)特征,利用FP-tree算法得到歌曲之間的關(guān)聯(lián)規(guī)則;在此基礎(chǔ)上,利用DBSCAN聚類(lèi)算法將歌曲根據(jù)其本身屬性進(jìn)行聚類(lèi),找到同類(lèi)歌曲。最終把兩者有機(jī)結(jié)合,互相補(bǔ)充,使新的推薦系統(tǒng)發(fā)揮更加理想的功能。
關(guān)鍵詞:歌曲;FP-tree;關(guān)聯(lián)規(guī)則;聚類(lèi);推薦系統(tǒng);DBSCAN
一、推薦系統(tǒng)簡(jiǎn)介
談起推薦系統(tǒng)首先要從個(gè)性化推薦談起。個(gè)性化推薦是根據(jù)用戶(hù)的興趣特點(diǎn)和購(gòu)買(mǎi)行為,向用戶(hù)推薦其感興趣的商品和服務(wù)。隨著電子商務(wù)規(guī)模迅速擴(kuò)大,商品數(shù)量和種類(lèi)急速增長(zhǎng),顧客需要花費(fèi)大量時(shí)間才能找到自己想買(mǎi)的商品。這種瀏覽大量無(wú)關(guān)信息和產(chǎn)品的過(guò)程會(huì)給用戶(hù)帶來(lái)極大的不便,從而導(dǎo)致消費(fèi)者不斷流失。為了解決這些問(wèn)題,個(gè)性化推薦系統(tǒng)應(yīng)運(yùn)而生。本文主要研究大數(shù)據(jù)在音樂(lè)推薦系統(tǒng)中的應(yīng)用。通過(guò)一些挖掘算法,發(fā)現(xiàn)數(shù)據(jù)之間的相關(guān)性,預(yù)測(cè)用戶(hù)喜歡的歌曲類(lèi)別以及更加具體的特點(diǎn)構(gòu)建用戶(hù)畫(huà)像,快速準(zhǔn)確推測(cè)使用者的喜好,及時(shí)為用戶(hù)推薦更多感興趣的信息、數(shù)據(jù)及鏈接,以達(dá)到方便用戶(hù)吸引消費(fèi)者的目的。
。ㄒ唬┩扑]系統(tǒng)現(xiàn)狀和弊端
現(xiàn)在商業(yè)智能平臺(tái)上信息量呈爆炸式發(fā)展,但數(shù)據(jù)本身所具有的規(guī)模巨大和不穩(wěn)定性,對(duì)人們?nèi)绾螠?zhǔn)確迅速提取出有價(jià)值的信息,仍具有不可忽視的制約作用。比如,實(shí)際上喜歡聽(tīng)流行歌曲的用戶(hù),因參與合唱活動(dòng)反復(fù)聽(tīng)了一些經(jīng)典革命歌曲,使軟件在他結(jié)束合唱活動(dòng)后,仍然繼續(xù)推薦大量經(jīng)典老歌,導(dǎo)致出現(xiàn)不符合用戶(hù)需求的情況。這就是由于推薦系統(tǒng)數(shù)據(jù)處理系統(tǒng)過(guò)于僵化造成的不良后果。所以,推薦系統(tǒng)還有很多方面的技術(shù)需要優(yōu)化升級(jí)。
。ǘ﹥(yōu)化升級(jí)推進(jìn)系統(tǒng)的創(chuàng)新點(diǎn)
在設(shè)計(jì)推薦系統(tǒng)過(guò)程中,如果強(qiáng)化數(shù)據(jù)預(yù)處理技術(shù),并采用關(guān)聯(lián)規(guī)則與聚類(lèi)算法相結(jié)合的方法,則會(huì)盡最大可能地避免推薦系統(tǒng)僵化的問(wèn)題。1、強(qiáng)化優(yōu)化數(shù)據(jù)預(yù)處理功能。在用戶(hù)選擇的歌曲中,并非都是用戶(hù)所喜愛(ài)的,所以,需要將數(shù)據(jù)先進(jìn)行簡(jiǎn)單處理。在用戶(hù)選擇過(guò)的歌曲中,將播放時(shí)間短于總歌曲時(shí)長(zhǎng)60%的歌曲剔除;2、采用關(guān)聯(lián)規(guī)則與聚類(lèi)算法相結(jié)合的方法。聽(tīng)歌是一種較為個(gè)性的行為,單使用關(guān)聯(lián)規(guī)則推薦,會(huì)導(dǎo)致推薦范圍過(guò)于寬泛,沒(méi)有針對(duì)性;單使用同屬性歌曲推薦,會(huì)使用戶(hù)永遠(yuǎn)無(wú)法嘗試新的歌曲,無(wú)法了解與自己類(lèi)似愛(ài)好用戶(hù)的選擇。所以把兩者有機(jī)結(jié)合,互相補(bǔ)充,才能使新的推薦系統(tǒng)發(fā)揮更加理想的功能。使用關(guān)聯(lián)規(guī)則是從每一位用戶(hù)出發(fā),挖掘聽(tīng)了“a”歌曲的人同時(shí)聽(tīng)的其它相關(guān)歌曲,形成“a”的關(guān)聯(lián)規(guī)則。這樣就可以在后續(xù)推薦中,為聽(tīng)了“a”歌曲的人推薦與“a”相關(guān)的其他歌曲。使用聚類(lèi)算法是對(duì)歌曲的各項(xiàng)屬性進(jìn)行區(qū)別。各項(xiàng)屬性包括節(jié)奏、發(fā)行時(shí)間、語(yǔ)言和情感等。在實(shí)際情況中,用戶(hù)的喜好都是獨(dú)特的,不能單純的依靠其他用戶(hù)的選擇來(lái)推測(cè),這樣就可以做到,為聽(tīng)過(guò)“a”歌曲的用戶(hù)推薦與其屬于同一類(lèi)別的歌曲。
二、實(shí)際應(yīng)用
。ㄒ唬╆P(guān)聯(lián)規(guī)則FP-tree的應(yīng)用
在進(jìn)行關(guān)聯(lián)規(guī)則分析時(shí),以每個(gè)用戶(hù)在一個(gè)時(shí)間段的聽(tīng)歌情況為一個(gè)元組。值得注意的是,用戶(hù)點(diǎn)擊的歌曲并非都是他喜歡的,首先需要對(duì)其進(jìn)行預(yù)處理,把用戶(hù)聽(tīng)了一小部分就直接跳過(guò)的歌曲直接清除,進(jìn)而排除異常值對(duì)最終結(jié)果的影響。首先,設(shè)定最小支持度閾值為50%,最小置信度閾值為75%,將每一位用戶(hù)的每一首歌按照遞減的支持度排序,并構(gòu)造FP-tree。從樹(shù)根處的節(jié)點(diǎn)向上尋找路徑,挖掘頻繁項(xiàng)集。例如,從h處向上的路徑只有一條且支持度小于最小支持度閾值,所以沒(méi)有包含歌曲h的頻繁項(xiàng)集。在歌曲h挖掘完成后對(duì)其它歌曲用此方式挖掘FP-tree。從d向上兩條路徑中發(fā)現(xiàn){c,d}支持度為50%和在歌曲c中置信度75%,滿(mǎn)足條件。從歌曲c向上尋找路徑,可發(fā)現(xiàn){a,c}也為頻繁項(xiàng)集,支持度為75%,歌曲c中置信度為75%。通過(guò)FP-tree算法,我們得到頻繁項(xiàng)集{a,d},{a,c}。
相關(guān)推薦:
小升初試題、期中期末題、小學(xué)奧數(shù)題
盡在奧數(shù)網(wǎng)公眾號(hào)
歡迎使用手機(jī)、平板等移動(dòng)設(shè)備訪(fǎng)問(wèn)幼教網(wǎng),幼兒教育我們一路陪伴同行!>>點(diǎn)擊查看