請輸入產(chǎn)品關(guān)鍵字:
過濾方式的分析計(jì)論
點(diǎn)擊次數(shù):869 發(fā)布時間:2015-9-10
隨著Internet的發(fā)展和電子商務(wù)的應(yīng)用,網(wǎng)上已出現(xiàn)信息過載的現(xiàn)象,于是產(chǎn)生了協(xié)同過濾技術(shù)的個性化推薦系統(tǒng)。傳統(tǒng)推薦系統(tǒng)的基本思想是基于評分相似的zui近用戶鄰居的評分?jǐn)?shù)據(jù)向目標(biāo)用戶產(chǎn)生推薦。盡管傳統(tǒng)的推薦系統(tǒng)是當(dāng)前使用zui成功的技術(shù),但它也有許多不足之處?;陧?xiàng)目協(xié)同過濾算法的提出雖然避免了傳統(tǒng)的協(xié)同過濾算法計(jì)算用戶之間相似性的瓶頸,但依然存在一些缺陷。關(guān)鍵性問題是:每個用戶一般都只對很少的項(xiàng)目感興趣,整個用戶評分?jǐn)?shù)據(jù)非常稀疏,這就導(dǎo)致用戶之間的相似性不準(zhǔn)確,產(chǎn)生的zui鄰近的鄰居用戶不可靠;難以推薦或預(yù)測一個新項(xiàng)目。該文提出了一種基于語義相似性的項(xiàng)目協(xié)同過濾算法,該方法將基于用戶平分計(jì)算項(xiàng)目的相似性與語義相似性組合,能很好地解決上述問題。
1基于項(xiàng)目的協(xié)同過濾算法基于項(xiàng)目的協(xié)同過濾推薦根據(jù)用戶對相似項(xiàng)目的評分預(yù)測該用戶對目標(biāo)項(xiàng)目的評分,基于該假設(shè):如果大部分用戶對一些項(xiàng)目的評分比較相似,則當(dāng)前用戶對這些項(xiàng)目的評分也比較相似。基于項(xiàng)目的協(xié)同過濾推薦系統(tǒng)使用統(tǒng)計(jì)技術(shù)找到目標(biāo)項(xiàng)目的若干zui近鄰居,由于當(dāng)前用戶對zui近鄰居的評分與對目標(biāo)項(xiàng)目的評分比較類似,可以根據(jù)當(dāng)前用戶對zui近鄰居的評分預(yù)測當(dāng)前用戶對目標(biāo)項(xiàng)目的評分,產(chǎn)生對應(yīng)的推薦列表。
1)項(xiàng)目相似性計(jì)算在基于項(xiàng)目協(xié)同過濾算法中,關(guān)鍵是計(jì)算項(xiàng)目之間的相似性,然后選擇zui相似的項(xiàng)目?,F(xiàn)在有許多不同的計(jì)算項(xiàng)目之間的相似性的方法,例如:余弦相似性、相關(guān)相似性、修正的余弦相似性,下面介紹修正的余弦相似性的方法。
修正的余弦相似性:設(shè)S(i,j)表示資源i與資源j之間的相似性,項(xiàng)目i和項(xiàng)目j共同評過分的用戶集合用U表示,則項(xiàng)目i和項(xiàng)目j之間的相似性S(i,j)為S(i,j)=∑C∈U(RC,i-RC)(RC,j-RC)∑C∈U(RC,i-RC)2∑C∈U(RC,j-RC)2(1)RC,i表示用戶C對項(xiàng)目i的評分,RC表示用戶C對項(xiàng)目的平均評分。
2)預(yù)測計(jì)算在計(jì)算項(xiàng)目之間的相似性之后,要選擇k個與目標(biāo)項(xiàng)目zui相似的項(xiàng)目,并產(chǎn)生目標(biāo)項(xiàng)目的預(yù)測值。采用相似資源評價的權(quán)重組合方法,生成用戶對目標(biāo)資源的預(yù)測評價值。其計(jì)算式為Pa,i=∑kj=1(Pa,j×S(i,j))/∑kj=1S(i,j)(2)Pa,j表示用戶a對目標(biāo)項(xiàng)目j的預(yù)測值,這里僅有k個預(yù)測值產(chǎn)生。
3)基于項(xiàng)目的協(xié)同過濾算法不足基于項(xiàng)目的協(xié)同過濾算法通過計(jì)算項(xiàng)目之間的相似性,選擇與目標(biāo)項(xiàng)目的zui近鄰居集合,避免了計(jì)算用戶之間相似性的瓶頸,該算法比基于用戶協(xié)同過濾算法的擴(kuò)展性強(qiáng),度高。但還是存在數(shù)據(jù)稀疏性和新項(xiàng)目預(yù)測的問題。為了解決這2個問題,將采用基于語義相似性過濾算法。在算法中,從網(wǎng)頁中自動地抽取結(jié)構(gòu)化的項(xiàng)目語義知識,并結(jié)合項(xiàng)目評分組合一種新的項(xiàng)目相似性方法。
2基于本體的語義相似性的協(xié)同過濾算法在協(xié)同過濾處理過程中,為了獲取項(xiàng)目的語義信息,必須從多個網(wǎng)頁或中抽取具有概念層次的結(jié)構(gòu)化對象作為語義實(shí)體。但現(xiàn)在的網(wǎng)絡(luò),其信息存儲為靜態(tài)HTML頁面,用于表達(dá)Web頁面信息的HTML標(biāo)記語言存在著缺點(diǎn):HTML語言的標(biāo)記(tag)只是告訴瀏覽器如何顯示它所定義的信息,卻不包含語義信息。針對這個問題引入了本體技術(shù)。
1)本體與本體的學(xué)習(xí)一個本體提供了定義好的重要概念以及概念之間的語義關(guān)系的結(jié)構(gòu),目標(biāo)是捕獲相關(guān)領(lǐng)域的知識,提供對該領(lǐng)域知識的共同理解,確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯,并從不同層次的形式化模式上給出這些詞匯(術(shù)語)和詞匯之間相互關(guān)系的明確定義。在特定的領(lǐng)域里,這樣一個結(jié)構(gòu)建立了很好的層次知識,對于一個,領(lǐng)域本體一般包括概念、概念之間的關(guān)系以及存在于表示的領(lǐng)域概念之間的關(guān)系。為了從網(wǎng)頁或中抽取項(xiàng)目的語義信息,首要任務(wù)是建立一個特定領(lǐng)域本體。對于簡單的,領(lǐng)域本體可能很容易手工建立或從內(nèi)容半自動化獲取。然而,對于大型,建造本體(特別是通用目的本體)是費(fèi)時費(fèi)力的過程,手工建立本體是一項(xiàng)艱巨的任務(wù),希望能自動化地獲取領(lǐng)域本體。提出了TextToOnto系統(tǒng)和OntoLearn系統(tǒng)。綜合起來,提出了一個本體學(xué)習(xí)的框架。
2)基于本體的抽取項(xiàng)目語義信息建立了領(lǐng)域本體后,利用領(lǐng)域本體抽取項(xiàng)目的語義信息。在此方法中,使用特定領(lǐng)域包裝器代理結(jié)合領(lǐng)域本體抽取項(xiàng)目的語義信息。特定領(lǐng)域包裝器使用文本挖掘和啟發(fā)式規(guī)則從基于領(lǐng)域本體的抽取項(xiàng)目的語義信息。目前,不使用本體表示語言,如OWL,把本體中的類和類之間的關(guān)系看作一種關(guān)系數(shù)據(jù)庫。特定領(lǐng)域包裝器代理使用類的關(guān)系語法和基于文本線索的啟發(fā)式規(guī)則抽取類的實(shí)例和屬性,建立一個特定領(lǐng)域的語義分類樹。以一個銷售書籍為例,從書籍抽取出來的參考本體。從書籍抽取出來的實(shí)體都是這些類的實(shí)例,這些實(shí)例包含了語義信息。
3)語義相似性與協(xié)同過濾集成為了方便計(jì)算項(xiàng)目語義相似性,將抽取出來的實(shí)例屬性轉(zhuǎn)換為向量表示,使用向量空間模型表示項(xiàng)目的屬性,項(xiàng)目可以表示為Ti={(t1,W1),(t2,W2),…,(ti,Wi)},其中ti是項(xiàng)目Ti的一個屬性,Wi表示屬性ti對應(yīng)于項(xiàng)目賦予的權(quán)重,描述屬性在項(xiàng)目中的重要程度。項(xiàng)目之間的相似性使用向量之間的距離度量,計(jì)算公式為S(i,j)=(∑Mk=1Wik×Wjk)/(∑Mk=1W2ik)(∑Mk=1W2jk)(3)采用TF2IDF公式計(jì)算屬性的權(quán)重值。其中ti是項(xiàng)目Tj的一個屬性。
W(ti,Tj)=tf(ti,Tj)×log(N/n1 0。01)/∑ti∈Tj[tf(ti,Tj)×log(N/n1 0。01)]2(4)其中W(ti,Tj)表示ti在項(xiàng)目Ti的權(quán)重,項(xiàng)目tf(ti,Tj)是ti在項(xiàng)目Tj中出現(xiàn)的頻率,N是項(xiàng)目總個數(shù),n1為在項(xiàng)目集中出現(xiàn)ti的數(shù)目。zui終,對于一對項(xiàng)目,可以把語義相似性與協(xié)同過濾集成,組合成一個線性方式來度量項(xiàng)目的相似性。
SInte(i,j)=αSSem(Ti,Tj) (1-α)SRat(i,j)(5)其中α(0≤α≤1)是權(quán)重參數(shù),當(dāng)α=0時,組合的相似度SInte(i,j)=SRat(i,j);α=1時,組合的相似度SInte(i,j)=SSem(i,j)。從公式(5)看出,組合相似性算法具有2個優(yōu)點(diǎn):組合相似性算法能進(jìn)一步說明用戶對特定的項(xiàng)目是否感興趣;在評分?jǐn)?shù)據(jù)稀疏或沒有評分的情況下,依然可以使用語義相似性提供合理的推薦產(chǎn)品。利用該文組合相似性算法的思想,可以得到相應(yīng)的預(yù)測評分或推薦,Pa,i是用戶對目標(biāo)項(xiàng)目的預(yù)測評分值。
Pa,i為Pa,i=∑kj=1(Pa,j×SInte(i,j))/∑kj=1SInte(i,j)(6)3結(jié)果分析1)數(shù)據(jù)集采用一個銷售書籍的數(shù)據(jù)來測試算法,比較基于語義相似性和標(biāo)準(zhǔn)的項(xiàng)目協(xié)同過濾算法。該已有1600個用戶對3000本書籍評分?jǐn)?shù)據(jù),每個用戶對每本書的評分范圍為1―5,隨機(jī)抽取4000條數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)。為了實(shí)現(xiàn)基于語義相似性算法,使用本體學(xué)習(xí)框架方法從書籍抽取出書籍本體,利用包裝器代理從基于書籍本體的網(wǎng)絡(luò)書籍?dāng)?shù)據(jù)庫中抽取書籍實(shí)例,每個實(shí)例包含語義屬性。
2)評價標(biāo)準(zhǔn)評價推薦系統(tǒng)推薦質(zhì)量的度量標(biāo)準(zhǔn)主要包括統(tǒng)計(jì)精度度量方法和決策支持精度度量方法2類。采用統(tǒng)計(jì)精度度量方法中的平均偏差MAE(meanabsoluteerror)進(jìn)行度量。平均偏差MAE通過計(jì)算預(yù)測的用戶評分與實(shí)際的用戶評分之間的偏差來度量預(yù)測的準(zhǔn)確性,MEA越小,推薦質(zhì)量越高。
假設(shè)預(yù)測的用戶評分集合表示為{p1,p2,…,pn},對應(yīng)的實(shí)際用戶評分集{t1,t2,…,tn},則平均偏差MAE定義為MAE=∑ni=1|ti-pi|/N(7)3)實(shí)驗(yàn)結(jié)果分析考慮組合相似性算法中的α權(quán)重參數(shù)對MAE的影響,在使用組合相似性算法預(yù)測時,找出*α值的范圍。實(shí)驗(yàn)的結(jié)果,由此得出結(jié)論,α的取值范圍在0。3―0。
5是*的。為了說明組合相似性算法能解決標(biāo)準(zhǔn)項(xiàng)目協(xié)同算法的2個缺點(diǎn):數(shù)據(jù)的稀疏性問題;新項(xiàng)目預(yù)測問題(冷開始問題)。做了2個實(shí)驗(yàn)比較這2種方法,2個實(shí)驗(yàn)的α取值為0。
4.顯示了在預(yù)測項(xiàng)目都已評分的情況下2種算法的平均偏差結(jié)果,可以看出,組合相似性算法使用公式(4)計(jì)算項(xiàng)目的相似性比標(biāo)準(zhǔn)項(xiàng)目協(xié)同算法使用公式(1)計(jì)算項(xiàng)目相似性更。
解釋了組合相似性算法可以解決新項(xiàng)目問題。在預(yù)測項(xiàng)目沒有評分的情況下,基于項(xiàng)目協(xié)同過濾算法使用式(1)和式(2)無法預(yù)測,但組合相似性算法利用式(4)和式(5)依然可以進(jìn)行預(yù)測。
從上述分析,通過語義相似性與標(biāo)準(zhǔn)項(xiàng)目協(xié)同算法集成,挖掘出項(xiàng)目之間的語義關(guān)系,抽取出項(xiàng)目的語義信息,不僅能很好的解決標(biāo)準(zhǔn)項(xiàng)目協(xié)同算法的項(xiàng)目評分的稀疏性問題、新項(xiàng)目預(yù)測問題以及提高推薦精度,還能進(jìn)一步解釋說明用戶對特定的項(xiàng)目是否感興趣。
4結(jié)語通過集成項(xiàng)目的結(jié)構(gòu)化語義信息計(jì)算項(xiàng)目的相似性,擴(kuò)展了基于項(xiàng)目協(xié)同的過濾算法。通過本體學(xué)習(xí)建立了特定領(lǐng)域本體,并使用特定領(lǐng)域本體從中抽取項(xiàng)目的特性和聚集類的實(shí)例。相似性測量的方法是把基于領(lǐng)域的語義相似性與基于用戶與項(xiàng)目映射的項(xiàng)目相似性組合。實(shí)驗(yàn)結(jié)果顯示了組合相似性算法的3個優(yōu)點(diǎn):1)保持了基于項(xiàng)目協(xié)同算法的計(jì)算優(yōu)勢,組合相似性算法改善了預(yù)測精度。2)對于新項(xiàng)目或未評分的項(xiàng)目,能產(chǎn)生合理地的推薦,可以減輕標(biāo)準(zhǔn)項(xiàng)目協(xié)同過濾算法帶來的新項(xiàng)目問題。3)在數(shù)據(jù)非常稀疏的情況下,提供了較高的預(yù)測質(zhì)量。
下一步工作任務(wù)是:1)將使用領(lǐng)域特征和機(jī)器學(xué)習(xí)技術(shù),實(shí)現(xiàn)自動地確定語義組合參數(shù)值。2)深入研究對語義相似性自動抽取以及度量。3)進(jìn)一步考慮領(lǐng)域本體結(jié)構(gòu)使用其他語義相似性組合方法產(chǎn)生推薦