正文

關聯(lián)規(guī)則算法原理（關聯(lián)規(guī)則算法原理圖）

發(fā)布時間：2023-04-14 02:19:56 稿源：創(chuàng)意嶺閱讀： 133

大家好！今天讓創(chuàng)意嶺的小編來大家介紹下關于關聯(lián)規(guī)則算法原理的問題，以下是小編對此問題的歸納整理，讓我們一起來看看吧。

開始之前先推薦一個非常厲害的Ai人工智能工具，一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

只需要輸入關鍵詞，就能返回你想要的內(nèi)容，越精準，寫出的就越詳細，有微信小程序端、在線網(wǎng)頁版、PC客戶端

官網(wǎng)：https://ai.de1919.com。

創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè)，服務客戶遍布全球各地，如需了解SEO相關業(yè)務請撥打電話175-8598-2043，或添加微信：1454722008

本文目錄:

1、apriori關聯(lián)規(guī)則算法
2、利用關聯(lián)規(guī)則實現(xiàn)推薦算法
3、關聯(lián)規(guī)則算法的關聯(lián)規(guī)則的定義
4、apriori算法是什么？

關聯(lián)規(guī)則算法原理（關聯(lián)規(guī)則算法原理圖）

一、apriori關聯(lián)規(guī)則算法

解釋如下：

Apriori是基于廣度優(yōu)先的關聯(lián)規(guī)則算法，即從頻繁1項集開始，采用頻繁k項集搜索頻繁k+1項集，直到不能找到包含更多項的頻繁項集為止。

二、利用關聯(lián)規(guī)則實現(xiàn)推薦算法

關聯(lián)規(guī)則是以規(guī)則的方式呈現(xiàn)項目之間的相關性：關聯(lián)規(guī)則(Association Rules)是反映一個事物與其他事物之間的相互依存性和關聯(lián)性，是數(shù)據(jù)挖掘的一個重要技術，用于從大量數(shù)據(jù)中挖掘出有價值的數(shù)據(jù)項之間的相關關系。

關聯(lián)規(guī)則的經(jīng)典例子是通過發(fā)現(xiàn)顧客放入其購物籃中的不同商品之間的聯(lián)系，可分析顧客的購買習慣。通過了解哪些商品頻繁地被顧客同時購買，可以幫助零售商制定營銷策略。在醫(yī)學方面，研究人員希望能夠從已有的成千上萬份病歷中找到患某種疾病的病人的共同特征，尋找出更好的預防措施。

它是一種購物車的分析方法，用于揭示產(chǎn)品之間的關聯(lián)關系。

他有三個簡單的公式：

Support(X, Y) = Freq(X, Y) / N ：它表示 X 和 Y 一起出現(xiàn)的概率。它是 X 和 Y 一起出現(xiàn)的頻率除以 N。

Confidence(X, Y) = Freq(X, Y) / Freq(X) ：表示購買產(chǎn)品X時購買產(chǎn)品Y的概率。X 和 Y 一起出現(xiàn)的頻率除以 X 出現(xiàn)的頻率。

Lift = Support(X, Y) / (Support(x) * Support (Y)) ：當購買X時，購買Y的概率增加了lift的倍數(shù)。X 和 Y 一起出現(xiàn)的概率是 X 和 Y 分別出現(xiàn)的概率的乘積。它陳述了一個表達式，例如當我們購買一種產(chǎn)品時，購買另一種產(chǎn)品的概率會增加多少倍。

下面我們將使用Apriori Algorithm向用戶推薦相應的產(chǎn)品

這里我們使用的數(shù)據(jù)集是online retail II dataset

我們使用這個函數(shù)來確定數(shù)據(jù)的閾值。

下面這個函用閾值替換了異常值。

第三個函數(shù)中我們從數(shù)據(jù)中提取包含“C”的值?！癈”表示退回的物品。要計算總價，變量數(shù)量和價格必須大于零。在這個函數(shù)中還調(diào)用了 Outlier 和 Threshold 函數(shù)。

數(shù)據(jù)集中的收據(jù)（Invoice）包含了產(chǎn)品的購買，所以我們先處理這個

根據(jù) Invoice 和 Description，我們通過 groupby 計算 Quantities，可以計算產(chǎn)品的數(shù)量。

我們使用 unstack 來避免重復的索引，使用 iloc 來顯示前 5 個觀察結果。如果產(chǎn)品不在收據(jù)中，則使用NA 表示。

進行獨熱編碼。把 NA 的地方寫 0。

如果發(fā)票中的產(chǎn)品數(shù)量大于0，我們就寫1，如果小于0或0，我們就寫0。用apply對行或列進行操作。這里將通過應用 applymap 并執(zhí)行操作來遍歷所有單元格。

我們創(chuàng)建了一個名為 create_invoice_df 的函數(shù)。如果想根據(jù)id變量搜索并得到結果，它會根據(jù)stockcode進行與上述相同的操作。如果我們輸入的id為False，它會根據(jù)Description執(zhí)行上面的操作。

通過將我們用 Apriori 找到的Support插入到 association_rules 函數(shù)中，找到一些其他的統(tǒng)計數(shù)據(jù)，例如置信度和提升度。

POST產(chǎn)品和編號為22326的產(chǎn)品同時出現(xiàn)的概率為0.225383。被一起買的概率是0.275401。同時購買這兩種產(chǎn)品的概率增加為1.123735。

數(shù)據(jù)集地址： https://archive.ics.uci.edu/ml/datasets/Online+Retail+II

原文地址： https://www.overfit.cn/post/2f372e4dc8254fd3bd5ceb6e20aaa75d

三、關聯(lián)規(guī)則算法的關聯(lián)規(guī)則的定義

所謂關聯(lián)，反映的是一個事件和其他事件之間依賴或關聯(lián)的知識。當我們查找英文文獻的時候，可以發(fā)現(xiàn)有兩個英文詞都能形容關聯(lián)的含義。第一個是相關性relevance，第二個是關聯(lián)性association，兩者都可以用來描述事件之間的關聯(lián)程度。

設I={i1,i2…,im}為所有項目的集合，設A是一個由項目構成的集合，稱為項集。事務T是一個項目子集,每一個事務具有唯一的事務標識Tid。事務T包含項集A，當且僅當AT。如果項集A中包含k個項目，則稱其為k項集。D為事務數(shù)據(jù)庫，項集A在事務數(shù)據(jù)庫D中出現(xiàn)的次數(shù)占D中總事務的百分比叫做項集的支持度（support）。如果項集的支持度超過用戶給定的最小支持度閾值，就稱該項集是頻繁項集（或大項集）。

關聯(lián)規(guī)則就是形如XY的邏輯蘊含關系，其中XI，YI且XY=Φ，X稱作規(guī)則的前件，Y是結果，對于關聯(lián)規(guī)則XY，存在支持度和信任度。

支持度是指規(guī)則中所出現(xiàn)模式的頻率，如果事務數(shù)據(jù)庫有s%的事務包含XY，則稱關聯(lián)規(guī)則XY在D中的支持度為s%，實際上，可以表示為概率P（XY），即support（XY）= P（XY）。信任度是指蘊含的強度，即事務D中c%的包含X的交易同時包含XY。若X的支持度是support(x)，規(guī)則的信任度為即為：support(XY)/support(X)，這是一個條件概率P（Y|X），即confidence（XY）= P（Y|X）。

關聯(lián)規(guī)則算法原理（關聯(lián)規(guī)則算法原理圖）

四、apriori算法是什么？

經(jīng)典的關聯(lián)規(guī)則挖掘算法包括Apriori算法和FP-growth算法。

apriori算法多次掃描交易數(shù)據(jù)庫，每次利用候選頻繁集產(chǎn)生頻繁集；而FP-growth則利用樹形結構，無需產(chǎn)生候選頻繁集而是直接得到頻繁集，大大減少掃描交易數(shù)據(jù)庫的次數(shù)，從而提高了算法的效率，但是apriori的算法擴展性較好，可以用于并行計算等領域。

關聯(lián)規(guī)則算法原理（關聯(lián)規(guī)則算法原理圖）