python聚類分析,python 關聯分析算法的包_Python 極簡關聯分析(購物籃分析)

 2023-10-15 阅读 28 评论 0

摘要:關聯分析,也稱購物籃分析,本文目的:基于訂單表,用最少的python代碼完成數據整合及關聯分析文中所用數據下載地址:使用Python Anaconda集成數據分析環境,下載mlxtend機器學習包。包挺好,文檔不太完善。閑話少說,開始吧

關聯分析,也稱購物籃分析,本文目的:

基于訂單表,用最少的python代碼完成數據整合及關聯分析

文中所用數據下載地址:

使用Python Anaconda集成數據分析環境,下載mlxtend機器學習包。包挺好,文檔不太完善。

閑話少說,開始吧:

python聚類分析。Step 1. 載入包

import pandas as pd

from mlxtend.frequent_patterns import apriori

from mlxtend.frequent_patterns import association_rules

Step 2. 讀取原始數據包

df = pd.read_excel('./Online Retail.xlsx')

python 排序?df.head()

image.png

Step 3. 數據預處理——選定樣本

df['Description'] = df['Description'].str.strip()

df.dropna(axis=0, subset=['InvoiceNo'], inplace=True)

df['InvoiceNo'] = df['InvoiceNo'].astype('str')

python算法詳解、df = df[~df['InvoiceNo'].str.contains('C')]

描述Description字段去除首尾空格,刪除發票ID"InvoiceNo"為空的數據記錄,將發票ID"InvoiceNo"字段轉為字符型,刪除發票ID"InvoiceNo"不包含“C”的記錄

Step 4. 數據預處理——處理為購物籃數據集

方法一:使用pivot_table函數

import numpy as np

basket = df[df['Country'] =="France"].pivot_table(columns = "Description",index="InvoiceNo",

python爬蟲教程,values="Quantity",aggfunc=np.sum).fillna(0)

basket.head(20)

方法二:groupby后unstack

basket2 = (df[df['Country'] =="Germany"]

.groupby(['InvoiceNo', 'Description'])['Quantity']

.sum().unstack().reset_index().fillna(0)

python 類?.set_index('InvoiceNo'))

basket選擇法國地區數據,basket2為德國地區數據,不要忘記fillna(0),將空值轉為0,算法包需要。

用到的都是pandas數據整合基礎功能,參考網址:

http://pandas.pydata.org/pandas-docs/stable/10min.html

整合后數據差不多長這樣:

image.png

python sort函數?列名為商品名稱,每一行為一個訂單。

Step 5. 將購物數量轉為0/1變量

0:此訂單未購買包含列名

1:此訂單購買了列名商品

def encode_units(x):

if x <= 0:

python數據結構、return 0

if x >= 1:

return 1

basket_sets = basket.applymap(encode_units)

basket_sets.drop('POSTAGE', inplace=True, axis=1)

使用dataframe的applymap函數,將encode_units在basket中的每個單元格執行并返回

python文本關聯分析、刪除購物籃中的郵費項(POSTAGE)

Step 6. 使用算法包進行關聯規則運算

frequent_itemsets = apriori(basket_sets2, min_support=0.05, use_colnames=True)

rules = association_rules(frequent_itemsets, metric="lift", min_threshold=1)

frequent_itemsets 為頻繁項集:

image.png

python輸入框、Support列為支持度,即 項集發生頻率/總訂單量

rules為最終關聯規則結果表:

image.png

antecedants前項集,consequents后項集,support支持度,confidence置信度,lift提升度。

Final Step. 結果檢視

rules[ (rules['lift'] >= 6) &

Python數據分析包、(rules['confidence'] >= 0.8) ]\

.sort_values("lift",ascending = False)

選取置信度(confidence)大于0.8且提升度(lift)大于5的規則,按lift降序排序

image.png

結論參考理論知識,自行解讀 :)

歡迎交流,謝謝。

版权声明:本站所有资料均为网友推荐收集整理而来,仅供学习和研究交流使用。

原文链接:https://hbdhgg.com/1/137879.html

发表评论:

本站为非赢利网站,部分文章来源或改编自互联网及其他公众平台,主要目的在于分享信息,版权归原作者所有,内容仅供读者参考,如有侵权请联系我们删除!

Copyright © 2022 匯編語言學習筆記 Inc. 保留所有权利。

底部版权信息