python实现协同过滤推荐算法--688IT编程网

python实现协同过滤推荐算法

#!/usr/bin/python3

# -*- coding: utf-8 -*-

from numpy import *

import time

from texttable import Texttable

# 协同过滤推荐算法主要分为：

# 1、基于⽤户。根据相邻⽤户，预测当前⽤户没有偏好的未涉及物品，计算得到⼀个排序的物品列表进⾏推荐

# 2、基于物品。如喜欢物品A的⽤户都喜欢物品C，那么可以知道物品A与物品C的相似度很⾼，⽽⽤户C喜欢物品A，那么可以推断出⽤户C也可能喜欢物品C。# 不同的数据、不同的程序猿写出的协同过滤推荐算法不同，但其核⼼是⼀致的：

# 1、收集⽤户的偏好

# 1)不同⾏为分组

# 2)不同分组进⾏加权计算⽤户的总喜好

# 3)数据去噪和归⼀化

# 2、到相似⽤户(基于⽤户)或者物品(基于物品)

# 3、计算相似度并进⾏排序。根据相似度为⽤户进⾏推荐

# 本次实例过程：

# 1、初始化数据

# 获取movies和ratings

# 转换成数据userDict 表⽰某个⽤户的所有电影的评分集合，并对评分除以5进⾏归⼀化

# 转换成数据ItemUser 表⽰某部电影参与评分的所有⽤户集合

# 2、计算所有⽤户与userId的相似度

# 出所有观看电影与userId有交集的⽤户

# 对这些⽤户循环计算与userId的相似度

# 获取A⽤户与userId的并集。格式为:{'电影ID',[A⽤户的评分,userId的评分]}，没有评分记为0

# 计算A⽤户与userId的余弦距离，越⼤越相似

# 3、根据相似度⽣成推荐电影列表

# 4、输出推荐列表和准确率

class CF:

def__init__(self, movies, ratings, k=5, n=10):

python新手代码userid

self.ratings = ratings

# 邻居个数

self.k = k

# 推荐个数

self.n = n

# ⽤户对电影的评分

# 数据格式{'UserID：⽤户ID':[(MovieID：电影ID,Rating：⽤户对电影的评星)]}

self.userDict = {}

# 对某电影评分的⽤户

# 数据格式：{'MovieID：电影ID',[UserID：⽤户ID]}

# {'1',[1,2,3..],...}

self.ItemUser = {}

# 邻居的信息

# 推荐列表

# 基于⽤户的推荐

# 根据对电影的评分计算⽤户之间的相似度

def recommendByUser(self, userId):

self.formatRate()

# 推荐个数等于本⾝评分电影个数，⽤户计算准确率

self.n = len(self.userDict[userId])

# 获取推荐列表

def getrecommandList(self, userId):

# 建⽴推荐字典

recommandDict = {}

for neighbor ighbors:

movies = self.userDict[neighbor[1]]

for movie in movies:

if(movie[0] in recommandDict):

recommandDict[movie[0]] += neighbor[0]

else:

recommandDict[movie[0]] = neighbor[0]

# 建⽴推荐列表

for key in recommandDict:

# 将ratings转换为userDict和ItemUser

def formatRate(self):

self.userDict = {}

self.ItemUser = {}

for i in self.ratings:

# 评分最⾼为5 除以5 进⾏数据归⼀化

temp = (i[1], float(i[2]) / 5)

# 计算userDict {'1':[(1,5),(2,5)...],'2':[...]...}

if(i[0] in self.userDict):

self.userDict[i[0]].append(temp)

else:

self.userDict[i[0]] = [temp]

# 计算ItemUser {'1',[1,2,3..],...}

if(i[1] in self.ItemUser):

self.ItemUser[i[1]].append(i[0])

else:

self.ItemUser[i[1]] = [i[0]]

# 到某⽤户的相邻⽤户

def getNearestNeighbor(self, userId):

neighbors = []

# 获取userId评分的电影都有那些⽤户也评过分

for i in self.userDict[userId]:

for j in self.ItemUser[i[0]]:

if(j != userId and j not in neighbors):

neighbors.append(j)

# 计算这些⽤户与userId的相似度并排序

for i in neighbors:

dist = Cost(userId, i)

# 排序默认是升序，reverse=True表⽰降序

# 格式化userDict数据

def formatuserDict(self, userId, l):

user = {}

for i in self.userDict[userId]:

user[i[0]] = [i[1], 0]

for j in self.userDict[l]:

if(j[0] not in user):

user[j[0]] = [0, j[1]]

else:

user[j[0]][1] = j[1]

return user

# 计算余弦距离

def getCost(self, userId, l):

# 获取⽤户userId和l评分电影的并集

# {'电影ID'：[userId的评分，l的评分]} 没有评分为0

user = self.formatuserDict(userId, l)

x = 0.0

y = 0.0

z = 0.0

for k, v in user.items():

x += float(v[0]) * float(v[0])

y += float(v[1]) * float(v[1])

z += float(v[0]) * float(v[1])

if(z == 0.0):

return0

return z / sqrt(x * y)

# 推荐的准确率

def getPrecision(self, userId):

user = [i[0] for i in self.userDict[userId]]

recommand = [i[1] for i andList]

count = 0.0

if(len(user) >= len(recommand)):

for i in recommand:

if(i in user):

count += 1.0

else:

for i in user:

if(i in recommand):

count += 1.0

# 显⽰推荐列表

def showTable(self):

neighbors_id = [i[1] for i ighbors]

table = Texttable()

table.set_deco(Texttable.HEADER)

table.set_cols_dtype(["t", "t", "t", "t"])

table.set_cols_align(["l", "l", "l", "l"])

rows = []

rows.append([u"movie ID", u"Name", u"release", u"from userID"]) for item andList:

fromID = []

for i vies:

if i[0] == item[1]:

movie = i

break

for i in self.ItemUser[item[1]]:

if i in neighbors_id:

fromID.append(i)

movie.append(fromID)

rows.append(movie)

table.add_rows(rows)

print(table.draw())

# 获取数据

def readFile(filename):

files = open(filename, "r", encoding="utf-8")

# 如果读取不成功试⼀下

# files = open(filename, "r", encoding="iso-8859-15")

data = []

for line adlines():

item = line.strip().split("::")

data.append(item)

return data

# -------------------------开始-------------------------------

start = time.clock()

movies = readFile("/home/hadoop/Python/CF/movies.dat") ratings = readFile("/home/hadoop/Python/CF/ratings.dat") demo = CF(movies, ratings, k=20)

688IT编程网

python实现协同过滤推荐算法

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林特征选择原理

自动驾驶系统中的随机森林算法解析

随机森林算法及其在生物信息学中的应用

监督学习中的随机森林算法解析(六)

随机森林算法在数据分析中的应用

机器学习——随机森林,RandomForestClassifier参数含义详解

随机森林的算法

随机森林算法作用

监督学习中的随机森林算法解析(十)

随机森林算法案例

随机森林案例

二分类问题常用的模型

绘制ssd框架训练流程

一种基于信息熵和DTW的多维时间序列相似性度量算法

SVM训练过程范文

如何使用支持向量机进行股票预测与交易分析

二分类交叉熵损失函数binary

tinybert_训练中文文本分类模型_概述说明

基于门控可形变卷积和分层Transformer的图像修复模型及其应用

人工智能开发技术的测试和评估方法

最新文章

基于随机森林的数据分类算法改进

人工智能中的智能识别与分类技术

基于人工智能技术的随机森林算法在医疗数据挖掘中的应用

随机森林回归模型的建模步骤

r语言随机森林预测模型校准曲线

《2024年随机森林算法优化研究》范文

标签列表

688IT编程网

python实现协同过滤推荐算法

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林特征选择原理

自动驾驶系统中的随机森林算法解析

随机森林算法及其在生物信息学中的应用

监督学习中的随机森林算法解析(六)

随机森林算法在数据分析中的应用

机器学习——随机森林,RandomForestClassifier参数含义详解

随机森林 的算法

随机森林算法作用

监督学习中的随机森林算法解析(十)

随机森林算法案例

随机森林案例

二分类问题常用的模型

绘制ssd框架训练流程

一种基于信息熵和DTW的多维时间序列相似性度量算法

SVM训练过程范文

如何使用支持向量机进行股票预测与交易分析

二分类交叉熵损失函数binary

tinybert_训练中文文本分类模型_概述说明

基于门控可形变卷积和分层Transformer的图像修复模型及其应用

人工智能开发技术的测试和评估方法

最新文章

基于随机森林的数据分类算法改进

人工智能中的智能识别与分类技术

基于人工智能技术的随机森林算法在医疗数据挖掘中的应用

随机森林回归模型的建模步骤

r语言随机森林预测模型校准曲线

《2024年随机森林算法优化研究》范文

标签列表

随机森林的算法