Tf-idf算法(文档):
tf(t,d):单词在特定文档出现的频率
idf(t,D):log(出现这个词的文档个数/所有文档个数)
tf_idf(t,d,D)=tf(t,d)*idf(t,D)
PageRank算法(网页):
#指向我的网页
#所有的网页加一起为1
Collaborative filtering协同过滤:
#打分矩阵~找到与被预估人相似的一群人对这个产品的打分,进行预测被预估人对这个产品的打分(也可以计算列与列之间的相关性)
#用平均分,因为不清楚每个人的打分习惯
Model-based cf:
将推荐问题转化为分类问题(因为大量数据缺失,使用贝叶斯求各个打分的概率大小)
#如果是喜欢不喜欢,其中的空如何表示:喜欢表示为10,不喜欢为01,空为00