elasticsearch智能推荐系统用到的二分类模型是怎样的-快上网网站建设公司

elasticsearch智能推荐系统用到的二分类模型是怎样的

本篇内容主要讲解“elasticsearch智能推荐系统用到的二分类模型是怎样的”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“elasticsearch智能推荐系统用到的二分类模型是怎样的”吧!

在邕宁等地区，都构建了全面的区域性战略布局，加强发展的系统性、市场前瞻性、产品创新能力，以专注、极致的服务理念，为客户提供网站设计制作、成都网站设计网站设计制作定制网站,公司网站建设,企业网站建设,成都品牌网站建设,网络营销推广,成都外贸网站建设公司,邕宁网站建设费用合理。

1. 算法设计概览

算法方案的设计，在整体思路的指导下，先从数据调研入手，明确模型开发应用过程中需要着重关注的问题。在算法方案设计中，加入对问题的考量，以期得到优化的模型结果。

整体算法方案如下图所示：

2. 样本构造

样本构造对于任意数据挖掘场景都至关重要，推荐系统也不例外。

一般而言，用户的购买是偏少的，所以单单使用用户购买作为正样本，会导致样本量很少。为了解决这个问题，将用户有行为的课程定义为正样本，其他的定义为负样本。这些行为包括：点击、收藏、分享、加购物车、购买等，由于各种行为代表的用户对课程的偏好度是不同的，所以在后续建模中会通过样本权重的方式体现出来。

用户产生过行为的课程，只是所有课程中很小的一部分，所以如果直接把用户没有产生过行为的课程作为负样本，会导致正负样本比例严重失衡。所以在实际建模过程中，会对负样本进行抽样，根据以往的经验，抽样后正负样本比例可以设置为1：80。

3. 特征工程

本节将对特征工程的开展思路进行描述，最终采用的特征，还需要根据数据情况进行调整。以下仅供参考，具体情况可详见《标签/筛选体系》。

l 短期用户行为的特征加工

类目下课程被点击、收藏、分享、加购物车、购买等的次数

不同标签下课程被点击、收藏、分享、购买等的次数

用户近期是否点击、收藏该课程

l 课程属性特征

课程所属类目

课程所属标签

课程销量和相似课程销量均值的比值

课程价格和相似课程价格均值的比值

近期被点击次、分享、收藏、加购物车的次数

课程标题词的个数、图片个数、以及和相似课程的均值的比值

上架天数

l 用户属性特征

性别、年龄、职业、地域、app使用天数

l 用户长期偏好

矩阵分解得到的用户标签偏好

用户价格偏好

4. 模型训练

模型训练主要考虑PLM、LightGBM、FM等模型，各模型各有优劣：

l PLM 在线性模型的基础上加入分块，可以实现非线性的效果。训练和预测速度快，适应大规模稀疏特征。

l LightGBM 基于决策树的迭代式模型。适合于稠密特征，模型精度高。但训练、预测速度不高，不适用于大规模稀疏特征。

l FM 自动进行特征之间的交叉，能发现有用的特征交叉。训练和预测速度快，但本质上是线性模型，可能效果不能得到保证。

在评价指标的选择上，主要关注准确率，兼顾覆盖率，准确率考虑采用MAP@k，DDCG@k等评价指标。

在项目开展过程中对各模型进行分别调优，并根据评价指标迭代式地优化特征和模型，不断提升离线评估效果。

5. 评价指标

在评价指标的选择上，主要从用户满意度、预测准确度以及覆盖率3个方面考虑：

l 用户的满意度是评测推荐系统最重要的指标，但是用户满意度无法通过离线计算，一般通过用户调查、在线实验获取。或者可以通过分析用户行为日志计算用户满意度，大致的计算方式为：计算推荐的课程中，用户购买并且评分较高的课程的占比。

l 预测准确度是最重要的推荐系统离线评测指标，包含评分预测和TopN推荐两个方面。评分预测的预测准确度通过均方根误差（RMSE）和平均绝对误差（MAE）度量；TopN推荐的预测准确度通过准确度（Precision）和召回率（Recall）度量。

l 覆盖率（Coverage）描述的是一个推荐系统对物品长尾的发掘能力，其定义指标有2种。第一种是信息熵，计算公式如下：

这里p(i)是物品i的流行度除以所有物品流行度之和。

第二种是基尼指数，计算公式如下：

这里ij是按照物品流行度p(i)从小到大排序的物品列表中第j个物品。

另外mAP@k，DDCG@k等也是模型评测的重要指标。

在项目开展过程中对各模型进行分别调优，并权衡各项评价指标迭代式地优化特征和模型，不断提升离线评估效果。

6. 模型应用

在模型实际应用中，需要关注模型的运行效率，更新频率等方面，下面对这两个方面进行展开。

1) 预测效率

对全量的用户和课程组合进行预测的话，需要进行n*m条记录进行预测，其中n为用户数，m为课程数，非常消耗资源。所以对于单个用户，需要筛选一部分课程，只预测用户对这些课程的偏好评分。目前考虑将以下几部分课程纳入预测范围：

l 运营课程

l 热门课程

主要针对新用户，用于给他们推荐人们课程

l 用户近期常点击类目下的课程、近期常点击标签下的课程

用户近期常点击的课程，某种程度上代表了用户近期的需求

而近期常点标签，具有某种程度的发散性，比如关于品牌的标签会发散到同品牌课程，关于功用的标签会发散到同功用课程

有助于新上架课程的发现

l 基于协同过滤算法给出的推荐课程

用标签代替课程，进行基于用户的协同过滤和基于课程的协同过滤，对于推荐课程的新颖性会带来提升

2) 更新频率

目前的算法设计为一天更新一次。在每天夜里，会将今天的新数据纳入模型训练、预测的范围，包括新产生的用户行为，新课程信息，新用户数据。

因为目前模型是离线模型，用户当前新产生的行为并不会影响推荐结果，要等到第二天模型更新完成后才会产生新的推荐。

3) 场景结合

模型对商品作出预测后，会生成用户对商品的偏好得分。下面对于三个不同的场景分开进行设计。

1. 对运营商品进行推荐

首先从运营表中获取运营商品的id，接着关联用户商品评分表，获取用户对商品的偏好度，按偏好度控制app上商品的显示顺序

2. 对指定类目下商品进行推荐

首先获取指定类目下商品的id，接着关联用户商品评分表，获取用户对商品的偏好度，按偏好度控制app上商品的显示顺序。

3. 搜索推荐

通过ElasticSearch获取商品搜索相关度后，关联用户商品评分表，将用户对商品的偏好度乘以搜索相关度，得到综合评分，按该评分控制app上搜索商品的显示顺序。

到此，相信大家对“elasticsearch智能推荐系统用到的二分类模型是怎样的”有了更深的了解，不妨来实际操作一番吧！这里是创新互联网站，更多相关内容可以进入相关频道进行查询，关注我们，继续学习！

名称栏目：elasticsearch智能推荐系统用到的二分类模型是怎样的
网页URL：http://cdkjz.cn/article/psghsd.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

elasticsearch智能推荐系统用到的二分类模型是怎样的

1. 算法设计概览

2. 样本构造

3. 特征工程

4. 模型训练

5. 评价指标

6. 模型应用

1) 预测效率

2) 更新频率

3) 场景结合

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

elasticsearch智能推荐系统用到的二分类模型是怎样的

1. 算法设计概览

2. 样本构造

3. 特征工程

4. 模型训练

5. 评价指标

6. 模型应用

1) 预测效率

2) 更新频率

3) 场景结合

相关资讯

mysql怎么使用递归 mysql 递归函数

怎么安装go语言的插件 go语言安装包

腾讯云服务器节点选择 腾讯云服务器选择地域是哪里好

关于sap系统仓库管理风险点的信息

关于怎么系统删除mysql的信息

java中获取图片的代码 java获取图片名称

有网线怎么设置路由器 有网线怎么弄wifi

php数据结构扩展 php数据结构有哪些

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

腾讯云服务器节点选择腾讯云服务器选择地域是哪里好

有网线怎么设置路由器有网线怎么弄wifi

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接