权重是什么意思（权重基本原理）

重量是什么意思(重量的基本原理)

电商行业工作多年，一直在等待一套理论来系统总结电商运营的本质，总结现象背后的原理，进而解释电商运营中的各种现象。从日常生活中提取智慧，再用智慧指导日常操作，最终形成知识的深度凝结和沉淀。写这篇文章是为了引起更多人的关注，希望能冷静地建立和检验电商运营的理论体系。俗话说，论据带来真知识，缺点欢迎抨击。

– –

什么是重量？

作为一个电商运营，一定要熟悉权重这个词。我们经常听到刷账单会减电，换标题会减电，换主图会减电等等。那么什么是重量呢？

先看百科的解释:权重是指某一因素或指标相对于某一事物的重要程度，不同于一般的比例，不仅反映某一因素或指标的百分比，还反映该因素或指标的相对重要程度，倾向于贡献或重要。

我们常说的权重，其实就是搜索排名的决定因素。电商、客服、发货、售后等工作相对容易解决，以至于大家都觉得很难获得流量。如果车水马龙，光坐着数钱就好，想想就好玩。想要在平台获得大量流量，就需要一个好的排名，而好的排名离不开更高的权重。

排代王会怎么样？

我们先来思考一个问题——排带是怎么来的。我们正在浏览的com解决了帖子的排序问题？

作为电商聚集地，代发帖子总数已超过36万条，并以日均100条的速度持续高速增长。拍带用什么方法筛选优质帖子？哪些在前，哪些在后，哪些会先推给玩家？这背后的逻辑是什么？

靠派代网的员工一个个看，手工排序，是不现实的，需要很大的人力物力成本。通常的做法是通过算法模型计算出每个帖子的权重，并按照权重值降序排列，这样权重值最高的帖子和“最好”的帖子会先呈现给用户。

最基本的原材料——数据对于重量计算是必不可少的，那么数据从何而来呢？让我们以Paidai.com为例:

收集数据——重量的基本原材料

用户打开Paidai。com，看帖子列表，选择感兴趣的话题，点击进入，浏览阅读，收集有价值的，打电话给有共鸣的，评论区讨论问题，觉得作者写得好，没觉得过瘾，点击作者头像，看看有没有更多的系列文章。这些是论坛中用户的主要行动轨迹。

基于以上行为，论坛会在后台统计每个用户的动作，进而形成多个数据纬度，如展示次数、点击量、停留时间、收藏量、评论量、访问深度等。

当用户点击鼠标浏览时，论坛会将用户的行为记录为计算机语言数据。从计算机的角度来看，用户在其眼中的浏览行为如下:

用户打开Paidai网络并看到帖子列表-背景形成演示数据

选择感兴趣的主题，点击进入-点击数据在后台形成

浏览和读取-停留时间数据在后台形成

如果你觉得有价值，你会收集它——收集的数据将在后台形成

有共鸣的会在评论区打电话，有疑惑的会在评论区讨论——评论的数量会在后台形成

感觉作者写的不错，没看。我还会打开作者的头像，看看有没有更多的系列文章——后台表单访问深度数据

通过对这些数据进行加权，最终得到一个综合权重得分，通过综合权重得分来判断哪些岗位是优质岗位，从而给优质岗位更多的曝光机会。

至于帖子的内容是什么，是活泼有趣还是耐嚼，电脑没有判断能力。他像个孩子一样站在我们面前。当我们看帖子时，他观察我们的态度:我们是兴致勃勃地看还是用敷衍的眼神看？虽然他看不懂文章，但他可以通过我们的态度来判断帖子的质量。

算法是如何加权的？

如何对数据进行加权？让我们看一个简单的例子。

一所中学的三年级有100名学生。期末考试成绩如下。通常的排名方法是直接根据各科成绩将总分相加，然后按降序(从大到小)排列总分。总分排名的结果是，学号为49的若愚在年级上排名第一，总分排名依次递减，如图:

现在学校需要选拔三名学生参加全国物理竞赛，成绩优秀的可以送去名牌大学。如果按照物理单科成绩降序排列，可以看到50号的邵会是物理单科第一。

以总成绩排名或单项物理成绩排名来决定参赛选手就简单多了，拿总成绩表或物理成绩排名表前三名就可以了。但是学校要考虑，一方面要有好的物理成绩，这样才能在这次全国物理竞赛中取得优异的成绩，为学校争光。另一方面也要保证参赛学生的总分都是优秀的，否则如果真的被送到清华北大，成绩永远垫底，那就太尴尬了。这时需要考虑物理单科成绩和总分两个数据维度。谁将被派去参加比赛？当需要两个以上的数据维度共同影响决策结果时，我们需要使用权重，通过对多个维度的数据进行加权来计算总的权重得分，然后对权重得分进行排序，得到期望的结果。

学校指导主任给出的最终权重公式如下:

加权总分=数学*2+语文*2+英语*2+化学*1+生物*1+物理*5

教学负责人认为，参加物理竞赛，物理成绩最重要，成绩乘以5倍，其次是数学、语文、英语为基础科目，成绩乘以2倍，化学、生物保持不变，乘以1。即总权重分数等于2倍标准化数学、语文、英语成绩，加1倍标准化生物、化学成绩，加5倍标准化物理成绩。

*说明每个科目的分数在乘以系数之前已经标准化了，因为数据和数据是不一样的。满分150分的科目(如英语、语文)拿到90分的意义与满分100分的科目(物化生)不同。比如英语150分90分，但只是刚刚过了100分制(相当于100分60分)。相对于100分中的90分，显然不是一个概念，需要对数据进行标准化，将各科的最高分和最低分映射到0-1 空的范围内，然后对各科的分数进行加权。

数据标准化公式:x*=(x-min)/(max-min)

最终加权计算结果如下图所示:

根据教导员的加权算法，物理单科成绩排名第一、第六、第十七，物理单科第九、第四、第一的三位同学，如雨、景琦、邵会参赛。

这样，我们通过对多个学科加权得到加权权重分数，最终得到我们想要的结果:兼顾物理成绩和总分；物理成绩最重要；同时，语外成绩在总成绩中的数量比化学和生物更重要。

物理成绩占加权成绩的39%。

教导员权重公式中的权重值可以自由定义。本文采用5、3和1的比例。不同的重量比会导致不同的结果。这个权重计算小工具可以应用于关键词筛选。关键词有很多数据维度，比如呈现量、点击量、点击率、转化率等。当需要筛选多个数据维度时，比如寻找转化率高、搜索人气高、点击率低的词，可以用这个方法自定义多个数据维度的权重，筛选出我们想要的关键词。

真实世界排名算法——reddit网站排名算法

上面的学生排名只是一个简单的例子。现实世界中的加权算法是什么？

我们以国外知名论坛reddit为例，了解算法是如何工作的。(为什么不用国内论坛来解释？因为国内论坛算法不开放(可惜现在国内无法直接访问reddit)

– –

以下关于reddit网站排名算法的内容转载自阮一峰博客。

原始链接:http://www.ruanyifeng.com/blog/2012/03/ranking _算法_ Reddit.html

reddit网站的排名算法如下:

Reddit是美国最大的在线社区，每个帖子前面都有上下箭头，分别表示“赞成”和“反对”。用户点击投票，Reddit计算最新“热门文章榜”。

如何结合利弊计算出一段时间内最热门的文章？如果A条有100票赞成，5票反对，B条有1000票赞成，950票反对，谁先来？

Reddit的程序是开源的，用Python语言编写。排名算法的代码如下:

该代码考虑了几个因素:

(1)邮件的新鲜感

T =发布时间-2005年12月8日7:46:43

t的单位是秒，由unix时间戳计算。不难看出，一篇帖子一旦发表，t就是一个固定值，不会随时间变化，而且帖子越新，t的价值就越大，至于2005年12月8日，应该是Reddit成立的时间。

(2)赞成票和反对票的区别x

X =是-否

(3)投票方向Y

y是一个符号变量，表示文章的整体观点。如果赞成票多，y为+1；如果反对票多，y为-1；如果票数相等，y为0。

(4)z柱的正(负)度

z代表赞成票和反对票之差的绝对值。如果对一个帖子的评价比较片面，Z越大。如果是等于否，z等于1。

综合以上变量，Reddit最终得分计算公式如下:

这个公式可以分为两个部分来讨论:

(a)该

这一部分表明赞成票和反对票之间的差异z越大，分数越高。

需要注意的是，这里使用的是基于10的对数，这意味着z=10可以得到1点，z=100可以得到2点。也就是说，前10位选民的权重和后90位选民(甚至是后900位选民)的权重是一样的，也就是说，如果一个帖子特别受欢迎，你以后投的越多，对评分的影响就越小。

当赞成票等于反对票时，z=1，所以这部分等于0，即不产生分数。

(二)乙

这一部分表明t越大，分数越高，即新帖子的分数会高于旧帖子。它会自动拉低旧帖子的排名。

45000秒的分母等于12.5小时，也就是说第二天的帖子会比前一天的帖子多得2分。结合前面的部分可以得出结论，如果前一天的帖子想在第二天保持原来的排名，那么它的Z值必须在这一天增加100倍(净赞成票增加100倍)。

y的作用是生成加分或减分。当赞成票超过反对票时，这部分为正，起加分作用；当赞成的票数少于反对的票数时，这部分为负数，起到减分作用；当两者相等时，这部分为0。这样保证了净投票数多的文章会排在前列；票数接近或相等的文章将排在后面；获得净反对票的文章将排在最后(因为分数是负数)。

(3).

这个算法的一个问题是，对于有争议的文章(正反意见非常接近)，不能排第一。假设同时发布两个帖子，文章A有1票赞成(海报投票)，0票反对，文章B有1000票赞成，1000票反对，那么A的排名会比B高，这显然是不合理的。

结论是，Reddit的排名基本上是由发帖时间决定的。超人气的文章会排第一，而一般人气的文章和有争议的文章不会很高。这就决定了Reddit是一个适合大众口味的社区，而不是一个可以展示少数群体思想的激进场所。

以上关于reddit网站排名算法的内容转载自阮一峰博客。

原始链接:http://www.ruanyifeng.com/blog/2012/03/ranking _算法_ Reddit.html

– –

加权算法的两个核心要素:数据+算法

淘宝的数据

现在我们来看看淘宝，回想一下买家在淘宝平台上的行动轨迹是什么样的:

买家有购买意向；开淘宝；搜索关键词；点击感兴趣的商品；收藏和购买；比较多个宝藏；订单支付；等待收货；确认收货；评估印刷品…

同样，淘宝平台也会将买家的行为记录为数据。截至目前，业务人员统计数据指标有1960个(数据来源:业务人员-学院-帮助中心)。当然，这不包括直通车等营销工具的数据。此外，有些数据是淘宝统计的，但没有公开。

电商平台以购物为主，一切围绕产品。我们专注于产品相关数据进行分析。商业顾问(数据来源:商业顾问-检索-商品)中有39个与产品相关的已发布和可直接下载的数据维度，可分为展示/访问/转化/交易四大方向。

数据分类的脑图如下:

1.展示/曝光:产品出现在消费者面前，如搜索结果页面和活动页面。

2.访问/浏览:买家一次或多次浏览店铺、产品、评价等页面，从展示变为流动。

3.转化/互动/沟通:买家收集、购买更多产品、咨询、下单、支付感兴趣的产品，将流程变为订单。

4.结账/评估:付款后，直至最终确认收货、退货换货、蓝图评估等。，从订单到资金。

这四个方向是买家在整个购物过程中的关键节点。

淘宝的算法

从前端消费者的角度来看，淘宝有两种常用的排序方式:综合排序和销售排序(价格和信用排序用户体验差，使用频率低，所以这些排序条目的流量小，可以忽略不计)，不同的排序方式对应不同的算法。

销售排名算法:评分=确认收件人数

销售排名只考虑一个数据指标——确认收货人数，具体定义为:统计最近30天产品成功交易的数量，剔除重复购买，剔除退货退款，剔除不计算销售额的活动，汇总计算。

综合排序算法淘宝还没有公开。虽然神秘，但也不是没有痕迹。综合搜索主要考察以下几个方面:

1.文本与类别的相关性:解决了产品是否可以搜索的问题。只要能在销售排名中的关键词下搜索到产品，就说明没有问题。从平台来看，这部分工作需要匹配文本信息(标题、属性、细节中的文本等)。)的a .用b .产品ID和c .搜索关键字描述产品。

2.商品人气数据和搜索反馈数据等。:解决了谁先谁后的问题，通过产品模型、店铺模型、服务模型、物流模型、内容模型等多维度综合加权计算。

3.作弊检查模型:解决了作弊商品的过滤问题。

销售排名和综合排名类似于上面提到的单科成绩排名和综合加权总分排名。一种是单维排序:销量排序，另一种是多维排序:综合排序。单个维度照顾名字，只考察一个数据维度，而综合是更全面更系统的考察。综合排名还包括淘宝平台对新产品的支持和对暴涨产品的助推。

如果销售排名只考察一个学生的期末成绩，那么综合排名就像考察学生每天的课堂表现，是迟到还是早退，每天作业的完成情况，平时的考试成绩等等。

有条件的话，肯定是优化每一个数据指标，全面系统提升整体竞争力更好。当然，这也需要更多的人力物力。如果条件不允许，作为一个中小卖家，更多的精力会放在销售排名的维度上。操作只需要关注销量的一个数据指标，其他数据都可以结转，可以达到很好的效果。换句话说，如果电商运营只能做一件事，那就是紧盯销售数据。之所以这样，是因为销量排名简单粗暴，所以我们高考可以理解为销量排名，只考查高考总分的一个数据。换句话说，只要能过录取分数线，写不写作业，上课不上课，都不会作为录取依据，而是以高考总成绩来评判英雄。

数据和算法的运行机制

上述与产品相关的四大类分别是买家购物的四个节点和淘宝平台排名机制动态运行的四个节点:

1.展示/曝光

2.访问/浏览

3.转变/互动/交流

4.结束/评估

1到4是一个循环。

我们拿1。以展示为起点，产品就暴露在买家面前。如果买家感兴趣，将到达第二阶段:点击访问，浏览产品主图、详情和评价；如果买家对产品比较认可，会进行收款、采购、下单付款，然后完成第三阶段；卖方组织发货和快递，买方签收。如果没有退货，买家会确认收货。此时支付资金从支付宝转入卖家账户，交易全过程完成，即第四阶段完成。然后根据买家在2、3、4三个阶段的数据反馈，平台决定1，也就是产品展示的位置，然后开始新的周期，这就是淘宝搜索的商业逻辑。

在这个周期里，因为每个产品的数据表现不一样，有的产品暴涨，有的产品掉头。

运营的核心:控制数据

数据决定产品的生死，那么如何影响数据呢？数据应该如何操作？

运营商的核心工作是控制数据，数据是由购买者的行为产生的，所以要引导购买者的行为去影响数据的增长。例如，如果我们想要收集和购买数据，我们将添加一个收集和购买优先交付；我们要点击率数据，我们会制作和优化主产品图，满足买家期望，吸引买家点击；我们需要打印评估数据，我们将制定打印奖励的激励机制。

这些数据需要达到多少？操作员控制数据的目标和参考系统是什么？

比较与竞争:高低数据的根源

当只有一个事物独立存在时，没有好坏之说，好与坏都是相对的，都来自于比较的结果。

它有180厘米高吗？身高和身高相对来说。与小学生相比，180的身高相当于一个巨人。当站在NBA球员中间，这个同样是180身高的人瞬间变成了“小学生”。

一个产品一个月卖5000件。这是销量高的产品吗？看同行，是同行最低1万件起步，还是每月最高1000件卖出。

数学，语文，英语都是96。这是优等生吗？看学生，无论是以双百分开始还是以90分开始都是最高分。

所有数据指标都没有一组固定的参考值，如500或10000。在淘宝平台，作为对比系统，以同行业平均值作为参考值。每个子行业都会有不同行业的特点，每个行业的标准也来自于这个行业的整体表现，所以是比较公平客观的。淘宝的数据有两个参考值，一个是行业平均，一个是行业优秀。同级优秀是指行业前10%的平均水平。假设总共有100人，就是前10名成绩的平均值；同级平均分是指行业前40%的平均分，假设总共有100人，则是指前40名成绩的平均分。

同级别是指平台根据门店的销量分为7个级别(1-7)，像玩游戏一样圈定青铜、黄金等细分。我们匹配销量相近、水平相同的竞争对手。无论市场如何波动，同级别的商家都是相似的起点，取决于在相同的环境下谁跑得更快，谁跑得更稳。

无论是产品还是店铺是涨是跌，对比两条参考线就能一目了然。比如，虽然产品数据每天都在飙升，但飙升的速度小于行业平均速度，所以不往前走就会往后倒。当以行业平均线为水平线时，上升速度B在走下坡路，如下图所示。

算法的目的是排出高和低。好坏，数据说了算，不管数据增加还是减少，买家说了算。其实数据是成千上万买家共同决策的结果，数据的高低决定了排名的先后。

差距是如何产生的

以淘宝平台为例，比赛从展会开始就开始了。我们以200场展会为例，模拟产品如何一步步拉开差距。

|显示(曝光):统计时间内商品在搜索中显示的次数。

这里模拟搜索结果页面的前40个产品，假设买家搜索后所有关键词都会显示在买家面前，买家最终选择其中一个点击。200个节目，换句话说，200个买家同时到达这个页面。40个产品都看到了，但是只点击了一个产品。以下模拟了200名买家在到达搜索结果页面后选择不同产品的结果。

我们可以发现，在和第一页相同的位置，同样的200个买家到达这个页面后，每个产品得到了200个展会的数据(看到了40个产品)，而强势的产品带走了大量的点击量(如图所示，最高的数字是20个)，而弱势的产品甚至没有任何展会。有些人很富有，有些人半饥半饱。40个产品同时到达第1页的位置，但不同的数据表将决定它们的下一个排名位置。在这40款产品中，排名前三的点击率分别为:1号产品20、5号产品18、2号产品16，对应的点击率分别为:1号产品10%、2号产品9%、3号产品8%。

在这200个展览周期之后，按照点击率的降序排列，得到一个新的排名。此时各产品获得点击率的能力高，这也决定了这些产品未来的命运:把这40款产品全年的分数进行排名:尖子生分到精读班冲击清华北大，优秀生培养好冲击一线，普通生更努力考进两本书，成绩差的学生考更好的专业。重点是:这样就拉大了清华北大学霸和专科生的差距。与其说高考分数区分了学霸和学渣，不如说日常表现才是决定学霸和学渣的根本原因。

权重回归算法

数据是通过买家的对比产生的，平台根据业务逻辑设计加权算法，最后通过产品的数据表示来总结产品的竞争力。就好像成绩总分排名不仅仅是成绩，成绩也是学生学习能力的一部分。最终用成绩来对学生的学习能力进行排名，最终的排名其实就是综合竞争力的排名。

所有加权算法的原材料都是反映购买者真实意愿的基础数据，如点击量、支付者数量等。数据通过比较产生，权重根据数据总结竞争力。加权算法的目的是通过数据勾勒出产品的竞争力，并以此作为决策依据，从而将竞争力强的产品排在前列。

获得一个好的排名并不是最终目标。有一个好的排名只是完成了一半。另一半更重要的是证明你配得上现在的排名，配得上更好的排名，配得上更高的名次。这是一个不断自我证明的动态过程。

每个人都是审计员

派代、reddit、淘宝，最终每一个帖子、每一个产品都会被人工一一审核，但这些负责审核的人分布在全国各地，不收任何报酬。其实这些人是你我作为用户，我们是负责审核平台内帖子或产品的“打工人”，我们是付费人。平台会设置检查点，收集整理我们在每个检查点留下的数据，最后通过数据加权算法判断帖子或产品的好坏。每一位用户都“无私奉献”自己的时间参与产品审核，同时每一位用户都能享受到数千用户共同审核的劳动成果，轻松找到通过“多次审核和测试”的优质产品。此时，我们是受益者。这是互联网时代的伟大创举，是大家贡献的同时，互相帮助，互相受益的一种方式。

通过权重算法，平台允许越来越多的人反复验证是骡子还是马出来散步。真金不怕火炼，群众的眼睛是雪亮的，真正优秀的产品才会被挖掘出来。帖子或者产品好不好，时间会给出答案。