威尔逊算法-知乎的基本算法(知乎权重、盐值算法)

假定有两个项目,项目A是60张赞成票,40张反对票,项目B是550张赞成票,450张反对票。请问,谁应该排在前面?

我们先做如下设定:

(1)每个用户的投票都是独立事件。

(2)用户只有两个选择,要么投赞成票,要么投反对票。

(3)如果投票总人数为n,其中赞成票为k,那么赞成票的比例p就等于k/n。

这是一种统计分布,叫做”二项分布”

p越大,就代表这个项目的好评比例越高,越应该排在前面。但是,p的可信性,取决于有多少人投票,如果样本太小,p就不可信。好在我们已经知道,p是”二项分布”中某个事件的发生概率,因此我们可以计算出p的置信区间。所谓”置信区间”,就是说,以某个概率而言,p会落在的那个区间。比如,某个产品的好评率是80%,但是这个值不一定可信。根据统计学,我们只能说,有95%的把握可以断定,好评率在75%到85%之间,即置信区间是[75%, 85%]。

u表示正例数(好评),v表示负例数(差评),n表示实例总数(评论总数),p表示好评率,z是正态分布的分位数(参数),S表示最终的威尔逊得分。z一般取值2即可,即95%的置信度。

算法性质:性质:得分S的范围是[0,1),效果:已经归一化,适合排序

性质:当正例数u为0时,p为0,得分S为0;效果:没有好评,分数最低;

性质:当负例数v为0时,p为1,退化为1/(1 + z^2 / n),得分S永远小于1;效果:分数具有永久可比性;

性质:当p不变时,n越大,分子减少速度小于分母减少速度,得分S越多,反之亦然;效果:好评率p相同,实例总数n越多,得分S越多;

性质:当n趋于无穷大时,退化为p,得分S由p决定;效果:当评论总数n越多时,好评率p带给得分S的提升越明显;

性质:当分位数z越大时,总数n越重要,好评率p越不重要,反之亦然;效果:z越大,评论总数n越重要,区分度低;z越小,好评率p越重要;

关于z参数,即正太分位数。正太分位数影响wilson得分的分布,z参数取值依据就是样本数的量级。举个例子:同样是100个样本,90个好评,z取值2或6,分数差别很大,

体系所容纳(或区分)的样本数也相差较大(同样是0.82分和90%好评率,z=2需要100个样本,z=6需要1000个样本),一般而言,样本数的量级越大,z的取值大。

威尔逊算法-知乎的基本算法(知乎权重、盐值算法)

(1)当总票数较小的时候,获得赞同的答案,得分score会迅速增加。总投票数越多,赞同票对得分score的影响越小。同时,投票数较多,得分score较高的答案,开始获得反对票时,得分会快速下降。得分score越低,下降速度越慢。
(2)score 的取值范围为(0,1),且与投票总数无关。(旧算法中,score=加权赞同-加权反对,不同问题之间得分差别较大,无法横向比较)。
(3)n 越小,威尔逊算法的修正效果越强。

威尔逊算法-知乎的基本算法(知乎权重、盐值算法)

权重

之前说到的数值Z就是权重的重要影响系数。目前根据实操情况已知:权重会影响到相同赞同和反对下的回答排名,相同赞同和反对数的回答,权重越高,点赞排名上升越快,反对排名下降越慢。

目前权重官方没有公布计算公式,但经过我们多次测试后发现影响权重的因素,可能有:
• 收藏
• 感谢
• 盐值
• 成为优秀回答者
• 成为付费会员
• 提升盐值
• 实名认证
ps:权重是分领域的。
比如,你经常回答动漫领域的话题,并且在这个领域获得许多赞同,那么动漫话
题的权重可能会增加到 100(假设的)。但你在没有回答过的读书、金融等其他
领域的权重可能还是 0。

盐值

知乎盐值分布范围在 0 – 1000 之间,分值高说明该用户专业友善可信赖。根据注册时的信息完善程度,用户会获得一个 260 – 300 之间的初始盐值。后续盐值的增减随用户的行为累积计算,每周更新一次。
知乎盐值从「基础信用」、「内容创作」、「友善互动」、「遵守规范」、「社区建设」五个维度进行综合计算,每个维度的指数计算原理,可看:
https://www.zhihu.com/term/credit

威尔逊算法-知乎的基本算法(知乎权重、盐值算法)

知乎反作弊机制

设计初衷:
知乎净化社区,防止利益集团,利用推荐机制的漏洞耍阴招,比如恶意踩别人的回答或举报等情况,设计了作弊机制。知乎反作弊机制,常见雷坑:知乎会暂时屏蔽刚发布的回答 10 分钟,即发布回答 10 分钟之内,其他人点击你分享的链接,给你点赞,网页可能会出现 404 错误的提示。

知乎利用这个方法,防止别人快速刷赞。知乎会对刷赞这种作弊行为,进行记录。官方对刷赞行为处罚很重,一旦发现,轻则删除回答(盐值高于 500 或知乎大 V 有1次机会),但一般会把你账号之前获得的点赞清零,即消赞,情节严重的会直接封号。

赞(0) 打赏
未经允许不得转载:小双学社 » 威尔逊算法-知乎的基本算法(知乎权重、盐值算法)
分享到: 更多 (0)
公众号:小双学社

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏