小红书平台的作弊与反作弊
当一个平台的商业价值凸显时,就必定会出现灰色产业,这无关于用户素质和社会结构这些复杂的问题,只关乎于人性对于利益的追逐。
举个简单的例子,微博没个百十来万粉丝出门都不好意思打招呼,但百万粉丝哪有那么容易?简单,靠刷就行了,最低的时候微博粉丝低至几分钱,成本很低。
刷数据既满足了博主的虚荣心,感觉面子上有光,同时又承载了商业价值,品牌一看,几百万粉丝,肯定是大V,多花钱也要投,长此以往,产业链就形成了。
作弊因需求而存在,却因作弊成本低廉而横行。
当然,今天我们主要聊的是小红书,给大家讲讲小红书平台上灰产作弊与小红书的反作弊。
1
什么算作弊?
作弊这个词大家听的多了,但具体什么才叫作弊,可能却还一知半解。
简单说,只要通过⾮正常的⼿段滥⽤产品功能,就已经算是作弊了。
但对于现实情况来说,有些作弊可能不会构成危害,因此纠结这一点并不重要,所以要在加一点,⾮正常的⼿段滥⽤产品功能牟取利益的⾏为,就算作弊。
也就是前有违规,后有牟利,才算是我们常说的作弊行为。
在不同平台里,作弊的体现形式也不一致,这点与业务场景息息相关,比如电商平台刷单就算作弊,游戏里卡bug刷道具就算作弊,但在小红书里并没有刷道具这种场景。
那么小红书里哪些行为算作弊?(主要行为)
1、刷数据:互动(点赞、收藏、评论),点击。
2、商城刷单:刷单,Bug价(薅羊毛),倒卖商品。
3、引流:私信群发。
4、种草:批量制作账号虚假种草(冒充真实用户体验)。
偶发性的我们暂且不提,大概就是以上这些作弊行为,但往往我们认为刷数据才算作弊,其实是不对的,刷数据只是相对最广泛的作弊行为。
2
作弊的坏处?
既然是作弊是贬义词,那么作弊肯定就不是一个好事。
在小红书作弊(刷数据)有哪些坏处?影响了谁?
坏处:
1、数据价值:
刷数据,就是对数据进行作弊,那么首当其冲,最先损害的就是数据价值。
我们近些年总能听到“大数据”这个词,实际上就是对数据的整理和分析并得出一些结论,比如在小红书,品牌投了A方向的笔记,如果数据反馈够好,那我们就可以追投,反之,有问题也可以及时进行调整。
但假设数据本身就是错的,那么一切的数据分析都毫无意义了,这可能造成严重的决策性失误或者战略性失败。
我相信目前99%的品牌投放,都需要看数据的结果来进行调整,如果数据出了问题,结果可想而知。
2、流量价值:
刷数据对当次的投放结果是直接影响,但间接来看,会对小红书生态的流量价值造成深远影响。
举个例子,微博的数据作弊一直很严重,导致现在的用户对微博的数据充满了不信任,有一千点赞又如何?有一百万粉丝又如何?都是刷的。
长此以往,对平台会产生产生相同的连锁反应,变成看到任何互动,都认为是刷的。
拿小红书场景来看,那就代表着有些热门的爆文是人工制造的,而不是真的流行,用户也就不会拿小红书做消费决策了。
其次是对于流量价值的锚定,一个平台的流量价格随着时间推移会逐渐的定型,比如微信公众号平台流行的阅读单价就是1块钱,而微博阅读,四舍五入,等于不要钱,但这样的流量价值差距是怎么出现的?
当然有用户质量的问题,但很大程度上也是数据出现的难易程度决定的,公众号的阅读更难出现,所以就贵,微博容易,大家就觉得不值钱。
而且品牌对流量价值也会有所判断,假设流量价值是1元,结果因为刷数据造假,实际上价值1元的流量占了10%,剩下90%是刷的,完全没任何流量价值,那么对于品牌来说,就会对这个平台的流量降低预期,就会心理上打标签,流量只值0.1。
这样下去,就会变成小红书整个平台的流量价值也都是0.1了,这对于坚持做真实流量的博主来说,是个严重的损害和价值低估,不过这点,我们后面详细说。
影响:
平台方:
谈影响,我其实首先想说小红书平台,因为在大多场景下,我们总会觉得危害的是博主是品牌,但我们都无视了刷数据对平台的一些危害,其实平台才是最大的受害者。
因为首先数据作弊不仅仅是违反平台规范,实际上平台具备影响社会属性或服务于社会时,这也构成了法律风险。
平台具备信息的监管责任,如果刷数据的内容产生了误导,带来了社会面的问题,是刷数据的承担责任还是博主承担责任?其实主要是平台承担了责任。
其次是服务资源问题,不要小看我们每次在小红书打开视频,打开链接的这些小动作,其实无时无刻不在小红书的成本,高速的带宽和服务器成本是很高的,但刷数据时会大量多次的消耗非实际有效的资源,一方面浪费了资金,另一方面也可能刷数据太可怕造成平台服务崩溃。
比如有时候微博上热搜:小红书又崩了,这也有刷数据的人一份功劳。
生态方:
其次影响最大的就是生态里的方方面面了,当然,最核心的是品牌和用户,其次是博主,最后才是一些服务商。
品牌:品牌花了钱,买到了不符合预期的虚假数据,没啥好解释的,最大的冤大头。
用户:人工制造的虚假热门笔记会造成用户的不信任以及用户的流失,当然也因此可能造成一些损失。
博主:典型的劣币驱逐良币,你刷我不刷,我打不过你,你轻松随便赚钱,我苦哈哈赚不到钱,所以良心博主必然会流失,剩下的能扛住的,就会随波逐流,最后变成,所有博主都在刷刷刷。
服务商:最后才是服务商,为什么?跟博主劣币驱逐良币类似的道理,好的服务商良心的服务商不刷就打不过其他服务商。
品牌说我1000块钱能投出1万个点赞,怎么到你这,只能投出1000个点赞?你说那家服务商是刷的,但品牌说,数据好看我才能交差,毫无办法。
所以良心的服务商也一定做不下去,也一定会离开,但问题是与博主问题相反,好的博主很多,刷数据的博主很少,这里是好的服务商是少的,而刷数据的恰恰是那大部分服务商干的。这些服务商伤害了整个平台的利益。
3
灰产是怎么运行的?
定义了作弊,也谈了作弊的坏处和影响,对于小红书平台来说,则不能袖手旁观,要对灰色产业进行迎头痛击才行,但谈打击并不能空谈,对抗是一个长久之事,所以最基础的就是先弄清楚灰产是怎么做到的,这样才能进行精准的治理。
谈起刷数据,首先我们要知道一个基础的原则,数据是有链路和连锁反应的,比如点赞,肯定是不能直接修改笔记的点赞数据的,因为每个赞的背后都代表着一个账号的动作,如果有了赞,但没有账号进行点赞动作,程序就会报错,刷数据也会失败,其次是目前的技术情况来看,也确实无法直接进入到小红书的数据里修改数据。
因此刷数据的方法普遍是用号去点赞,收藏评论等。现在你知道了,刷数据的前提是必须有“号”。
号怎么来?用手机号。
但刷赞动不动几千个,一个个的账号收验证码,不累死了?而且一个人也无法注册这么多手机号啊,怎么办?
这就出现了一个专门做解决手机号问题的灰色产业,你可以不持有手机号,只用手机号能接验证码就行了,这样的平台能提供大量的手机号可供使用,叫“接码平台”。
但远程接码,总有些特殊情况导致的不及时性,也有可能会遇到手机号都被其他人注册完了的情况,比如已经被小红书封号了的情况,咋办?
行里有一种东西叫“猫池”,可以插N多张电话卡,可以用程序的形式控制来接验证码,也可以本地来进行部署,这样你只要自己搞一堆手机号,插入进去就行了,当然,这里不得不说一句,接码平台背后用的也是猫池。
那么手机号怎么来?物联网卡,虚拟运营商卡为你打开新世界大门。
当然,只有手机号注册账号还是不行的,毕竟这么多账号要去刷赞,小红书判断IP就知道是批量账号刷数据了。
所以这里产生了一个新的技术点,如何伪装账号,让账号之间不被关联?那就是换IP。
Ip代表着一个用户的网络地址,同一个地区的Ip段是相同的,甚至在用同一个WI-FI接入时,IP都是完全一致的,但只要IP能切换到其他地区,比如全国各地,每个账号都不一致,不就完了吗?
至于切换Ip的方法倒是多了去了,百度一搜都有很多代理IP。
最后就是设备问题了,大量账号怎么控制?买1000部手机吗?被封号了把手机卖掉再买手机?这不成了卖二手手机的了吗?
所以为了提升效率,也为了防止手机设备的折腾问题,灰产们用电脑“模拟手机”,一台电脑多开N个虚拟手机,因为是模拟出来的,所以完全可对手机的配置,信息等进行全方位的修改,这样不仅能够伪装设备,还能进行远程工作。
当然啦,也有些为了模拟真实性,买了1000部手机也很正常。
但这还没完,以上只是解决了注册账号和伪装设备的问题,一个账号要想体现真实性,不可能都是白号,无头像无简介无笔记,一看就是水军了。
但我们仍然要知道,一个账号的设置简单,一堆账号怎么办?
这时候就诞生了脚本和群控的问题,只需要一个脚本,就能让这些账号自发性的填写资料,还能根据程序的设置去浏览笔记(养号),甚至发布笔记。
以上就大概构成了一个灰产的基础设施和基础运行条件。
最后嘛,就是卖了。
但我们也必须明确一点,灰产也不是一成不变的,随着小红书的不断打击,灰产也是在不断迭代的。
早期灰产:
获取小红书账号cookie,导入到软件里模拟登陆和使用,脱机运行。(完全无可视化界面)
中期灰产:
使用虚拟机或真实设备,通过脚本和程序来控制。
后期灰产:
完全真人众包(类似于点赞群里发红包,真人点赞)
所以也能看的出,随着小红书的打击,作弊的成本也在不断的升高。
问题来了,既然知道了灰产是怎么运行的,那么小红书是怎么反作弊的?
4
小红书是怎么反作弊的
反作弊从来都不是一个简单的任务,也不是单纯的发现问题解决问题,而是有策略性的对抗工作。
所以要明白一个道理,灰产是无法被彻底根治的,这是现实问题,因为只要存在着需求,就会有人冒险去做,惩罚是后置的,且无法防患于未然,所以要在防护上做文章,这样才能降低灰产出现的比例。
举个例子,如果刷了100粉丝然后平台进行了清理,那么下次他还会选择继续刷100个,但换个方式刷,永无止境。
所以我们能看到的是,小红书平台作弊的难度越来越大,因此猜测小红书的反作弊思路是提高作弊的成本,降低作弊的动机。
当作弊的成本高于实际的流量价值,刷数据就不复存在了,举个例子,一个点赞10块钱,还有人刷赞吗?不会了。制造10块钱的假币的成本是11元,还用造假币吗?就是这个道理。
在实践上小红书对作弊的链路进行了整理,在不同的作弊阶段,实施不同的打击。
1、预判作弊:
通过人工或相关的行业情报来获取哪些地方存在作弊的可能性,比如在小红书社群里,偶尔会有发作弊广告的通知消息,工作人员就可以伪装博主进行下单,通过对这批账号的特征进行整理,就能一网打尽。
这样就做到了还未开始前,就提前预判了作弊行为,让作弊不会大规模发生。
2、作弊识别
但以上的预判总是会有遗漏,当作弊发生的时候,一定要快速且精准的识别才行。
所以小红书对业务的场景都做了细致的监控,比如账号注册,登陆,浏览,关注,点赞,评论,收藏,发布笔记等等,无时无刻都在识别账号的真实性。
这些收集下来的行为会进行两个端口以及多次的验证,本地客户端会进行时间等行为的校验,无问题的情况下,数据才能上传云端服务器,但在这里又会进行校验,对身份,网络以及设备情况进行审核,最后,才能产生效果。
所以有些同学说,我用家里的小号给我大号点赞,为什么不显示呢?
这就是被识别到了,认为在进行刷量行为,所以对账号予以限制,互动不会产生效果(但不会通知),但这样的情况当然也存在误判,所以如果非大量的动作,平台会判断不是作弊行为,过几天又会神奇的发现账号又好了。
同理,有些评论发出去后,别人看不到,也是同样被识别了,但原因不一定是数据作弊,也可能是引流等行为。
截止目前,小红书能识别的内容形式:
1、文字(以及变形字或错字组合)
2、图片
3、视频
4、音频
用以判断作弊的参考信息
1、网络环境
2、手机号
3、设备
4、用户行为
5、身份特征
在这些大数据的加工下,我们个人在办公室里注册几个号用来数据作弊,基本就是毫无遁形的,批量运营账号,也是轻而易举的被识别,同时按照小红书的严防死守思路,误判是极有可能的,但不杀的机会相当小。
根据以上图中的案例也可以看出小红书是如何做识别的。
基础个人的识别,会明确的识别行为特征,组织的,会识别群体的行为特征,而团队的就会用群体行为特征叠加自然流量数据反馈较差的笔记收到了异常的互动数据,从而进行识别。
所以有在数据作弊的伙伴,我也劝大家,放下屠刀立地成佛。
真的,太容易被抓到了。
3、作弊处理
识别不是目的,目的是处理和治理,识别作弊行为后,就会对作弊工具和需求人进行处理,比如清理账号、封禁设备、限流笔记、惩罚创作者等,但这是滞后的,立刻马上的就要做到对当前的作弊行为予以打击,比如请求拦截、⼈机校验、笔记限流等等。
立刻可见效果,后期可影响作弊动机。
4、效果预估
最后总要判断这套体系是可行的,产生效果的,所以校验的方法很简单,去卖灰产的地方,看看他还在不在卖?卖多少钱?就知道打击是否有效了。
下图是小红书全场景的反作弊风控体系,可见还是相当全面,思路也是很严谨。
在其他技术层面,小红书的确还有很多要努力的地方,但风控这方面,小红书做的是相当不错,值得其他平台学习。
当然,技术能力只是投入的时间和精力问题,我认为其他平台也有这样的实力做到,不过问题是其他平台不论出于什么样的原因,但都没有这么做,这给作弊的团队反向提供了一些鼓舞。
但长期来看,这会极大的影响平台的商业价值,也会影响生态的信心。
毕竟好的创作者,好的品牌,好的服务商,都配得上更加公平,更加认真的商业环境。
不要让劣币驱逐良币这件事,在小红书重演。