不容易看见的事
“妈耶,做号集团真牛逼!敢这么直接找上门啊。。。”
“太明目张胆了这些人!”
某内容平台的工作群被一张聊天截图炸开了锅,一位作者向平台举报说有“做号党”主动向他寻求“合作”。
对方不仅声称登录过作者的账号,还直接甩出了登录密码,说“看你做不出来收益,所以才想和你合作”,颇有种“老子找你是看得起你”的架势。
对话框左边是做号党,右边是号主
究竟发生了什么?
“我估计是平台更新了安全策略,做号党原来盗来的账号无法登录了。” 丁丁告诉我。
丁丁不是天线宝宝四人组里的“丁丁”,而是腾讯企鹅号平台安全部的一位技术小哥。日常工作是跟黑产们 “贴身肉搏”,防止平台被薅羊毛,确保平台安全。出于尊重个人意愿,不透露真实姓名和职务,姑且用“丁丁”代替。
半个月前,丁丁和同事们对做号集团们来了一次“地毯式轰炸” —— 直接停用了“手机号/邮箱登录+密码”的登录方式,只允许用绑定QQ和微信扫码登录,这一下就斩断了不少做号党的财路。
“做号党手里的账号来源一般有两种:一是用机器自动化大批量注册,二是通过撞库等手段盗过来别人的账号密码。”
丁丁告诉我,无论哪种,都免不了用手机号/邮箱号+密码登录,现在平台直接停用账号密码登录,做号党手中的一大批账号将被废弃。
在对阵做号集团的漫长战争里,丁丁和同事们又赢了一场战役。但仅仅在一个月之前,他们还深陷在一场众所周知的因为盗号、做号党引发的质疑之中。
并非所有幕后努力都能被人看见,所以我决定和他们聊聊日常,看看内容平台和“做号党”之间究竟发生过怎样的攻防对抗?以及,为什么腾讯辣么有钱,依然灭不掉做号党?
和做号党的“缠斗”
“注册账号是每个黑灰产薅羊毛的必经之路。” 丁丁告诉我,倘若来者不拒,企鹅号每天得有四到五万个新增用户。但用膝盖也能想到,庞大的注册量中必然混入了不少黑灰产,所以他的工作之一就是在路口布防,拦截一切可疑注册者。
透过安全数据,丁丁能感受到做号党们的脉搏。
他说,“每次实施新的防御策略,做号党的活动迹象都以肉眼可见的速度减少,没过多久又会反弹,像一群总灭不干净的小强。”
企鹅号的第一道防御线——黑产库,来自盟友腾讯安全平台部。
这个部门相当于整个腾讯公司的保镖,职责是保护腾讯全线产品的安全,丁丁一般亲切地简称它“安平”。
安平的一项日常工作就是搜罗各种行为可疑的 IP、手机号、邮箱地址等数据,给他们打上标签,汇成一个庞大的“黑产库”,提供给腾讯系的各个产品线,帮小伙伴们鉴别正常注册和恶意注册。
丁丁告诉我,“企鹅号接入黑产库就等于在注册环节加了一道过滤网。效果立竿见影,每天注册量一下就降到两三万。” 也就是说,有两三万次恶意注册来自做号集团,被拦掉了。
为啥做号集团这么执着于注册账号这件事?很简单,对做号团伙来说,号就是钱。
“一个企鹅号每天限制发5篇文章,两个账号就能一天发10篇,三个就15篇……发得文章越多,收益自然就越高。”
在利益的驱使下,做号团伙非常勤奋,别说一天五篇,十五篇,甚至二十五篇都不在话下,对账号的需求数当然大。
丁丁告诉我,做号已经形成一条完整的产业链。
“有人专门‘下号’(提供账号),有人专门收集个人信息做实名认证,有人负责炮制内容吸引流量,用平台补贴、广告等方式变现,下游还有人专门给他们提供刷量服务。”
从上至下环环相扣,明确分工。
“下号”是重要的一环,主要通过程序批量注册、撞库盗号等手法。依照不同平台的注册和盗号难度,每个账号通常就能卖十几元到几十元不等,有实名认证、原创认证的账号则售价更高,有的能卖到几千块一个。
丁丁说,“做号团伙很狡猾,每天会换用各种手机号、邮箱,切换IP地址来伪装成正常注册,试图躲避黑产库的拦截。所以我们当然还有别的招。”
企鹅号的第二道防御线是实名认证,只有实名认证的账号才能发布内容。
业内以往最通用的实名认证方法是“上传手持身份证照片”。简而言之,让你捧着自己身份证拍张靓照,传到平台进行人工审核。讲真,这种认证方式体验不好,总有种犯人拿着号码牌拍照的感觉。就像这样:
你可能有点纳闷,Google 上怎么能随手搜到那么多手持身份证照片呢?是的,很多人的身份认证信息其实早就泄露了,所以魔高一尺,单纯靠上传手持身份证这种方法其实挡不住做号集团。
去年9月份,温州警方就破获了一起公民信息买卖案。据通报,该团伙的手持身份证照片仅售几毛钱一张。收集到“四件套”(手持身份证、手持报纸、手持白纸、身份证正反面)打包卖给“注册商”,单价也就百来块钱。
做号集团便是所谓“注册商”,典型买家。
图片来自警方通报新闻
丁丁告诉我:“除了直接在地下黑市购买,有的做号集团还会雇人去农村收身份证信息,这并不难。”
道高一丈,企鹅号的对抗方法是人脸识别。
腾讯公司有专门做人脸识别技术的团队,正好又能帮上忙。“实名认证时只要用人脸识别一查,冒用他人的身份信息肯定通不过,一下子就又把黑产的策略击破了。”
丁丁说,人脸识别上线才几天,每天新增的实名认证数量猛降四五千,效果立竿见影。
但事儿还没完,“做号集团肯定会反扑,这是常态。”
平台用人脸识别“大面积灭火”之后持续监测数据,不到一个月,实名登记数量果然又开始反弹,火星复燃了。
我问他:“是黑产有办法骗过人脸识别?”
“倒不是,他们用了一种迂回策略来避开人脸识别。” 丁丁说,之前企鹅号平80%的账号是个人号,只有不到20%的企业号。人脸识别功能启用后,个人号的日均实名认证量迅速减少,企业号日均认证量却开始上涨。
两三个月时间,企业号占比竟涨到接近 70%。也就是说,做号团伙们为了躲避平台的打压,从个人号集体涌入了机构号。
这给企鹅号安全部门带来一个难题。
“企业号实名认证信息一般要求填企业法人,也就是公司老板的。但实际操作账号的人通常是底下负责新媒体运营的普通员工,很少有公司老板亲自来操作媒体账号的。”
如果强行要求人脸识别,“小编”就得必须拽着自家老板来刷脸认证,这会给正常企业用户带来困扰。
丁丁又想了一招 —— “要求企业号绑定公司的银行账户,并且账户名必须和企业营业执照上的公司名相同。我们往账户里打一分钱,就能核对账号真实性。
到这一步,坑又填上了。
“如此一来,做号党岂不是无路可走了?”
“你放心,做号党们一定会想出各种怪招,这场仗得一直打下去。” 丁丁说,就在前不久,他们又发现有大量账号试图用PS制作的假营业执照蒙混过关,同事们正在商讨针对性打压策略,打算再加一层额外的校验系统。
他说和做号集团对抗让他深刻体会到一件事:做号集团背后出活生生的人。
若你把做号团伙当成游戏里三拳两脚就干掉的小兵喽啰,试图用一道墙,一个篱笆就拦住,他们就会用一次次反扑来告诉你他们是一个个真实“玩家”,有专业工程师,有统一指挥者,还有黑产盟友………
但平台就无计可施了吗?
“做号党的目标是钱,只要作案成本越来越高,他们就会逐渐放弃,或者转移到其他更容易得手的目。所以,每一次平台打击都是在挤压做号党的生存空间。”丁丁说。
很少有人会注意到,企鹅号仅仅在2019年第一季度就拦截了黑产账号注册和登录235万次,拦截准确率达到了99%。
不公平的较量
聊完“下号”环节的攻防战,接下来做号集团就该写稿了。
丁丁的同事迪西给我发来一个文档。
迪西是企鹅平台内容部门的,为了知己知彼,她日常会花时间去了解做号集团的内容生产模式,以试图针对性地打压。
我打开文档,做号套路简直深似海。
翻到“伪原创的方法技巧”一章,里面详细记录着如何用“等价替换法”把炮制出一篇伪原创:
“等价替换法又分为文字排序法、数字替换法、词语替换法……”
这些方法不仅成体系,且分门别类,可操作性很强,基本属于义务教育水平以内的人看完都能上手实操。
肉有五花三层,“文章搬运大法”也分三六九等。
“初级搬运”仅仅修改标题和部分词语;“中级搬运”会对标题段落进行重排;“高级搬运”则会综合多篇稿件内容,来个“葫芦娃大合体”;“终极搬运”最厉害,不仅会把原文许多段落换个说法,还会将原文配图也换成意思相近的其他图片。
除了雇佣劳工手动搬稿,规模稍大一些的洗稿团伙大多已学会用金沙手机网投老品牌值得信赖 的力量来武装自己,全面步入工业化时代。
自动化搬运软件也分为初、中、高、终级。
初级的软件大多是一键直接搬运,特点是替代手动操作,速度快效率高。
一般这类工具还提供“多平台管理”,可以同时管理企鹅号、头条号、百家号、大鱼号等多个内容平台的账号。
如果某个原创作者在 A 平台发了篇文章,第二天刚打算发到 B平台,就发现已经被人抢标了原创,那么很可能对方就是用这类搬运工具打了时间差。
“中级搬运软件”开始进入“半自动辅助写稿”时代。
在初级的基础上,想洗哪篇文章就在软件里输入文章链接,它会从全网抓取所有相似文章,显示出阅读量、相似度、关键词、词频统计(特定词出现的频率),并用不同颜色标明好。
顺着数据引导,分分钟改出一篇“优秀”的伪原创,既能避免被平台判为抄袭,又能斩获更多流量。
高级搬运软件已经进入“以机器为主,以人为辅”的工业自动化生产时代。
在初、中级的基础上,高级搬运软件实现抓取、识别、替换等整个流程的自动化,人类唯一需要做的就是审核“机器写的文章”,把逻辑不太通顺的地方捋顺。
某款针对企鹅号的做号软件
“终极洗稿软件”更厉害,全面带领洗稿集团全面走进 AI 时代,从搬运到洗稿,再到检测文章重合率,全部自动完成。
具体就不展开聊,反正文档中提到许多专业AI领域词汇,什么NLP自然语言处理、结构化信息抽取算法、语义联想、情感分析、文本聚类、关键词提取……
从展示的仿写结果来看,也非常接近人类。
某AI仿写软件,点开图片可看仿写效果
用这些方法洗完稿发到各大平台,先甭管有没有人看,让下游负责灌流量的公司往里刷些阅读量,什么"群控系统”那都是灰产团伙标配。总之,想办法干扰平台的判断,让推荐算法误以为文章是用户爱看的,继而得到更多推荐量。
传说中的群控系统,图源自网络
至此,你已经清楚做号集团的洗稿套路和工具了,现在要怎么对付他们?怎么在海量的文章中分辨出哪个是原创,哪个是仿写,哪个是二次创作,哪个是抄袭?鉴定标准是什么?如何防止误伤?
这都是摆在迪西以及所有内容平台面前的难题。
迪西说,最初,平台会为每一篇文章生成一个“MD5指纹”,如果比对指纹发现两篇的指纹相同,则判定为“搬运、抄袭”,给予打压。
可后来,做号团伙学会拆分文章和段落,学会替换同义词、更改语序,洗稿技艺越来越精湛,以往那些反抄袭策略便逐渐失效。
我问迪西能不能同样用 AI 技术来鉴别原创,她说检测侵权的技术正在不断升级,也有用到 AI相关技术。但她同时也反问我:“你觉得什么算是原创?”,我一下被问住了,心想是啊,如果连人类在原创、洗稿问题上都尚有争议,没有明确边界,那训练出的 AI 又怎么能准确鉴别?
这不仅是内容平台的困境,也是整个创作环境的困境。
同样在互联网、人工智能技术的加持下,复制粘贴、洗稿、搬运、抄袭变得越来越容易,平台却越来越难反制。原因很简单,前者是把盐和胡椒混在一起,后者却要把二者分开,这注定是一场不公平的对弈。
但对于内容平台来说,这场仗再难也得打下去。我问迪西,那企鹅号打算怎么办?
“慢慢来,情况会一点点好转。”她告诉我,企鹅号目前在建立原创自动维权机制,作者授权以后,企鹅号会在全网监测侵权行为,并且主动发起维权。
图片截取自企鹅号后台
很多原创作者感慨侵权易,维权难。把维权索赔机制建立起来,提高侵权者的风险成本,这倒是条不错的路子。
这是“堵”的一方面。“疏”的方面,企鹅号也会通过创建有版权的素材库、版权二创开放平台以及完善内容服务商体系,帮助创作者提升原创能力。
战斗会停止吗?
“做号党未来会消失吗?平台和黑产之间的战斗会停止吗?” 我问丁丁和迪西。他们都说不会,这是一场无止尽的攻防对抗。
但我觉得会。在这件事上,我比较乐观。
让我们把镜头拉远,会发现一件有意思的事,最近两三年,腾讯、百度、字节跳动等互联网巨头们正在打一场激烈的内容“抢位战”,所有人都往里砸钱都毫不含糊。
今日头条说一年补贴个几十亿给原创作者;百度不服,下注100亿连眼都不眨;腾讯差那几个钱?100亿是吧?再加十几个亿………
所有人僵持不下,这才给了做号集团留出了生存时机。
这让我脑补出一个很滑稽的画面:枪战电影里,一堆枪神用枪指相互着对方的头,气氛紧张,谁都不敢开枪也不敢撒手,此时几个小蚊子嗡嗡飞过来,美滋滋把所有人吸了个遍。
其实大家都想把那破蚊子一巴掌拍个稀巴烂(这也不难),可是僵局里,谁顾得上那个蚊子呢?
回想一下,互联网黑灰产的一次次出现的时机,是不是都对应着一场“鹬蚌相争渔翁得利”的故事?
出行大战那会儿,有人注册一堆司机账号蹭补贴,月入数万;共享单车大战那会儿,有人用面包车载着单车来回兜风领红包,月入数万;外卖平台大战那会儿,有人刷空订单骗补贴,又月入过万。
剧情都差不多:风口出现,巨头抢位,砸钱补贴,黑(灰)产进场,喜提羊毛。
所幸,如今“内容大战”僵局持续了好几年,已经逐渐被网信办约谈、用户吐槽、媒体质疑等诸多因素打破,大家都开始放下手枪全力先拍死身上的那只“蚊子”。
迪西说,目前企鹅号正在调低部分内容的收益系数,放弃掉一些流量型KPI,把“全品类内容”作为主要工作目标,包括引入各个领域头部的优质账号,给予政策上的倾斜,并且筹备原创专家委员会,建立一套完整的原创权益审核、监督、处罚流程,挤压掉做号集团的营收空间,优化企鹅号原创生态。
再看看今日头条、百家号,其实也在陆续实施类似的计划。
内容平台和做号党还会经历一个博弈的过程,但邪不压终究是亘古不变的真理。
【来源:浅黑金沙手机网投老品牌值得信赖 作者: 谢幺】