滴滴下架，谈谈数据黑产

计算广告·2021-07-19

最近，滴滴他们全家都被下架了。

图源：图虫

编者按：本文来自微信公众号计算广告（ID： Comp_Ad），作者大数据仁波茄，创业邦经授权转载。

最近，滴滴他们全家都被下架了。除了阳奉阴违赶去纳斯达克投胎以外，数据安全、隐私保护这些多数人既关心又不了解的话题，也被推上了风口浪尖。正好前些天，金星老师要搞个新节目，导演组找到我，居然也想聊聊大数据、用户隐私这方面的事儿。当然，鸡一嘴鸭一嘴地控诉大数据罄竹难书的罪恶，我兴趣不大。

全民关注数据和隐私，当然是好事，只是这里技术和行业知识太多，不容易透彻理解。因此，市面上惊悚的传言频出，似乎搞大数据的都是三头六臂的妖精。作为一名战斗在数据一线的仁波切，我感到有必要挺身而出，以我在宗教界相声说的最好的工程师身份，给大家把这方面的事儿讲明白。

弄明白这玩意有啥用？普通人，可以搞清泄露什么隐私会让自己破财招灾，免得不明就里地疑神疑鬼，心脏病和痔疮都犯了；对立法专家来说，可以稍微理清法规的边界和作用，别总想着利用手里的图章，靠加紧箍咒渔利；对想挣钱的来说，那这里面日进斗金的机会多了去了。当然，在学习本文之外，您还得同时精研刑法，先找好退身步。

首先，大家得明白一个道理：如今的世界，早已是数字世界第一性的了。利用用户数据提供个性化服务，是绝对无法逆转的大趋势。如果把数据的使用都停掉，其后果比全国停用电力还要严重。

既然数据是提供个性化服务的，那么什么样的数据应用，是靠谱和无风险的呢？其实，这里有个明确的标准：你的数据，只能在同一个场景下服务于你本人。打个比方，快递可以拿到你的地址电话，但这是给你服务用的，只要不把你的数据给别人，或者服务别人，那就没啥问题。

互联网也是一样，管他是腾讯、淘宝还是抖音，根据你的行为影响你看到的内容，虽然乍一看菊花一紧，但是其实用不着太紧张，它对你的隐私并没有实质性的侵害。这样的用途，今后会长期存在，没必要因噎废食。

这里隐藏的问题，在于把数据“用于服务别人”这件事该怎么界定。说起来，这在互联网上并不新鲜，您想想现在短视频的推荐系统吧，其原理基本都是去统计“看过这个视频的人还会看什么”，这不就是把其他人的数据聚合起来服务你嘛！没错，这确实是。只不过，这是把其他人统计数据用于服务你。

那么，在统计过程中，究竟有没有漏洞让你可以窥见其他某个人的具体隐私呢？如果有的话，又如何解决呢？沿着这个方向，衍生出了数据安全方面一个重要的技术方向——隐私计算。你可能听过的一些词汇，什么差分隐私啊、联邦学习啊，都是这个方向里的热点，这些话题我们改天专门再谈。

说完了什么算正常，再回到正题：如今的互联网，到底有没有数据黑产呢？那肯定有啊！不过这些黑产，可能跟多数人理解的不太一样。

跟数据相关的黑产门道，简直是五花八门，一抬脚踩死一片。归纳总结一下，数据黑产可以分成两个大类：一是直接从你身上骗钱；二是借你的身份去干点坏事。

从你身上骗钱，又有两种不同的思路，先说第一种。比方说，有人拿了你的电话号码和家庭住址，怎么挣钱呢？很简单，往你家里发个货到付款的快递，别收太贵了，比方说50块，家里人不知买的啥，糊里糊涂就交钱收了。包裹里的小物件一块钱，快递费三块钱，那还挣你40多呢！您说家里人也不一定收？就算只有百分之二十的人收，人家都挣大了！

可以看出，这是一种“广撒网”的“轻诈骗”模式，可以很容易把大量用户信息变现。这类模式需要的信息，是那些“可以找到你”的信息，比方说住址、电话、email之类。这类信息有个统一的名字，大概您听说过，叫“个人可定位信息(PersonalIdentifiable Information, PII)”。

该怎么防范呢？这种广撒网的模式需要用到的PII信息，在如今各国的用户隐私保护法规下，几乎都已经被禁止传播和使用了。在我国，贩卖五十条以上的手机号这类信息，就有可能有刑事责任，所以这种风险在总体上是可控的。就算是信息真被泄露了，人家是广撒网嘛，一般也不会把你一把薅死，倒也犯不着忧心忡忡。当然，自己的PII信息，还是要看住了，别轻易给别人。

而更生猛的模式，“广撒网”就不够了，还得“深挖洞”。这就要用到用户身份以外的“行为数据”了。简单来说，就是深入分析你平常的网络行为，找到你的软肋之后，一刀下去，砍你个全身不遂。

这个路数最兴旺的领域，是放贷。放贷的爱找什么人呢？就是那些频繁借钱的人，这种人拆了东墙补西墙，听说哪儿能借出钱来，就跟苍蝇见了血一样。于是，想办法通过各种来源的数据，找出那些频繁借贷的人，诱使他上自己这儿来借，再设下个套路贷的陷阱，就能挣一把大的。而这些人常用的数据，就是短信、搜索词什么的。至于来路，没几个正规的。当年那一拨金融科技公司纷纷被抓，不少都跟这些数据黑产有关。

“深挖洞”的模式，用户就有可能蒙受重大损失了。说到底，这还是违背了上面说的“在同一个场景下服务于你本人”这条原则：一个人在A家借贷的数据，按说是不应该让B家知道的。

但是，这样一来麻烦就来了。本质上看，所有的精准广告模式，都存在把A场景/客户的数据用于B场景/客户的问题。如果B场景/客户的金主有恶意，那么这里的风险不容小觑。因此，我支持对于广告业务中使用的数据，要有明确的规范和边界。您想想，搜空调维修把骗子引到家里来这种事，还少么？

在现代的大数据技术下，这种“深挖洞”的能力超乎你的想象：举个例子，通过手机陀螺仪数据，能分析出用户的行进速度，如果速度比较快，再看看电量一直是满的，那么他十有八九是在开车，手机插着充电。如果一天有八九个钟头都是这状态，那大概就是个职业出租司机了。如果这司机在北京，消费上又不像一般司机那么节俭，那很可能是城乡结合部的拆迁户，手里有了点钱，没啥事干只好开出租。这些人一夜暴富，耍钱的比例不低，耍着耍着家里管得紧了，可手瘾还在，就只好借钱了。抓住他们玩套路贷，那可是一抓一个准！

而像滴滴这种掌握大量用户数据的公司，任何一点疏忽或恶意，都可能让用户蒙受重大损失，至于上市过程中，把什么数据交给SEC，SEC又能从中挖掘出什么，虽然不得而知，也是细思极恐了。

咱们再来说说第二类，借你的身份去干坏事。这类方法，往往是在互联网的技术体系内，用一些非PII信息，从客户而不是你身上挣钱。

最典型的例子，就是在黑产圈长盛不衰的的cookie stuffing。这事比较复杂，简单说是这样的：举个例子，假设淘宝为了搞到更多流量，就跟一些渠道说，你们去给我送流量，带来的用户下单，我给你提成千分之二！但是怎么才算这个渠道带来的下单呢？就是用户通过这个渠道的广告位点击到淘宝的时候，带了个用户的ID，后面这个ID再下单时，就能对上了。这样一来，鸡贼的渠道就想出个办法：尽可能多收集用户ID，然后给每个ID伪造一个到淘宝的点击事件，这些ID里如果有人下单，那不就算我的了！反正我一点成本也没有，撞上多少算多少呗！

大家注意，在这样的黑产中，除了用户的ID，人家什么也没用。而这里用的ID，也并不是电话、email这些 PII信息，而是cookie、IDFA等这些根本无法主动触达用户的身份号。就这样，人家拿你的身份证去挣了点小钱，而你没有直接损失，就像是做了一次免费的微型无痛人流。

因为只是借用了你的身份ID，一般不会让你受到直接损失，这类方法往往不为大家所关注。其实，前文那种“广撒网”的黑产也好，这里借身份的黑产也好，虽然单个用户损失有限，但也是赤裸裸地侵害用户权益，这一点没什么可说的。更重要的是，很多黑产从业者，往往是从轻量级的业务入手，一步步升级到那些“深挖洞”的模式，更放肆地讹诈用户。因此，这些“入门黑产”，也会像大麻这种“入门毒品”一样，把挣了这份钱的人，引向更加邪恶的黑产深渊。

说到这儿，咱们拐个弯，提个坊间盛传的传闻：APP监听你线下的聊天内容，然后给你推广告，到底是不是空穴来风呢？这事儿比较复杂，理论上讲有可能的，但是难度不小。简单说可以这么总结：硬件可以搞，软件搞不了。

要从声音中提取有商业价值的信息，那一定得用到语音识别技术。虽然这现在已经比较成熟，可是如果有个程序喝不喝老端着，一直在后台等着听墙根，那会有个严重后果：检测语音的程序，很快就把手机耗没电了。这不就露馅了么？

那还有什么其它呢？有，做一个专用芯片，用于检测语音信号，有语音信号了，再送到后台识别。实际上，智能音箱就是这么干的，所以你喊上一句就能把他唤醒。智能音箱能干，手机厂商当然也能干，所以说，“硬件可以搞”。如果手机把这项能力开放给APP，那么APP也就能干了。只不过，我不认为手机厂商有什么动力这么做，实践中好像APP也拿不到这能力，所以说，“软件搞不了”。

今天扯了不少了，最后再补充两点：一、数据安全问题并非互联网的新问题，原来线下商业中也不少，只是因为互联网让数据变现成了规模化的产业，这事儿才让大家格外重视；二、很多问题都是复杂的技术问题，仅仅靠法规的约束作用有限。我相信，解铃还须系铃人，只有在互联网场景下发展起来的隐私保护技术，才能彻底解决问题。

本文为专栏作者授权创业邦发表，版权归原作者所有。文章系作者个人观点，不代表创业邦立场，转载请联系原作者。如有任何疑问，请联系editor@cyzone.cn。