大数据行业大梦一场从疯狂到覆灭
大数据、人工智能为我们勾画了未来宏伟蓝图的同时,却从鲜少向人们显示与「便捷」孪生的「危险」底色,直到有人将现实撕开一道口子。
最近,江苏淮安警方依法打击了7家涉嫌侵犯公民个人信息犯罪的公司。其中,2015年3月以来,北京考拉征信公司非法提供查询返照9800余万次,获利3800余万元,警方在公司服务器中查获并收缴被非法获取、存储的公民姓名、身份证号、照片近1亿条。
海量信息泄露的背后,是一整条完整的个人信息挖掘、收集、交易、利用的产业链,以及其所带来的巨大利益诱惑。
在这条产业链上,公民个人信息被称为「流量」,可以随意被打包倒买倒卖,甚至一个普通员工的电脑里都可以存储着几万人的隐私信息。而一条包含了用户姓名、身份证号、住址、电话、银行卡号等个人信息的「流量」,价格只有几毛钱。
此前,公安部通报「净网2019」专项行动工作情况及典型案例时也提到,专项行动的成果之一是捣毁了一批为「套路贷」提供技术、数据服务的科技公司。据财新报道,涉案的部分大数据服务商分别为新颜科技、聚信立、信川科技(同盾科技子公司)、魔蝎科技。
相比与C端与用户直接接触的贷款平台,这些公司的名字可能并不为大众所知,但他们所掌握的数据库和客户数量远超过我们的想象。
在过去几年时间里,伴随着互联网贷款行业的快速发展,他们以低廉的成本获取用户信息,再通过各种方式变现获得了超额利润,同时也裹挟了大量资本,顶着「科技」的光环一往无前。
如今,这场残暴的欢愉,终将以残暴终结。但在一地鸡毛之外,这个行业值得一场更全面的反思。
1、风口之上
时间回到2013年,时任阿里巴巴集团安全部技术总监将离职创业的消息一经传出,投资圈里便开始躁动。因为,「2013」、「阿里巴巴」、「互联网金融」这几个关键词凑在一起,一个标签呼之欲出——独角兽。
那一年,余额宝问世、P2P崛起、移动支付普及,在阿里系的离职创业大军中,互联网金融成为了一个重要领域。那一年,何俊创办铜板街,钱志龙试水爱学贷,被IDG紧盯的李治国出任挖财CEO,这些创业公司无一例外都成为了资本追逐的对象。
而蒋韬带着几乎是全「阿里巴巴」的班底创立同盾科技,无异于手握一张天使轮融资百万美元起步的底牌。风口之下,形势一片大好。同盾科技产品总监祝伟当时刚刚升职拿到阿里巴巴的期权,还没捂热乎就转头加入了蒋韬的创业团队。
华创资本的当家人吴海燕在与蒋韬见面后迅速敲定了这笔投资,并为蒋韬介绍了第一个客户。IDG资本也参与了投资,天使轮的融资规模便在千万级人民币。资本、团队、项目逐一到手,而这一切距离蒋韬离职不过刚刚一个月。
当然,并非所有的创业者都这般幸运。
同样是2013年年下半年,罗皓在结束了一场为期一年零七个月的创业后,注册了上海诚数信息科技有限公司,也就是后来我们熟知的「聚信立」。见完了一波又波投资人后,他终于拿到了100万的启动资金,而等这笔钱到账已是2014年年中的时候了。
如蒋韬般幸运也好,如罗皓般不易也罢,在2013年前后,一大批「数据」公司如雨后春笋般涌现。但在互联网金融刚刚萌芽的初期,在数据市场还处于一片混沌的时候,这些探路者的进程并不顺利。
当时,在国外已经出现Sift Science、Signifyd等利用大数据反欺诈的公司,其主要的客户是电商,通过设计反欺诈监测模型,帮助电商平台及其他公司监测虚假账户、虚假支付记录、低俗内容等等,以减少损失。
最初,蒋韬想要复制这个路径,通过SaaS服务先切入电商、支付市场。但是当时线下收单企业没有风控需求;而线上支付主要被巨头垄断,而这些大公司都有风控部门,会依据自己的数据做评分、建模,并不会选择与外部合作,因此同盾科技不得不转而寻找其他方向。
事实上不只是同盾科技,罗皓此前已经在大数据领域有过一次失败的创业经历。当时那个项目主要是为用户提供微博的精准营销,但这一领域对于数据量级有着较高的要求,再加上社交数据壁垒高,客户很难将其交给第三方,清洗挖掘难度也很大,最终他不得不关停项目。
与数据公司们在诸多领域艰难探索相对应的是,P2P行业以一种近乎野蛮的速度开始崛起。
数据显示,从2013年到2015年,中国市场上P2P网贷平台数量就从800家增长至2595家,累计交易规模超过1.4万亿。而从业务逻辑来看,网贷业务与数据业务有着天然的契合。
在这样一个急速扩张的市场里,大部分P2P平台的数据能力、风控能力却极为薄弱。因为P2P平台无法获得央行征信数据,若要大规模展业,必须依赖第三方大数据辅助做风控。而这无形间也为同盾科技、聚信立这样的公司创造了巨大的市场机会。
2、「恶」的种子
2015年初,聚立信发布了一款新产品,标志着公司彻底放弃在社交等其他领域的数据服务探索,转而专注于互联网消费金融领域。
在该产品发布的同时,罗皓骄傲地向媒体宣布,在过去一年多时间里,该产品将数据分析的维度从50个扩展至5000+个,「爬虫」爬过的网站超过100个,接入数据接口增加到80个。
在今天看来,「爬虫」技术是个人信息泄露的罪魁祸首,但在当时它确是炙手可热的「宝贝」。作为一种诞生已久的互联网技术,它帮助这些数据公司以最低的技术门槛和最低的成本迅速拓展数据源。
而对于第三方数据公司们,数据是一切商业模式的起点——没有足够的数据就无法建立起有效的模型,而模型的效果不好就无法吸引更多客户使用服务,没有数据源的扩充也就进一步丧失完善模型的可能。如此,环环相扣。
但这也成为了「恶」的原点。
为了加快数据沉淀,不同公司都有一套自己的方法论。具体来看,聚信立通过B端合作来驱动C端主动授权提供个人信息。方法也很简单,他们与大量的网贷平台、小贷公司等合作,当后者接到贷款申请时,他们会要求用户提供一份由聚信立提供的信用评估报告。
C端客户为了顺利从B端拿到资金,势必授权给聚信立,聚信立就能直接到数据源去爬取借款人的相关信息,并将非标准化信息转为标准化,最终形成对借款人的综合评估。
同盾科技旗下公司「数据魔盒」路径也类似。他们在早期通过「免费」的方式大量拓展B端平台,「认可效果再付费」是他们快速发展的重要战略之一。同盾科技还拓展了许多跨行业的客户,比如婚恋、航旅网站等等,这些数据都被纳入数据采集的维度当中。
「算法的上限是数据,如果说这个公司只是依赖于自己的数据去做分析,那么不管你招再牛的人、做再牛逼的算法,它的效果都是有上限的。」蒋韬如是评价自己的商业模式。
在当时,这是一个看起来「三赢」的生意,借款人获得了资金,平台有效控制了风险,第三方数据公司获得了数据,甚至看起来没有任何不合规——数据公司在爬取数据之前先获得了用户的授权。
但是,当用户交出个人信息、数据公司以极低的成本聚拢了海量数据之后,「恶」的种子便已经埋下。只是在市场发展早期,一切规则都尚未成型,互联网贷款市场的急速扩张、资本市场的加速涌入,使得市场参与者们都来不及多想。
公开信息显示,截止2015年10月,同盾科技累计服务客户超2000家,这一数字在一年之后便增长至5000家。在数据调取上,同盾科技每天的数据被调取量约为3000万,其中信贷业务平均每天约500万笔。
也是在2015年,同盾科技完成B轮3000万美元融资。
3、鲜花簇锦
高歌猛进的互联网贷款行业也将数据公司带入了发展的高峰。
2016年初,时任51信用卡CTO的周江翔离职,随后便创办了魔蝎科技;天翼征信前副总经理黄向前也离开供职多年的「电信系」金融科技公司,出任新颜科技CEO;在银行体系内有着丰富技术研发经验的杨攸斌也「下海」,创办了白骑士。
馨金融根据公开资料整理
越来越多的有着专业背景和光鲜履历的创业者扎进了数据行业。
这种现象的出现并非偶然。2016年,尽管P2P增速有所放缓,但现金贷平台汹涌。数据显示,这一年国内现金贷平台数量有千家,放贷规模已达万亿量级,这是一个比P2P还要野蛮的领域。一个更直观的例子是,仅二三四五一家平台在2016年的放贷金额就增长了20倍。
而每一家平台,从获客到风控,再到催收都需要「数据」的支持,而频繁的数据调取、使用,让数据公司赚的盆满钵满。
新流财经曾披露一份文件显示,同盾科技在2016年的付费调用量已经达到4.99亿次,这一数据在2017年攀升至18.08亿次,到2018年进一步增长至惊人的22.87亿次。与此同时,单次调用的价格也水涨船高,从2016年的0.09元/次增长至2018年的0.21元/次。
事实上,经历了前几年的发展之后,此时的数据公司们已经形成了完整的底层数据+产品服务+增值服务的业务链,可以为现金贷平台提供从基础数据到创新产品的全流程服务,需求如井喷般涌现。下图是聚信立在2017年的主打产品和数据底层组成情况:
以聚信立为例,当时它的爬虫接口,可授权爬取总计1200家网站覆盖所有电商、社保网站,90%以上的公积金网站、主流保险网站,涵盖央行征信、运营商数据、学历学籍、信用卡账单、电商数据等等信息。
由于现金贷平台无法接入央行征信,当然它们获得征信报告的意义也并不大,因为其覆盖的用户大多缺乏在传统金融机构的信贷记录。那么只能通过其它渠道的数据来甄别是否有欺诈风险、共债风险。
在这样的背景之下,第三方数据公司们所扮演的角色已然发生了转变。如果说之前他们更多是扮演金融「外包」的角色,那么在建立了一定的客户和数据基础后,它们无形间成为了互联网贷款市场中隐形的「征信中心」,或者说「信息共享中心」。
由于覆盖的群体特殊,连持牌金融机构等开始寻求合作。
4、烈火油烹
上帝欲使人灭亡,必先使其疯狂。
2017年下半年开启的「现金贷」整治不仅没有让这些数据公司及时收手,它们更随着现金贷行业开始了「最后的狂欢」。
「只要有人还在借钱,就会有数据需求,而且行业越是收紧、风控越是严格,头部数据公司的生意也就约好。」一个从业者朋友如是感慨到。在巨大的利益面前,大部分数据公司都选择忽略风险。
2017年年中,魔蝎科技便被媒体曝出,其开发的「同业爬虫」产品直接将其他现金贷平台的放款额和风控数据爬出来,手段太过野蛮。当时魔蝎科技COO张俊九在内部信中表示,
「未来2个月,我们将逐渐关停爬虫业务,同时会启动向已签约客户的赔偿机制。」
然而,事后证明,魔蝎科技的爬虫业务并未关停,反而变本加厉。
当时的现金贷行业已经陷入疯狂,「714高炮」等超利贷产品屡禁不止。为了在最短时间内收割最大的利润,一些现金贷平台疯狂到,只要拿到运营商报告(通话详单),能够保证催收,就可以放款。
前述被调查的考拉征信,更是牵出了一条由数据公司主导的黑产链条——考拉征信从上游公司获取接口后,又将查询接口出售,非法缓存公民个人信息,供下游公司查询牟利。
而更令人发指的是,这些上下游的公司不仅通过贩卖信息获利,还经营现金贷平台,利用手上掌握的个人信息进行贷款推销、软暴力催收等等。
从某个角度来看,第三方数据服务本身就是一个生于灰色地带边缘的产业。一部分业务长在阳光下,不断获得资本的浇灌,向人们描绘着这个行业未来会开出灿烂的花、结出诱人的果。但另一部分业务却潜藏在地底,不断在法律和道德边缘试探。
这场践踏了法律与道德底线的狂欢,终究不可持续。
2017年,徐玉玉案发,开始引起全社会对于信息泄露的高度关注。
一个女大学生接到了为她「量身定制」的诈骗电话,以教育部门下发奖学金为借口被骗走了全部学费。当晚,在报案后回家的路上,徐玉玉突然晕厥,不治身亡。此事掀起了一场关于数据行业的挞伐。
从2017年年中开始,中央网信办、工信部、公安部和国家标准委等部门就开始密集合作,针对国内大数据行业野蛮生长中的各种乱象展开各种行动,先后将30家大数据风控平台列入调查,其中就包括新三板上市公司数据堂。
调查结果显示,在8个月内,涉案公司日均传输公民个人信息1亿3千万余条,累计传输数据压缩后约为4000GB左右,公民个人信息达数百亿条,数据量巨大。
进入2018年以后,重点垂直行业的数据监管力度进一步提升。尤其是新金融领域里,包括个人征信试点机构、上市公司等都屡屡受到波及。2018年11月,针对大数据行业乱象,监管再次带走大量从业者调查。
眼下,数据行业迎来第三轮整治。杭州、北京、深圳等地全面排查数据公司,央行、「两高」等各部委接连下发打击套路贷、加强个人信息数据保护等文件,连「助贷」、「催收」等业务链上的各个环节都被严查。
5、拷问未来
数据行业带上「紧箍咒」。
今年年中,国家互联网信息办公室发布《数据安全管理办法(征求意见稿)》,文件系统地规定了网络运营者数据收集、数据处理使用、数据安全监督管理等覆盖数据全生命周期的综合合规要求,以及强制捆绑授权、网络爬虫等新型数据安全问题。
随后,《信息安全技术移动互联网应用程序(APP)收集个人信息基本规范》最新版草案中则对于网络支付、金融借贷等部分服务类型所需最小必要信息进行完善,内容包括不应强制读取用户的通讯录,仅用于实现用户借贷历史查询和处理用户纠纷的使用要求下,可收集借贷交易记录等。
数据行业的野蛮生长,就此画上休止符,但由此引发的风暴却远未停止。
按照这个逻辑,不止是独立的第三方数据公司,所有自身不产生数据(而又高度倚赖数据)的商业模式可能都将面临艰难的处境。比如,金融科技公司、人工智能公司.....没有数据的持续「喂养」,如何迭代各种模型?
所以,长期来看,这一次数据行业的「地震」,所波及的范围可能比想象中要广的多。在缺少了上游数据服务商以及其所提供的「白名单」、「黑名单」等服务之后,首当其冲的当然是那些缺乏风控能力的贷款平台们。
此外,如果仔细查看这些数据公司的合作伙伴名单就会发现,他们的合作对象早已不止于所谓的现金贷、P2P平台,消费金融公司甚至全国性银行都在名单之列。事实上,已有持牌金融机构因供应商突然中止提供数据服务而暂停放款。
数据行业的陨落揭开了过去几年新金融、新经济盛景的另一面:通过在灰色地带的试探催生了繁荣,牺牲隐私交换了便捷的体验。而结果就是,发展越快、风口越盛,所引发的混乱和失控也就越触目惊心。
一切的进步,都应该在底线之上,否则这些进步很可能会将我们引向更加黑暗、更加失控的未来。