作者 | 刘燕
这可能是大数据行业经历的最寒冷的一个冬天。
年关将至,国人习惯于用各种圆满的方式给即将过去的一年划上句号,不过,这对于许多大数据行业从业者来说,似乎有些奢望。整顿、倒闭、离职…最近数月以来,股股冷峻的气息一直笼罩在行业上空。
多次监管动作不断提醒和鞭策着大数据公司,是时候告别野蛮生长的时代了,合规才是正途。
巨变启幕
监管重锤落地,此前狂飙突进的大数据产业突然被按下“暂停键”。
自今年 9 月以来,多家大数据公司接连被查,巨变启幕,行业“一夜入冬”。
9 月 6 日,大数据智能风控服务供应商魔蝎数据被警方调查,一位核心高管被带走,官网至今无法正常访问;另一家大数据公司新颜科技的 CEO 黄向前也在同一天被警方带走调查;这天,聚信立发通知主动停止了爬虫业务,然未能幸免于“难“,仅过了几天后,聚信立被爆有警方进驻公司调查;9 月 11 日,知名币圈项目公信宝运营主体被杭州警方查封;次日,有媒体报道,集奥聚合深圳分公司十余人被带走,北京办公室也有多人被深圳警方带走;另有爆料称,天翼征信的总经理、副总经理及市场人员被警察带走。
一周之内,5 家公司被查,如此阵势引发业内恐慌,但这可能只是刚刚开始。
紧接着,有传言称百融云创数据查询受影响、个人征信数据业务被暂停,深圳分公司员工被带走,后被官方否认。9 月 27 日,同盾科技子公司信川科技高管被带走协助调查;10 月 21 日,51 信用卡委托外包催收公司因涉嫌寻衅滋事等罪被调查;10 月 25 日,新京报报道称,央行发文紧急调研银行与上述第三方数据公司合作情况,排查的合作内容主要涉及数据采集、信用欺诈、信用评分、风控建模…
有业内人士分析称,上述公司被查与其开展的“爬虫”业务有关,根源亦在于涉足现金贷、715 高炮、套路贷、暴力催收、“超利贷”等业务。
据 AI 前线不完全统计,此次清查波及的大数据公司至少 15 家左右。(以下根据公开资料整理,力有不逮,难免遗漏或错误,请见谅)
那个“2019 年,捕获独角兽最多的机构:红杉、阿里、腾讯和警方”的网红段子在引人发笑的同时,也反映出了当下大数据公司的尴尬处境。
今年 11 月以来,公安部加大了 APP 违法违规采集个人信息集中整治力度,共下架整改 100 架 APP,其中考拉海购、房天下、樊登读书、天津银行等知名 APP 也在列,这些 APP 多涉及无隐私协议、收集使用个人信息范围描述不清、超范围采集个人信息和非必要采集个人信息等情形。据悉,今年以来,公安部“净网 2019”专项行动,已查处违法违规采集个人信息的 APP 共 683 款。
监管风暴席卷而来。大数据行业内人心惶惶,经此一击,许多大数据公司遭受重创,大量数据接口被切断,数据产品停售,部分公司业务部门解散、裁员,还有一些公司濒临倒闭。据一本财经统计,或有上万人因此离开大数据行业。
祸起爬虫?
市场已是风声鹤唳。
一时间,人人闻“爬虫”色变。白骑士、葫芦数据、天机数据、立木征信、聚信立等大数据公司纷纷宣布暂停爬虫业务,还有的公司在几天之内火速将爬虫业务从经营业务范围中“抹掉”,招聘“爬虫工程师”的公告信息也被紧急撤下,一些爬虫程序员因为担忧是否游走在违法边缘,头发又多掉了几根…
业内有这样一种说法,爬虫贡献了互联网 50% 的流量,它对于互联网的繁荣功不可没。但该技术同时也因“用途”而充满争议。爬虫是一项见不得“阳光”的技术,它广泛运用,却少有人愿意承认在使用它。因为它常常被用作非法收集信息的工具,站上数据隐私、数据安全的对立面。
“爬虫技术本身并无对错,但要看怎么用,用错了肯定违法啊”,一位程序员向 AI 前线表示,“技术无罪,关键在于人”。
网络爬虫是非常普遍的一种数据挖掘技术,它是一种按照一定的规则,自动地抓取网络信息的程序或者脚本。爬虫技术最早主要运用在搜索引擎中,它满足了人们的数据获娶分析需求。早在 1995 年,为了不越“边界”,互联网搜索引擎与网页持有者之间达成了一项“君子协定” robot 协议,该协议规定了哪些信息该爬,哪些信息不该爬,20 多年来,该协议一直沿用至今。
在遵循 robot 协议的前提下使用爬虫技术是没有任何风险的。但往往有些“作恶者”试图越过红线,一些大数据公司打着“大数据分析”的名头违规违法爬取任何网页及访问用户的数据,致使“虫灾”泛滥。
现在的爬虫似乎无所不能,只要有账号密码都可以爬,包括电商平台、外卖平台、地图、旅行网站、共享单车、等平台的个人信息,用户的通讯录、上网地址、收货地址、聊天记录、搜索记录、支付记录,甚至央行的征信报告…总之,一切皆可爬,还可进行定制化爬龋
在互联网金融领域,上述数据主要被滥用于借贷、风控环节,具体多用在导流获客和暴力催收上。除了支付宝爬虫、微信爬虫,甚至还有同业爬虫,同业爬虫即爬取同行的信息。据了解,摩羯科技曾推出该款产品,其要求借贷者提供在其它平台上的用户名与密码,并通过爬虫爬来竞品的贷款额度及还款记录,这样便相当于剽窃了同行的风控成果。
今年 3 月,号称拥有中国最大的简历数据库的巧达科技被警方一锅端,该公司的简历数据库全部是通过非法手段爬取而来,非法获取的简历超过 2 亿条,它将简历库以 13800 元每年的价格出售
非法获利,光是 2017 年,巧达科技凭此业务营收高达 4.11 亿元。泄露、买卖、滥用,这些违规收集来的数据被肆无忌惮的曝光、出售,令用户信息犹如在裸奔,严重侵犯了用户个人隐私。
爬虫也是一项“矛盾”的技术。爬与反爬的“斗争”每天都在上演,力量此消彼长。
据一位资深程序员介绍,现在比较常见的反爬虫技术手段主要有,检测 Header 信息;设置 IP 访问频率,分析同一 IP 或同一设备在短时间内多次访问同一页面或进行相同操作;识别 UA、通过动态页面增加爬取难度等方式。
这几年,随着随着 AI 的发展,一些机器学习、canvas 指纹等智能反爬虫技术也被运用起来。例如,腾讯云网站管家 WAF 就将 AI 检测引擎能力,运用到了爬虫 Bot 程序检测的环节上,AI 引擎能够对站点访问流量的会话进行追踪,通过流量画像,匹配行为模型及行为标签进行识别,进而识别出爬虫 Bot 程序流量行为。
今年 5 月,被称为“中国版 GDPR”的《数据安全管理办法》征求意见稿发布,第 16 条规定,网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。
一位业内人士认为,技术只是工具,在获取数据时需要考虑数据到底有没有获得授权,需要几方授权,在拿到用户授权的情况下,有没有拿到网站等数据来源方的授权,这其中涉及到的权责边界应该更明确。
随着监管越来越严格,爬虫技术的使用边界也将更加明晰。互联网从业者应当怀有敬畏之心,要时时注意不要触碰边界,毕竟,爬虫只是技术,灰色的是“助恶者”。
繁荣下的危局
整顿风波揭开了大数据灰色产业链的冰山一角,也将大数据行业高光背后的暗影一并曝在了阳光下。
伴随着互联网 + 迅速成为潮流,以及深度学习推动下的第三次人工智能热潮,大数据技术备受追捧,”得数据者得天下“是一度被风口裹挟着的大数据产业的繁荣写照。
金融大数据是大数据产业应用最广的领域之一。2013 年前后,互联网金融开启了发展元年,一大批 P2P、第三方支付等互金平台涌现。P2P 平台一骑绝尘,但缺乏数据能力、风控能力差是其发展掣肘之一,如此一来,就为第三方数据公司提供了诞生的契机。
同盾科技便是彼时的入局者之一。2013 年,时任阿里巴巴集团安全部技术总监的蒋韬还曾因离职创办同盾科技在业内引起一番不小的轰动。成立当年,同盾科技便拿到了来自 IDG 资本和华创资本的 A 轮融资。AI 前线查询天眼查显示,同盾科技自成立以来已获 6 轮融资,除 2018 年外,几乎每年都有融资,最近的一次是在今年 4 月完成的超 1 亿美元 D 轮融资,估值近 20 亿美元。
有数据统计,2013 年到 2015 年,中国市场上 P2P 网贷平台数量从 800 家增长至 2595 家,累计交易规模超过 11.4 万亿。另据亿欧智库《2018 中国智能风控研究报告》显示,截至去年年底,573 家金融风控企业共获得投资金额超过 1000 亿元,其中三成企业获得三次及以上的投资。这些企业中,有 69.8% 成立于 2013 年 -2017 年。
最近两年,金融科技成为 P2P 热潮落幕后新的创投风口,再次助推大数据产业发展走向新的高潮,同盾科技、51 信用卡等大数据公司也跃升为明星独角兽。
在草莽生长的早期阶段,不少大数据公司趁机钻了法律不完善的空子,其数据业务游走在道德和法律边缘。自 2015 年以来的多次监管动作也无不为从业机构敲响警钟 要合规化使用数据。
在很大程度上,这些 P2P 网贷平台与第三方数据公司是“相互成就”的关系。而一荣俱荣,一损俱损,当监管“紧箍咒”收紧之后,大数据产业也迎来了洗牌阶段。“那些能够满足政策及市场客户需求的团队,肯定会越做越好,而那些无法真正满足需求的,将面临淘汰”,一位大数据行业从业者向 AI 前线表示。
某头部互联网消费金融平台的大数据负责人表示,这次的监管行动从产品 爬虫技术相关的数据方 网贷平台,可以说是一条链式的查处。尽管有些严格,但如果不经过整治, 行业内存在的“缺乏明确规则”的问题就很难作出改变。一些大数据公司“单纯”的认为自己只是给甲方做数据服务,即便出了问题,也事不关己。但现在来看,这些权责是需要进一步明确的。
渐入寒冬深处,结局也格外凄冷。
一些重度依赖爬虫业务的大数据公司轻则业务停滞,重则或将因此倒下,即便能勉强活下来的恐怕也要被迫转型。另一方面,一些 AI 公司、金融科技公司也会受到不同程度的影响,没有了大量数据持续“投喂”,模型该如何迭代优化?
“有时候市场表面上的虚假繁荣是难以持续的,泡沫总有一天要被戳破。这次监管风暴对小机构来说,以后可能更难做了,对一些大机构会有一定影响,但可能影响没那么大,优胜劣汰会加剧。大浪淘沙后留下来的是那些对用户来说定价更低、体验更好的产品,而淘汰掉的绝大部分是那些不合规的企业。因此,从长期来看,通过强监管之后,大数据行业会更合规,总体来说对用户会更友好”,上述大数据负责人继续说道。
一位第三方数据公司的高管对形势感到乐观,她认为,这次监管风暴对行业的健康发展是有利的,监管介入、政策出台,这都在引导行业往好的方向发展,数据采标清洗质检等流程会逐渐趋向标准化、合规化、安全化,进而提高大数据行业的进入门槛,并倒逼从业者提升服务质量。
一半是海水,一半是火焰,值得一提的是,一些具有国企背景的大数据公司逆势成为行业里的“香饽饽”。那些不合规的企业终将湮没不断滚滚向前的历史洪流中,未来的大数据产业属于合规的参与者。