关于ZAKER 智慧云 合作 加入

记者卧底大数据营销公司:揭秘 APP 抓取 + 爬虫的生意经

新京报 08-20

记者卧底大数据营销公司:揭秘 APP 抓取 + 爬虫的生意经

有大数据营销公司靠销售爬虫工具获利,电商平台商家数据遭爬取;还有公司称可以获取任意网页及 APP 访客的手机号;专家称其属于恶意爬取,涉嫌犯罪。

文 6331 字,阅读约需 12.5 分钟

▲ " 鹰眼智客 " 大数据营销系统的主页面。

" 不需要不需要,以后别再给我打电话了。" 说完,代昌(化名)重重地将手机摔在了沙发上。代昌是河北邢台清河县一家民营企业的实际控制人,最近几年来,他接到的骚扰电话数量明显增多。骚扰电话正成为大数据时代的 " 顽疾 "。

记者调查发现,一些所谓 " 大数据 " 公司数据来源可疑,甚至有些大数据公司并没有数据。新京报记者经过多地暗访、卧底发现,有大数据公司号称可以采集到任意指定网站或者 APP 的访客手机号;另一家号称 " 中国互联网营销服务第一品牌 " 公司的 " 鹰眼智客 " 官网则显示:" 有你所需要的一切 "。

7 月底,新京报记者卧底 " 鹰眼智客 " 发现,其实际上是利用爬虫技术,从淘宝、京东等网站上爬取到店家手机号后,用于营销。此外,借助该软件,通过微信附近的人,用户可任意设定虚拟位置后批量申请好友,还能 " 站街 " 钓鱼营销。

有安全专家表示,当用户发生上网行为时会发送数据包,内含行为痕迹、手机号等信息。一旦涉及某一方发生泄露,通过抓取这个数据包便可以解析出来用户的敏感信息。网络爬虫则分为合法爬虫和恶意爬虫两种。一些所谓的大数据公司本身没有数据来源,而是通过爬虫手段获取他人的数据。

在网络空间,数据战争已进入白热化。2019 年 5 月份,国家互联网信息办公室发布的《数据安全管理办法》征求意见稿第十五条也规定了," 网络运营者以经营为目的收集重要数据或个人敏感信息的,应向所在地网信部门备案。" 此外,大多数网站早已对恶意爬虫构建反爬措施并作出声明严厉禁止,有律师直言," 突破、绕开第三方平台的反爬虫策略、协议时,或涉嫌非法获取计算机信息系统数据罪、提供侵入非法控制计算机信息系统程序工具罪。"

━━━━━

卧底 " 最全 " 大数据公司

淘宝、京东等多家网站数据被爬取

▲郑州共赢科技公司,业务员正在忙碌 " 杀单 "。新京报记者 李大伟 摄

记者发现一家名为 " 鹰眼智客 " 的大数据公司号称 " 中国互联网营销服务第一品牌 "。其官网宣称:" 有你所需要的一切 "。据官网介绍," 鹰眼智客 " 归属于郑州共赢科技有限公司。

7 月 29 日,新京报记者来到该公司面试地点——郑州市金水区金城国际广场 A 座,通过面试得到试岗资格,主要工作是推销一台包含 " 鹰眼智客大数据营销系统 " 的电脑。在约一百平方米的房间里,充斥着啪啪啪敲击键盘的声音。房间内的三十多名业务员共同组成了共赢科技的 " 商务部 "。

据其官网显示," 鹰眼智客 " 系统涵盖 QQ 营销系列、微信营销系列、综合采集系列、论坛贴吧系列、邮件营销系列五大模块,拥有 218 个小功能。此外,其还宣传称 " 已成功为 2800 多家企业提供互联网营销服务,覆盖 120 多个行业 "。其中综合采集系列号称可精准采集目标客户信息,覆盖全网 11 大 B2B 平台,4 大搜索引擎,7 大地图,准确率达 90%。

记者试岗期间任务是熟悉软件流程,并得到主管发的一份 " 终端客户聊天话术 "。" 终端客户聊天话术 " 显示,其数据来源于各大行业网站、各大平台以及各大地图等," 像阿里、百度、腾讯等等只要在网上公开留过痕迹的这些信息通过我们的核心技术 SPILDER 多线程技术都可以给你采集到。"

据极验产品总监程柏(化名)介绍,其核心技术实际上是网络爬虫技术。据其介绍,目前互联网流行的网络爬虫种类比较多,信息采集类的网络爬虫主要是脚本和模拟器类爬虫。

记者发现," 鹰眼智客精准营销系统 " 共包含数据采集系列、QQ 营销系列、社群论坛营销、综合营销工具五个模块,覆盖了客户数据采集到营销的整条产业链。

其中,数据采集系列模块包含地图行业采集、综合数据采集、阿里巴巴采集、慧聪网采集、单页名录综合采集、大众点评网采集、淘宝商家信息采集、中国制造网采集、团购外卖商家采集、阿里国际站采集、八方资源平台采集、京东商家采集十二个功能。

记者测试发现,该套软件操作十分简单,每个功能还附有相应的教学视频来指导。7 月 30 日,通过该软件,记者成功获取大量手机号。

以淘宝商家信息采集为例,记者在该系统中的淘宝商家采集功能中输入关键词 " 服装 " 后,成功采集到北京地区淘宝卖家的 82 条信息,共耗时 10 分钟。在软件弹出框右下角还附有 " 导出电话铺 " 的按钮,采集得到的信息包括类型(店铺等级)、掌柜名称、地区、电话、店址等多个维度。

此外,记者还对该系统的京东商家采集、地图行业采集、阿里国际站采集等功能依次进行测试,均获成功。

━━━━━

附近的人有多近?

软件任意定位,还可 " 站街 " 钓鱼营销

" 你得放开了玩,大声喊出来!" 在记者第一天早上上班之前,部门经理将业务员分成两支队伍,轮番结对玩一种 " 美女与野兽 " 的游戏。据该公司的工作人员介绍,玩这种游戏是为了调动业务员的积极性,培养团队荣誉感。

记者发现 " 鹰眼智客 " 自带教学视频,通过该视频,记者试岗期间对工具中微信营销的八个功能逐个进行测试。以该模块中的微信定位营销功能为例,用户使用该功能需用手机模拟器登录微信。按照添加模式不同,该软件分为添加附近的人、添加指定 QQ、摇一摇、添加群成员四种。

记者调查发现,点击微信定位营销 " 获取经纬度坐标 ",会弹出一个页面。假如在该弹出页面输入国贸位置后,用户可将坐标定位到国贸,并看到国贸地区 " 附近的人 "。利用该软件用户可以同时添加多个虚假位置,也支持多个微信号同时操作。

该套软件还有一定的反封号机制。视频教程显示,在参数设置中,用户可以自己选择好友验证的次数、间隔时间以及每个位置发送验证申请的个数。" 刚刚使用的话少添加一些,比如说添加五六个,逐步增加,最多的话添加十个以内,有一段时间间隔之后再次添加。"

设置好位置及参数设定后,用户可在软件中 " 验证消息 " 下面的空白操作区域对验证消息进行编辑。" 比如说,他是做生意的,你可以将验证消息编辑为‘你好,我想看下你产品’,这样的话(验证申请)通过率会更高一些。"

值得一提的是,该软件还有一项名为 " 站街 " 的功能。所谓 " 站街 ",即 " 如果说不想主动添加好友,只想让附近的人看到并添加你,就可以使用站街功能。" 在位置一栏的弹出对话框中,用户只需点击 " 模拟器利用此位置站街 " 即可 " 站街 "。

极验产品总监程柏(化名)认为," 鹰眼智客 " 部分功能属于黑色产业链。" 这类群发功能有些是违背用户意愿的,纯粹的牟利行为,像我有时候也会收到这类垃圾信息,多以营销为主,但是这类营销很多来源并不可靠,可能会有其他黑色产业链和恶意引导。"

新京报记者从 " 鹰眼智客 " 工作人员处了解到,公司为了方便客户营销,还提供外呼机器人(AI 电话)的服务,只需要将采集到的电话号码导入即可。

此前,新京报曾对外呼机器人进行曝光。所谓外呼机器人,实际上是一条电话机器人系统,一天客户呼出 1000 通电话。随后,央视 3 · 15 晚会也对外呼机器人进行曝光,不法分子和违法科技公司通过探针盒子搜集用户隐私、大数据提供支持、智能机器人提供外呼。

大数据如何 " 精准营销 "

抓取指定任意网站或 APP 的访客手机号

新京报记者通过搜索关键词 " 大数据精准营销 ",注意到一家名为娱加科技的大数据精准营销公司。

企查查显示,该公司全称为苏州娱加互娱网络科技有限公司,法定代表人为吴辉。该公司成立于 2018 年 4 月 19 日,注册资本 200 万元人民币,所属行业为软件和信息技术服务业。

8 月 19 日下午,新京报记者以保健品和网贷销售的身份与吴辉取得联系。对某些行业数据,吴辉显得谨小慎微。" 保健品暂时不行,保健品目前查得比较严,属于高危敏感行业。" 吴辉告诉新京报记者说。

据其介绍,该公司的获客系统十分精准。" 你可以指定任意网站或者 APP,只需要提供网站链接或者 APP 的名称及下载链接,我们就可以抓取到访客的手机号码。" 吴辉说。

不过,其所提供的访客的手机号码只显示真实的前三位以及后四位,所以只能通过他们提供的系统去进行营销。" 我们会提供一个外呼系统,可以将这些手机号提供到外呼系统里面去和客户沟通。" 吴辉介绍。获取的中间四位被隐藏的手机号也被其称为 " 脱敏数据 "。

此外,访客获取到的手机号也存在一定限制。" 现在运营商主要做的是联通和电信的,移动的停掉了。" 吴辉说。至于为何停掉移动的,对方给出的答案则是因为 " 移动用户太庞大了 "。

除了运营商,吴辉还表示,如果用户是通过 WiFi 或者电脑来访问的,也无法抓取到手机号。" 它(该系统)是通过流量来访问的,电脑端和无线网是抓取不了的,必须通过手机通信网络。"

为了增强说服力,吴辉建议记者 " 可以先花五百测试一下 "。据其介绍,使用套餐为 1000 条起测," 我们可以签一个费用套餐,开一个坐席,你自己去测试一下转化率是多少。"

吴辉提供给记者一份公司介绍。介绍文件对娱加科技获客系统与普通网页手机号抓取软件做了对比,对比图显示,网页手机访客抓取软件犯法,而娱加科技获客系统则为 " 联合联通电信运营商正式推出的产品,合法合规,稳定安全 "。

8 月 19 日,该公司倚为背书的联通和电信的客服分别对此事进行否认,称 " 并未提供过这种服务 "。

在介绍文件中,该公司提供给某整形美容医院的服务也被做成了一份案例。案例显示,该整形医院以整形医院哪家好、玻尿酸垫下巴、昆明隆鼻、整形医院、美容医院等 225 个关键词,提交了本地同行等 23 个推广网址、31 个同行座机咨询电话以及两款医美类 APP,要求目标客户为来自上海、年龄在 16 至 50 岁之间的女性客户。

该公司文件显示,在 2019 年 3 月,每日推送 100 条左右的数据,共推送 3053 条。其中接通 1872 个,意向客户 873 个,转化客户 372 个。接通率为 61.31%,意向率为 28.59%,转化率为 12.18%,获客成本只有百度竞价推广的六分之一。

安全研究员 Jane 介绍,当用户发生上网行为时,首先向运营商发送一个数据包。该数据包经过运营商之后再传给服务商。数据包中包含有用户的上网痕迹、手机号等信息。" 当其中某一方发生信息泄露时,不法分子可以利用这个数据包解析出来用户的敏感信息。"Jane 告诉新京报记者。

充满技巧的 " 杀单 " 话术

有业务员日赚近 5000 元

" 公司目前有两种计酬方式,一种是有底薪制,底薪为 1500,销售一件产品提成为 10%;另一种为无底薪制,底薪为 0,销售一件产品提成为 25%。" 共赢科技负责面试的李梦海(化名)告诉新京报记者," 一般人都会选择无底薪高提成的,赚得多。" 一台包含 " 鹰眼智客大数据营销系统 " 的电脑,定价为 8800 元。按照定价以及提成来推算,每销售一台,业务员可以得到 2200 元。

据李梦海介绍,共赢科技有限公司在郑州总部共有 5 个小队。记者被分配到 " 尖刀队 "。

" 恭喜尖刀队甜甜出单!"7 月 31 日下午 3 点 50 分,坐在记者右侧的甜甜突然喊道。当业务员出单时,便会自己喊出 " 恭喜 ×× 队 ×× 出单!",此刻所有人便会停下案头工作为其鼓掌。" 这是一种奖励机制。" 一名工作人员向新京报记者介绍说。

甜甜是一名新人。1992 年出生的她,几个月前来到这个公司转行成为一名销售。因刚入行不久,一些 " 杀单 " 的话术她并不熟练,当客户表现得意向较强时,较为资深的业务员便会聚拢过来进行指导。据其描述,她平均每月可以成交四五单。在郑州来讲,收入十分可观。

所谓 " 杀单 ",则是销售之间常见的行话,意为和客户成交。甜甜出单后不久,坐在记者斜对面的 " 马总 "(昵称)也出了一单。

" 这已经是他今天出的第二单。按照每单提成 25% 的利润来计算的话,算上奖金,他已经赚了快 5000 块钱了。" 甜甜说。

这种场景在记者试岗期间频繁出现。在尖刀队主管杨小峰(化名)发送给记者的一份 " 终端客户聊天话术 " 文档中,详细地记载了一些 " 杀单 " 技巧以及问答实录。记者发现,当新人有客户意向较为强烈时,经理和团队主管便会聚拢上来出谋划策,研究如何让顾客上钩。

据甜甜透露,她 " 杀 " 的客户是一位 " 做保健品的 "。8 月 18 日,记者联系到甜甜这位客户张娜(化名)。据其介绍,在使用 " 鹰眼智客 " 系统仅仅两天后,她使用多年的微信号即遭到封禁。张娜说她再也不敢用了。

合法爬虫 or 恶意爬虫

恶意爬虫涉非法获取计算机信息系统数据罪

" 这肯定是合规的,因为我们不直接参与贩卖数据。" 该公司负责人事的李梦海告诉新京报记者说," 如果卖爬取到的数据就违法了。"

该公司的业务员王伟(化名)则给出了不同的答案。王伟向新京报记者直言了自己的担忧。" 外呼机器人是违规的,之前曾被曝光过。" 王伟说。

爬虫技术是为了互联网本身信息传播而产生的。通过网络爬虫,搜索引擎获悉互联网的内容。在网络安全领域,也有通过爬虫来检测网站漏洞和网站可用性。

" 爬虫技术的本质用途仍然存在,像百度、谷歌之类的公司,但是互联网面的其他黑产眼里只有利益,他们通过网络爬虫做二次数据封装和用户引流,通过数据贩卖和流量牵引牟利。从用户视角来说,危害主要有恶意营销、网络攻击(网络钓鱼);从网站角度来说,危害包括网络攻击、薅羊毛、影响正常的企业服务、信息价值流失、用户流失。" 程柏说。

中消协此前发布的《APP 个人信息泄露情况调查报告》显示,约 86.5% 的受访者曾受到推销电话或短信的骚扰,约 75.0% 的受访者接到诈骗电话,约 63.4% 的受访者收到垃圾邮件,排名位居前三位。

对于此类爬虫软件,多数网站早已声明严厉禁止。北京炜衡律师事务所周浩律师认为," 网络爬虫爬取数据需要遵守第三方平台的 Robots 协议以及获取数据的性质具有公开性,不得包含个人信息数据、商业秘密及国家秘密等信息数据。如果突破、绕开第三方平台的反爬虫策略、协议时,或涉嫌非法获取计算机信息系统数据罪、提供侵入非法控制计算机信息系统程序工具罪。"

Robots 协议也称为爬虫协议、机器人协议等,其全称为 " 网络爬虫排除标准(RobotsExclusionProtocol)"。

" 网站通过 Robots 协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。对于搜索引擎来说是行业通用的爬取约定协议,但对恶意爬虫来说并没有任何约束力。" 知道创宇技术总监邓金城告诉新京报记者说。

据腾讯发布的《2018 上半年安全专题系列研究报告》(以下简称报告)显示,恶意爬虫通过分析并自行构造参数对非公开接口进行数据爬取或提交,获取对方本不愿意被大量获取的数据。

报告指出,据统计,出行、社交、电商占恶意爬虫流量目标行业分布前三位,占比分别为 20.87%、18.40%、13.38%。

周浩表示,《网络安全法》《个人信息安全规范》都强调了,通信联系方式(电话号码)是重要的个人信息,非经同意不得收集。提供用来收集个人信息的工具,一旦被使用必然存在违规。

技术发展倒逼法律完善

收集重要数据或个人敏感数据需备案

溯其本源,便是逐利。

" 一些所谓的大数据公司本身没有数据来源,而是通过爬虫手段获取他人的数据。" 程柏说。

反爬斗争已悄然进入白热化。不过," 反爬 " 绝非易事。知道创宇 404 实验室副总监隋刚介绍,规模较大的公司都会有自己的反爬机制,但 " 有些爬虫可以绕过这些反爬机制 "。

技术的不断发展在倒逼相关法律趋于完善。2019 年 5 月份,国家互联网信息办公室发布了《数据安全管理办法》征求意见稿(以下简称 " 征求意见稿 ")对爬虫技术有明确的定义和规定。其中第十六条规定,网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。

" 不过,第十六条在实践操作中可能存在一定问题,对造成网络不能正常运行也未有相应的处罚措施,这可能是将来需要完善的地方。" 曾多次参与制定企业隐私政策的京师上海国际总部专职律师徐延轩说。

同时征求意见稿第十五条也规定了," 网络运营者以经营为目的收集重要数据或个人敏感信息的,应向所在地网信部门备案。" 徐延轩认为,收集重要数据备案制度可能是未来监管的方向。

新京报记者 李大伟 罗亦丹 实习生 徐子林 编辑 徐超 校对 刘越