文/陈根

网络爬虫也被称为网页蜘蛛或者网络机器人等,是能够根据自身规则抓取信息的程序。作为搜索引擎的基础构件之一,网络爬虫直接面向互联网,是搜索引擎的数据来源,决定着整个系统的内容是否丰富、信息能否得到及时更新。网络爬虫的性能表现直接影响整个搜索引擎的效果。

网络爬虫平时会在网络上自动爬取有用的数据,通过一定的选取机制、过滤机制、录用机制等,来丰富它们的数据库。事实上,每个搜索引擎的爬虫机器人都不一样,它们有着自己的一套“爬取机制”,谁把这个机制优化得最好,那么谁就能更快给到用户真正想要的信息。

比如,百度的爬虫机器人叫做百度蜘蛛( Baiduspider ),360的爬虫叫做360 Spider,搜狗的叫做SogouSpider...基于不同的程序爬取算法,它们也拥有不一样的搜索结果。

然而,网络爬虫却不总是合法的——网络恶意爬虫则会突破网站机器人协议的禁止爬取要求(规定在robots.txt文件的Disallow部分),爬取网站的核心数据资源,并可能极大地损耗被爬取网站服务器的性能。实际上,对于刷个短视频,个人信息和需求竟被他人获取,不久后,私人信箱中还会收到仿佛“量身定制”的推销信息的现象,其实就源于所谓的爬虫软件。

2022年5月10日,经江苏省无锡市梁溪区人民检察院提起公诉,梁溪区人民法院以提供侵入计算机信息系统程序罪判处被告人丁某有期徒刑一年六个月,缓刑两年,并处罚金三万元。这也是全国首例短视频平台领域网络“爬虫”案件。

2021年9月,某信息公司员工吴先生在网上巡查时发现有人在兜售一款叫“汇易获客”的软件,通过对方官网及电话购买了该款软件。使用后,吴先生惊讶地发现该软件居然可以“爬取”自己公司后台数据和直播间用户的相关信息,随即报警。经侦查,公安机关发现售卖该软件的某信息咨询公司老板丁某及销售人员有重大作案嫌疑。

经查,2019年,丁某成立了自己的信息咨询公司,后公司因经营不善处于停业状态。2021年中,丁某从丁某某(另案处理)处以9800元的价格购进汇易获客软件成为代理商,利用该软件可以入侵某些短视频平台的服务器,通过关键词搜索可以快速抓取平台信息,主要包括用户名、UID、签名及评论等,再通过软件把UID转换成二维码,来精准定位客户。丁某对该软件进行了重新包装,“改头换面”后对外销售,违法所得2.4万余元。

对此,本案承办法官表示,侵入计算机信息系统程序罪是刑法修正案(七)新增的一个罪名,主要针对向他人提供专门用于侵入或非法控制计算机信息系统工具或程序,或是明知他人实施侵入、非法控制计算机信息系统的违法犯罪行为而为其提供程序、工具,情节严重的行为处以刑罚。

显然,此次案件中涉及的“爬虫”软件就是利用技术手段突破短视频平台的反爬措施,非法获取后台服务器内指定的数据文件。

无疑,网络爬虫作为数据资源获取和利用的重要手段,但无论是私法领域数据确权还是刑法领域数据法益保护,网络爬虫抓取数据的正当性、有效性都源于数据主体的授权,而技术一旦被恶意使用,在技术盛行的时代带来的伤害,也将是超过人们想像的。

关键词: 网络爬虫 搜索引擎 控制计算机