近期,一起关于爬虫与反爬虫的诉讼案件再次被推到了公众面前。
公交作为互联网从业者的必备通勤工具之一,是出行领域必争的板块。实时公交APP也就成为了热门的应用场景,它们不仅可以为用户提供定位、公交路线查询等信息,还涉及路线规划、实时公交信息地理位置等服务。在这其中,“酷米客”和“车来了”是大众使用较为频繁的两款实时公交出行APP。
“车来了”授意五名程序员爬取实时公交数据,竟构成犯罪行为
年10月,深圳谷米科技有限公司推出了酷米客实时公交APP。通过在公交车上安装定位器,酷米客获得了海量的实时公交位置数据,具有定位精度高、实时误差小等明显优势,并迅速吸引了大批市场用户。目前,酷米客APP拥有超过万的注册量,每日活跃用户超过万。
但是年11月的时候,同为实时公交APP的“车来了”为了提升市场份额和信息查询准确度,竟授意五位程序员员工利用爬虫软件获取酷米客公司服务器的公交车行驶信息、到站时间等实时数据。
厉害的是,这五位程序员分工十分明确:一位负责编写爬虫软件程序;一位负责不断更换爬虫软件程序内的IP地址,以防止被察觉;一位利用所设置的不同IP地址及爬虫程序向酷米客发出数据请求;一位负责破解酷米客客户端的加密算法;在破解失败后,另一位员工又聘请其他公司的技术人员帮忙攻破加密系统,使得爬虫工作得以顺利实施。这一系列数据操作“成效”斐然,帮助“车来了”获取了大量的酷米客实时数据,日均可达-万条。
花费了巨大人力、时间和经济成本所获得的信息却被同行窃取了,还直接挤压了自身的竞争优势和交易机会,这让酷米客怎么甘心?
一怒之下,年,酷米客将车来了告上了法庭。历时两年之久,这场纠纷案才最终一锤定音。今年5月,法院裁定车来了立即停止获取、使用酷米客实时公交位置数据的不正当竞争行为,并赔偿其经济损失。
想必看到这里,大家最为关心的问题是那五位程序员会获罪吗?虽然在诉讼过程中,五位程序员员工利用网络爬虫二次获取公交车辆实时信息的行为都只是因为履行工作职责,没有用于谋取个人私利。然而,酷米客后台服务器存储的数据具有巨大的商业价值,未经其许可,任何人不得非法获取该软件的后台数据并用于经营行为——因此他们必须承担连带责任。
对此,中关村大数据联盟副秘书长陈新河老师告诉CSDN(ID:CSDNnws),“数据爬虫的违法边界一直是互联网争议的热点,尤其是在大数据时代,随着内容数据价值的日益凸显,爬虫侵权案也越来越多。”身处其中的程序员们,面对上级下发的“爬虫需求”,是难以置身事外的,一不小心可能就入了局。
爬虫犯罪的判定仍不明确,尚处于灰色地带
事实上,爬虫犯罪一直是个难以界定的灰色地带。
网络爬虫是一种自动获取网页内容的程序,通常情况下它是不违法的,比如很多人都会用到的百度搜索,除去其自营的百度知道、百度百科等,几乎都是爬虫采集下来的。作为一门技术,爬虫本身并不违法,所以大多数情况下都可以放心大胆地用。一般而言,常见的爬虫手段包括有构造合理的HTTP请求头、设置cooki、降低访问频率、隐含输入字段值、使用代理等等。
比如CSDN此前就曾分享过北京二手房数据、网易云音乐评论、马蜂窝出行数据、大众点评、福彩3D信息等应用数据爬取。但并不是所有数据都有“可爬之机”,陈新河表示,“让不让爬,能不能超越规则之外的爬,能不能用技术手段跨越封锁......这些打擦边球的爬虫就很容易擦枪走火。”——尤其是当站点明确声明禁止爬虫采集或转载商业化,或当网站声明了Robots协议时。
Robots协议也称为爬虫协议、机器人协议,其全称为“网络爬虫排除标准”(RobotsExclusionProtocol)。网站通过Robots协议告诉爬虫哪些页面可以抓取,哪些页面禁止抓取。
Robots协议是搜索引擎行业内公认的、应当被遵守的商业道德。
尽管如此,以身试险的“勇者”仍是不计其数,包括我们耳熟的百度、搜索、大众点评、今日头条等:
年,搜索违反Robots协议,强行抓取百度旗下百度知道、百度百科、百度贴吧、百度旅游等内容,最终被裁定赔偿百度70万元。
年,大众点评网起诉百度公司。自年以来,百度公司未经许可在百度地图、百度知道中大量抄袭、复制大众点评网的用户点评信息,直接替代大众点评网向用户提供的内容,给其自身造成巨大损失。百度最终败诉,停止了在百度地图等产品中使用点评信息,并赔偿万元。
年,秀淘破解了今日头条服务器的防抓措施,使后者损失技术服务费两万元。最终法庭判决,涉事者因为触犯非法获取计算机信息系统数据罪,被判九个月至一年不等的有期徒刑,并处罚金。这也是国内首起“爬虫入刑”案。
......
其实可以预料的是,因为目前监管法律的不完善,仍有很多漏网之鱼。但是随着数据价值的不断挖掘,未来的爬虫侵权案只会越来越多。
第三方网站该如何应对日益猖獗的爬虫行为?
那面对日益猖獗的爬虫行径,作为网站方该如何应对?
既然有“爬虫”,那自然会有“反爬虫”。网站一般采用的反爬虫技术可以分为四个种类:通过Usr-Agnt来控制访问、通过IP限制来反爬虫、通过JS脚本来防止爬虫、通过robots.txt来限制爬虫。
下面我们通过几个热门站点分析下常见的反爬虫机制:
一、豆瓣
很多的爬虫新手都会爬取豆瓣来练手,但豆瓣并不是完全开放的态度。它的反爬虫机制如下:
在没有携带cooki的情况下,如果某个IP短时间高并发请求网站,该IP会立马被封。当IP被封,登录豆瓣网站会解封。
在携带cooki的情况下,某个IP请求网站过于频繁。豆瓣的反爬虫机制变为只封cooki不封IP。也就说退出登录或换个账号还能继续访问。
可以看出,豆瓣是一个十分体谅爬虫新手的网站。爬虫者只要在代码中登录账号并降低并发数,再随机延迟等待一段时间,爬虫程序就不会被封。
二、拉勾网
拉勾网最初的反爬虫机制没有现在这么严格,但是随着