互联网没有秘密,游走在犯罪边缘的数据爬虫

【网络安全之爬虫篇】数据爬虫的违法边界一直是互联网争议的热点,尤其是在如今的大数据时代,随着数据价值的日益凸显,爬虫侵权犯罪案也越来越多。

事实上,爬虫犯罪也一直是个难以界定的灰色地带。


一、什么是爬虫:

互联网没有秘密,游走在犯罪边缘的数据爬虫

Web Crawler

网页爬虫(Web Crawler)到底是什么?网页爬虫又叫网络蜘蛛或者网络机器人,它的定义是一种按照一定的规则,自动地抓取互联网信息的程序、脚本、软件。

传统意义上的爬虫是指,从一个或多个互联网初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。

然后软件会将爬虫抓取的网页存贮起来,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;有些网站将爬虫结果做成了网站,就变成了搜索引擎。

大家是不是有很熟悉的感觉?没错,像谷歌、百度这样的搜索引擎其实就是个大型的爬虫,它们的内容都是爬虫采集下来的,然后归集,整理并按照一定规律存储,最后展现在网页中。而网页爬虫作为一种计算机技术而言,它本身是中立性的,爬虫技术本身在法律上也并不被禁止。

互联网没有秘密,游走在犯罪边缘的数据爬虫

Robots协议

这里必须要说一下Robots协议(爬虫协议、机器人协议),它的全称叫“网络爬虫排除标准”(Robots Exclusion Protocol),属于国际互联网界通行的道德规范,读懂了它,你采集数据才算基本安全。

网站存在Robots协议的意义是,告诉网络爬虫哪些页面你可以抓取,哪些页面不能抓取,它是存放在站点根目录下的一个纯文本文件。

Robots.txt文件一般包含一条或更多的记录,每一条记录的格式如下所示:

User-agent : 就是描述用户是用什么工具来访问的,可以是爬虫,也可以是浏览器。

Disallow: 不希望被访问到的一个URL,如果是空就表示都可以访问。

Allow: 以Allow项的值开头的URL 是允许robot访问的。

例如:你的网站不允许Google Image机器人采集,只需表述如下即可:

User-agent: googlebot-image

Disallow: /

也可以在Sitemap中描述: 就是站点地图,告诉爬虫网站上有哪些网页可以抓取。

最简单的 Sitemap就是XML 文件,XML 文件中会列出网站中的网址以及关于每个网址的其他元数据(上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度为何等),以便搜索引擎可以更加智能地抓取网站。对于商业网站,sitemap就很有利于SEO,让搜索引擎更好搜索和抓取记录。

说到这您应该明白了吧!网站允许访问的内容,就可以合法采集数据。


二、爬虫真的合法吗?

然而,在大数据时代,网页爬虫所赚取的利益已经非常单薄,于是数据爬虫又变成了新的逐利手段。尤其是在电子商务行业,可以说没有一家不用爬虫,这已经变成了斗智斗勇的“猫捉老鼠”的游戏。

电商企业一方面希望阻止竞争对手爬取自己的网站,另一方面又想渗透到对手的网站进行采集数据。例如电商的实时比价,它采集竞争对手的实时的产品价格数据,然后自动对自己的价格数据进行调整。

实话实话,尽管每家互联网公司都拥有各类技术防范爬虫,但目前网络上爬取的机器人数量是令人震惊的。

一般而言,常见的爬虫手段包括有构造合理的 HTTP 请求头、设置 cookie、降低访问频率、隐含输入字段值、使用代理等等。

但是大家有没有想过,利用爬虫技术获取数据这一行为,其实就是获取该计算机信息系统中存储、处理或者传输的数据,它本身其实就是违法或者犯罪。

《中华人民共和国刑法》第二百八十五条规定,非法获取计算机信息系统数据、非法控制计算机信息系统罪,是指违反国家规定,侵入国家事务、国防建设、尖端科学技术领域以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,情节严重的行为。


互联网没有秘密,游走在犯罪边缘的数据爬虫

淘宝声明

一般的界定是,当你需要采集的站点有声明禁止爬虫采集或者转载商业化时,千万别去冒险。

例如淘宝就不允许爬虫、机器人采集数据,然而,那么多的电商平台的实时比价数据怎么来的?我想大家都很清楚吧!

2018年8月16日,被告安徽美景信息科技有限公司因涉“生意参谋”零售电商数据平台不正当竞争纠纷案进行了网上公开宣判,认定美景公司的被诉行为构成不正当竞争,判令美景公司停止侵权行为并赔偿淘宝公司经济损失及合理费用共 200万元。

原因就是美景公司采集淘宝公司的数据产品直接作为获取商业利益的工具,它的“咕咕互助平台”、“咕咕生意参谋众筹”网站都涉及这种据他人劳动成果为己牟利的行为,最终败诉赔偿。

这也是中国第一起大数据产品不正当竞争纠纷案,它为我们敲响了警钟。

互联网没有秘密,游走在犯罪边缘的数据爬虫

爬虫目标行业

说实话,类似美景公司这样的买卖数据的公司在中国数不胜数,而采取不法手段得到的数据,最终带来的只能是法律的严惩!


互联网的安全不能光靠国家的法律规定,更需要的是你我自身的约束。

展开阅读全文

页面更新:2024-04-22

标签:爬虫   数据   不正当竞争   队列   淘宝   计算机信息   机器人   美景   边缘   手段   协议   秘密   网页   系统   网络   公司   网站

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top