经营之道:爬虫写得好,牢饭吃到饱。熟练此协议,或许能自保


“垒起七星灶,铜壶煮三江。摆开八仙桌,招待十六方。来的都是客,全凭嘴一张。

相逢开口笑,过后不思量。人—走,茶就凉,有什么周详不周详!”

前言:

沙家浜中的阿庆嫂有着一套完整的茶馆经营理念,让刁德一直呼滴水不漏。不光是在戏曲中,生活中也是一样,无论你从事哪一个行业,都要先熟悉该行业的常见规则。规则是保护双方的,在我们的“互联网收垃圾”生意中,也需要遵守相应的爬取规则。否则,“爬虫写得好,牢饭吃得饱”可不是一句空话。

经营之道:爬虫写得好,牢饭吃到饱。熟练此协议,或许能自保

爬虫写的好,牢饭吃的饱

玩爬虫也是盗亦有道

任何事情都有两面性,我们希望爬虫技术可以给我们带来一定的方便,但是我们也不希望爬虫会给网站运营者带来额外的负担。因此,我们在爬取程序时也需要遵循一定的道德与法律要求。正如“习武先习德”中,他们学的是武德,而写爬虫程序要学习的是爬虫协议---Robots协议。以百度的Robots协议为例,会明确告诉你哪些地方是不可以爬取的。

经营之道:爬虫写得好,牢饭吃到饱。熟练此协议,或许能自保

百度的部分Robots协议

怎么看Robosts协议?

在Robosts协议中,“*”代表所有,“/”代表根目录。?代表不允许。通过一系列的组合,可以形成有效的告知。哪里是不可爬取的。当然也有一些网站是没有Robots协议的,这代表着可以任意爬取。通过协议,让访问者与网站维护者达成动态平衡,合理规范地使用爬虫技术。以下是几个Robosts协议的网址,感兴趣的朋友可自己查看。

经营之道:爬虫写得好,牢饭吃到饱。熟练此协议,或许能自保

其他Robosts协议链接

怎样使用Robots协议?

在爬虫中应自动或人工识别Robot.txt,再进行内容爬取。理论上,Robot.txt协议是建议性的,而不是约束性的,网络爬虫可以不遵守,但存在法律风险。

总结:

本文介绍了爬虫中的协议-Robots.txt,该协议如阿庆嫂的茶馆经营之道,可以让自己赢得“滴水不漏”的称号。而遵守爬虫协议,也可以让我们自身远离法律风险,避免“牢饭吃得饱”。

好了,今天的分享就到这里了,下一篇文章,我们会完成第一个简单的爬虫程序,期待您的继续关注。

往期文章:

如何在互联网上“回收废品”?选址建厂篇:python开发工具选择

展开阅读全文

页面更新:2024-05-23

标签:爬虫   铜壶   茶馆   协议   盗亦有道   动态平衡   维护者   滴水不漏   经营之道   周详   熟练   规则   风险   代表   程序   法律   数码   网站

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top