“robots.txt”简介
admin
2023-07-27 06:20:10
0

有一种隐藏的,无情的力量×××到网络及其数十亿的网页和文件中,我们大多数众生都不知道。我说的是搜索引擎爬虫和机器人。每天都有数以百计的人出去浏览网络,不管是谷歌(Google)试图为整个网络建立索引,还是一个垃圾邮件机器人收集它能找到的任何不那么体面的电子邮件地址。作为站点所有者,当机器人访问我们的站点时,我们对机器人可以做什么有多么小的控制,存在于一个名为“robots.txt”的神奇的小文件中。

“robots.txt”是一个普通的文本文件,通过它的名称,对大多数网络上的“光荣”机器人具有特殊的意义。通过在此文本文件中定义一些规则,您可以指示机器人不爬行和索引站点中的某些文件、目录,或者根本不对其进行索引。例如,您可能不希望Google爬行站点的/映像目录,因为它对您来说既没有意义,也浪费了站点的带宽。“robots.txt”让你告诉谷歌。

“robots.txt”简介创建“robots.txt”文件

所以让我们开始行动吧。创建一个名为“robots.txt”的常规文本文件,并确保它的名称准确。此文件必须上载到根部可访问的站点目录,而不是子目录(即:https://www.google.com但不是https://www.google.com/2/)只有遵循上述两条规则,搜索引擎才能解释文件中的指令。偏离这一点,“robots.txt”就变成了一个普通的文本文件,就像午夜后的灰姑娘一样。

现在您已经知道了如何命名您的文本文件并将其上传到何处,您需要了解如何将命令发送到遵循该协议的搜索引擎(正式上是“机器人排除协议”)。该格式对于大多数意图和目的来说都足够简单:USERAGENT行,以识别问题中的爬行器,后面跟着一个或多个爬虫。不允许:线不允许它从你的网站的某些部分爬行。

1)下面是一个基本的“robots.txt”:

User-agent: *
Disallow: /

在上述声明之后,所有机器人(由“*”表示)都被指示不要索引任何页面(由“/”表示)。很可能不是你想要的,但你知道。

2)现在让我们再来点歧视吧。虽然每个网站管理员都喜欢Google,但您可能不希望Google的Imagebot爬行您的站点的图像并制作它们。可在线搜索如果只是为了节省带宽。下面的声明将起作用:

User-agent: Googlebot-Image
Disallow: /

3)以下内容禁止所有搜索引擎和机器人爬行选择目录和页面:

User-agent: *
Disallow: /cgi-bin/
Disallow: /privatedir/
Disallow: /tutorials/blank.htm

4)您可以在“robots.txt”中有条件地针对多个机器人。请看下面的内容:

User-agent: *
Disallow: /
User-agent: Googlebot
Disallow: /cgi-bin/
Disallow: /privatedir/

这是很有趣的-在这里我们声明爬虫一般不应该爬行我们网站的任何部分,对于google,它允许爬行整个站点,而不是/CGI-bin//Privatedir/。因此,专一性的规则是适用的,而不是继承的。

5)有一种使用“不允许”的方法:本质上将其转换为“允许所有”,即在分号(:)之后不输入一个值:

User-agent: *
Disallow: /
User-agent: ia_archiver
Disallow:

这里我是说,所有爬虫都应该被禁止爬行我们的网站,除了阿列克莎,这是允许的。

6)最后,一些爬虫现在支持一个名为“允许:”的额外字段,最值得注意的是,Google。顾名思义,“允许:”允许您显式地规定哪些文件/文件夹可以爬行。然而,这个领域目前并不是“robots.txt”协议的一部分,所以我建议只在绝对需要时才使用它,因为它可能会混淆一些不那么聪明的爬虫器。

每谷歌网站管理员常见问题,下面是不允许所有爬虫从您的站点上爬行的首选方法。谷歌:

User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /


相关内容

热门资讯

浙江宣传:“走个面儿”咋就没面... “咱北京两千多万人口,您受累,您走个面儿,把这第一波的票房带起来,咱就有了。”某知名导演的新片首映礼...
辞职声明仅95秒遭质疑,韩国队... 【环球时报综合报道】美加墨世界杯小组赛出局后,韩国队主教练洪明甫当地时间28日在墨西哥的韩国队大本营...
美媒爆料:美军第五舰队总部遭伊... 据美国《华尔街日报》27日报道,其通过对卫星图像、社交媒体视频和五角大楼记录的分析发现,今年2月底至...
英国智库给菲律宾GDP增速“浇... 【环球时报特约记者 叶满】英国经济研究机构凯投宏观发布的最新一期《亚洲经济展望》报告(以下简称“报告...
欧洲持续高温,有华人用冰箱降温... 连日来,欧洲多国迎来罕见极端高温天气,法国、德国、意大利等地气温持续飙升,部分地区突破40摄氏度。受...
伊副外长强调船只须按“伊朗线路... 伊朗外交部副部长加里巴巴迪当地时间29日晚间在接受采访时强调,所有船只均须按照“伊朗线路”通过霍尔木...
委内瑞拉强震已致1719人死亡 当地时间29日,委内瑞拉全国代表大会主席罗德里格斯通报,地震已造成该国1719人死亡,5034人受伤...
铋晟新材料申请氯氧化铋基复合材... 国家知识产权局信息显示,江苏铋晟新材料有限公司申请一项名为“一种氯氧化铋基复合材料及其制备方法和用途...
韩国政府将投资千万亿韩元于AI... 韩国总统李在明29日在总统府青瓦台主持召开会议,公布总额超千万亿韩元的半导体、物理人工智能(AI)和...
以色列防长称以伊可能随时再起冲... △卡茨(资料图)据以色列方面29日消息,以国防部长卡茨当天表示,鉴于复杂的安全局势和在黎巴嫩的军事行...