Tea9源码网 - 免费分享精品源码、教程、软件|全网干货资源收集,免费下载。
  • 首页
  • 技术教程
  • 利用html的meta robots标签禁止搜索引擎对网站的抓取、索引和robots.txt文件的用法

利用html的meta robots标签禁止搜索引擎对网站的抓取、索引和robots.txt文件的用法

发布:Tea9网2021-8-18 2:53分类: 技术教程 标签: robots.txt用法 禁止搜索引擎抓取 robots标签用法

202108180329.jpg

一些新建站的朋友们,在站点还未建设完成时或涉及隐私不能公布出来而这时又不能阻止搜索引擎来抓取网页,接下来教Tea9源码网分享三种方法来搞定限制搜索引擎抓取或索引。

第一种方法:限制网页快照

限制所有的搜索引擎建立网页快照: <meta name="robots" content="noarchive">

限制百度的搜索引擎建立网页快照: <meta name="Baiduspider" content="noarchive">

第二种方法:禁止搜索引擎抓取本页面和搜索引擎引用页面

<meta name="robots" conrent="noindex,follow">

在这里,META NAME="ROBOTS" 是泛指所有的搜索引擎的,在这里我们也可以特指某个搜索引擎。

例如:META NAME="Googlebot"、META NAME="Baiduspide" 等。

content部分有四个命令:index、noindex、follow、nofollow,命令间以英文的“,”分隔。

INDEX命令:告诉搜索引擎抓取这个页面

FOLLOW命令:告诉搜索引擎可以从这个页面上找到链接,然后继续访问抓取下去。

NOINDEX命令:告诉搜索引擎不允许抓取这个页面

NOFOLLOW命令:告诉搜索引擎不允许从此页找到链接、拒绝其继续访问。

根据以上的命令,就有了以下的四种组合:

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">:可以抓取本页,而且可以顺着本页继续索引别的链接;

<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">:不许抓取本页,但是可以顺着本页抓取索引别的链接;

<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">:可以抓取本页,但是不许顺着本页抓取索引别的链接;

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">:不许抓取本页,也不许顺着本页抓取索引别的链接。

第三种方法:通过robots.txt 来设置


所谓的robots.txt文件,是每一个搜索引擎到你的网站之后要寻找和访问的第一个文件,robots.txt是你对搜索引擎制定的一个如何索引你的网站的规则。通过这个文件,搜索引擎就可以知道在你的网站中,哪些文件是可以被索引的,哪些文件是被拒绝索引的。


1.禁止所有搜索引擎访问网站的任何部分:
User-agent: *
Disallow: /


2.禁止所有搜索引擎访问网站的几个部分(下例中的adminlogconf 为站点下的目录)

User-agent: *
Disallow: /admin/
Disallow: /log/
Disallow: /conf/ 
  
3.禁止某个搜索引擎的访问(下例中的Baiduspider为百度蜘蛛)

User-agent: Baiduspider
Disallow: /


robots.txt的存放位置和简要说明:

在一个站点的根目录下,而且文件名必须全部小写。要访问robots.txt文件就是在域名后面加“/robots.txt”,比如说访问www.tea9.net 网站的robots协议,就应该在地址栏输入 www.tea9.net/robots.txt 就可以访问了。robots协议是搜索引擎在爬取网站的时候要查看的第一个文件,文件会告诉蜘蛛程序在服务器上什么文件是可以被查看的,对应的不允许查看的内容,蜘蛛程序是不会查看。

robots协议中的代码简要说明:

User-agent: * 允许所有搜索引擎抓取 (注意每个":"后面的描述都是在加上空格之后的,User-agent:空格*)

Allow: / 允许抓取网站任何位置

Disallow: /admin/ 禁止抓取admin目录下的文件

温馨提示如有转载或引用以上内容之必要,敬请将本文链接作为出处标注,谢谢合作!

已有 73 人阅读