如何对付网络爬虫

发布网友发布时间：2022-04-20 09:15

共1个回答

热心网友时间：2023-07-02 06:47

可以设置robots.txt来禁止网络爬虫来爬网站。
方法：
首先，你先建一个空白文本文档（记事本），然后命名为：robots.txt；
（1）禁止所有搜索引擎访问网站的任何部分。
User-agent: *
Disallow: /
（2）允许所有的robots访问，无任何*。
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
还可以建立一个空文件robots.txt或者不建立robots.txt。

（3）仅禁止某个搜索引擎的访问（例如：百度spider）
User-agent: BaiSpider
Disallow:/
（4）允许某个搜索引擎的访问（还是百度）
User-agent: BaiSpider
Disallow:
User-agent: *
Disallow: /
这里需要注意，如果你还需要允许谷歌bot，那么也是在“User-agent: *”前面加上，而不是在“User-agent: *”后面。
（5）禁止Spider访问特定目录和特定文件（图片、压缩文件）。
User-agent: *
Disallow: /AAA.net/
Disallow: /admin/
Disallow: .jpg$
Disallow: .rar$
这样写之后，所有搜索引擎都不会访问这2个目录。需要注意的是对每一个目录必须分开说明，而不要写出“Disallow:/AAA.net/ /admin/”。

声明：本网页内容为用户发布，旨在传播知识，不代表本网认同其观点，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。
E-MAIL:11247931@qq.com

首页

热点资讯

义务教育

高等教育

出国留学

考研考公

如何对付网络爬虫