如题
第一部分:
User-agent:Disallow:/wp-admin/Disallow:/readme.htmlDisallow:/wp-login.phpDisallow:/wp-register.phpDisallow:/trackback/Allow:/wp-admin/admin-ajax.phpAllow:*.jsAllow:*.CSSDisallow:/wp-content/cache/Disallow:*/feed/Disallow:/*?s=Disallow:/search/Disallow:*?ver=*
解释:
User-agent: - 这行后面应该有一个值,但这里是空的。通常,它指定了适用的搜索引擎爬虫。空值意味着以下规则适用于所有爬虫。
Disallow:/wp-admin/ - 禁止爬虫访问 /wp-admin/ 目录及其子目录。
Disallow:/readme.html - 禁止爬虫访问 readme.html 文件。
Disallow:/wp-login.php - 禁止爬虫访问 WordPress 登录页面。
Disallow:/wp-register.php - 禁止爬虫访问 WordPress 注册页面。
Disallow:/trackback/ - 禁止爬虫访问 trackback 功能相关页面。
Allow:/wp-admin/admin-ajax.php - 允许爬虫访问 admin-ajax.php 文件。
Allow:*.js - 允许爬虫访问所有 JavaScript 文件。
Allow:*.CSS - 允许爬虫访问所有 CSS 文件。
Disallow:/wp-content/cache/ - 禁止爬虫访问缓存目录。
Disallow:*/feed/ - 禁止爬虫访问所有 feed 页面()。
Disallow:/*?s= - 禁止爬虫访问搜索结果页面。
Disallow:/search/ - 禁止爬虫访问搜索页面。
Disallow:*?ver=* - 禁止爬虫访问包含版本参数的 URL。
这些设置主要是为了保护网站的敏感区域,如管理后台、登录页面等,同时允许爬虫访问一些必要的资源文件(如 JS 和 CSS)。
第二部分:
User-agent: CCBotDisallow: /
User-agent: ChatGPT-UserDisallow: /
User-agent: GPTBotDisallow: /
User-agent: Google-ExtendedDisallow: /
User-agent: Applebot-Extended Disallow: /User-agent: anthropic-aiDisallow: /
User-agent: ClaudeBot Disallow: /User-agent: OmgilibotDisallow: /
User-agent: OmgiliDisallow: /
User-agent: FacebookBotDisallow: /
User-agent: DiffbotDisallow: /
User-agent: BytespiderDisallow: /
User-agent: ImagesiftBot Disallow: /
User-agent: PerplexityBotDisallow: /
User-agent: cohere-aiDisallow: /
解释:
上面这些就是常见的AI内容生成工具, 它们会抓取我们网站的内容来做训练素材, 或者直接在内容生产的时候调用我们的数据或进行总结, 有时候不想被"偷"内容, 可以直接屏蔽它们的爬虫.
简单总结, That's it.