网站上线3天,我被AI爬虫访问了264次
2026/6/9 1:41:05 网站建设 项目流程

6 月 5 日网站正式上线。到 6 月 8 日下午,三天多时间,AI 爬虫来了 264 次。

这数据本身没什么值得吹的。但翻完 nginx 日志之后,里面的一些规律值得记下来——因为做 GEO 的人虽然多,分享原始数据的很少。

三天数据

所有数据来自服务器/var/log/nginx/access.log,直接 grep 统计,没有过滤:

爬虫运营方3天访问次数
ClaudeBotAnthropic132
GPTBotOpenAI124
BingbotMicrosoft58
GoogleOtherGoogle38
OAI-SearchBotOpenAI27
Bytespider字节跳动33
Baiduspider百度23
PerplexityBotPerplexity9
AmazonbotAmazon9
cohere-aiCohere7
CCBotCommon Crawl7

下面这张表比上面那张重要:

爬虫3天访问次数
DeepSeekBot0
MoonshotBot(Kimi)0
YuanbaoBot(元宝)0

ClaudeBot 和 GPTBot 占了总量的 60% 以上。中国 AI 平台只有 Bytespider(字节/豆包)来了,DeepSeek、Kimi、元宝的爬虫影子都没见到。

爬虫在抓什么

按 URL 统计:

URL访问次数
/robots.txt48
/sitemap.xml36
/(首页)30
/sitemap-ai.xml19
/index.xml(RSS)11
/blog/6

爬虫优先级非常清楚:先找 robots.txt,再看 sitemap,然后才是内容。14 篇博客只有 5 篇被访问过,每篇 3-5 次。

中国 AI 爬虫为什么没来

查了很多资料,一个发现:DeepSeek、Kimi、豆包、元宝——这四个中国主流 AI 平台,全部没有官方站长提交入口。Google 有 Search Console,Bing 有 Webmaster Tools,字节/百度有自己的站长平台。但这些 AI 搜索没有。

它们怎么发现新内容?我的猜测是依赖两个渠道:Bing 索引(DeepSeek 的搜索后端)和平台内容外链(知乎、CSDN、掘金等)。独立网站如果不在这两套系统里有信号,这些爬虫就不会来。

这和西方 AI 爬虫完全不同。GPTBot 和 ClaudeBot 在你放行 robots.txt 之后几小时就会来,行为类似传统搜索引擎爬虫。

写了两个工具

排查过程很烦——robots.txt 手动翻、nginx 日志手动 grep、JSON-LD 手动验证。于是写了 geovis,把这些检查合成一个命令:

python geovis.py your-domain.com

会检查 15 家 AI 爬虫(包括 Bytespider、DeepSeekBot、MoonshotBot、YuanbaoBot)的 robots.txt 访问状态、llms.txt、sitemap、JSON-LD,输出 0-100 评分。

单文件 Python,零依赖。现有的 GEO 检测工具都没覆盖中国 AI 平台,所以最后自己写了。


代码和模板:github.com/huang871015/geo-optimization-guide

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询