6 月 5 日网站正式上线。到 6 月 8 日下午,三天多时间,AI 爬虫来了 264 次。
这数据本身没什么值得吹的。但翻完 nginx 日志之后,里面的一些规律值得记下来——因为做 GEO 的人虽然多,分享原始数据的很少。
三天数据
所有数据来自服务器/var/log/nginx/access.log,直接 grep 统计,没有过滤:
| 爬虫 | 运营方 | 3天访问次数 |
|---|---|---|
| ClaudeBot | Anthropic | 132 |
| GPTBot | OpenAI | 124 |
| Bingbot | Microsoft | 58 |
| GoogleOther | 38 | |
| OAI-SearchBot | OpenAI | 27 |
| Bytespider | 字节跳动 | 33 |
| Baiduspider | 百度 | 23 |
| PerplexityBot | Perplexity | 9 |
| Amazonbot | Amazon | 9 |
| cohere-ai | Cohere | 7 |
| CCBot | Common Crawl | 7 |
下面这张表比上面那张重要:
| 爬虫 | 3天访问次数 |
|---|---|
| DeepSeekBot | 0 |
| MoonshotBot(Kimi) | 0 |
| YuanbaoBot(元宝) | 0 |
ClaudeBot 和 GPTBot 占了总量的 60% 以上。中国 AI 平台只有 Bytespider(字节/豆包)来了,DeepSeek、Kimi、元宝的爬虫影子都没见到。
爬虫在抓什么
按 URL 统计:
| URL | 访问次数 |
|---|---|
| /robots.txt | 48 |
| /sitemap.xml | 36 |
| /(首页) | 30 |
| /sitemap-ai.xml | 19 |
| /index.xml(RSS) | 11 |
| /blog/ | 6 |
爬虫优先级非常清楚:先找 robots.txt,再看 sitemap,然后才是内容。14 篇博客只有 5 篇被访问过,每篇 3-5 次。
中国 AI 爬虫为什么没来
查了很多资料,一个发现:DeepSeek、Kimi、豆包、元宝——这四个中国主流 AI 平台,全部没有官方站长提交入口。Google 有 Search Console,Bing 有 Webmaster Tools,字节/百度有自己的站长平台。但这些 AI 搜索没有。
它们怎么发现新内容?我的猜测是依赖两个渠道:Bing 索引(DeepSeek 的搜索后端)和平台内容外链(知乎、CSDN、掘金等)。独立网站如果不在这两套系统里有信号,这些爬虫就不会来。
这和西方 AI 爬虫完全不同。GPTBot 和 ClaudeBot 在你放行 robots.txt 之后几小时就会来,行为类似传统搜索引擎爬虫。
写了两个工具
排查过程很烦——robots.txt 手动翻、nginx 日志手动 grep、JSON-LD 手动验证。于是写了 geovis,把这些检查合成一个命令:
python geovis.py your-domain.com会检查 15 家 AI 爬虫(包括 Bytespider、DeepSeekBot、MoonshotBot、YuanbaoBot)的 robots.txt 访问状态、llms.txt、sitemap、JSON-LD,输出 0-100 评分。
单文件 Python,零依赖。现有的 GEO 检测工具都没覆盖中国 AI 平台,所以最后自己写了。
代码和模板:github.com/huang871015/geo-optimization-guide