站客

每个 SEO 工具现在都在兜售"AI 可见性追踪"功能。Ahrefs 推出了 Brand Radar，SEMrush 发布了 AI Visibility Toolkit。你打开后台，看到一堆漂亮的图表：品牌提及次数、AI 份额、可见性评分。

但这些数字到底有多可靠？

我一直对这些指标持怀疑态度。原因很简单：这些工具连传统流量估算都做不准。多项独立测试显示，Semrush 的流量估算平均误差率高达 61.58%。Ahrefs 对新站点的估算偏差可以达到 80% 以上。既然传统指标都这么不靠谱，凭什么相信它们的 GEO 指标会更准？

所以,把这些指标当作方向性信号，而非绝对的正确数据。

Ahrefs 和 SEMrush 究竟在测量什么？

Ahrefs Brand Radar 如何收集 GEO 数据？

Ahrefs 的官方文档详细解释了他们的方法论。Brand Radar 的数据来源有两个：Google 的"People Also Ask"问题库，以及 Ahrefs 自己 1100 亿关键词数据库中的查询。

他们把这些查询输入到六个 AI 平台的网页版界面，然后记录回复内容。每月查询量大概是这样的：

• ChatGPT：1060 万次
• Perplexity：1310 万次
• Gemini：720 万次
• Copilot：1330 万次
• AI Overviews：1.34 亿次
• AI Mode：1350 万次

总计超过 1.9 亿个 prompt。听起来很庞大，对吧？

但这里有个关键问题：他们用的是网页界面，不是 API。网页界面和 API 返回的结果经常不一样。而且，每个用户的 AI 体验都高度个性化——你的历史对话、登录状态、地理位置都会影响回复内容。Ahrefs 自己也承认，这些指标是"方向性信号，不是精确的流量统计"。

SEMrush AI Visibility Toolkit 怎么运作？

SEMrush 的方法略有不同。他们的数据库包含超过 1.58 亿个 prompt，来源是点击流数据和 Google 的关键词数据集。

SEMrush 有个比较聪明的做法：他们用专有 AI 系统来识别品牌。这意味着它能区分 Tesla（电动车公司）、Nikola Tesla（科学家）和贝尔格莱德的尼古拉·特斯拉机场。不是简单的文本匹配，而是语义理解。

更新频率方面：可见性报告每月更新，品牌表现报告每周更新，prompt 追踪每天更新。覆盖的平台包括 ChatGPT、Gemini、SearchGPT、Perplexity、AI Overviews 和 AI Mode。

这些指标到底代表什么？

理解这些工具，首先要搞清楚几个核心概念的区别。

"提及"（Mentions）vs."引用"（Citations）——提及是指 AI 回复中提到了你的品牌名，但没有链接。引用是指 AI 把你的网页作为来源链接出来。引用比提及更有价值，因为只有引用才能带来可追踪的流量。

"AI 可见性评分"——SEMrush 的定义是一个 0-100 的基准分数，衡量你的品牌在 AI 回复中出现的频率和一致性。但这个评分是相对的，不是绝对的。分数高不代表流量大，只代表你比竞争对手出现得更频繁。

"份额"（Share of Voice）——你的品牌提及次数占所有品牌总提及次数的百分比。问题是：这个百分比跟实际商业价值没有直接关系。你可能在一堆低价值的 prompt 里占了很大份额，但这些 prompt 根本没人搜索。

Ahrefs 明确指出：这些是"建模后的可见性信号，不是性能指标"。说白了，就是估算值，不是真实数据。

为什么应该保持怀疑？

这些工具的传统流量估算有多准？

在评判 GEO 指标之前，我们先看看这些工具在传统指标上的表现。

工具	误差情况	数据来源
Semrush	平均误差率 61.58%，倾向于高估	BloggingX 测试
Ahrefs	新站点偏差可达 80%+	Promodo 对比分析
行业共识	与 GA 数据偏差 30-50% 是常态	Self Made Millennials

我看过一个Linkedin真实案例：网站在 2025 年 8 月，Ahrefs 显示自然流量飙升到 51K，但 Google Search Console 和 Google Analytics 的实际数据只有 8K。差了六倍多。

结论很简单：如果传统流量估算都这么不靠谱，GEO 指标凭什么会更准？

GEO 指标为什么比传统流量数据更难准确？

传统 SEO 指标至少有 Google Search Console 作为"真相来源"。GEO 指标连这个都没有。

Search Engine Land 的分析指出了几个核心问题：

1. 黑箱问题——LLM 不会公开查询量、排名算法或选择标准。你根本不知道它为什么选择引用这个来源而不是那个。
2. 概率性回复——同样的 prompt 输入两次，可能得到完全不同的回答。这让"排名"这个概念变得毫无意义。
3. 无限查询空间——传统关键词是有限的，可以穷举。AI prompt 是无限的，任何工具都只能覆盖很小一部分。
4. 个性化因素——用户的对话历史、登录状态、地理位置都会影响 AI 回复。工具看到的和用户看到的可能完全不同。
5. 平台差异——SEMrush发现一个品牌在 ChatGPT 里可见性很高，在 Google AI Mode 里可能完全不见。不同平台用不同的算法和数据源。

用 Search Engine Land 的话说："我们还处在 LLM 时代的'前 Semrush/Moz/Ahrefs 时期'。"意思是：这个领域的测量工具还非常原始。

GEO 指标是不是虚荣指标？

这个问题值得认真思考。

假设你的 GEO 工具告诉你："恭喜，你的品牌在 ChatGPT 里的提及次数增长了 1000%！"

然后呢？这 1000% 的增长意味着什么？能带来多少收入？能转化多少客户？

问题出在归因模型上。传统网页搜索的归因相对清晰：用户搜索关键词 → 点击你的链接 → 转化。AI 搜索的归因是模糊的：用户在 ChatGPT 里看到你的品牌 → 可能记住了 → 可能后来搜索了 → 可能买了。中间的链条太长，无法准确追踪。

有什么替代的测量方法真正有效？

不用第三方 GEO 工具，你能追踪什么？

好消息是，你不需要花大钱买 GEO 工具也能获得一些洞察。

1. GA4 来源追踪——在 Google Analytics 4 里设置自定义维度，识别来自 LLM 的流量。ChatGPT、Perplexity 等平台的引用流量会显示为特定的来源。虽然归因仍然有限，但至少能看到趋势。
2. GSC 品牌搜索监控——研究显示，很多用户在 AI 里发现品牌后，会去 Google 搜索验证。监控品牌关键词的搜索量变化，可以间接反映 AI 可见性的影响。
3. 服务器日志分析——通过 Cloudflare 的 Agent Analytics 或类似工具，识别 AI 爬虫的活动。这能告诉你哪些页面被 AI 系统抓取，多频繁抓取。

什么时候专门的 GEO 平台更合适？

如果你需要大规模、系统性地追踪 AI 可见性，专门的 GEO 平台可能比 Ahrefs/SEMrush 的附加功能更合适。虽然我也不太建议使用.

工具	价格	特点
Profound	$499+/月	每天 600 万+ prompt，SOC 2 认证，企业级
Evertune	最高 $50K/年	8 个平台覆盖，属性级分析，Fortune 500 客户
Otterly.AI	$29-989/月	简单易用，按 prompt 数量定价
Ahrefs/SEMrush 附加功能	$99+/月	集成现有 SEO 工作流，但深度不足

你应该关注哪些指标？

与其追求虚幻的"AI 可见性评分"，不如关注这些更有意义的指标：

1. 引用率——你被链接了，还是只是被提到？引用能带来可追踪的流量，提及只是品牌曝光。
2. 情感评分——研究显示，负面提及可能比没有提及更糟。AI 说你的产品"有很多投诉"，比完全不提你更有害。
3. 位置/显著性——被列为第一选择，还是第四选择？排在最后的"还可以考虑 XX"几乎没有价值。
4. 平台特定可见性——分别追踪每个 AI 平台。在 ChatGPT 里表现好不代表在 Perplexity 里也好。
5. 业务结果——品牌搜索量、直接流量、AI 来源的转化率。这些才是真正重要的指标。

这些指标适合用来做什么？

说了这么多问题，这些工具不是完全没用。它们适合：

• 看趋势——可见性在上升还是下降？不要纠结绝对数字，看相对变化。
• 竞争对标——你比竞争对手表现好还是差？同样不要看绝对值，看相对位置。
• 发现盲区——哪些话题你在 AI 里完全没有存在感？这可能是内容机会。
• 监控情感——AI 如何描述你的品牌？有没有负面信息需要处理？

最后的话

Ahrefs 和 SEMrush 的 GEO 指标不是骗局，但也远非可靠。

它们是方向性信号——能告诉你大致的趋势和相对位置，但不能提供精确的性能数据。

我的建议是：

• 用这些工具做趋势监控和竞争对比，不要当作绝对真理
• 用第一方数据验证——GA4 来源追踪、GSC 品牌搜索、实际转化数据
• 不要过度投资——在行业成熟之前，把更多资源放在已经证明有效的渠道上
• 关注基础——高质量内容、品牌权威、实体优化。这些既驱动传统 SEO，也驱动 AI 可见性

Ahrefs/SEMrush 的 GEO 指标真实吗?Ahrefs/SEMrush 指标适合用来做什么？