我查了 91 网相关页面:关键词是怎么被“养”出来的——我整理了证据链

引子 最近做站内外巡检时,注意到某些站点在搜索结果里短时间内“长出”大量精准关键词页面。为了弄清这是自然增长还是被刻意“养”出来的,我针对 91 网有关域名做了系统化的排查。下面把我的方法、发现和证据链整理成一篇便于复现的报告,供同业参考或用来判断某个站点是否在进行关键词培育(keyword farming)。
一、研究范围与方法概述
- 目标域名:以 91 网相关主域和常见子域为对象(只使用公开可访问页面)。
- 工具与手段:site: 搜索、intitle:/inurl: 搜索操作符、Google Cache、Wayback、Screaming Frog、curl/wget、浏览器开发者工具、抓包、反链工具(Ahrefs/MAJESTIC/免费的域名反查)、简单正则分析日志或页面 HTML。
- 检查点:URL 模式、页面标题/描述/H1、内容字数、发布时间/更新时间、内链/外链锚文本、sitemap、robots、canonical、重定向链、移动/PC 内容差异、动态渲染或 JS 注入、广告/外链分布。
二、结论速览(先说结论) 总体证据显示:该站点存在批量生成“主题页”并通过内链、标签页、站内搜索页面、伪原创模板、以及重定向链等方式把流量和权重导向若干核心“收钱/变现”页面。这个过程具备典型的“关键词养成”特征:大量浅内容页面(或门页)→ 稳定内链锚文本指向 → 时间窗内关键词排名上升 → 最终变现页面获益。
三、证据链详述(每一点都有可复查的判断步骤)
1) 批量 URL 模式与模板化页面
- 发现:大量 URL 呈现统一模板,例如 /tag/xxxx/ 、/topic/xxxx/ 或 /list/xxxx-编号.html,内容结构高度一致(相同的 header/footer、相同的 div 类名、相同的版权信息),只有少量占位替换的词汇。
- 验证方法:用 site:domain inurl:tag 搜索并抽样多个页面,查看 HTML 结构差异。
- 含义:批量生成的“标签/目录”页常用于快速覆盖长尾关键词。
2) 页面内容薄而关键词密集
- 发现:很多页面正文只有 100–300 字,句子中高频重复目标关键词,H1 与 title 一致或高度相似,meta description 机械拼接关键词组。
- 验证方法:抓取若干页计算正文字数与关键词密度;观察是否存在“同一模板插入关键词”现象。
- 含义:薄页 + 高密度关键词是典型的 SEO 门页特征,难以靠自然原创内容解释。
3) 内链锚文本网络指向核心页面
- 发现:这些模板页大量使用具有目标词的锚文本,统一指向少数“变现页”或首页栏目。锚文本文本一致性极高,位置也多在正文底部或侧栏“相关推荐”区。
- 验证方法:抓取内链列表或用站点爬虫生成锚文本分布表,统计重复度;查看指向关系图(简单的 CSV 可视化)。
- 含义:通过大量低成本页面建立锚文本网络,可以人为放大某些关键词的相关性信号,影响排名。
4) sitemap / robots / canonical 的策略性使用
- 发现:sitemap.xml 中列出大量浅页或 tag 页面,并按日期频繁提交;canonical 标签有时候指向变现目标页(甚至不同 path 的多个页面将 canonical 指向同一页)。
- 验证方法:访问 /sitemap.xml、检查 canonical 元素,观察更新频率(结合 Google Cache/Wayback)。
- 含义:用 sitemap 提交大量门页让搜索引擎快速发现,同时通过 canonical 集中权重到目标页,是养关键词常见手段。
5) 重定向与门页层级(301/302/JS/meta-refresh)
- 发现:部分老 URL 返回 301 到新生成的关键词页或直接跳转到广告/推广页;有些页面用 meta-refresh 或 JS 延时跳转给用户,但对搜索引擎显示不同内容(可能存在 cloaking 风险)。
- 验证方法:curl -I 检查响应头,抓取页面查看是否含 meta-refresh、JS 跳转代码;用不同 user-agent 比较差异。
- 含义:重定向链可以把历史权重迁移到新关键词上,延迟跳转则用于插入中间门页。
6) 时间轴一致的批量发布节奏
- 发现:通过查看页面的发布时间/更新日期或 sitemap 时间戳,能看到某一时间窗内批量铺设数百个页面(天/周为单位)。
- 验证方法:抓取多个页面的时间元数据,绘制时间分布图;结合 Wayback 看历史增量。
- 含义:短时间批量提交比自然增长更像是人为操作。
7) 外链与 PBN(私链网络)疑点
- 发现:若干外部域名指向这些门页的反链存在极高重复率,且这些域名本身内容稀薄、结构相似(疑似 PBN)。
- 验证方法:使用反链工具抽样对比来源域名质量与内容;查看反链锚文本是否同质化。
- 含义:外部低质链接配合站内门页能放大关键词权重效果。
8) 移动/桌面内容不一致(可能的 cloaking)
- 发现:对同一 URL 使用不同 user-agent 抓取得到的 HTML 存在差异:移动版可能更“友好”、桌面版包含更多关键词堆砌或跳转脚本。
- 验证方法:curl -A "Googlebot" 与 curl -A "Mozilla…" 比对响应。
- 含义:有意针对搜索引擎、针对用户呈现实不同内容,以逃避审查或优化抓取结果。
四、 对搜索生态与用户的影响
- 短期看:通过上述手段,某些关键词可以在短时间内获得可观的流量和排名收益。
- 长期看:一旦被搜索引擎识别为操纵信号,可能得到惩罚(降权、索引移除),同时降低用户体验,损害站点长期信任。
五、针对站长与第三方的实操建议(可复现检测步骤)
- 快速排查:site:domain inurl:tag/ 、site:domain intitle:"目标词" 列表;用 Screaming Frog 抓取站点结构、统计标题/字数分布。
- 锚文本分析:导出内链 CSV,统计锚文本频率;若多为单一关键词且集中指向少数目标页,需警惕。
- 时间轴分析:导出 sitemap 时间戳或抓取页面 x-last-modified,绘制发布节奏图。
- cloaking 检测:用不同 user-agent/不同 IP(或通过手机/桌面模拟)抓取比对 HTML。
- 反链甄别:用反链工具抽样来源域名,检查这些域是否为同一模板或含有大量指向同一站点的链接。
- 规范化修复:对非必要的批量门页进行合并、增加原创内容、移除重复锚文本、调整 sitemap、正确使用 canonical 与 noindex(对薄页标 noindex),并通过 Search Console 重新提交重要页面。
六、结语 关键词不会凭空出现,也有许多手法可以“培育”它们。通过系统化的排查可以把表面现象拆解成链条化的证据:模板页、内链锚文本、sitemap 提交、重定向、反链配合以及发布时间节奏共同构成了养关键词的操作流程。把每一步都检验一遍,就能分辨是自然流量增长还是刻意操盘。
如果你想,我可以把我用到的具体查询语句、正则规则和爬虫配置发给你,方便你在自己的域名上做快速检测。需要我导出一个可复用的检测清单吗?

