SEO 词库完整指南
2018.11.17数据库
以前讲到了 SEO 频道,其中极其重要的一步,就是词库的创建了。词库的整理和收集,一方面能够根据关键词获取到精准的、大量的流量,另外一方面也能够了解用户的需求,方便第二步的模板设置。scrapy
关键步骤
SEO 词库通常有如下几个关键步骤:工具
- 抓取
- 扩展
- 过滤
- 补充字段 & 入库
- 清理 & 优化
第一步 关键词抓取
关键词抓取通常有如下几个来源:post
- 竞争对手词库
- 第三方工具,如 5118
- PPC 或者其余流量渠道的关键词
抓取的工具也有不少,好比:优化
不过须要注意的是,抓取工具必定要支持往下一层抓取(也叫深度抓取),而不能仅限于源页面的抓取。搜索引擎
第二步 关键词扩展
抓取一批数据以后不要急着过滤和使用,要先扩展一批。这里能够借用搜索引擎的能力和工具进行扩展,有如下几个方式:spa
- 搜索引擎的搜索框提示词
- 搜索引擎的相关搜索词
- PPC 的扩词工具,如百度推广助手的关键词工具,Google Keyword Planner Tool.
扩展一大堆关键词以后还有很是重要的一步,就是关键词分析,整理关键词组合。首先,经过分词和整理,能够拿到关键词的词根,以及对应的搜索量。
其次,手工把每一个词根对应的关键词组合整理出来,并加上搜索量和出现次数最后,就是考虑这些关键词怎么应用。若是关键词组合的搜索量特别大,并且主题明确且独特,是建议单独开设一个频道,好比 「城市」+ 天气。而对一些比较零散,无明确规则的关键词,则是须要添加到 SEO 频道,好比 “杭州八景”。借用一张 GoGo闯 博文中的一张图:
索引
注:GoGo闯 有一篇讲关键词分析的文章,这里推荐一下《【如何搭建SEO词库?】SEO关键词分析》。seo
第三步 关键词过滤
SEO 入库前还须要进行过滤。如下关键词过滤的具体规则(应该是中文最全的规则了):资源
- 单复数过滤,好比 led light 和 led lights
- 先后顺序调整过滤,好比 led light 和 light led
- 空格处理,其中包含首尾空格去除、多个合并为一个
- 特殊字符处理。除了字母和数字外的其余符号,都是特殊字符
- 大小写处理。通常是所有转换为小写
- 年份替换,好比 2016 替换为 2018
- 去中止词后去重。必定要注意,先去中止词以后再去重,好比 “南京天气” 和 “南京的天气”,这样就能够过滤掉
- 黑名单过滤。这里能够过滤掉包含黑名单里的关键词,而黑名单可人工维护,好比最近的一些敏感词
- 违禁词过滤,好比政治类敏感词、侵权品牌类关键词
- 结果数和相关性档位过滤。根据搜索结果进行过滤,好比相关性档位为 3 的产品少于 20 个,页面就不会建立(或自动添加 noindex)
- 纯数字, 字母过滤。对中文站来说,纯字母的关键词比较偏向垃圾词,对英文站则否则
- 语种过滤。中文站须要排除掉其余语向的关键词
- 长度过滤。能够过滤掉过长或太短的关键词
- 单词数过滤,能够过滤掉一个单词,或者超过3个单词的关键词
注:上述不少规则来自阿里内部的关键词过滤工具中的功能。
第四步 补充字段 & 入库
入库时除了关键词之外,还须要补充相关的字段(对应每一个数据库字段)通常有如下数据:
- 关键词
- 行业分类,好比属于 3C 行业
- 关键词类型,好比是 price 类
- 添加时间
- 修改时间
- 添加人
- 搜索量
- 百度 / Google 结果数
- 分词结果,好比 “南京|旅游|攻略”
第五步 清理 & 优化
- 清理是为了剔除掉低效的页面,保证频道的效率。好比近一年内没有任何流量的页面。
- 优化是精细化的运营,好比有一批页面一直未抓取,则添加一批内链促进其抓取;或者排名在第二页但仍有流量,则须要稍微给一点内链帮助其上升到第一页
其余高级功能
随着词库规模的扩大,会遇到更多问题。这些都是考虑和解决的。
- 聚类。能够解决页面重复的问题,提升频道效率。
- 分类。能够根据不一样的关键词类型,使用不一样的模板,以更好的知足用户需求。
- 倾斜。根据搜索量或者转化率,资源向部分页面倾斜。
站群的词库
最后多说一点,我也作过站群的词库。在站群项目中,内容、抓取量、连接资源都是极其有限的。这个时候,词库就显得极其重要。一个好的词库,比通常词库的效果要好上几十倍。而好的词库,甚至不惜人肉整理。几万个关键词人工筛选。
最后
若是对 SEO 词库有任何问题,欢迎留言交流!或者但愿我分享什么话题,也能够留言。