搜索引擎
基本工做原理
信息收集功能
技术点
SEO优化核心
优化重点
SEO优化
网站URL
title信息
meta信息
图片ALT
flash信息
frame框架
网页重要度特征html
以前有看到一个师兄的我的博客作得很漂亮、每次打开百度后直接搜索该师兄的名字,该博客每次都排列在第一位,很神奇的事情,要知道关于SEO在不少人看来都是一门大学问。故特此简单学习一下搜索引擎的基本知识和SEO,但愿能对这方面有所了解!算法
搜索引擎的基本工做原理包括如下三个过程:
一、抓取网页。每一个独立的搜索引擎都有本身的网页抓取程序爬虫,爬虫经过超连接从一个网站爬到另一个网站,经过超连接分析连续访问抓取更多网页,被爬取得网页被称为网页快照。
爬虫抓取网页的经常使用策略:
a.深度优先、b.宽度优先、c.权重优先(层次的多与少;链接的外链多少与质量)、d.重访抓取(所有重访;单个重访)
二、处理网页。抓取到了网页后,引擎还要作大量的预处理工做,如数据分析、创建索引库等,才能提供检索服务。其中,最重要的就是提取关键词,创建索引库和索引。其中还包括去除重复网页、分词(中文)、判断网页类型、分析超连接、计算网页的重要度和复杂度等。
数据处理:
a.网页结构化(删除html代码,提取内容)、b.消噪(留下网页的主题内容)、c.查重(查找重复的页面删除)、d.分词(将内容分为N个单词,排列,存进索引库)、e.连接分析(计算连接权重)
三、提供检索服务。由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档和查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。数据库
搜索引擎的自动信息收集功能分为两种:session
搜索引擎设计的技术点:技术点主要集中在处理网页和抓取网页部分:如查询处理、排序算法、页面抓取算法、CACHE机制、ANTI-SPAM等等。架构
SEO:Search Engine Optimization,搜索引擎优化。简单来讲就是提升网站搜索友好度、使网站搜索排名提升。框架
一、网站的程序架构要尽可能保持简洁,去除花销的代码,能够尝试JS调用。搜索引擎优化自己就与用户体验相通相倚,相互结合,除此以外,繁琐的代码不但会影响网站页面的加载速度,让用户体验下降。
二、作足站内SEO的细节功夫。从大范围上讲,是要对程序进行趋简洁化的修正,而细节来讲,就是在URL静态化、title、keyword、description的写法,keyword已经不被搜索引擎投以任何的重视。
三、作足站外SEO的方方面面。包括交换友情连接的注意和作普通外链时候应该如何操做、控制等,切勿想着走捷径,想着群发外链或者一次性购买大量高权重外链。这些都是SEO的错误思惟和策略。咱们通常推荐你们作通常性传统SEO。
四、用户体验。在搜索引擎上得到排名的缘由是由于咱们为用户提供了有价值的内容。从发展角度去看,咱们都应该朝着作用户、作产品、作服务的方面去发展。ide
网站建立具备良好描述性、规范、简单的url,有利于用户更方便的记忆和判断网页的内容,也有利于搜索引擎更有效的抓取你的网站。
处理方式:学习
网页的title用于告诉用户和搜索引擎这个网页的主要内容是什么,并且当用户在百度网页搜索中搜索到你的网页的时候,title会做为最重要的内容显示在摘要中。搜索引擎在判断一个网页内容权重时,title是主要参考信息之一。
描述建议:优化
meta description是meta标签的一部分,位于html的区。
meta description是对网页内容的精简归纳,若是meta description描述与网页内容相符,百度会将meta description看成摘要的选择目标之一。虽然它不是权值计算的参考因素,这个标签存在与否不影响网页权值,只会用做搜索结果摘要的一个选择目标。
推荐作法:
网站首页、频道页、产品参数页等没有大段文字能够用做摘要的网页最合适使用description。
为每一个网页建立不一样meta description,避免全部的页面都使用一样的描述。
长度合理,不过长不太短。网站
建议为图片加alt说明,由于这样可让搜索引擎了解图片的内容。
Baiduspider只能读懂文本内容,flash、图片等非文本内容暂时不能处理,放置在flash、图片中的文字,百度没法识别。
因此若是必定要使用flash,建议给object标签添加注释信息。
这些信息会被看做是对Flash的描述信息。让搜索引擎更好的了解您flash的内容。
不建议使用frame和iframe框架结构,经过iframe显示的内容可能会被百度丢弃。
体现网页重要度的特征有:
一、网页的入度大,代表被其余网页引用的次数多。
二、某网页的父网页入度大。
三、网页的镜像度高,说明网页比较热门,从而显得很重要。 四、网页的目录深度小,易于用户浏览到。这里定义的目录深度是指除去域名部分的目录层次。