SEO入门知识基础教程优化文档格式.docx

资源描述

SEO入门知识基础教程优化文档格式.docx

《SEO入门知识基础教程优化文档格式.docx》由会员分享，可在线阅读，更多相关《SEO入门知识基础教程优化文档格式.docx（18页珍藏版）》请在冰点文库上搜索。

SEO入门知识基础教程优化文档格式.docx

三，一定要知道的SEO专业名词

1，基础名词解释

URL链接

关键词：

在利用搜索引擎进行搜索时所使用的词语。

目标关键词：

指经过关键词分析确定下来的网站“主打”关键词，通俗地讲指，网站产品和服务的目标客户可能用来搜索的关键词。

一般情况下，目标关键词具有这些特征：

目标关键词一般作为网站首页的标题。

目标关键词一般是2-4个字构成的一个词或词组，名词居多。

目标关键词在搜索引擎每日都有一定数目的稳定搜索量。

搜索目标关键词的用户往往对网站的产品和服务有需求，或者对网站的内容感兴趣。

网站的主要内容围绕目标关键词展开。

长尾关键词：

网站上非目标关键词但也可以带来搜索流量的关键词。

长尾关键词具有的特征如：

比较长，往往是2-3个词组成，甚至是短语。

存在于内容页面，除了内容页的标题，还存在于内容中。

搜索量非常少，并且不稳定。

存在大量长尾关键词的大中型网站，其带来的总流量非常大。

Meta标签（Title标签，关键词标签，描述标签）

AlT代替属性：

ALT-代替属性，用来对网页上的图片进行描述，光标在图片上时显示的提示语。

从SEO和用户体验来看，ALT-代替属性都是必要的，其重要性主要有：

a网页内容相关性是关键词优化的前提，搜索引擎认为，网页上的图片应该与网页主题相关。

反过来讲，当搜索引擎要判断网页的关键词时，图片的ALT-代替属性是一个可信任的参考点。

所以，别忘了在图片的ALT-代替属性里添加上该网页的关键词。

b有时候因为一些原因，比如使用屏幕读取器、带宽较低、网络阻碍等导致网页上的图片无法显示。

描述性的ALT-代替属性可以告诉用户该位置的内容，从而添加用户体验。

正规的网站都应该这样做。

c有时，如果没有ALT-代替属性，会导致用户不明白该图片代表着什么，为什么放在这个网页。

锚文本：

超文本链接，页面中带有URL链接的文字。

外部链接：

外链，导入链接，从网站外部指向网站的链接。

内部链接：

内链，从网站内部指向网站本身一些页面的链接。

导出链接：

从网站内部指向到其他网站的链接。

反向链接：

外链+内链，网页A上有一个链接指向网页B，则网页A上的链接是网页B的反向链接

死链接：

原来正常，后来失效的链接。

黑帽：

采用搜索引擎禁止的方式优化网站，一般我们叫SEO作弊都是做SEO，为什么有黑帽和白帽之分？

比如，群发留言增加外连，这是一个典型的黑帽行为。

因为通过这个方式增加外部链接影响了其他站点的利益，同时影响搜索引擎对网站排名的合理和公正性。

搜索引擎要制止这个做法，所以这个做法就被称为黑帽。

白帽？

采用SEO的思维，合理优化网站，提高用户体验，合理与其他网站互联。

从而使站点在搜索引擎排名提升。

LinkFarm链接农场：

链接养殖场链接工厂（友情链接时注意）链接养殖场是指这样一个网站：

这个网站的每一个网页都没有有价值的信息，除了人为罗列一个个指向其他网站的链接外，没有其他内容或者极少内容。

链接养殖场的任务就是交换链接，寄希望通过链接互相传递PageRank来提升这个网页的PR值。

这个网页，或者数个网页的内容不一定和你的网站内容相关，甚至没有一点相关。

同样，内容也不一定和它链接的其他网站的内容相关，甚至没有一点相关。

SEO角度来讲，这样的纯粹用于交换链接、添加链接数量的网页或者网站（LinkFarm链接养殖场）是一种典型的SEOSPAM（SEO作弊）。

与链接养殖场相互链接的网站有被搜索引擎封掉，并拒绝收录的危险。

关键词密度：

关键字或关键词在网页中出现的次数与网页中其它文本内容的比例。

很多SEO前辈都回答过这个问题。

答案分别是：

2-8%、3-7%、低于10%、5%左右。

关键词密度是一个模糊的概念而不是绝对。

（关键词密度并不是越高越好）Sandbox-沙盒效应新站在刚上线的几个月内在Google很难有好的排名，甚至没有排名。

这个现象我们称为：

Sandbox-沙盒效应。

一个新的网站，即使已经做了很好的SEO优化：

丰富的相关内容，大量的高质量外部链接，网站URL搜索引擎友好，网站结构用户体验友好等。

但在刚上线的几个月内，在Google几乎找不到好的排名。

Google的Sandbox-沙盒效应一般会持续6个月，这6个月内新站应该不断完善各方面SEO，沙盒效应过后，一般会有不错的排名。

XX对新站也有一个“建立信任期”，一般是2个月。

这两个月内，过多得修改网站结构，修改文章标题，会造成XX对站点信任度的降低。

DoFollow和Nofollow：

搜索引擎抓取与否

2，PR和Alexa排名

PR：

值全称为PageRank（网页级别），是Google排名运算法则（排名公式）的一部分，是Google用来标识网页的等级/重要性的一种方法，是Google用来衡量一个网站的好坏的一项重要标准。

（Google对网站的权重打分的一个表现）

PR级别从1到10级，10级为满分。

PR值越高说明该网页越受欢迎（越重要）。

例如：

一个PR值为1的网站表明这个网站不太具有流行度，而PR值为7到10则表明这个网站非常受欢迎（或者说极其重要）。

一般PR值达到4，就算是一个不错的网站了。

Google把自己的网站的PR值定到10，这说明Google这个网站是非常受欢迎的，也可以说这个网站非常重要。

特别注意事项，PR也有真假之分。

假PR即PR劫持。

很多站长为了短时期内获得高PR，他们将自己的网站做301跳转到一个高PR的网站。

注意google在更新PR的时候，会赋予这个网站与跳转后的网站相同的PR值。

但是这样的PR是假的，没有任何用处。

如果站长取消301后，PR会重新评估，回到最初的PR值。

而且劫持过来的PR不会给友情链接带来PR分值的。

所以说，大家换友情链接的时候，不要和PR劫持的网站交换链接。

如何提高网页的PR值：

网站外部链接的数量和质量，Google在你的网站抓取的页面数，网站知名网站收录。

GooglePR值的更新周期时间一般情况下PR值更新的周期是2.5～3个月！

Alexa排名：

目前网络中对网站排名相对权威的一个排名。

Alexa是一家专门发布网站世界排名的网，Alexa每天在网上搜集超过1,000GB的信息，不仅给出多达几十亿的网址链接，而Alexa且为其中的每一个网站进行了流量排名。

可以说，Alexa是当前拥有URL数量最庞大，排名信息发布最详尽的网站。

Alexa的网站世界排名主要分两种：

综合排名和分类排名

综合排名也叫绝对排名，即特定的一个网站在所有网站中的名次。

Alexa每三个月公布一次新的网站综合排名。

此排名的依据是用户链接数（UsersReach）和页面浏览数（PageViews）三个月累积的几何平均值。

Alexa网站收录系统分类排名，一是按主题分类，比如新闻、娱乐、购物等，Alexa给出某个特定网站在同一类网站中的名次。

二是按语言分类，目前共分20种语言，比如英文网站、中文网站[Chinese（simpl）和Chinese（trad）]等，给出特定站点在所有此类语言网站中的名次。

四，索引擎工作原理。

搜索引擎的工作过程大体上可以分成三个阶段。

爬行和抓取：

搜索引擎蜘蛛通过跟踪链接访问网页，获得页面HTML代码存入数据库。

爬行和抓取是搜索引擎工作的第一步，完成数据收集的任务。

1，蜘蛛，搜索引擎用来爬行和访问页面的程序被称为蜘蛛（spider），也称为机器人（bot）。

搜索引擎蜘蛛访问网站页面时类似于普通用户使用的浏览器。

蜘蛛程序发出页面访问请求后，服务器返回HTML代码，蜘蛛程序把收到的代码存入原始页面数据库。

搜索引擎为了提高爬行和抓取速度，都使用多个蜘蛛并发分布爬行。

为了抓取网上尽量多的页面，搜索引擎蜘蛛会跟踪页面上的链接，从一个页面爬到下一个页面，就好像蜘蛛在蜘蛛网上爬行那样，这也就是搜索引擎蜘蛛这个名称的由来。

2，整个互联网是由相互链接的网站及页面组成的。

从理论上说，蜘蛛从任何一个页面出发，顺着链接都可以爬行到网上的所有页面。

当然，由于网站及页面链接结构异常复杂，蜘蛛需要采取一定的爬行策略才能遍历网上所有页面。

从理论上说，无论是深度优先还是广度优先，只要给蜘蛛足够的时间，都能爬完整个互联网。

在实际工作中，蜘蛛的带宽资源、时间都不是无限的，也不可能爬完所有页面。

实际上最大的搜索引擎也只是爬行和收录了互联网的一小部分。

3．吸引蜘蛛由此可见，虽然理论上蜘蛛能爬行和抓取所有页面，但实际上不能、也不会这么做。

SEO人员要想让自己的更多页面被收录，就要想方设法吸引蜘蛛来抓取。

既然不能抓取所有页面，蜘蛛所要做的就是尽量抓取重要页面。

哪些页面被认为比较重要呢？

有几方面影响因素。

a、网站和页面权重。

质量高、资格老的网站被认为权重比较高，这种网站上的页面被爬行的深度也会比较高，所以会有更多内页被收录。

b、页面更新度。

蜘蛛每次爬行都会把页面数据存储起来。

如果第二次爬行发现页面与第一次收录的完全一样，说明页面没有更新，蜘蛛也就没有必要经常抓取。

如果页面内容经常更新，蜘蛛就会更加频繁地访问这种页面，页面上出现的新链接，也自然会被蜘蛛更快地跟踪，抓取新页面。

c、导入链接。

无论是外部链接还是同一个网站的内部链接，要被蜘蛛抓取，就必须有导入链接进入页面，否则蜘蛛根本没有机会知道页面的存在。

高质量的导入链接也经常使页面上的导出链接被爬行深度增加。

d、与首页点击距离。

一般来说网站上权重最高的是首页，大部分外部链接是指向首页的，蜘蛛访问最频繁的也是首页。

离首页点击距离越近，页面权重越高，被蜘蛛爬行的机会也越大。

e．爬行时的复制内容检测检测并删除复制内容通常是在下面介绍的预处理过程中进行的，但现在的蜘蛛在爬行和抓取文件时也会进行一定程度的复制内容检测。

遇到权重很低的网站上大量转载或抄袭内容时，很可能不再继续爬行。

这也就是有的站长在日志文件中发现了蜘蛛，但页面从来没有被真正收录过的原因。

预处理：

索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理，以备排名程序调用。

在一些SEO材料中，“预处理”也被简称为“索引”，因为索引是预处理最主要的步骤。

搜索引擎蜘蛛抓取的原始页面，并不能直接用于查询排名处理。

搜索引擎数据库中的页面数都在数万亿级别以上，用户输入搜索词后，靠排名程序实时对这么多页面分析相关性，计算量太大，不可能在一两秒内返回排名结果。

因此抓取来的页面必须经过预处理，为最后的查询排名做好准备。

和爬行抓取一样，预处理也是在后台提前完成的，用户搜索时感觉不到这个过程。

1．提取文字现在的搜索引擎还是以文字内容为基础。

蜘蛛抓取到的页面中的HTML代码，除了用户在浏览器上可以看到的可见文字外，还包含了大量的HTML格式标签、JavaScript程序等无法用于排名的内容。

搜索引擎预处理首先要做的就是从HTML文件中去除标签、程序，提取出可以用于排名处理的网页面文字内容。

比如下面这段HTML代码：

divid="

post-1100"

class="

post-1100posthentrycategory-seo"

divclass="

posttitle"

h2>

ahref今天愚人节哈"

今天愚人节哈<

/a>

/h2>

rel="

bookmark"

title="

PermanentLinkto

除去HTML代码后，剩下的用于排名的文字只是这一行：

今天愚人节哈

注：

除了可见文字，搜索引擎也会提取出一些特殊的包含文字信息的代码，如Meta标签中的文字、图片替代文字、Flash文件的替代文字、链接锚文字等。

2．去停止词无论是英文还是中文，页面内容中都会有一些出现频率很高，却对内容没有任何影响的词，如“的”、“地”、“得”之类的助词，“啊”、“哈”、“呀”之类的感叹词，“从而”、“以”、“却”之类的副词或介词。

这些词被称为停止词，因为它们对页面的主要意思没什么影响。

英文中的常见停止词有the，a，an，to，of等。

搜索引擎在索引页面之前会去掉这些停止词，使索引数据主题更为突出，减少无谓的计算量。

以常见的博客导航为例，几乎每个博客页面上都会出现文章分类、历史存档等导航内容，但是这些页面本身与“分类”、“历史”这些词都没有任何关系。

用户搜索“历史”、“分类”这些关键词时仅仅因为页面上有这些词出现而返回博客帖子是毫无意义的，完全不相关。

所以这些区块都属于噪声，对页面主题只能起到分散作用。

搜索引擎需要识别并消除这些噪声，排名时不使用噪声内容。

消噪的基本方法是根据HTML标签对页面分块，区分出页头、导航、正文、页脚、广告等区域，在网站上大量重复出现的区块往往属于噪声。

对页面进行消噪后，剩下的才是页面主体内容。

4．去重搜索引擎还需要对页面进行去重处理。

同一篇文章经常会重复出现在不同网站及同一个网站的不同网址上，搜索引擎并不喜欢这种重复性的内容。

用户搜索时，如果在前两页看到的都是来自不同网站的同一篇文章，用户体验就太差了，虽然都是内容相关的。

搜索引擎希望只返回相同文章中的一篇，所以在进行索引前还需要识别和删除重复内容，这个过程就称为“去重”。

去重的基本方法是对页面特征关键词计算指纹，也就是说从页面主体内容中选取最有代表性的一部分关键词（经常是出现频率最高的关键词），然后计算这些关键词的数字指纹。

这里的关键词选取是在分词、去停止词、消噪之后。

实验表明，通常选取10个特征关键词就可以达到比较高的计算准确性，再选取更多词对去重准确性提高的贡献也就不大了。

典型的指纹计算方法如MD5算法（信息摘要算法第五版）。

这类指纹算法的特点是，输入（特征关键词）有任何微小的变化，都会导致计算出的指纹有很大差距。

了解了搜索引擎的去重算法，SEO人员就应该知道简单地增加“的”、“地”、“得”、调换段落顺序这种所谓伪原创，并不能逃过搜索引擎的去重算法，因为这样的操作无法改变文章的特征关键词。

而且搜索引擎的去重算法很可能不止于页面级别，而是进行到段落级别，混合不同文章、交叉调换段落顺序也不能使转载和抄袭变成原创。

5．正向索引正向索引也可以简称为索引。

经过文字提取、分词、消噪、去重后，搜索引擎得到的就是独特的、能反映页面主体内容的、以词为单位的内容。

接下来搜索引擎索引程序就可以提取关键词，按照分词程序划分好的词，把页面转换为一个关键词组成的集合，同时记录每一个关键词在页面上的出现频率、出现次数、格式（如出现在标题标签、黑体、H标签、锚文字等）、位置（如页面第一段文字等）。

这样，每一个页面都可以记录为一串关键词集合，其中每个关键词的词频、格式、位置等权重信息也都记录在案。

搜索引擎索引程序将页面及关键词形成词表结构存储进索引库。

简化的索引词表形式如表所示。

表2-1简化的索引词表结构

6．倒排索引

正向索引还不能直接用于排名。

假设用户搜索关键词2，如果只存在正向索引，排名程序需要扫描所有索引库中的文件，找出包含关键词2的文件，再进行相关性计算。

这样的计算量无法满足实时返回排名结果的要求，像辉煌网络这个站就做的很出色。

所以搜索引擎会将正向索引数据库重新构造为倒排索引，把文件对应到关键词的映射转换为关键词到文件的映射，如表所示。

在倒排索引中关键词是主键，每个关键词都对应着一系列文件，这些文件中都出现了这个关键词。

这样当用户搜索某个关键词时，排序程序在倒排索引中定位到这个关键词，就可以马上找出所有包含这个关键词的文件。

7．链接关系计算

链接关系计算也是预处理中很重要的一部分。

现在所有的主流搜索引擎排名因素中都包含网页之间的链接流动信息。

搜索引擎在抓取页面内容后，必须事前计算出：

页面上有哪些链接指向哪些其他页面，每个页面有哪些导入链接，链接使用了什么锚文字，这些复杂的链接指向关系形成了网站和页面的链接权重。

GooglePR值就是这种链接关系的最主要体现之一。

其他搜索引擎也都进行类似计算，虽然它们并不称为PR。

由于页面和链接数量巨大，网上的链接关系又时时处在更新中，因此链接关系及PR的计算要耗费很长时间。

关于PR和链接分析，后面还有专门的章节介绍。

8．特殊文件处理除了HTML文件外，搜索引擎通常还能抓取和索引以文字为基础的多种文件类型，如PDF、Word、WPS、XLS、PPT、TXT文件等。

我们在搜索结果中也经常会看到这些文件类型。

但目前的搜索引擎还不能处理图片、视频、Flash这类非文字内容，也不能执行脚本和程序。

虽然搜索引擎在识别图片及从Flash中提取文字内容方面有些进步，不过距离直接靠读取图片、视频、Flash内容返回结果的目标还很远。

对图片、视频内容的排名还往往是依据与之相关的文字内容，详细情况可以参考后面的整合搜索部分。

排名：

用户输入关键词后，排名程序调用索引库数据，计算相关性，然后按一定格式生成搜索结果页面。

经过搜索引擎蜘蛛抓取页面，索引程序计算得到倒排索引后，搜索引擎就准备好可以随时处理用户搜索了。

用户在搜索框填入关键词后，排名程序调用索引库数据，计算排名显示给用户，排名过程是与用户直接互动的。

1．搜索词处理搜索引擎接收到用户输入的搜索词后，需要对搜索词做一些处理，才能进入排名过程。

搜索词处理包括如下几方面。

（1）中文分词。

与页面索引时一样，搜索词也必须进行中文分词，将查询字符串转换为以词为基础的关键词组合。

分词原理与页面分词相同。

（2）去停止词。

和索引时一样，搜索引擎也需要把搜索词中的停止词去掉，最大限度地提高排名相关性及效率。

（3）指令处理。

查询词完成分词后，搜索引擎的默认处理方式是在关键词之间使用“与”逻辑。

也就是说用户搜索“减肥方法”时，程序分词为“减肥”和“方法”两个词，搜索引擎排序时默认认为，用户寻找的是既包含“减肥”，也包含“方法”的页面。

只包含“减肥”不包含“方法”，或者只包含“方法”不包含“减肥”的页面，被认为是不符合搜索条件的。

当然，这只是极为简化的为了说明原理的说法，实际上我们还是会看到只包含一部分关键词的搜索结果。

另外用户输入的查询词还可能包含一些高级搜索指令，如加号、减号等，搜索引擎都需要做出识别和相应处理。

有关高级搜索指令，后面还有详细说明。

（4）拼写错误矫正。

用户如果输入了明显错误的字或英文单词拼错，搜索引擎会提示用户正确的用字或拼法，如图所示

（5）整合搜索触发。

某些搜索词会触发整合搜索，比如明星姓名就经常触发图片和视频内容，当前的热门话题又容易触发资讯内容。

哪些词触发哪些整合搜索，也需要在搜索词处理阶段计算。

2．文件匹配搜索词经过处理后，搜索引擎得到的是以词为基础的关键词集合。

文件匹配阶段就是找出含有所有关键词的文件。

在索引部分提到的倒排索引使得文件匹配够快速完成。

3．初始子集的选择找到包含所有关键词的匹配文件后，还不能进行相关性计算，因为找到的文件经常会有几十万几百万，甚至上千万个。

要对这么多文件实时进行相关性计算，需要的时间还是比较长的。

实际上用户并不需要知道所有匹配的几十万、几百万个页面，绝大部分用户只会查看前两页，也就是前20个结果。

搜索引擎也并不需要计算这么多页面的相关性，而只要计算最重要的一部分页面就可以了。

常用搜索引擎的人都会注意到，搜索结果页面通常最多显示100个。

用户点击搜索结果页面底部的“下一页”链接，最多也只能看到第100页，也就是1000个搜索结果，如图所示。

Google显示100页搜索结果

XX显示76页搜索结果

所以搜索引擎只需要计算前1000个结果的相关性，就能满足要求。

但问题在于，还没有计算相关性时，搜索引擎又怎么知道哪一千个文件是最相关的？

所以用于最后相关性计算的初始页面子集的选择，必须依靠其他特征而不是相关性，其中最主要的就是页面权重。

由于所有匹配文件都已经具备了最基本的相关性（这些文件都包含所有查询关键词），搜索引擎通常会用非相关性的页面特征选出一个初始子集。

初始子集的数目是多少？

几万个？

或许更多，外人并不知道。

不过可以肯定的是，当匹配页面数目巨大时，搜索引擎不会对这么多页面进行计算，而必须选出页面权重较高的一个子集，再对子集中的页面进行相关性计算。

4．相关性计算选出初始子集后，对子集中的页面计算关键词相关性。

计算相关性是排名过程中最重要的一步。

相关性计算是搜索引擎算法中最令SEO感兴趣的部分。

影响相关性的主要因素包括如下几方面。

（1）关键词常用程度。

经过分词后的多个关键词，对整个搜索字符串的意义贡献并不相同。

越常用的词对搜索词的意义贡献越小，越不常用的词对搜索词的意义贡献越大。

举个例子，假设用户输入的搜索词是“我们冥王星”。

“我们”这个词常用程度非常高，在很多页面上会出现，它对“我们冥王星”这个搜索词的辨识程度和意义相关度贡献就很小。

找出那些包含“我们”这个词的页面，对搜索排名相关性几乎没有什么影响，有太多页面包含“我们”这个词。

而“冥王星”这个词常用程度就比较低，对

展开阅读全文