加入收藏RSS订阅SEO教程 SEO优化 SEO自学 网站优化
你的位置:首页 » SEO教程 » 正文

搜索引擎工作原理之网页分析,搜索引擎对网页的分析

选择字号: 超大 标准 发布时间:2014-8-14 10:48:51 | 作者:Searcheo | 0个评论 | 人浏览

本文地址:http://www.searcheo.cn/post/190.html 转载请注明出处!

页面抓取只是搜索引擎工作的一个基础环节,页面抓取回来后并不代表搜索引擎马上就能向终端用户提供查询服务。因为,用户在使用搜索引擎进行井底时,使用的是一个词或者短语,而到目前为止,搜索引擎仅能提供整个个原始页面,还不能返回与用户查询条件相匹配的信息。因此,搜索引擎需要对原始页面进行一系列的分析、处理,以迎合用户信息查询的习惯如下面图示,搜索引擎首先对存储的原始页面建立索引,再过滤原始网页的标签信息,从中提取出网页中的正文内容;然后,对正文内容进行切词,并建立关键词索引,得到了页面与关键词间的对应关系;最后对所有的关键词进行重组,从而建立关键词与页面间的对应关系。



1、网页索引

为了提高页面检索的效率,搜索引擎需要对抓取回来的原始页面建立索引,由于URL就是页面入口地址,为原始页面建立索引实际上就是为页面的URL建立索引,这样就可以实现根据URL快速定位到对应页面。

2、网页分析

网页分析是整个网页处理中最重要的环节,包括了网页正文信息的提取、切词、建立关键词索引列表及关键词重组几个重要的步骤。结果形成了一个关键词对应多个原始页面的关系,即形成了与用户查询习惯相符合的信息雏形。

■正文信息提取

网页正文信息的提取实际上就是对网页中非正文信息的过滤。其中,最为重要的就是对网页中标签信息,如html标签、js标签,php标签的过滤。经过标签过滤后,搜索引擎就可以得到网页的正文信息。

■分词/切词

经过对原始页面提取正文信息后,搜索引擎就可以得到页面的实质内容。而为了得到与用户查询相关的数据,搜索引擎还需要对页面中的内容进行切分,也就是我们常说的“分词”或者“切词”,从而形成与用户查询条件相匹配的以关键词为单位的信息列表。

每个搜索引擎的切词系统都会存在或多或少的差别,分词系统的优劣主要取决于开发者对语言的理解能力。在中文语言环境里,切词算法直接影响网页经过分词处理后会产生什么样的关键词,而这些关键词是否与用户的搜索习惯一致。因而,切词的结果直接决定搜索引擎能否提供与用户查询条件相匹配的信息。

在中文环境里,常见的分词方法包括字符串匹配分词及统计分词两种,下面简单介绍这两种中文分词算法

(1)字符串匹配分词。字符串匹配分词是基于一个足够大、足够权威的“词典”进行的。如果页面上的词与“词典”中的词匹配,则为命中,这样就可以得到一个词或者短语。

(2)统计分词。统计分词是根据相邻两个(或者多个)字出现的概率判断这两个(或者多个)字组合后是否会形成一个词。统计分词常常会结合“词典”一起使用,识别一些新词汇。例如,像“博客”等一些在传统中文语言中是不存在的词汇。

(3)关键词索引。网页正文信息在经过切词系统处理后,形成了关键词列表。关键词列表中的每条记录都包括了譔关键词所在的网页的编号、关键词编号、关键词出现次数以及关键词在文档中的位置等信息。

为了提高对关键词的检索效率,搜索引擎还会为关键词列表建立索引。这样,对网页及关键词列表都建立索引后,就可以从一个网页快速定位到某一关键词。

例如,某个网页经过信息过滤后得到的内容是“中国广东省深圳市”;然后,对内容进行切词后产生关键词“中国”、“广东省”、“深圳市”,并对关键词建立索引。这样,根据这个网页的内容,搜索引擎就可以快速定位到关键词“中国”、“广东省”或“深圳市”上。

然而,用户是通过关键词去些承载相应信息的页面的。所以,还需要对已有信息进行相应的处理,建立关键词与页面URL间的对应关系表,从而实现根据关键词快速定位到多个页面的功能,这就是下面所说的“关键词重组”问题。

(4)关键词重组。为了迎合用户寻找信息的习惯,即要以关键词为条件寻找与关键词相关的页面,我们需要建立以关键词为主索引的一个关键词对应多个页面的关系表,即关键词反向索引表。而建立关键词反向索引表最重要的任务,就是对所有页面中的关键词列表进行重组。

经过之前对关键词建立索引后,已经产生了网页与关键词的一对多的对应关系。接下来,搜索引擎把所有页面中的关键词进行重组,并建立关键词索引,从而形成一个不重复的关键词列表集合,即关键词列表中的每个关键词都是唯一的。这样,通过某一个特定的关键词就可以找到一个或者多个网页,从而实现根据关键词返回相应页面的功能。

经过对原始页面进行分析、处理后,搜索引擎已经可以根据用户的查询条件返回相应的页面列表。但是,简单地向用户返回这个页面列表,往往不能满足用户的需要。所以,搜索引擎还会根据页面与用户查询条件相关性的高低,对这个列表进行重新排列,再把这个处理后的列表返回给用户,这就是后面要介绍的搜索引擎对页面进行排序的问题。


标签:  

SEO教程网

猜你喜欢

发表评论

必填

选填

选填

必填,不填不让过哦,嘻嘻。

记住我,下次回复时不用重新输入个人信息

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

站长推荐的文章
浏览最多的文章
无觅相关文章插件,快速提升流量