百度相关性评估培训资料:主题匹配度打分Word格式.docx

上传人:聆听****声音 文档编号:3694570 上传时间:2023-05-02 格式:DOCX 页数:13 大小:87.48KB
下载 相关 举报
百度相关性评估培训资料:主题匹配度打分Word格式.docx_第1页
第1页 / 共13页
百度相关性评估培训资料:主题匹配度打分Word格式.docx_第2页
第2页 / 共13页
百度相关性评估培训资料:主题匹配度打分Word格式.docx_第3页
第3页 / 共13页
百度相关性评估培训资料:主题匹配度打分Word格式.docx_第4页
第4页 / 共13页
百度相关性评估培训资料:主题匹配度打分Word格式.docx_第5页
第5页 / 共13页
百度相关性评估培训资料:主题匹配度打分Word格式.docx_第6页
第6页 / 共13页
百度相关性评估培训资料:主题匹配度打分Word格式.docx_第7页
第7页 / 共13页
百度相关性评估培训资料:主题匹配度打分Word格式.docx_第8页
第8页 / 共13页
百度相关性评估培训资料:主题匹配度打分Word格式.docx_第9页
第9页 / 共13页
百度相关性评估培训资料:主题匹配度打分Word格式.docx_第10页
第10页 / 共13页
百度相关性评估培训资料:主题匹配度打分Word格式.docx_第11页
第11页 / 共13页
百度相关性评估培训资料:主题匹配度打分Word格式.docx_第12页
第12页 / 共13页
百度相关性评估培训资料:主题匹配度打分Word格式.docx_第13页
第13页 / 共13页
亲,该文档总共13页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

百度相关性评估培训资料:主题匹配度打分Word格式.docx

《百度相关性评估培训资料:主题匹配度打分Word格式.docx》由会员分享,可在线阅读,更多相关《百度相关性评估培训资料:主题匹配度打分Word格式.docx(13页珍藏版)》请在冰点文库上搜索。

百度相关性评估培训资料:主题匹配度打分Word格式.docx

6.2有效性 8

6.3丰富度 9

6.4便捷性 9

6.5权威度 9

7不同类别的Query判断 9

7.1URL查询 9

7.2人名 10

7.3资源满足类 10

7.4网络小说 10

7.5问答类 11

7.6Key-Value类 11

7.7原文类Query 11

8本篇小结 11

8.1主题匹配度打分标准纲要 11

8.2主题匹配度打分流程图 12

1什么是主题匹配度打分

主题匹配度打分,指评估Query表述的意思(主题)和页面表述的意思(主题)的匹配程度,即判断Query主题和页面主题是否一致及多大程度上一致。

用不同的分值表示二者匹配的程度,这里使用的五个分值依次是4、3、2、1、0。

Ø

Query,也可称查询词、关键词、搜索词,指用户为进行查找而在搜索框中输入的字词。

本文中出现的Query,用“【”、“】”括起来,如【搜狐】、【周杰伦MP3】。

Term,指Query中的一个词。

如【搜狐】,搜狐为一个Term;

【北京二手房】,北京为一个Term,二手房为另一个Term。

URL,也称为网页地址,本文所说的页面即URL对应的网页结果。

2主题匹配度打分的步骤

评估过程的四个步骤:

(1)根据Query表述的意思确定Query主题;

(2)根据页面表述的意思确定页面主题;

(3)判断Query主题和页面主题是否匹配以及多大程度上匹配;

(4)选择合适的分值。

3主题匹配度评分标准

标准概要:

4档——完全匹配

3档——比较匹配

2档——部分匹配

1档——很少匹配

0档——完全不匹配

3.1主题匹配度4档——完全匹配

(1)页面主题和Query主题完全匹配,页面标题不需要完全匹配。

【孕妇最适合的水果】

标题是“最适合孕妇吃的水果”,虽然标题与Query不完全一致,但二者在主题上完全匹配。

【迅雷点任务就崩溃】

标题是“迅雷一点任务就崩溃”,页面内容也是围绕这个主题展开,对于主题匹配标注,不必考虑页面内回答是否真实有效地解决了问题。

(2)页面主题比Query主题略小,但页面主题占Query查询需求的较大比重。

【周杰伦】页面主题是周杰伦的歌曲列表,是Query主题的主要需求方面。

【南京新城市广场美食】

页面主题是南京新城市广场中餐馆,中餐馆是美食的主要方面。

【招聘赶集网】页面为赶集网上海招聘。

这种Query本身包含地域需求,类似的有【天气预报】,页面出北京天气预报,可认为是Query主题的主要方面。

(3)Query主题比页面主题略小,且Query主题是页面中的主要属性。

属性指用来描述某个实体的一种特征,如地名、邮编、手机号码等。

【电影宿醉的英文名称】页面主题介绍了该电影的各个属性,英文片名是主要属性之一。

【武汉大学出版社电话】页面主题是武汉大学出版社的联系方式,电话是其主要属性之一。

(4)原文Query:

页面精确匹配Query,且能唯一的确定某一篇文章。

原文Query:

用户通过一句话来精确查找所需的整篇原文。

不限于文章,可包括:

诗词歌赋、文言文、各类文件、歌词、帖子、试卷中的某道题,关键是完整包含这句话的文章只有固定的一篇。

【这是1996年,霍懋征在政协第八届全国委员会常委会第16次会议上】

Query与新闻中的图片标题精确匹配,确定了固定的一篇新闻。

【关于建立统一的企业职工基本养老保险制度的决定】

以上两条URL都是通过Query精确匹配而确定的固定的一篇文章。

3.2主题匹配度3档——比较匹配

(1)页面主题比Query主题偏小,但页面主题对Query主题起重要作用。

【幻灯片在线制作】

页面主题是一款幻灯片在线制作工具,是Query主题的重要方面。

【将进酒李白】页面主题是《将进酒》教案,是Query主题的重要方面。

【快递查询】页面是圆通快递查询,是Query主题的重要方面。

Query

(2)Query主题比页面主题偏小,只和页面的一部分匹配,其余部分是Query主题的常见扩展或自然外延。

【灵魂和元神的区别】

页面主题是“神识,元神,灵魂,阿那耶识的解释”,Query主题与其中的“灵魂、元神”匹配,页面其他部分与“灵魂、元神”属于同类概念,看作Query主题的常见扩展。

【种植牙对身体有伤害吗】

Query主题与页面中“种植牙的副作用”匹配,页面其他部分“种植牙的定义及优点”伴随“种植牙的副作用”一起出现,看作Query主题的自然外延。

3.3主题匹配度2档——部分匹配

(1)页面主题比Query主题明显偏小,是Query查询需求的次要方面。

【淘米网】

页面主题是淘米网一条相关新闻,是Query主题的次要方面。

【圆通快递】

页面主题是一位客户对圆通快递的评论,是Query主题的次要方面。

(2)Query主题比页面主题明显偏小,只和页面的一部分匹配,其余部分与Query主题领域相关。

【关于丽江句子】

页面主题是《走进丽江》教学设计,页面内有少量关于丽江的句子,其他部分也是围绕丽江。

【姚市余姚市城东路88号】

页面主题是多家企业信息列表,Query与其中的一条信息匹配,其余部分与Query领域相关,同属联系方式。

(3)页面主题是Query主题的扩展或外延,语义重心发生偏离。

【宝安区福利中心】

页面主题是“宝安区福利中心宝馨颐养院的联系方式”,语义重心是宝馨颐养院,而不是福利中心。

【如何经营安利】

页面主题是如何成为安利经营者,是Query主题的扩展,但语义重心偏离“如何经营”。

3.4主题匹配度1档——很少匹配

(1)页面主题和Query主题基本不相关,页面仅有很少部分和Query相关的信息。

【绍兴市韩彬翔】

页面中仅提到这个人的身份。

【临安人民广场】

页面仅仅是提到了这个地方。

(2)页面主题和Query主题领域相关,但丢失了重要的限定成分。

【南开大学艺术理科2010年录取分数线】

页面内容是南开大学2010各省录取分数线,但和艺术无关。

【4399疯狂过山车游戏第9关全攻略】页面是这个游戏,但没有第9关。

(3)页面主题和Query主题领域相关,但是term间关系不符合需求。

【上海到广州软座的火车时刻表】页面内容是广州到上海的火车时刻表。

【qq语音,对方能听能说,但我放歌对方却听不见】

页面内容是“对方听不到我说的话,但能听到我放的歌”,与Query需求不符。

3.5主题匹配度0档——完全不匹配

(1)重要term被拆散,命中页面相互无关的部分,term之间没有联系。

【夏枯草菊花茶】

页面中夏枯草菊花茶被拆成两个部分,之间没有联系,而Query夏枯草菊花茶作为一个整体。

【詹姆斯9投0中】页面主题是“皮尔斯10投0中遭詹姆斯完爆”,重要term被拆散。

(2)丢失重要term,导致页面不符合需求。

【prada眼镜半框1bo-101】

页面主题是Prada服装,丢失了重要Term“眼镜”。

【山西省阳泉市2009年高二会考试题】

页面主题是仙游一中2005年物理试题,丢失了地点和年份等重要Term。

(3)核心term严重转义导致结果完全不相关。

【你知道潜水艇吗?

它在军事上的作用可大呢】

页面中“潜水艇”为地漏的品牌名,严重转义。

【章丘游军】

页面中命中的“游军”,指李渊时代游散的军队,而Query是章丘名叫游军的人。

4打分注意事项

4.1Query多义判分

【艺龙】

分;

“艺龙”略小,但是Query主题的一个重要方面,3分。

同理,【卓越】,结果出“卓越信通公司”与“卓越亚马逊”等同公司名的在主题匹配度上是认为没有差异的,页面出公司官网都可给4分。

4.2页面转义判分

按转义程度给分,最高不超过2分:

(1)轻微转义:

转义后仍能部分保留Query本身的含义,给1分或2分

【正大光明】

,结果出“正大光明博客”,为轻微转义结果,给2分。

同名博客,但博客中无内容,降档打分,1分。

【正大光明博客】

则为主题完全匹配结果,给4分;

,若博客同名但无内容,给2分。

(2)严重转义:

转义后的页面完全失去了Query本身所表达的意思,给0分

【东微】

则属于严重转义,给0分。

4.3标题匹配,页面内容差判分

页面标题与Query主题匹配,但页面内容差,常见的有以下几种情况:

(1)有问无答或答非所问

【在家里发生的事作文350字】

,提问与Query匹配,但无回答,2分

(2)Query是找某个账号的博客,页面中账号匹配,但是博客无内容

,同名博客,但博客无内容,2分。

4.4命中边框判分

页面主题与Query主题不匹配,命中边框内结果的最多标注1分。

【谁告诉我主要是为了给自己拍照买卡西欧TR150】

在页面下方“相关内容”中有相关问题链接,主题匹配度给1分。

在主题匹配度标注项目中,判断依据是页面主题和Query主题的匹配程度,页面主题不相

关,就算边框链接中的内容再好,打分也不会高。

4.5作弊页判分

(1)作弊页,为了提高搜索引擎检索命中率,在网页中故意穿插与网页内容不相关的关键词或大量堆积某些关键词;

网页中加入搜索引擎可识别但用户看不见的隐藏文字,如使用同背景色文字、超小字号文字、滥用图片等低质页面;

网页中故意制造大量链接指向某一固定网址,上述情况都属于网页作弊。

(2)作弊分为轻微作弊和恶劣作弊两种情况。

轻微作弊是指网页虽有不相关的关键词穿插其中,但不影响用户获取信息,主题匹配度标注中,轻微作弊页进行正常打分,不考虑作弊的影响。

恶劣作弊是指网页作弊情况严重,网页结果对用户完全无帮助,主题匹配度标注中,恶劣作弊页打分为0,备注“恶劣作弊”。

(3)恶劣作弊页实例:

恶劣作弊页的主题匹配度为0分,注意打分后,需要在备注下拉菜单中选择“恶劣作弊”。

4.6权限问题判分

打开页面直接是登录页,遇到需要登录才能看页面内容的情况,此类页面由于无法判断实际页面的主题匹配度,请在打分项中选择“抛弃”,同时在备注下拉菜单中选择“权限”。

【2011成人学位英语考试时间】

4.7死链判分

死链,“死掉”的链接。

包括两类,一是标准的出错页面,如404(未找到文件)、500(服务器内部错误)、401(未授权)、403(禁止访问)、连接被重置等;

二是页面主体提示说页面不存在、内容已转移、已删除、域名过期或出售、空间被关闭、网站要备案等。

死链的处理方式和权限页面类似,请在打分项中选择“抛弃”,同时在备注下拉菜单中选择

“死链”。

4.8搜索结果页判分

搜索结果页一般以标题列表形式出现,用户需要二次点击页内标题链接,才可看到具体页面。

搜索结果页的判分不需要点开页内具体标题,而是通过各标题综合匹配程度来进行判分,若页面中标题均与Query匹配,那么则认为二者主题匹配程度高,可给4分、3分;

页面中部分标题与Query匹配,可给2分、1分;

页面中标题均与Query无关的,则认为完全不匹配,给0分,以下是常见的几种搜索结果页:

【郭晶晶】百度新闻列表搜索结果页页内新闻标题相关,3分

【N8】泡泡网站内搜索结果泛需求,页内标题整体来看与Query主题部分匹配,2分

【加勒比海盗4】谷歌新闻列表搜索结果页页内新闻标题无命中,仅仅提到,1分

【临汾高客时间表】新浪乐居论坛搜索结果页页内标题无关,0分对于一些资源类Query会有很好的站内搜索结果,如:

【数据恢复软件】 4分

【周杰伦mp3】4分同时在打分后,在备注下拉菜单中选择“检索页”。

5平台注意事项

5.1页面异常,直接打开URL查看

若抓取的页面异常——空白、结构错乱、页面主体空白等,请直接点击平台左上侧的

URL,根据浏览器中新打开的页面来判断。

如图所示:

5.2需要抛弃的情况

若平台结果为死链或受权限限制的登录页面,需要打分中选择“抛弃”选项,同时需要备注“死链”或者“权限”。

5.3需要备注的情况

目前平台备注下拉菜单里有4个选项,分别是“恶劣作弊”、“权限”、“死链”、“检索页”,

遇到这4种情况请在进行打分后,在备注里点击相应的选项。

6主题匹配度打分与五个维度

6.1时效性

主题匹配度打分不受页面资源的时效性影响。

若Query【戛纳电影节】,未指明哪一届,页面主题是任意一届戛纳电影节,都认为二者主题匹配好。

若Query中明确指明时间,如

【2011年戛纳电影节】,结果出第64届,认为主题匹配度好;

结果出第62届,则认为主题匹配差。

【戛纳电影节】

第62届,Query重要方面,3分

第64届,Query重要方面,3分

【2011戛纳电影节】

同样的上面两个结果,结果1丢失了重要的限定成分,认为仅领域相关,判为1分,结果

2完全匹配判为4分。

6.2有效性

主题匹配度打分不受页面资源的有效性影响。

用户搜某软件下载,主题匹配度打分不需要进行真正地下载看下载的软件是否免费、是否带病毒、是否是目标软件而不是其他软件等,而只要确认了页面主题是目标软件下载,资源究竟是否有效不影响主题匹配度打分。

【跑跑卡丁车下载】

,中关村在线的跑跑卡丁车下载,4分。

【跑跑加速外挂】

,论坛软件需回复下载,4分。

6.3丰富度

主题匹配度打分不受页面资源丰富度影响。

即仅提供1篇范文的页面和提供2篇以上范文的页面,只要页面主题均与Query匹配,主题匹配度打分没有区别。

【一件难忘的事】

,4分;

,4分。

6.4便捷性

便捷性,指从打开页面开始,到寻找到所需信息、达到最终目的,所要花费的时间和成本。

便捷性对主题匹配没有影响。

【高考满分作文“风沙渡”让小吃店“风沙渡”红了】

同一篇新闻,结果1不用翻页即可阅读全文,结果2将一篇新闻分成了好几页,用户需要翻页才可完成阅读,但是对于主题匹配度打分,只要页面主题和Query主题匹配了,便捷性不影响打分,这两个结果均判为4分。

6.5权威度

权威性考察的是内容发布在不同网站、或内容贡献者的身份给用户的不同感觉。

对于主题匹配度来说,权威度不影响打分。

【胃病治疗】

百度知道结果

专业疾病治疗网站结果主题匹配度打分不考虑权威度上的差异,二者均为4分。

7不同类别的Query判断

7.1URL查询

URL查询作为一种特定形式的Query需求,页面为Url目标网站,可给4分,其他页面最多不超过2分:

【】

目标网站4分;

搜狐网站的wap入口,是Query主题的次要方面,2分;

网站价值、流量分析页面,对用户帮助很小,1分;

ht

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > IT计算机 > 电脑基础知识

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2