信息检索导论课后习题答案Word文件下载.docx

资源描述

信息检索导论课后习题答案Word文件下载.docx

《信息检索导论课后习题答案Word文件下载.docx》由会员分享，可在线阅读，更多相关《信息检索导论课后习题答案Word文件下载.docx（18页珍藏版）》请在冰点文库上搜索。

信息检索导论课后习题答案Word文件下载.docx

注意：

倒排索引中的词表（dictionary）和每个词项的倒排列表（postinglist）需要排序，便于查找。

这里我们暂不考虑词的正规化处理（如hopes->

hope）。

补充习题1

写出AND查询的伪代码

●面向过程风格的伪代码：

给定两个指针p1和p2，分别指向两倒排列表list1和list2（链表实现）的首元素；

令docId（p1）表示p1所指向的元素的docId查询结果存放在answer列表里。

这里应用了“化归”思想（将新问题转化归为旧问题来解决）。

这里，比较两排序列表的首元素，排除较小的docId（不可能有匹配）后，我们构造出新的剩余列表，再次进行两列表的首元素的比较。

Whilep1!

=nullANDp2!

=null

Ifp1->

docId==p2->

docId//对两（剩余）列表的首元素进行比较

insert（answer,p1）；

p1=p1->

next；

//构造新的剩余列表，迭代执行

p2=p2->

Elseifp1->

docId<

p2->

docId

//p1->

docId不可能有匹配；

构造新的剩余列表

Else

//p2->

End

●面向对象风格的伪代码：

注：

为一个数据结构（对象）定义方法，通过方法操作自己的内部数据（List对象里隐含包含了一个成员变量，它是真正的链表或变长数组）。

Whilelist1.currentItem（）!

=nullANDlist2.currentItem（）!

Iflist1.currentItem（）.getDocId（）==list2.currentItem（）.getDocId（）

answer.insert（list1.currentItem（））;

list1.moveToNext（）;

list2.moveToNext（）;

Elseiflist1.currentItem（）.getDocId（）<

list2.currentItem（）.getDocId（）

list1.moveToNext（）;

Else

list2.moveToNext（）;

End

习题1-10

写出OR查询的伪代码

令docId（p1）表示p1所指向的元素的docId；

查询结果存放在answer列表里。

docId==p2->

//构造新的剩余列表，迭代执行

p1=p1->

insert（answer,p2）；

=null//条件为真时，加入list1的剩余元素（此时list2已遍历到结尾）

END

Whilep2!

=null//条件为真时，加入list2的剩余元素（此时list1已遍历到结尾）

p2=p1->

answer.insert（list1.currentItem（））;

answer.insert（list2.currentItem（））;

=null

Whilelist2.currentItem（）!

answer.insert（list2.currentItem（））;

补充习题2

若一个文集有1000篇文档，有40篇是关于信管专业建设的。

我的信息需求是了解信管专业的专业建设情况，用某搜索引擎在这个文集上搜索，查询词为“信管”，搜出100篇包含“信管”的文档，这其中有20篇是信管专业建设方面的，其它80篇是关于信管的其它情况。

请问该查询的正确率和召回率是多少

正确率=20/100=0.2

召回率=20/40=0.5

第二章词项词典及倒排记录表

习题2-1

a.在布尔检索系统中，进行词干还原从不降低正确率。

错；

相当于扩充出同一个词干表示的多个词，会降低正确率。

b.在布尔检索系统中，进行词干还原从不降低召回率。

对。

c.词干还原会增加词项词典的大小。

错。

d.词干还原应该在构建索引时调用，而不应在查询处理时调用。

应同时做才能保证索引中和查询词的匹配。

习题2-2

请给出如下单词的归一化形式（归一化形式也可以是词本身）。

a.’Cos->

cos

b.Shi’ite->

shiite（'

是隔音号）

c.cont’d->

contd（contd.可表示contained包括；

continued继续）

d.Hawai’i->

hawaii

e.O’Rourke->

orourke

习题2-3

如下词经过Porter词干还原工具处理后会输出同样的结果，你认为哪对（几对）词不应

该输出同样的结果？

为什么？

a.abandon/abandonment

b.absorbency/absorbent

c.marketing/markets

d.university/universe

e.volume/volumes

按Porter词干还原算法，这几组词都可以被还原为相应的词干。

但是这里问的是哪些组做词干还原不合适，原因是某组的两个词虽然来源于同一个词干，但是它们的意思不同，如果做词干还原处理会降低正确率。

c组不做词干还原。

marketing表示营销，market表示市场。

d组不做词干还原。

university表示大学，universe表示宇宙。

习题2-6

对于两个词组成的查询，其中一个词（项）的倒排记录表包含下面16个文档ID：

[4,6,10,12,14,16,18,20,22,32,47,81,120,122,157,180]

而另一个词（项）对应的倒排记录表仅仅包含一个文档ID：

[47]

请分别采用如下两种策略进行倒排记录表合并并计算所需要的比较次数，同时简要地说明计算的正确性。

a.使用标准的倒排记录表。

比较：

（4,47）,（6,47）,（10,47）,（12,47）,（14,47）,（16,47）,（18,47）,（20,47）,（22,47）,（32,47）,（47,47）。

共比较11次。

b.使用倒排记录表+跳表的方式，跳表指针设在P1/2处（P是列表长度）。

P=16。

也就说第一个列表的跳表指针往后跳4个元素。

下图蓝色表示安装了跳表指针的元素，其中120跳到180上。

（4,47）,（14,47）,（22,47）,（120,47）,（32,47）,（47,47）。

共比较6次。

习题2-9

下面给出的是一个位置索引的一部分，格式为：

词项:

文档1:

（位置1,位置2,…）;

文档2:

（位置1,位置2,…）;

angels:

（36,174,252,651）;

（12,22,102,432）;

（17）;

fools:

（1,17,74,222）;

（8,78,108,458）;

（3,13,23,193）;

fear:

（87,704,722,901）;

（13,43,113,433）;

（18,328,528）;

in:

（3,37,76,444,851）;

（10,20,110,470,500）;

（5,15,25,195）;

rush:

（2,66,194,321,702）;

（9,69,149,429,569）;

（4,14,404）;

to:

（47,86,234,999）;

（14,24,774,944）;

（199,319,599,709）;

tread:

（57,94,333）;

（15,35,155）;

（20,320）;

where:

（67,124,393,1001）;

（11,41,101,421,431）;

（16,36,736）;

那么哪些文档和以下的查询匹配？

其中引号内的每个表达式都是一个短语查询。

a.“foolsrushin”；

文档2、4、7。

b.“foolsrushin”AND“angelsfeartotread”。

文档4。

k词邻近AND合并算法

前提：

考虑位置索引。

要求查找这样的文档，它同时包含词A和词B，且两词文中的距离在k个词以内。

给定两个指针p1和p2，分别指向两个词A和B的两倒排列表（链表实现）的首元素；

令pi->

doc表示pi所指向文档对象的结构体。

对于一个文档对象，该词出现的各个位置的列表为posList。

用q1（q2）表示词A（词B）当前指向文档对象指向的posList指向的位置。

用qi->

pos表示该位置。

算法：

Whileq1!

=nullANDq2!

Ifq1->

pos–q2->

pos<

=kORq2->

pos–q1->

pos<

insert（answer,p1）;

break;

//跳出这个循环，找到一个k临近即可

ElseIfq1->

pos–q2->

pos>

k//q2不可能被匹配上，忽略它

q2=q2->

next;

//生成新的剩余列表

ElseIfq2->

pos>

k//q1不可能被匹配上，忽略它

q1=q1->

EndIf

EndWhile

p2=p2->

第六章文档评分、词项权重计算及向量空间模型

习题6-2

上面的例6-1中，如果g1=0.2,g2=0.31及g3=0.49，那么对于一个文档来说所有可能的

不同得分有多少？

得分1:

得分2：

g1=0.2

得分3：

g2=0.31

得分4：

g3=0.49

得分5：

g1+g2=0.51

得分6：

g1+g3=0.69

得分7：

g2+g3=0.8

得分8：

g1+g2+g3=1.0

习题6-10

考虑图6-9中的3篇文档Doc1、Doc2、Doc3中几个词项的tf情况，采用图6-8中的idf

值来计算所有词项car、auto、insurance及best的tf-idf值（这里改为df值的计算就假设用Doc1,Doc2Doc3的这个文集）。

解答：

wt,d=max（1+log10（1+tf）,0）

Doc1

Doc2

Doc3

Car

2.4314

1.6021

2.3802

Auto

1.4771

2.5185

insurance

2.4624

Best

2.1461

2.2304

dft

idft

car

auto

0.1761

best

这里N=3。

tf-idft,d=wt,d*idft

0.2601

0.4435

0.4336

0.3779

0.3928

例6-4

假设文档集中的文档数目N=1000000，词表为{auto,best,car,insurance}，这四个词的df值分别为5000,50000,10000,1000。

设某文档d的rawtf向量为[1,0,1,2]，对查询q=”bestcarinsurance”，问该文档-查询的相似度打分score（q,d）是？

5000

2.3010

50000

1.3010

10000

2.0000

1000

3.0000

这里N=1000000。

文档d的tf-idf向量：

rawtft,d

v（d）=归一化tf-idft,d

1.0000

0.4646

0.4038

3.9031

0.7881

查询q的tf-idf向量（wt,d=1）

rawtft,q

wt,q=max（1+log10（1+tf）,0）

tf-idft,q=wt,q*idft

v（q）=归一化tf-idft,d

0.3394

0.5218

0.7827

score（q,d）=v（q）’*v（d）=0.8275

第八章信息检索的评价

习题8-8

考虑一个有4篇相关文档的信息需求，考察两个系统的前10个检索结果（左边的结果排名靠前），相关性判定的情况如下所示：

系统1RNRNNNNNRR

系统2NRNNRRRNNN

a.计算两个系统的MAP值并比较大小。

b.上述结果直观上看有意义吗？

能否从中得出启发如何才能获得高的MAP得分？

c.计算两个系统的R-precision值，并与a中按照MAP进行排序的结果进行对比。

a.按MAP的定义，这里|Q|=1，m=4。

在查询结果中遇到每个相关文档对前面的所有文档计算一个Precision，MAP将这些Precision值求平均。

MAP（系统1）=（1/4）*（1+2/3+3/9+4/10）=0.6

MAP（系统2）=（1/4）*（1/2+2/5+3/6+4/7）=0.49

系统1的MAP值大。

b.相关的查询结果排名越靠前，则MAP越大。

c.按R-precision的定义，假设总共有|Rel|篇相关文档，在查询结果中取前|Rel|个文档，计算其precision。

R-precision（系统1）=2/4=1/2

R-precision（系统1）=1/4

系统1的R-precision值大。

与MAP给出系统打分排序的结果一致。

习题8-10

下表中是两个判定人员基于某个信息需求对12个文档进行相关性判定的结果（0=不