英文处理
注意考试时的答题格式。
考试内容都在PPT里。
如:找Mary 找John,取交集运算。
搜索的潜在标准(查询扩展,保证有Recall),一定会保证有Recall。
即:一般输入windows,搜索window,windows.
- 同义词词典和soundex方法
- 词形归并(Stemming):意味着词缀的截除,如compressed被还原成compression.
在检索时,上下文环境很重要 - 词干还原
词干抽取的Porter算法
根据英文表现形式所抽象出来的一些规则。
相关算法可以直接上网找相关源代码:哈工大/东北大/苏大自然语言组开源的相关代码,不用自己写。如何加速倒排表合并速度(节约时间)
索引构建为倒排记录表,跳表指针。
即跳的时候通过比较大小判断我可不可以直接跳。
跳表指针该放在哪,即怎么知道从哪到哪
balance:
- 多:比较就多了(那还跳啥)
- 少:正确答案skip的多
跳表指针的位置的放置有一些启发式的简单策略。
现在很多计算bottleneck,在内存和硬盘的IO上。
短语查询
倒排索引支持力度不够支持倒排索引。
短语查询和词集查询有什么区别?
{中国,科学院}和短语:”中国科学院”:短语查询损失了上下文顺序。即set是无序的。
双词索引(Biword)
FP在什么时候出现:两个两个我都有,除了这些中间还包含其他的。
扩展的双词
本节课考试:中英文在分词方式上有何不同。
词项和词条,词项是我索引的对象。
杂
词条出现多次算多个词条。
词条:分开,把标点符号去掉
词项,就进行语言的一些处理。
屈折(词义不会变:fitter(比较级), fit )v.s.派生(care, careless,careful,词义会变)
倒排索引,检索的重中之重
词典的概念:存储词项词汇表的数据结构
词项词汇表指具体的数据,数据符合上数据结构。
用定长排序好的数组组织。
词项定位的数据结构:
哈希(O(1));新增时必须重新哈希,访问频率均匀
树(O(logM),平衡树,树最差是O(N));根据访问频率把对象往上推(lsm Tree),二叉平衡树(AVL)的代价很大;Btree可部分减轻AVL的问题。
数据结构的东西不会考的。
编辑距离:
要学会轮派索引和k-gram解决有关通配符查询的问题(重要)