马尔可夫链
马尔可夫链/过程最核心的性质:
马尔可夫过程描述的是将来和过去的关系,在第(n+1)时刻的状态只跟第n刻的状态有关。
c.f. 到达过程:当前时间点与过去任何时间点是无关的。
- 能不能举一个真实、准确的马尔可夫事例,是马尔可夫过程。
- 也与过去
时间同质的马尔可夫过程。
我们可以把计算概率/可能性的问题,转化为矩阵计算的问题。
PageRank算法
- PageRank是…. 2. 它具有…性质 3. 它通过…求… (过程) 4. 它最早被用来…,一般被用来做… 5. 它对…产生了…影响。
使用连接关系对网页重要性排名,它具有与查询无关的性质,通过大规模矩阵反复的迭代来计算每一个页面的rank的值(收敛)它最早被用来Google对搜索引擎的排序,但现在Google不再被使用。它对大规模网络结构上的节点的排序产生的影响,网页搜索与社交网络的分析,整个互联网分析都产生了很大的影响
Term-Document Matrices
文档本身是由关键词构成的。
关键词与利用关键词简历索引。
将文档和查询都映射到高维空间向量:向量空间模型
传统IR–Pros and cons
排序与搜索的次数相关的。
与内容匹配就很高的优先级
PageRank的核心思想
Landmark Result Paper:总在别人的文章里被提到的文章。【原创的特殊观点和结论】authority
Survey Paper:将相关文章都整理出来的文章。【综述】
Hub与权威
每一步的计算值只跟上一步有关。$a_{k}=Aa_{k-1}$
所以当查询来的时候,先用关键词保留连接关系,在此基础保留authority和hub的值。
Google’s PageRank
- 将互联网构建成图
- 每个页面都是一票,每一票都要做归一化,防止大数乘法的一处。
- rank值,每一个页面可能被揍到的次数。
- Dangling node:走进去走不出来,跳到任何一个页面的概率都是一样的。
- 可归约的,不可归约的。pageRank值是否有被收敛到一个点。
Link Farms
广告位的价值意味着在搜索引擎上的排序。
SEO client
做一堆假的页面,使这一堆页面相互的指来指去,c.f.Hub的投票。
linkfarm c.f. 水军
Miserable failure ->Bush
假的页面与舆情
collective intelligence集群智慧:每个人都贡献自己的一点点的连接,聚合在一起变成了某一个连接是否重要。
TrustRank
pageRank为互联网的大量数据如何分析产生了很重要的影响。