网站首页
JSP空间
动态资讯
开源项目
技术文档
资源下载
J2EE资源
客户论坛
在线支付
 
  技术文档>>JAVA>>新手入门>>基础入门>查看文档  
  Lucene基础排序算法     
  文章作者:未知  文章来源:未知  
  查看:77次  录入:管理员--2008-03-21  
  score_d = sum_t(tf_q * idf_t / norm_q * tf_d * idf_t / norm_dt_t)

score_d: Document(d) 的得分
sum_t: Term(t) 的总和
tf_q: 查询中 t 的频度的平方根
tf_q: d 中 t 的频度的平方根
idf_t: log(numDocs/docFreq_t + 1) + 1.0
numDocs: 索引中Document的数量
docFreq_t: 包含t的Document的数量
norm_q: sqrt(sum_t((tf_q*idf_t)^2))
norm_d_t: 在与 t 相同域的 d 中 tokens 数量的平方根

基础排序算法的不足

要点:
  查询词在一个 Document 中的位置并不重要。
  如果一个 Document 中含有该查询词的次数越多,该得分越高。
  一个命中document中,如果除了该查询词之外,其他的词越多,该得分越少。

不足:
  查询精确度不好。
  没有体现网页的重要性。
  Lucene的得分算法, 不适合网页搜索。

改进的算法:
  Score_d = k1 * OldScore + k2 * PrScore + k3 * ReScore + k4 * homePageScore

  Score_d: 记录d的得分。
  OldScore: 由基础排序算法计算出的记录d的得分。
  PrScore: 记录d的PageRank的得分。
  ReScore: 记录d的二次检索的加分, ReScore = rescore + (hitNum - 1) * increment
  homePageScore: 主页的加分
  K1, K2, K3, K4为权重系数

  PR(A) = (1 - d) + d(PR(1) / C(1) + … + PR(n)/C(n))

  PageRank, 二次检索, 以及主页加分的调整确实优化了查询精确度。
 
 
上一篇: lucene按字段排序的算法    下一篇: 谈谈中文分词
  相关文档
为什么extends是有害的(一) 11-17
opentextfile 方法 11-16
java初学者入门需掌握的30个基本概念一 11-17
eclipse3.2+tomcat5.5.17+oracle9配置 11-17
weblogic 7.0平台:灵活适应环境 11-17
scna认证全面介绍 11-17
java的学习方向 11-17
python anygui 项目预览 11-17
当前流行的j2ee web应用架构分析 11-17
通过java如何实现aes密码算法 11-17
jbuilderx 常见问题faq 11-17
让你学习控制住 web 2.0的方向盘一 11-17
java开发工具包 11-17
使用设计模式改善程序结构 11-17
java transaction api概述 11-17
freemarker特性 11-17
使用antlr和jfreechart实现项目源代码行数计算图表 11-17
jml起步--使用jml改进你的java程序(3) 11-17
数据库相关:全新的数据持久层解决方案 12-26
java开发中有关java socket编程的一些介绍 05-19
返回首页 | 关于我们 | J网章程 | JSP空间合租 | 客服中心 | 免责声明 | 常见问题 | 参观机房
本站主机空间代理至厦门市华众网络科技有限公司
《中华人民共和国增值电信业务经营许可证》
编号:闽B2-20050079
@2005-2008福建JSP技术网 版权所有 闽ICP备05000928号
厦门(总部):13616026886 福州:0591-87655121
邮箱:admin@fjjsp.com 站长QQ,点击这里给我发消息