男科 妇科 骨科 耳鼻喉 肛肠 泌尿 不孕不育 皮肤病 口腔 肿瘤 糖尿病 眼病 性病 肝病 心血管 更多
中医网
您的位置:首页 > 中医学习 > 中医书籍 > 文献研究 > 正文

计算机检索方法学与中医药文献数据库研究综述


注意阅读时间,健康用眼! 2012-06-13   中医诊疗网  www.zlnow.com

    对全文本文献信息检索技术的研究,开始于基于概念(concept-based)的算法,发展到现在的基于内容(content-based)的算法,这一演化反映了对内容知识的检索逐渐取代了对概念知识的检索。每篇文献都是由众多概念构成的,这些概念之间的关系实质上就是文献内容的真实反映,概念之间的相互关系可以称之为“概念结构”。标引和检索文献时,必须如实反映其概念结构,现代检索技术中称之为“事实检索”(message understanding)的检索方法就是追求概念结构的典型形式。目前,普遍应用的是一种基于框架(frame-based)的方法,在这种方法中概念结构被框架化了。[5]

    布尔逻辑理论指导下的检索提问式都遵循De Morgan法则——把“或”和“与”联系起来,“与”的互补是互补部分的“或”。这种理论认为一个对象要么属于一个集合,要么不属于一个集合,即只用0和1来表达这种从属关系。而模糊子集合理论则认为存在着一种一般化的从属关系函数,即可以0~1之间的任一值来表达这种关系。元素集合{xεx}的一个模糊子集合可由一个从属关系函数定义为:0≤fs(x)≤1。

    也就是说,当fs(x)=1时,x要素肯定在系统中;当fs(x)=0时,x肯定不在系统中。

    把提问式中的每个概念转化成概念空间中相应的一个要素向量,用W和T计算相似的测度,根据模糊逻辑法则算出总分数,就可以完善地诠释一个结构化的提问式。[6]

    基于积(product-based)的表达法,利用De Morgan法则中的AND函数计算OR函数。实际上,严格的参数对未出现的术语做了过于严厉的限制,通过对fx进行适当的修改,例如使其范围介于0.3~1之间,可防止这一情况的出现。

    由此可见,构造一个复杂的线性结构,然后用代表一个提问式剩余结构的选择扩展项对此加以修饰,从而把文献用向量表示出来,把提问式用概念结构表示出来,就可以充分支持一个检索项目。需要明确的是:无论是从自然语言概念、概率或统计检索或从基于框架的推理等各种不同的理论出发,都可以得到上述用线性代数和非线性广义方法所表达的匹配方案。实际上,大多数方法是直接应用自然语言,而不是概念。

    无论检索词是以字、n-grams的形式,还是以短语形式出现,在处理提问式和可检索的文献时,所采用的方法都与上述对概念描述所采用的处理方法相同。这里不用c(概念)来标引加权和相互关系,而用T(文献或提问式中实际出现的的术语)进行标引,因为它们是文本中实际出现的术语,因此,我们将其称之为文本的“内容”,这与由人所感知的概念是有很大差别的。

    预先处理(preprocessing)是从内容中提取出概念的一个步骤,预先处理文献的老式方法是用大写字体形式代替所有的字,用这些字的词干部分代替大量的字。这种做法有助于突出词所代表的概念,而无需考虑这些概念的各种变化形式,如名词的单复数、动词的时态变化等。当把短语和字的组合形式增加到倒排文档中时,以这种方式编制索引会耗费大量空间。

    上述的线性公式是一种很著名的向量方法,它在SMARTS及其后来的进化系统中得到了证实。用向量代表文献,这些向量的基本要素与术语出现在文献中的频率有关,提问式也是在这一基础上加以表达的。实际上,在SMARTS未出现之前,Luhn在1959年就提出了一些非常重要的原则,其要点是:(1)文献和术语的相关程度应随着术语在文献中出现的频率的增加而增加(术语频率或TF原则);(2)一个术语在区分文献中的重要程度随着包含它的文献数量的增加而降低(逆文献频率或IDF原则)。[7]

    如果布尔逻辑系统只是对集合进行检索,而不把所检索到的文献按相关重要程度进行排序的话,在对术语集合进行某种运算时,所使用的就不再局限于布尔运算。首先,系统规定用户按某种特定的方式,如题名、关键词等查找预定义的概念实体(conceptual entities),标记语言(markup languages)的迅速发展极大便利了为检索目的而进行的文本处理的自动化;[8]其次,系统认可对从自由文本中抽取的概念进行重组的近似算符。不过在实际检索中,还没有任何系统采用上述近似方法计算术语之间的相互关系而将其作为标引文本的依据,而是根据检索用户的要求来界定术语之间的关系。

微信搜索“zhongyikong”并关注,每天体验中医之道。
友情提示,一切诊断与治疗请遵从医生指导。京ICP备14033551号-10