男科 | 妇科 | 骨科 | 耳鼻喉 | 肛肠 | 泌尿 | 不孕不育 | 皮肤病 | 口腔 | 肿瘤 | 糖尿病 | 眼病 | 性病 | 肝病 | 心血管 | 更多 |
布尔逻辑理论指导下的检索提问式都遵循De Morgan法则——把“或”和“与”联系起来,“与”的互补是互补部分的“或”。这种理论认为一个对象要么属于一个集合,要么不属于一个集合,即只用0和1来表达这种从属关系。而模糊子集合理论则认为存在着一种一般化的从属关系函数,即可以0~1之间的任一值来表达这种关系。元素集合{xεx}的一个模糊子集合可由一个从属关系函数定义为:0≤fs(x)≤1。
也就是说,当fs(x)=1时,x要素肯定在系统中;当fs(x)=0时,x肯定不在系统中。
把提问式中的每个概念转化成概念空间中相应的一个要素向量,用W和T计算相似的测度,根据模糊逻辑法则算出总分数,就可以完善地诠释一个结构化的提问式。[6]
基于积(product-based)的表达法,利用De Morgan法则中的AND函数计算OR函数。实际上,严格的参数对未出现的术语做了过于严厉的限制,通过对fx进行适当的修改,例如使其范围介于0.3~1之间,可防止这一情况的出现。
由此可见,构造一个复杂的线性结构,然后用代表一个提问式剩余结构的选择扩展项对此加以修饰,从而把文献用向量表示出来,把提问式用概念结构表示出来,就可以充分支持一个检索项目。需要明确的是:无论是从自然语言概念、概率或统计检索或从基于框架的推理等各种不同的理论出发,都可以得到上述用线性代数和非线性广义方法所表达的匹配方案。实际上,大多数方法是直接应用自然语言,而不是概念。
无论检索词是以字、n-grams的形式,还是以短语形式出现,在处理提问式和可检索的文献时,所采用的方法都与上述对概念描述所采用的处理方法相同。这里不用c(概念)来标引加权和相互关系,而用T(文献或提问式中实际出现的的术语)进行标引,因为它们是文本中实际出现的术语,因此,我们将其称之为文本的“内容”,这与由人所感知的概念是有很大差别的。
预先处理(preprocessing)是从内容中提取出概念的一个步骤,预先处理文献的老式方法是用大写字体形式代替所有的字,用这些字的词干部分代替大量的字。这种做法有助于突出词所代表的概念,而无需考虑这些概念的各种变化形式,如名词的单复数、动词的时态变化等。当把短语和字的组合形式增加到倒排文档中时,以这种方式编制索引会耗费大量空间。
上述的线性公式是一种很著名的向量方法,它在SMARTS及其后来的进化系统中得到了证实。用向量代表文献,这些向量的基本要素与术语出现在文献中的频率有关,提问式也是在这一基础上加以表达的。实际上,在SMARTS未出现之前,Luhn在1959年就提出了一些非常重要的原则,其要点是:(1)文献和术语的相关程度应随着术语在文献中出现的频率的增加而增加(术语频率或TF原则);(2)一个术语在区分文献中的重要程度随着包含它的文献数量的增加而降低(逆文献频率或IDF原则)。[7]
如果布尔逻辑系统只是对集合进行检索,而不把所检索到的文献按相关重要程度进行排序的话,在对术语集合进行某种运算时,所使用的就不再局限于布尔运算。首先,系统规定用户按某种特定的方式,如题名、关键词等查找预定义的概念实体(conceptual entities),标记语言(markup languages)的迅速发展极大便利了为检索目的而进行的文本处理的自动化;[8]其次,系统认可对从自由文本中抽取的概念进行重组的近似算符。不过在实际检索中,还没有任何系统采用上述近似方法计算术语之间的相互关系而将其作为标引文本的依据,而是根据检索用户的要求来界定术语之间的关系。
术语之间还存在更复杂的关系,即域无关(corpus-independent)的情况。这是确立术语之间相互关系的另一种方法,它要求对书写文献的基本词汇进行研究,包括从构造词表到对自然语言进行处理的一系列过程。目前对这一方法的研究是以WordNet的语义网络结构为基础的,但还未取得预期的结果。不过已进行的研究表明:在一个显示术语与术语之间相互关系的通用网络中无法找到所要求的特殊关系。因此,研究的方向就是发展与各领域的基本概念相对应的术语与术语之间的关系的特定领域网络,这与人工智能中得到的一个结论相类似――要解决一个特定问题,就要发展特定领域知识。[9]把这一结论应用于中医药学古籍文献的检索中,非常具有指导意义,它提示我们必须深入到中医古籍特有的语词规律中去,发展特定的标引体系。如果照搬其他医学文献的标引方法,将是行不通的。