所谓词汇控制,是指依据信息资源标引和检索的须要,对天然言语中的词汇进行抉择、标准并提醒其相干性的历程。天然言语作为一种人际交换和思想的工具,其词汇具备运用灵巧、表白性强等特征,但绝对检索请求来说,含意不够正确,缺乏明白的构造,词汇量也过大。因而,必需依据检索体系请求,对词汇进行抉择和处理。过度的词汇控制关于树立一个高效的信息组织和检索体系是非常必要的。
分类体系对词汇的控制重要包含:同义控制、词义控制和词间关系控制三个方面【1】,本文重要缭绕这三个方面进行探讨钻研。
1 传统分类法词汇控制
传统分类法的形成原理中,词汇控制是一个重要的方面。
1。1 同义控制
即对字面情势不同、涵义雷同的词进行控制,使一个概念只用一个语词表白,目标是战胜天然言语中的一义多词景象。
分类法对词汇的同义控制重要表如今类名的抉择上。类名即类目标称号,规矩着类目标含意和内容规模。当碰到一义多词状况时,传统分类法的选词准则个别是:采取能正确反应其含意且对照通行的科学名词,而不抉择其俗称、旧称、不能正确表白全称原义的简称、不通行的译名或近义词等【2】。如有必要,也可将这些落选的同义词、近义词用括号加注于类名后,或设置交替类目、用代参照。
1。2 词义控制
即对同形异义词和语义隐约的词进行控制,使得词义明白,一个词语只示意一个概念,战胜天然言语中的一词多义景象。
传统分类法重要通过类目注释来对词义进行控制。类目注释有多品种型,包含内容注释、关系注释、编列方法注释、分类方法注释、沿革注释等。个别在类目内容注释中作词义控制,对类目标涵义加以解释,或对类目标内容规模加以辨别,指导某类蕴含与不蕴含的内容。如中图法第四版类目“TB47工业设计”的注释:“工业设计是工程技巧与美学艺术相联合的新学科”。
1。3 词间关系控制
指提醒词汇之间的各种联络使其成为一个语义相干的体系,目标是用以满意扩检、缩检、转变检索方向等的须要。词汇之间的联络,重要包含同等、等级、相干三种基本类型。
因为传统分类法以分类标志作为概念标识,将体系开展的类目体系作为重要检索门路,因而,词间关系控制成为其词汇控制的中央。分类体系重要采取体系方法开展,通过层层划分,形成其具备附属、并列关系的秩序井然的概念等级体系。将主题之间附属、并列、相干等联络加以体系展现,同时将类目之间的参照作为提醒类目之间横向联络的一种弥补手腕。类目参照个别用于内容联络具备提醒价值、但在分类体系中被疏散了的类目之间,通常采取互逆的方法在相干门类下注明。
2 网络分类体系词汇控制现状
以下从同义控制、词义控制及词间关系控制三个方面来对网络分类体系词汇控制的现状与传统分类法进行对照剖析。
2。1 同义控制
在类目称号上,传统分类法的类名力图科学、正确、标准,而网络分类法在类名抉择上更注重面向各类网络用户,力图艰深易懂、时新,类名也更为精练。因而,招致类名不标准的景象在各网络分类体系尤其是在其三级及以下类目中广泛存在,成为词汇控制中一个突出的问题【3】。如雅虎中国的一个三级类目名“亲子”,搜狐的一个三级类目名“拓展”。
至于落选的同义词,个别不树立用代参照或设置交替类目,但可作为入口词。如在供给类目索引的雅虎中国中,在检索框中输出“脚踏车”,检索后果会将你指引向“自行车”【4】。
2。2 词义控制
网络分类体系中,也广泛存在类名用语隐约招致难以判定其内涵的景象。传统分类法中的词义控制手腕如含意注释和规模注释也很少采取,个别只在一级大类下有抉择地罗列重点或热门下位类来赞助明白其类名含意。如Yahoo!中,在一级大类“Business & Economy”下列出局部一级类“B2B,Finance,Shopping,Jobs”【5】;在Open Directory中,一级大类“Business”下列出局部二级类“Jobs,Real Estate,Investinn”【6】。
2。3 词间关系控制
与传统分类法一样,等级式类目体系也是网络分类法进行词间关系控制的重要手腕。传统分类法基本上是采取线性情势提醒类目之间联络的,这是文献组织的须要和传统检索环境的特征所抉择的。盘算机的运用,特殊是超文本技巧的运用转变了这一状况。超文本技巧的特征是,可以通过节点之间的链接,以非线性的方法充足提醒和表白信息之间的联络。这一特征极大地改良了网络分类法中类目之间各种关系的提醒,尤其是多维关系的提醒。这是超文本技巧的强项,也是传统分类法中的一个软弱环节。目前,网络分类体系中对多维关系的提醒对照充足,个别均通过链接的方法,在相应类下反复反应。但如在处理历程中缺乏一致性及对运用规模的过度控制,也会形成类目关系的杂乱。此外,繁多的反复反应并不能简朴替代相干关系的提醒【7】。
在附属、并列关系的提醒上,网络分类体系目前也存在一些问题,如类目归属存在着不合理景象,同位类排列不能提醒类间关系等。
3 网络分类体系词汇控制改良战略
网络分类目录是因特网上用户罕用的两种信息检索工具之一,对网上海量的混淆无序的信息起偏重要的导航作用。网络分类体系词汇控制的基本目标是进步检索效力,因而,笔者以为网络分类体系的一切词汇控制改良战略都应以进步检索效力为前提。
3。1 继承维持天然言语的主体检索言语位置
目前,在大多数信息存储与检索体系中,天然言语和人工受控言语处于并存状况,互相扬长避短。随着Internet的遍及开展,信息检索最终用户日趋强大,天然言语检索浮现敏捷开展趋势。如前所述,网络分类检索体系中词汇控制具备与传统分类体系不同的特征,天然言语在体系中完整占领了主体位置。从基本上看,这是由天然言语检索的特征和网络用户的检索需求特征所抉择的。
传统分类法的编制重要针对印刷型文献的特征用以编制分类目录和组织分类排架,而网络信息分类体系旨在为网上信息供给指引,树立与宗旨信息的疾速有效的链接。网络信息分类体系面向的是宽广网络用户而不是图书情报专业人员。与本来的专业检索人员相比,网络用户的规模非常广泛,他们的教导水平、常识构造、专业技巧、兴致兴致各不雷同,对同一事物、同一律念的了解也不尽雷同。因而,为了增添网络分类体系对个别用户的易用性,现有的网络分类体系都尽量采取天然言语,而防止学术性、专业性过强的词汇,从而向群众供给易于控制、运用的分类查问体系。
天然言语因为其与生俱来的词义隐约、词间关系不清等特征形成不少的漏检和误检,与人工言语相比,检索效力较低。但从用户角度来说,天然言语具备奇特的优胜性,如天然言语时新性强,一旦网页中涌现某个新概念词语,即可间接运用这一新词作为检索入口,而不用要转换成另一标准词用于检索。而且天然言语检索不便,它解除了受控言语的种种限制,不须要庞杂的检索规矩,运用者可以较快适应、易用性突出。
当然,要想取得满意的检索后果,对天然言语的过度控制是不可缺乏的,这包含树立机内症结词词典、类主题词典和后控制词表等。有理由信任随着相干技巧的日益进步,天然言语的优胜性将越来越明显,网络分类检索体系也将日臻完美,取得人们的广泛欢送。
综上所述,为了匆匆进网络分类体系的广泛运用,天然言语在其中作为主体检索言语的位置须要继承维持上来。
3。2 过度借鉴传统分类法和主题法的词汇控制手腕
传统分类法重要通过其层层开展的周密的类目体系来进行词汇控制。其体系的类目体系使得体系地控制和运用一个学科或专业规模的常识和信息很不便,关于从学科或专业起程的泛指性检索能到达较高的检全率,而且能不便地进行扩检和缩检。传统主题法体系,个别以词汇为单元进行控制,重要通过参照体系和各种辅佐索引来展现词间关系,在主题词的抉择、词义控制方面比分类法更为严厉。主题法的特征是以主题为中央集中信息资源,能正确、专指地标引和提醒各种主题内容,检索的间接性、通用性好,适宜于进行专指性检索,而且可通过灵巧组配方法进行多门路检索,到达较好的运用后果。
现有网络分类法因为运用超文本技巧提醒词间关系,采取多重列类的方法,从不同的属性、角度设置类目,从而供给从多个方面提醒信息资源的方法,增添了检索入口,不便用户从不同角度查找。这是其在检索上相干于传统分类法和主题法检索体系最大的劣势。但从目前检索实际来说,其检索效力远不及后者,究其起因,词汇控制是其中一个很重要的因素。因而,要改良网络分类体系的检索效力,借鉴传统分类法和主题法成熟的词汇控制手腕是一个可行的方法【8】。
首先,在类目体系设计上,网络分类体系广泛存在着类目设置缺乏法则性、类目归属不合理、同位类排列杂乱、横向关系提醒不一致等问题,而这些问题在传统分类法中都相应地有很成熟的技巧或商定俗成的做法可借鉴。
其次,在类名抉择上可借鉴传统主题法词汇抉择的准则和方法或间接选用其主题词。类目称号不标准是目前各种网络分类体系的一大通病。作为面向最终用户的检索体系来说,采取宽广网民所脍炙人口的称呼是无可非议的,但关于类目命名还是要进行恰当的标准化处理。现有的网络分类体系大多属于等级式主题分类法体系,以主题充任类目。因而,借鉴传统主题法词汇抉择的准则和方法或间接选用其主题词不失为改良词汇控制的一个捷径。
另外,在词义控制上,可采取传统分类法和主题法所罕用的手腕,包含加限义词、增设含意注释和规模注释等,以进一步明白类目标内涵和内涵。这有助于用户在查问体系时疾速、正确抉择类目,加强体系的用户友爱性,从而到达改良检索后果的目标。
3。3 树立一致的词汇控制机制
许多海内外著名的综合性门户网站如Yahoo、Excite、Infoseek、搜狐、网易等都研制有本人的网络分类检索工具,供给分类阅读式查问。这些各具特征的网络分类体系给网上信息检索带来了极大的不便。这些分类体系的大类设置与划分、类名的表述与内涵、类目标排列等各不雷同,检索性能也有较大的差别。而用户在查问网络信息时通常会运用多种分类检索工具,这就形成了用户了解和运用的艰难,更不利于网上信息资源的共建和共享。
传统分类法也曾是多种多样的,但目前在海内上占主导位置的只要DDC、UDC和LCC,在我国则是《中图法》和《科图法》。综合性的分类法趋势对立是信息资源共享趋势的后果。互联网上信息资源的最大特征之一就是它的共享性。常识组织体系的绝对对立将为基于网络的资源共享供给不便。因而,编制适应网上信息组织和检索的对立分类体系已成为急切须要处理的问题。树立一致的词汇控制机制是对立分类体系的非常重要的一环,关于推进网络分类法的进一步开展具备重要的意义。
树立一致的网络信息分类体系词汇控制机制,应当由图书情报专业人员参加,以现有的传统分类体系主题法词汇控制机制为基本,排汇已有的网络分类体系的词汇控制经历和后果,遵照面向网络信息资源、面向网络技巧环境、面向网络用户的准则。其词汇控制机制重要包含同义控制、词义控制、词间关系控制方面的原理、准则、方法和技巧等,此外,还包含词量控制、词组抉择和运用的控制、专指度的控制等方面的内容。
最后,在词汇控制机制一致的基本上,构建绝对对立的网络信息分类法。所谓绝对对立,是指在对立网络分类体系基本原理包含词汇控制机制的基本上,保存并改良现有的多样的网络分类体系,许可多种有特征有实力的分类体系共存开展。因为不同的网络分类体系在类目体系和资源抉择上往往都有本人的特征,在满意不同用户需求或检索特定资源时有其独到之处【7】。此外,多样性必定招致网络分类体系之间的竞争,为了争夺用户,开发者不得不针对用户的需务实时地改良,这就使得全部网络分类体系的性能得到天然的晋升,从而推进网络分类法逐渐走向成熟和完美【9】。
【参考文献】
1 马张华。信息组织(第二版)【M】。北京:清华大学出版社,2003。14-15。
2 张琪玉。情报言语学基本(第二版)【M】。武汉:武汉大学出版社,1997。44-47。
3 黄如花。网络信息组织:情势与评估【M】。北京:北京图书馆出版社,2003。89-91。
4 http:÷÷cn。yahoo。com,2004-10-11。
5 http:÷÷www。yaboo。com,2004-10-11。
6 http:÷÷dmoz。org÷,2004-10-11。
7 刘颖。试论网络信息分类的现状与将来——构建对立的网络信息分类法【J】。晋图学刊,2003,(1):21-23。
8 周宁,黄晓梅,等。信息组织【M】。武汉:武汉大学出版社,2001。74-77。
9 杜安平。网络分类体系基本原理钻研【J】。图书馆学钻研,2004,(4):60-62。