元数据与编目- -| 回首页 | 2005年索引 | - -国内语义网缺少什么?

分类、主题、元数据与知识本体- -

                                      

元数据方法已成为所有描述信息的方法的总称,而本体(或知识本体)在我看来是关于元数据的元数据,或者说是关于元数据的方法论。

在这里搬出本体的老祖宗——不是最早但是得到最多公认的本体定义:"本体是对概念体系的明确的、形式化、可共享的规范说明"("An Ontology is a formal and explicit specification of a shared conceptualisation of a domain of interest"  Studer 1998)。这当然是一个从技术角度给出的可操作的定义。从图书馆学是"人文科学"的角度,我们可能会更认同Gruber1993年的定义:本体是"概念体系的规范"。对于图林比较喜欢哲学思辨的人(例如游园),推荐使用更早的定义:"本体是对于存在的研究或科学"(the science or study of being,见牛津英语辞典),这个定义对于普通人好像不是信息(不含有负熵,呵呵)。

元数据是"关于数据的数据",元数据方法是给定描述某一事物的一组属性的方法。要描述事物,必须从某个角度,提取某些属性元素。例如对"元数据方法"可以用"对象、规则、结果"三个属性进行描述,当"对象=文献,规则=MARC,结果=目录"时,"元数据方法=编目"。每件事物可以基于不同的目的,从不同角度来描述,因此可以有多套属性元素集合。每套元素集合都是关于这件事物的一种认识和看法的概念体系(规范词表),都可以看成是关于这件事物的一套领域知识,即本体。

单纯的元数据只是属性集合的堆积,也就是一组规范词表(或用于信息描述的保留字),并没什么大用。DC能干什么?不就是十五个元素吗?所有的电子文献都用了DC,也不过是一个数据库表单。要揭示出元数据属性之间的联系、以及不同元数据方案之间的联系,就需要依靠本体了。

分类法与主题法都是本体方法,或者说都可以看成是本体方法,因为他们都是从学科角度,对描述对象进行归纳或解构的方法。一组文献经过分类法或主题法的标引之后,在学科空间上可以呈现出一个庞大复杂的"语义地图",采用不同的分类、主题方法可以呈现不同的语义地图。就如同如果你要旅游,你可以用旅游地图,如果你要看天气,你可以用气象云图一样。这些语义地图就是一个个完美的、关于一组文献集合的多角度透视本体。

广义的现代信息资源组织一般关心四个方面的问题——实际上其中大部分已经交给计算机去关心了:

1、对资源内容的处理:信息的结构化,也就是"先控";

2、对提问的处理:提问式规范(如布尔逻辑、SQL等)、交互修正、提问分发、规范后控等;

3、对检索结果的处理:剔重、排序、可视化等(常常根据第4点来做);

4、对用户使用习惯/知识背景(user profile)的处理:相关反馈、用户配置修正、用户本体等等。

情报检索认为,检索过程包括存储和查询两个互逆的过程,从上述4个方面内容可以看到,现代情报检索已经呈现一种这两个过程很难分清楚的现象,广域网信息的存储过程常常不是物理过程,常常可以由机器代理(agent)通过与信息资源相关的知识本体和与查询过程相关的用户本体进行交互(需要结合用户需求),因此在这里本体就成为一个关键的方法论。

有语境才是信息,有关联才是知识。本体方法旨在建立信息资源之间的普遍联系,并且使这种联系"机读化",大大拓展人类处理知识的能力。体系分类法中的体系,主题词法中的概念关系(主要是用代属分参)都反映了知识单元之间学科属性的普遍联系,都是本体需要实现的重要内容,也是图书馆学长期知识沉淀的成果。当然知识本体中还有更广泛、更复杂的关系,例如信息体的生命周期关系(FRBR就可以看成这样一种关系)、时空关系(GPS等地理信息系统、可以用来描述家谱文献),甚至历史上很荒谬的各种认识体系,都可以以本体的形式呈现,并用于组织其对应的领域知识。

本体以规范的方法建立起来,资源之间的复杂联系就成为一种能够"计算"的数字模型,将全面实现信息资源组织的一种"基于知识的信息组织机制",信息系统将以前所未有的形态呈现。对应于大千世界,本体是无穷多的,因而这种机制还应该包括翻译、映射、参照、注册等等功能,以进行本体之间的信息交换,才能使计算机彼此无障碍地 "听懂"彼此的语言。

下一步建立内容之间的规范联系,以XML/RDF/OWL语言编码(也就是建立大量的领域知识本体),能够使机器运算、操纵这些关系(也就是提供大量的本体工具和系统实现方法),正在成为本体研究与开发的热点。


- 作者: kevenlw 2005年04月3日, 星期日 09:37 加入博采

Trackback

你可以使用这个链接引用该篇文章 http://publishblog.blogchina.com/blog/tb.b?diaryID=1091019

回复

- 评论人:keven

Mon Apr 18 23:17:42 CST 2005 

1、叙词是基于概念的,不仅仅是词汇库;这一点教科书里说的很清楚:-)。叙词表可以看成是“轻型本体”,它只有概念和概念间的关系,缺乏形式本体所要求的函数、公理和实例。
2、本体的反向关系如果是指其形式化表达,例子很多,如BT和NT就是一对,USE和UF也是一对。OWL的丰富语义是完全可以做到的,而RDF/S不行。
3、您举的例子只是本体编码的层次关系,TopicMaps有其自己XML表达,我认为可以看成是一种本体形式,但好像还不能表达逻辑关系。
4、Protege应该支持UTF-8,在邮件列表中有过讨论,支持中文应该没问题的,支不支持GB或GBK我不知道。
上面的回答如果有误请知道的朋友留言指正,谢谢了!

- 评论人:宛然

Mon Apr 18 22:13:16 CST 2005  作者邮箱 

怎样理解叙词表与本体中的一些概念问题?
我看到文献中提到:
1,叙词表是“词汇库”;本体是概念集、语料库,能否举例说明吗?
2, 本体的反向关系是怎样表现的,能否举例说明吗?
3, 本体是分层次的,unicode,xml+ns+xmlschema ,RDF+rdfschema,ontology vocabulary,logic,proof,Trust
能否理解主题图TAO就是logic吗?
4,经过我测试后,好象protege 2000能显示中文自动生成 RDF和OWL文档,但是中文GB码都是乱码,后台程序不支持中文。

- 评论人:k

Sun Apr 03 18:05:54 CST 2005 

非常高兴春水弯弯的留言,您的理解很有道理。“元元数据”本应也是一种元数据,规定元数据的属性和方法。我这里说本体是元元数据,意思是本体能够为不同的元数据方案建立联系,例如葡萄酒本体会涉及葡萄酒(品名、类型、产地、价格、成分、适应性等)、产地(地名、经纬度、气候、土壤情况)、酒厂(名称、历史、特点等)、西餐菜肴(牛、禽、猪、羊肉、海鲜等)、餐桌用品(杯、器皿等)、饮食文化(上菜顺序、配伍等)等不同的元数据方案,本体把这些方案都串起来了,建立起了联系,形成一整套有关葡萄酒文化的领域知识,并可用于指导宴会安排。
应该说元数据可以看成是一种本体。本体与元数据方案的关系是比较复杂,我的说法是不太严格。而且你所说的本体可以看成是元数据方法的一部分,我在归纳元数据方法时,的确把利用本体构建元数据方案之间的联系也考虑进去了,而考虑本体是常常不会考虑元数据方案,常常可以认为那是缺省的。你的看法的确很有道理,非常感谢!

- 评论人:春水弯弯

Sun Apr 03 17:16:34 CST 2005 

好像我的理解也是说不通,唉,太难了,还是不抠概念了,立足于一个实际应用也许会好理解一些。

- 评论人:春水弯弯

Sun Apr 03 17:06:13 CST 2005 

“元数据方法已成为所有描述信息的方法的总称,而本体(或知识本体)在我看来是关于元数据的元数据,或者说是关于元数据的方法论”,偶对此观点不敢苟同,对此观点下引出的论述十分赞同。

我觉得知识本体更多的落脚点在“知识”上,对知识本体的研究,现在好像(请允许我用这么不科学的词,反正已经允许我在这班门弄斧了嘛)有点侧重于如何构建出本体,但真正发挥作用的还是在于“知识本体”。打个比方说,如何设置分类是一门学问,但真正发挥作用的是成形的分类法。

受Keven老师的启发,我倒觉得构建本体的方法论可以是关于元数据的方法论,但不认为本体就是关于元数据的元数据,本体恰恰应该是数据本身。

评论内容: