MIR*第15章:数字图书馆- -| 回首页 | 2005年索引 | - -知识库系统简介

叙词与本体,及其在Elsevier的应用- -

                                      

在我看来,叙词表是一类特殊的本体——反映领域知识,具有本体的概念层级结构和用代属分参概念联系,但是没有公理、没有实例,或者说公理和实例不是内在的,体现在应用叙词表的系统中。
情报检索的规范控制近年来有明显的回归趋势,主要归功于语义万维网的提出和研究,语义万维网需要机器来操作语义,就必须首先进行规范控制,最好整个知识系统成为一个封闭世界,语义计算就能够"安全"地进行。当然这是不可能的。
我 们大约从2001年开始对知识本体的作用进行研究,感到本体是一个非常重要的、代表未来应用方向的研究和开发领域,也是图书馆学能够贡献我们宝贵的专业知 识、使我们这个学科"显性化"的领域,当然离开了我们也不是不能搞,可能创建的本体就不会那么中庸、平衡、人性化,甚至"不象"对普遍知识进行抽象的"学 科本体",而带有许多技术描述的、或十分随意的特征,像yahoo的分类体系一样让我们看不上眼,没有DC元数据那么让图书馆员似曾相似、赏心悦目。我们 感到应该尽快像当年搞748工程(建立汉语主题词表)一样进行学科本体的创建和应用,但是好像至今仍没有什么启动项目。

知识本体的主要作用如下:

对于数字图书馆应该能起到如下作用:


现 有的技术当中最接近本体的就是叙词表了。前些年基于自由词的全文检索势不可挡,而今面临信息超载,注意力稀缺,查到和查准成了非常困难的事情,人们对信息组 织和查询的要求更高了,不得不回过头来,重新审视传统情报检索领域的一些几乎被人遗忘的好的想法。而这些想法一经计算机专家之手,就被玩得完全不同了。
研 究叙词表与知识本体的文章已经有不少了,今天看了一篇Elsevier出版公司对于其众多数据库进行"技术改造"的想法,应用语义技术,涉及叙词表的改 造,虽然没有什么非常特出的地方,但因为是具体企业的应用,还是很有启发的。我国的很多计算机公司,包括软件公司,对新技术的研发投入和应用能力实在不敢 恭维。例如帮我们开发系统的公司,一边赚我们的钱,一边跟我们学,东西开发出来还不能让人满意,真让人愤愤啊!

elsevier的语义系统应用;

传统上Elsevier采用属性字段检索和叙词表主要用于:

然而Elsevier目前没有在检索中采用叙词表,据称是因为相对于现在流行的全文检索而言好处不明显(可能还极大地增加了系统的复杂性和维护成本)。

Elsevier在语义主导Web的时候重新考虑采用叙词表,据称主要原因是:

叙词表的新用法:

建立基于RDF的中间本体用于不同叙词表之间进行映射;

支持多种关系描述Support multiple relationships

支持用户自行扩展Extensible by customers

改进性能和可扩展性

试验新的查询选项

在改进查准率的同时改进查全率

用于查询结果的可视化展示,优化用户交户界面

Elsevier对于文本挖掘的看法:

认识:文本挖掘已经成为信息过剩(overload)时代信息提供的一个必备工具;

重视需求调查,不断开发新的应用;

同时提供"实质性"的挖掘工具和"预备研究"(meta-research)工具;

时间维上的发展趋势,作者/机构分布等等;

RDF形式作为存储事实的基本形式,提供事实抽取的数据基础。

- 作者: kevenlw 2005年03月6日, 星期日 00:28 加入博采

Trackback

你可以使用这个链接引用该篇文章 http://publishblog.blogchina.com/blog/tb.b?diaryID=878981

回复

- 评论人:keven

Mon Mar 07 13:54:31 CST 2005 

谢啦,我说怎么看着别扭,错别字。

- 评论人:pw

Mon Mar 07 13:17:19 CST 2005  作者邮箱 

“序词”还是随多年研究的大流,用“叙词”可能会少一些麻烦

评论内容: