首页 | 博客群 | 公社 | 专栏 | 论坛 | 图片 | 资讯 | 注册 | 帮助 | 博客联播 | 随机访问
再谈不以实体图书馆为基础的数字图书馆- -| 回首页 | 2005年索引 | - -与石馆长谈数字图书馆建设

对“资源整合”的一点浅见

                                      

没拿到图书馆杂志第五期,主要是因为懒。惭愧地说,藏身图书馆大楼的一角,却很少去阅览室,主要的信息源还是因特网。所以直到现在我也没看那几篇文章,但是感想已写好,就发了吧。

资源整合,实际上绝不是一个“资源整合”整合得了的,而是涉及到整个图书馆“资源门户”的建设,涉及数字图书馆体系结构,以及目标、定位(服务对象)、获得性、保障率、检索模型、用户行为模式、可用性、人机界面等等多方面的问题。

“门户”一词现在约定成俗,指能够提供资源内容客户化和界面定制的网站,也即国内所称的 “资源整合”“一站式检索”网站。从技术上看就是采用了中间件(Mediator/Wrapper)技术,能够支持应用程序之间进行会话的资源服务体系。这句话说起来容易,但是在标准没有统一的今天做起来非常复杂,由应用系统软件架构、中间件运行环境、编程语言的不同而不同,随客户化、个性化要求程度的不同而不同。目前可以说处于各类资源整合方案的“战国时代”。

为适应用户信息行为模式和需求的改变,必须重新构思图书馆信息系统的体系结构。“门户技术”提供了这样一种解决方案。然而电子商务、电子政务以及网络教育领域都普遍采用了门户技术,数字图书馆的似乎没有足够的“特殊性”形成自己独特的核心竞争力,(恐怕这是“技术救图论”中的最大困境)。但是不管怎么说,图书馆界首先要利用这些技术才能解决面临的问题,才能发挥应有的职能,才有可能形成“核心竞争力”。如果总是排斥、恐惧、或者无所谓,用都不用,则更是无从谈起。

基于Web的资源整合在国外通常被分成两类(见Lorcan Dempsey相关文章):浅层整合和深层整合(Lorcan称前者为p-portal后者为m-portal),前者指界面层的整合,例如北卡州立大学的MyLibrary利用rss聚合也属此类,主要解决信息源的选择问题,但读者仍然要利用不同的应用程序通过不同的界面分别进行查询;后者主要指应用层的整合,通常需要编写代码——如基于页面分析技术的整合,或采用标准方式——如OAIZ39.50等(采用SFXOpenURL方式的整合似乎介于两者之间)。也大致可归入元搜索范畴,即一次搜索多个资源站点,检索提问式的重写、发送、结果返回等过程有程序自动完成。被Google惯坏的读者往往很需要这种服务,然而这种服务要做得好必须依赖资源站点的开放性、中间件的强大功能以及系统网络资源的效率,最终依赖于一系列的标准规范和应用环境的建立。目前最大的困难是方案的“性价比”不高(维护成本高而效果有限),以及由于缺乏标准而带来的“可持续性”问题。

现在许多公司的元搜索解决方案吹得神乎其神,什么都可以实现(原谅我老是对现实不满,我想Y君提到的我国几十种数图解决方案所采用的技术大都类似),然而仔细追问却又不是那么回事。由于应用环境还没有“书同文、车同轨”,现在大家采取的方法也只能是那么一些,都大同小异,不管是清华同方的TPI还是长江金鑫的方案等等,都是基于页面分析技术,采用Mediator/Wrapper进行整合。这种方法需要在图书馆的服务器里安装并维护一大堆代码,一旦某一个资源站点做了一点点改动,就要修改这些代码(有些系统设计了简单的管理界面,来生成和维护这些代码),这种技术架构几乎使推广成为不可能的任务。本来应该在资源发行一端就解决的问题,就像当初科学数据库时代的DIALOG系统一样,现在却成了各个图书馆的负担,每个图书馆都要进行同样的“资源整合”,这显然是不合理的。当然本地整合是达成个性化的一个必要条件,所以基于标准的元搜索(如Z39.50OAI)是必由之路,这种情况下需要各资源站点提供支持通用协议(如HTTP/SOAP)的机器可访问接口(如Z-serverOAIDPSRW/SRU等),各个图书馆门户的代码工作量可以大大减少。

目前这方面信息技术的最新进展是采用面向服务的系统架构SOAservice oriented architecture)进行应用系统之间的整合。这是一种彻底解决资源整合问题的体系结构,说来也很简单,就是可不改变原有系统,在现有的应用中增加一层独立的“整合层”,是可编程的机器界面,专门负责提取不同应用系统中的信息,向客户端提供界面访问接口,任意组成新的应用。现在的赛百结构(英国叫e-Science)也大致是这样一种解决方案,提供服务整合的“服务层”。这样做可以即保护原有资源站点软件系统继续可用(即保护了以前的投资),又能够提供新的应用程序接口,保证了对于新的计算环境和体系架构的适应性。数字图书馆的“信息基础结构”要符合所有读者的需要,仅仅将各类应用系统基于Web进行浅层整合是无济于事的,必须设计一系列的核心功能组件,利用好这样的一个独立的“整合层”。

NISOMetasearch(即下一代Z:SRW/SRU)标准研发可以作为SOA/赛百结构研发和应用的一个例子,该标准分为三个部分(也是三个小组):访问管理(access management)、资源集合描述(collection description)和查询与检索(search and retrieval),是我近一时期以来最关心的研发领域,其中资源集合/服务描述主要由芬兰国家图书馆的Juha以及UKOLN的DC Collection组的一帮人(牵头是Pete Johnston等人在搞。目前这个标准还没有开发完成,以后有机会再作介绍。

【作者: kevenlw】【访问统计:】【2005年06月15日 星期三 00:03】【注册】【打印

Trackback

你可以使用这个链接引用该篇文章 http://publishblog.blogchina.com/blog/tb.b?diaryID=1923391

回复

- 评论人:m   2007-01-30 10:46:40   

K先生简直是神仙,数图知识高深莫测,没有他不研究的问题,太让后生敬佩了。 看到 K先生的文章,真是大开眼界,敬佩敬佩。

- 评论人:m   2007-01-30 10:46:30   

K先生简直是神仙,数图知识高深莫测,没有他不研究的问题,太让后生敬佩了。 看到 K先生的文章,真是大开眼界,敬佩敬佩。

- 评论人:ecnu   2005-06-22 11:20:29   

整合整合 先整后合
为合而整 为用而合 。。。

- 评论人:Y   2005-06-15 22:14:40   

K老师过奖了! 在国内图书馆界,像K老师这样深入分析问题并能公之于众的技术专家真是少有,使我这样的图情小生收获颇多。

- 评论人:kevenlw   2005-06-15 21:44:20   kevenlw的博客  

Y老师是真人不露相啊,厉害,补充得很好,拳拳到肉!

- 评论人:Y   2005-06-15 20:45:57   

关于图书馆信息资源整合,主要分为以下几类:基于数据,基于元数据,基于中间件,基于数据库等层次的整合;也有人提出可分为基于数据、基于信息、基于知识等的整合;
要实现资源整合,个人认为标准化是最重要的,要有OAI、Z39。50、OPENURL,及Web Services(应用XML、SOAP、WSDL和UDDI等标准,XML和SOAP分别被用来标记和传递数据,UDDI用于列出可获得的服务项目,WSDL用来描述可获得的服务)等,更进一步像语义WEB和网格技术其实也是应用一系列的标准来达到信息资源的集成、整合、共享。
至于资源整合中的元搜索,在普通的搜索引擎中其功能都没有得到很好的体现,而在图书馆要对不同格式、不同地点、不同协议的资源进行整合,要达到理想的效果,更是难度。
正如K老师所说,现在国内外的产品原理都是大同小异的,顶多在一些小的方面进行了优化。例如MetaLib,其集成检索系统由四部分组成:①通用网关,实现跨协议的查询以及对查询结果的内容抽取和展示;②资源库,是集成检索的核心目录,也可以视为核心网关,可由管理员进行配置;③个性化定制与用户管理,支持通过机构内的用户库认证用户身份,也支持通过第三方认证系统的认证;④其它扩展功能模块。基本原理是用户向系统发出检索请求,系统根据配置信息,把检索请求转换成对应于不同数据库搜索引擎的实际检索请求,并向多个搜索引擎发出实际检索请求(包括通过HTTP、Z39.50、XML网关和专有APIs),搜索引擎执行检索请求后将检索结果传送回来,系统再把检索结果进行整合,最后把检索结果传送给用户,现在元搜索存在主要问题是检索的速度、检索结果的过滤和排序、数据库提供商的支持程度等。
但是,一方面数字资源的越来越多;另一方面用户越来越喜欢简洁、易用的方式获取信息,这就使得元搜索仍是图书馆发展的一个重要领域。其解决的方法:一方面是对元搜索技术的完善,包括搜索技术、排序技术等;另重要一方面则是制订元搜索统一标准,如NISO发起集成检索初始计划(Metasearch Initiative),目的是为集成检索制订统一标准框架:①使检索服务提供者提供更有效率的服务;②使信息资源提供者提供合适的内容且保护其知识产权;③使图书馆提供的集成检索服务相对Google等免费网络服务来说,有其独特性。

- 评论人:砖拍您   2005-06-15 20:24:22   

“我们的办馆导向有偏差,而且这不是馆长能够纠正的,馆长的行为被行业和社会趋势左右。”孙馆长好厉害,三言两语、轻描淡写,馆长的责任就烟消云散了,呵呵。

- 评论人:Y   2005-06-15 19:32:56   

K教师和a先生的“爱之深、恨之切”之心令我很是敬佩,其实越是在热门的领域,越是问题和争议最多,(不记是哪位科学家说过:一门学科兴衰的内在规律,主要取决于它是否存在新的足够多的有价值的问题供研究),要是有越来越多的人能够在图书馆领域发现更多的问题并能积极解决,那么图书馆的未来将一片光明。
不过发现问题与发牢骚是两码事,发现问题是实事求是,来不得半点夸张和虚假;也不仅仅是为了发现问题而发现问题,更要探索好的解决之道。大家都知道,图书馆人是最爱牢骚的,无论是在网上论坛还是现实生活中,内容涉及各方各面(如工资待遇、社会地位、工作情况等等),这现象固然与图书馆工作研究的条件有关(如时间的空闲和上网的方便等等),更重要的是形成了这样的风气和陋习。

- 评论人:哦   2005-06-15 11:15:54   

流纹岩卖的是万灵膏吗,狗皮膏药卖到专家的blog上了。

- 评论人:流纹岩   2005-06-15 10:58:29   

由数十位专家苦心研制成功的《一体通》软件,避开了市场上莨莠不齐的汉语运用软件,向国人奉献出一道“上知天文,下通地理”横扫国内外精典词典、论著的中华经典盛餐。《一体通》包括四亿五千万字内容,有最新的IT行业强制性标准化GB18030-2000字库,以及经典名著、诗词曲赋、高考作文、中外名言、谚语、歇后语、法律法规……一典在手,应有尽有。
《一体通》无须随盘支持,安装后想什么时候用就什么时候用,几百元让家家拥有图书馆,方便无比。同时,附赠自主专利权《易码输入法》,它根据人们的思维习惯及键盘特点,让您无须记忆,无论老少十分钟就能掌握。熟练后,一分钟能打三百个字。在打文件或上网时,遇到高频率的词时只要一健就能搞定,实现真正的便捷高效。

- 评论人:阑尾炎   2005-06-15 10:29:29   

网络上的“显微镜”
  目前国内正有越来越多的技术爱好者在他们的博客上讨论Tag技术的理念和应用前景。
  去年底,伊利诺斯大学图书馆和信息科学学院的一名研究生亚当.马西斯(Adam Mathes)撰写了一篇论文《通俗分类———通过共享和协同的方式进行数据提炼和分类》,这篇论文在Tag讨论者中广泛流传。
  马西斯在文章中指出,个体用户未受控制的词汇存在固有的局限和弱点,当这些词汇在一个整体系统中被共享时,会因为被不同用户以各自不同的方式使用而产生语意含糊。
  “但是,Folksonomy有强大的力量,它直接反映了用户的词汇。”他指出,这些词汇不来自专业人士和内容创造者,而来自拥有信息的内容消费者———普通用户。
  Folksonomy因此应运而生,这是一种散秩的信息构成模式:用户通过提取某些语言的相同部分获得相关信息,这些不具关联性的信息只有在对其提取时才呈现相对紧凑的组织结构。Google是这种模式的代表,它成功提供了一个搜索的解决方案,但还需要更有效的信息组织方式和检索方式。
  他在论文总结中写到,“Folksonomy把收集信息的工作从独立的专业手段转变为一种社区分享的协作方式,这是一种值得在未来系统建设中考虑采用的模式。”

- 评论人:孙继林   2005-06-15 08:37:18   

图书馆都希望自己拥有很多的信息资源,资源多了必定需要整理。整理的工作国内图书馆一直做的不咋地。我们经常听说国内一些著名大馆有许多的宝贝还没有整理编目,缺人缺钱,使那些宝贝在岁月流逝中慢慢地毁损。如今数字资源来了,数量大过于纸本,那些大馆开口就是上万种外文期刊和中文期刊的电子版,数十万篇的学位论文和会议论文,数十万册电子图书,而且每年都在飞速增加。于是我们陷入了文献的海洋,谁也说不清本馆纸本文献与电子文献的衔接情况,也很难说清本馆电子期刊中可获得全文的具体年份与刊期,更说不清本馆电子学位论文中有几篇博士论文几篇硕士论文。大馆如此小馆也是如此,与其昏昏使人昭昭。
这种现状不是什么信息高科技可以解决的。 我们的办馆导向有偏差,而且这不是馆长能够纠正的,馆长的行为被行业和社会趋势左右。

- 评论人:a   2005-06-15 08:13:58   

我前几天还向游园先生透露我的忧虑,就是我不太适合搞数字图书馆研究。像我这样坐井观天,又不能进行什么深层次的研发与实践,最多只能加入炒冷饭的队伍,这样搞是没有什么出息的。我个人感觉最好的研究状态是,尽可能的理论联系实际,研究的同时,能够尝到于实践有益的甜头。a某对现状的不满,原因可能于keven先生相似,当属爱之深、恨之切型。

验证码:   
评论内容: