您好,欢迎来到纷纭教育。
搜索
您的当前位置:首页基于信息结构模型的企业文档信息集成与重用技术研究

基于信息结构模型的企业文档信息集成与重用技术研究

来源:纷纭教育


基于信息结构模型的企业文档信息集成与重用技术研究

王克明 熊光楞 谢金崇 范文慧

(清华大学自动化系国家CIMS工程技术研究中心,北京,100084)

摘要:提出了基于信息结构模型的文档信息集成与重用技术,通过对文档内部信息模型的表达,提供了多层次不同粒度的文档信息的集成与重用机制。同时结合实际给出了一个应用系统的设计与实现。为企业标准化发展趋势下文档信息集成与重用技术的改进提供了有益的探索。

关键词:文档管理;信息集成;信息重用;XML 中图分类号:TP311,TP391 文献标识码:A

及对文档信息管理技术所提出的新的要求,

0 引言

接着分析目前文档管理技术存在的问题及原因,并在此基础上提出基于信息结构模型企业文档是企业重要的知识资源。企业

的文档信息集成与重用技术,包括其体系结文档中既有当前产品生产过程中需要及时

构和实现过程。最后结合实际给出了一个基流通的信息,也有以往企业知识的沉淀和积

于该技术的应用系统的设计实现。 累。Delphi咨询集团的一项调查表明:在组

织所获取的知识中,大约有46%是以文本和

1 企业文档管理的现状及存在的问题

电子文档的形式存在的。然而在这些知识

1.1企业标准化趋势下的文档信息管理技术 中,能够被有效管理并及时提供给需要这些

企业中的文档是多种多样,主要包括设知识的人,从而发挥作用的却只有12%[1]。

计任务书、设计规范、图纸、技术文件、制因此,对企业文档进行有效的管理和维护,

造资源文件、合同文书、技术手册、使用手最大限度地利用文档信息资源,对于提高企

册、维修卡等等。这些文档分属不同的部门,业的信息化水平具有非常重要的意义[2-4]。

[3][4]

具有不同的特征,由不同的人员来维护近年来,随着ISO9000族质量体系标准。

和CMM(Capability Maturity Model for 根据内容的不同,文档可以分为图档和文Software,软件成熟度模型)等国际标准在件,其中文件以说明性文字为主,并可能附企业中的推广和普及,企业文档日益朝着标有图片等其他信息表示方法;图档则以数字

[5]

准化规范化的方向发展。相对而言,文档化图纸为主。但由于实际使用中图档都是同

相应的说明信息一起管理的,因此广义上可信息管理技术发展比较迟缓,未能很好地适

以将图档的说明信息看作文件,而将图档本应这种变化趋势。主要表现在:无法保证文

身视作该文件的一个附件,从而达到概念上档的完整性和一致性;很难实现文档的复杂

的统一。故本文对此不加区分,统称为文档。 权限控制;信息查询的效率较低,而且很难

为了提高工作效率,避免工作人员在查进行比较复杂的信息查询;信息很难进行剪

找和处理信息上浪费太多的时间和精力,要裁和重组等等。这些问题的存在很大程度上

求利用计算机技术对企业中的文档进行有阻碍了企业的信息化进程。如何实现规范化

效的管理。这是技术发展和需求推动共同作文档的有效管理,是对企业文档信息管理技

用的结果。如PDM最初就是为了解决产品研术提出的新的课题。

[3][6]

发过程的文档管理问题所出现的本文以企业文档为主要分析对象,首先。目前

分析标准化发展趋势下企业文档的特点以常用的文档管理工具提供的功能主要包括

文档对象的浏览与导航、文档的分类归档管理、文档的版本管理、以及文档的安全控制

等等[3]

现有的文档管理技术通常是采用整体“打包”的方式对文档进行管理,即将文档整体看作一个对象,规定其名称、大小等描述信息,并将这些信息放到数据库表中,而文档的物理位置仍然在操作系统目录下,由

文档管理系统提供管理该文档的机制[3]

。为了便于用户查阅,文档管理系统还会为每个文档维护一个或几个属性表,用来记录一些重要属性。但这些文档属性能提供给用户的信息毕竟很少,用户如果想要了解更详细的信息,必须阅读整个文档。

随着各种国际标准在企业中的推广和普及,企业文档日益朝着规范化标准化方向发展。文档开始具有明确的信息结构,而不是像以前那样由一些比较松散的信息组成。例如一个符合ISO9000标准的生产计划管理文档可能如图1所示。实际上,如果一个生产计划管理文档不符合这个结构,将会被认为是不合乎要求的。

文件头信息 1.目的及范围 2.术语 3.职责 4.工作程序5.相关文件、质量记录 6.程序更改记录 编制: 审核: 批准: 图1 生产计划管理程序

文档的标准化使得通过计算机对文档信息结构进行识别和处理成为可能,同时,XML等适合于处理结构化和半结构化数据的新技术的出现和发展又从为其提供了技术上的支持。这些都为文档信息管理技术的进一步发展创造了先决条件。 因此,当前企业对文档信息管理技术的要求是对规范化文档的有效管理和维护。这种管理应该区别于以前那种对无结构文档的管理,同文档标准化发展趋势相适应,能够实现文档内部信息结构的多层次不同粒度的共享和重用,充分发挥出标准化的优势。

1.2 现有的文档管理技术存在的问题分析

现有的文档管理技术无法适应标准化趋势下新的需求,这主要体现在对标准化文档的有效管理上。典型的问题如下: 󰁺 文档的完整性和一致性难以保证

对一个标准化的文档来说,其信息结构和内容是有严格要求的,即存在一定的完整性和一致性约束。由于现有的文档管理技术只能将文档作为一个整体对象来看待,无法对其具体内容进行识别和分析,因此不具备检验文档的完整性和一致性的机制。目前这部分工作仍然需要文档的编写人员或专门的检查人员来完成,质量难以保证。 󰁺 文档的复杂权限控制难以实现

现有的文档管理技术只能将一个文档作为整体进行权限控制,无法将文档各个部分的权限分配给不同的人,也无法准确地记录文档的更改历史,这使得文档更改管理的粒度较粗,文档维护起来也比较困难。在很多情况下,特定的用户只应该对文档的一部分内容具有查看和修改的权利,如非管理人员无权填写项目申请中是否批准一栏的内容,而这在现有的技术下是很难实现的。一般采用的解决方法是增加一个附加文档或将其视作文档的一个属性,通过数据库进行维护,但这样就失去了文档的完整性,增加了维护的难度。

󰁺 无法进行比较复杂的信息检索和查询

现有的文档管理技术一般只能提供三种方式的查询:文档名称的查询、文档属性的查询和文档内容的查询。其中前两种查询使用的最为广泛,但由于文档的信息基本都在包含在文档内部,因此这两种查询方式能提供的信息相当有限;第三种查询方法则是将文档内容整体看作一个字符串进行查询。这虽然能够查询到需要的信息,但同时也可能得到更多的无用的信息,因为这种查询只

是简单字符串的匹配,即只考虑信息的内容,不考虑信息的语义,不具备对信息进行识别和筛选的能力,无法根据文档的信息结构对不同部分进行指定查询。这种方法在文档个数很多或者内容很多的情况下效率相当低下。

󰁺 文档信息难以剪裁和重组

现有的文档管理技术无法根据用户的需要对文档信息进行剪裁和重组,导致文档信息的重用比较困难。如果用户需要从文档中获得有用的信息,只能花费时间亲自阅读文档的内容,手工地从中挑选出需要的信息并进行重新组织。这种方法效率比较低下,同企业信息化的大趋势是极不相称的。

由此可见,现有的文档管理技术已经不能很好的满足企业文档管理的需要,很多工作完成的效果不理想或根本无法自动完成。因此需要对其进行相应的改进和扩充。 2基于信息结构模型的文档信息集成与重用技术

2.1信息结构模型

现有的文档管理技术存在不足之处的根本原因就在于它们不具备描述和识别文档内部信息结构的机制,导致对文档的信息处理只能停留在文件层次上,无法深入到文件内部。有鉴于此,我们提出了基于信息结构模型的文档信息集成与重用技术。根据文档的规范化要求,定义了统一的文档信息结构模型,并在此基础上对文档进行描述、识别、分析和处理。目的在于对文档信息的管理就能够深入到文档内部,使上面提到的问题得到很好的解决。

信息结构模型是整个技术的核心,文档信息描述和识别以及其他处理都是围绕着信息结构模型进行的。其中文档信息结构的描述和识别的基本原理如图2和图3所示:

待提交的文档信息 标准化文档信息 信息结构模型 图2 文档信息结构的描述

标准化文档信息 计算机可识别的文档信息 信息结构模型 图3 文档信息结构的识别

由于XML(eXtensible Markup Language)具有很强的信息描述能力,非常适合于描述半结构化的数据,因此我们选择

XML作为文档信息的描述语言[7-9]

。目前用来定义XML的方法主要有两种:DTD(Document Type Definition)和Schema。本文采用DTD来定义XML。

2.2 基于信息结构模型的文档信息集成与重用技术原理

基于信息结构模型的文档信息集成与重用技术同现有技术在实现机制上有很大的不同,许多工作流程需要重新设计。

一般来说,企业中文件的数目可能相当多,但文件的种类是有限的,而且相对来说比较稳定。这样我们就可以为每一种文件提供一个对应的DTD,根据要求对文件的内容加以定义。在下面的讨论中,我们假定已经生成了完善的DTD定义。

2.2.1 文档信息的验证与提交

在输入文档内容之前,用户首先选择文档的类型,系统根据对应的DTD定义,自动在客户端生成文档输入界面。之后用户可以根据提示完成文档的具体内容。

当用户完成文档信息的输入之后,可以申请提交。客户端首先根据信息结构模型对文档格式和内容进行检查,检查通过之后才进行提交工作,否则提示用户进行相应的修改。从而保证了信息的完整性和一致性。

如果用户需要提交一个尚无规范定义的文档,可以选择缺省的DTD定义。这是一个最简单的DTD定义,实际上它将文档内容整体作为一个信息段来定义。这种情况应该尽量避免,因为此时的效果同现有文档管理技术的处理效果是相同的,即无法对文档信息进行深入的分析处理。一般来说,一旦企业需要增加一个新的文档类型,需要首先在系统中定义对应的DTD。

2.2.2 文档信息的存储和维护

当用户提交之后,文档信息的XML描述就通过网络传递给PDM服务器,并存储在数据库服务器上。目前XML文件的存储方式通常有三种,各有利弊。

第一种方法是根据XML文件的结构,将其拆解为对应的关系模型,然后将XML文件的信息分散存储到关系数据库的各个表格中。这种方式节省存储空间,但复杂程度和工作量加大,而且XML文件的整体性将收到破坏。这种方法只适合于较简单的XML文件。

第二种方法是将整个XML文件的内容作为一个字段存储到数据库中。这种方法简单易行,适用于各种XML文件,但由于要重复存储XML文件中的标签信息,存储量加大。

第三种方法是不采用关系数据库,而采用面向对象数据库,将每个DTD转换为一个对象定义,将每个XML文件作为一个对象存储到数据库中。这种方法使XML数据的结构和语义信息可以完整的保存下来,较其他方法来说更为合理,但由于面向对象的数据库在理论上仍有许多待解决的问题,因此这种方法目前在实现上受到很多。

对于图形、声音等多媒体数据,可以将其编码为可打印字符存储到数据库中,需要时再进行解码处理。

为了便于维护,XML文件中除了用户录入的信息之外,还可以加上一些附加信息,如用户姓名、提交时间等等。最重要的,可以在XML文件中实现不同信息单元的不同权限分配。这可以通过增加几个用以描述权限的实体定义或属性来实现。 2.2.3文档信息的重用

文档信息的重用涉及到对XML文件的分析处理。目前常用的XML分析接口标准主要有两种:DOM(Document Object Model)和SAX(Simple APIs for XML)。这两种方法各有侧重,应用都比较广泛。

由于文档信息已经采用XML进行描述,因此信息的识别和提取变得非常方便。如果用户需要查询信息,他可以首先选择需要查询的文档的类型,之后选择查询文档中哪部分的信息。这样就缩小了查询的范围,减少了无用信息的干扰,提高了查询的命中率。

用户还可以根据需要从文档的特定部分提取出感兴趣的信息,并根据需要对其进行剪裁和重组。

2.2.4规范化文档的自动生成

由于XML本身只能描述信息的内容,而不能描述信息的表示形式,因此需要借助其他技术同XML相配合来完成规范化文档的输出。当采用Web格式作为输出的时候,描述工具一般采用XSL或CSS。如果需要输出为Word或Excel等Office文档,则可以利用COM组件技术对XML文件进行分析处理。 2.3基于信息结构模型的文档信息集成与重用技术的体系结构

根据上面的过程,可以规划出基于信息结构模型的文档管理系统的体系结构,如图4所示。

用户规范化文档 客户端Web接口 其他应用 ActiveX、COM、JavaScript、XSL、CSS Web服务器、XML Parser、JSP XML文件应用服务平台 DBMS 图4 基于信息结构模型的文档管理系统 基于信息结构模型的文档管理系统采用以Web技术为基础的C/A/S三层结构,以数据库作为底层的信息存储和管理平台。架构于数据库管理系统之上的是文档管理系统的应用服务平台。应用服务平台以Web为中心、基于标准的、开发体系结构,对基于信息结构模型的文档信息集成与重用技术提供全面的支持,包括DTD的定义、XML文件的分析处理、信息的存储与维护等等。客户端是完全基于浏览器的应用,通过JSP等

Web技术实现同应用服务平台的信息交互。 3 应用实例

黄山市汽车电器有限公司是一家以生产各种车用电器为主的公司,主要产品为重型车、中型车、轻型车、微型车和轿车等五个车种汽车的组合开关和车锁。为了提高企业的信息化水平、确保产品质量方针和目标的实现、增强企业的竞争力,公司在企业内

[12]

部实行了QS9000质量体系标准。企业的质量体系共由二十多个不同的过程组成,每个过程都对应于一个或多个标准化文档,因此涉及到大量标准化文档信息的管理和维护问题。

为了验证基于信息结构模型的文档信息集成与重用技术的可行性,我们结合该公司的实际开发出一个应用系统,用于对公司的标准化文档进行有效管理,进而实现文档信息的集成和重用。系统以Oracle作为底

层数据库服务器,使用XML+DTD的信息描述方式,采用MicroSoft的XML分析器msxml对XML文件进行分析处理。

需要管理的标准化文档可以大体上分为两类:一类是表格型的,如设计评审记录、工装设计计划、质量记录清单、检测设备检定计划等等。这类文档的信息结构定义比较严格,属于结构化数据,但通常结构复杂,一般无法直接转换成关系模式。另一类是非表格型的,如产品开发程序、业务管理程序、合同评审程序、服务管理程序等等。这类文档虽然也有标准的格式和内容的要求,但相对来说灵活性较大,属于半结构化数据。两者都可以通过定义信息结构模型来进行管理和维护。

下面以工装设计计划文件为例进行说明。工装设计文件的原始格式如图5所示:

图5 工装设计计划文件

对应的DTD定义如下:

如果用户想要提交一份工装设计计划

文档,他首先通过客户端向应用服务平台发出请求,应用服务平台根据对应的DTD定义,利用JSP等Web技术在客户端生成文档的输入界面,包括各部分的内容提示。当用户完成文档的输入,选择提交的时候,客户端首先根据DTD定义来检验文档是否符合要求,这个工作可以由JavaScript+msxml在客户端完成。

一旦文档检验通过,则客户端通过网络将文档的XML文件提交到应用服务平台。应用服务平台再将其存储到底层数据库中。考虑到简便与实用,本原型系统采用的是上面提到的第二种存储方式,即将XML文件整体作为一个字段存储,同时附上用户名称、提交时间等等一些附加信息。

如果用户需要从文档中查询信息,他可以首先从可选文档类型中选择工装设计计划文件类型,之后系统会将该类型文档的信

息结构传递到客户端,用户可以进一步指定复杂的查询条件。例如他可以选择工装计划列表中含有离合器信息,使用了代号为CM-004的工艺装备,而完成时间又在2001年十一月之前的信息。这种复杂的查询在以前的文档管理系统下利用简单的字符串匹配方法是很难实现的。

如果用户需要对文档内容进行更改,文档管理系统首先审查用户的权限,并据此将文档信息传到客户端,使得文档在显示的时候只有用户有权更改的地方才处于可更改状态。用户更改完毕后,再将文档提交回文档管理系统。这时可以根据文档的重要性决定是覆盖原文档还是重新生成文档的一个新版本。为了便于备案,用户更改操作的相关信息同时也存储到数据库中。

系统提供了两种自动生成规范化文档的方法,一种是采用XML+DTD+XSL,生成的是Web格式的文档;另一种是采用COM组件编程的方法,利用JavaScript对客户端的Office对象进行调用,生成Office格式的规范化文档(如word、excel等)。 4 结束语

对规范化文档的有效管理是对企业文档信息管理技术提出的新的要求,也是实现企业标准化的必要条件。解决问题的关键在于如何描述和识别文档的信息结构并对其进行进一步的分析处理,而现有的文档管理技术无法满足这个要求。本文提出的基于信息结构模型的文档信息集成与重用技术,通过对标准化文档的XML描述,实现了文档信息的识别、分析和重用,很好地解决了这个问题。通过具体应用,证明了本技术具有较好地实用性和可行性。

参考文献

[1] 田震,毕小青. 知识视角下的企业文档管理

[J]. 档案学通讯. 2001.1:17-19

[2] Aarons, S. Managing the previously

unmanageable [J]. IEE Review, Volume: 41 Issue: 4, 20 July 1995:161-163 [3] 童秉枢 等. 产品数据管理(PDM)技术[M]. 北

京,清华大学出版社,2000.11

[4] 熊光楞 主编. 并行工程的理论与实践[M].

北京,清华大学出版社,2001.5

[5] 李卫. 浅谈企业标准资料管理[J]. 航空标准

化与质量. 2000,第四期:11-12

[6] Ip-Shing Fan. The power of PDM [J].

Manufacturing Engineer , Volume: 79 Issue: 6 , Dec. 2000: 224 -228

[7] Seligman, L.; Roenthal, A. XML's impact an

databases and data sharing [J] Computer. Volume: 34 Issue: 6 , June 2001: 59-67 [8] Bertino, E.; Catania, B. Integrating XML

and databases [J]. IEEE Internet Computing. Volume: 5 Issue: 4 , July-Aug. 2001: 84-88 [9] Roy, J.; Ramanujan, A. XML: data's

universal language [J]. IT Professional, Volume: 2 Issue: 3 , May-June 2000: 32-36 [10] 李纲 等. XML文档分解技术及文档存取模型

[J]. 计算机应用研究. 2001,第三期: 127-130

[11]王海波 等. 基于XML的数据交换的实现[J].

计算机应用. 2001.4,Vol.21, No.4: 67-68 [12]熊光楞 等. 黄山市汽车电器产品开发并行工

程需求分析报告[R]. 北京:清华大学国家CIMS工程技术研究中心,2000

作者简介:王克明(1978-),男,辽宁人,清华大学博士研究生,主要研究方向为并行工程、信息集成、PDM技术。

Research on the Technology of Enterprise Document Information Integration and Reuse Based on Information Structure Model

WANG Ke-ming, XIONG Guang-leng, XIE Jin-chong, FAN Wen-hui (CIMS/CERC, Tsinghua University, Beijing, 100084, China)

Abstract: With many international standards’ popularization, enterprise documents are also standardized. This paper analyzes some problems existing in current documents management method under this new trend, then presents a new enterprise documents information management technology, which is based on information structure model and can provides a new mechanism to implement the documents information's detail integration and reuse. It also gives an introduction of an application instance designed for a medium-sized enterprise.

Key Words: document management, information integration; information reuse; XML

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- fenyunshixun.cn 版权所有 湘ICP备2023022495号-9

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务