数据语义模型
1. 数据库管理系统常见的数据模型有层次模型,网状模型和什么
数据库管理系统常见的数据模型有层次模型、网状模型和【关系模型 】3种
数据模型是对现实世界数据的模拟,是一个研究工具,利用这个研究工具我们可以更好地把现实中的事物抽象为计算机可处理的数据。
2. 数据层次的语义组织
5.4.1.1 数据的语义表示框架
地理空间数据从获取、处理到投入使用,实质上是数据生产者认识客观世界和数据使用者理解信息的应用过程。然而由于数据生产者往往没有提供空间数据的具体语义信息和在采集空间数据时的概念模型,而不同用户的认知水平又存在较大的差异,使得不同用户之间出现信息获取和信息理解的鸿沟。元数据技术虽然已在消除这一鸿沟方面发挥了积极作用,但并未提供数据生产者在采集空间数据时的概念模型,并因多数元数据系统均采用不支持自动推理的网络标识语言,使得用户对空间数据的获取和理解仍然存在很大的技术障碍。
另外,目前主要的基于分层和基于地理特征的数据组织方式仅仅提供了对象的几何和专题方面的信息,也并未显式地表达地理空间数据所蕴含的学科感知知识。由此,大大妨碍了不同学科领域信息的共享。鉴于包括海洋在内的学科用户对数据集理解的概念、分类系统有所差异,需要为地理数据使用者提供数据生产者的学科感知世界(杜云艳等,2008)。
语义丰富是信息集成过程中的两个必要任务中的第一个(图5.16),为了使数据服务具有语义信息,通过引入体的思想,提出一种基于本体的地理空间数据组织架构(杜云艳等,2008)。按照软件工程的思想和理念进行本体开发,并且给予这些本体进行数据语义标注,这样一来使得通过WFS发布的数据服务便具有语义信息。
图5.16 本体建模与数据语义组织
地理本体是指特定地理空间信息共同体概念化模型或学科感知世界明确的形式化规范说明(王敬贵,2005),在分析了不同学者提出的关于本体表达的三元组、五元组和六元组模型各自的优缺点基础上(Perez A G et al.,1999; Naing et al.,2002; Neches et al.,1991),并考虑到基于实例级别的本体建模的费时费力,本研究采用 “四元组” 模型 O =(ID,C,A,R)。其中,O 表示本体库,IDs 表示各本体对象的编码,C 表示本体概念,A是本体的属性,R 是本体之间的关系集。鉴于 protégé 的强大的表达及推理能力,采用它作为本体编辑工具。
本体建立是指根据特定目的和应用需求,将非形式化的知识,通过形式化的方法明确地描述领域内各种概念及其之间的关系、属性等并进行编码的过程。本体模型的建立是一项复杂的过程,需要众多领域专家的参与,并需要花费大量的时间,根据软件工程的理念,综合了现有的本体建模方法骨架法和 Methontology 优点的基础上(Uschold et al.,1995,1996; Mariano et al.,1997,1999),采用螺旋模型建立本体,其过程包括本体分析、本体表示、本体评价、本体建立、本体编码五个阶段,其总体框架如下图 5.16 左半部分所示。
(1)分析: 根据目的和应用范围进行本体分析。通过对相关的文献、论著、调查研究报告和图集等资料的搜集和整理,领域专家进行分析,并确定领域知识。
(2)概念化: 通过概念化形成一个概念模型以使得知识更具良好组织。
(3)形式化: 通过形式化语言使得概念模型更具体和可共享。
(4)评价: 评价每个本体的正确性与准确性。评价的准则主要有: 清晰性,目标性,一致性,完整性,可扩展性以及最小承诺原则(Gruber,1995)。
(5)编码: 因为采用的是四元模型,它不能对实例(对应于数据库中的记录)进行建模。如何使数据库中的记录关联到这些本体,是数据库记录具有语义信息? 一个连接ID 很有必要,通过这个 ID,语义信息和数据记录能够得到关联(这种关联可以使 1; n)。因此每个本体必须具有一个唯一的 ID 编码。这个编码还可以用于本体和数据之间的映射。
一旦本体库建立,实际的数据便可以通过参考这些本体进行组织。基于这种语义组织的数据的网络数据服务也就具有语义信息了,并且底层的关于语义的原数据也可以通过GetCapability 接口暴露。这样不仅数据,并且语义信息业可以通过标准接口进行获取。所有这些在网络上,使得数据更容易获取,更易于使用。
5.4.1.2 数据本体库
数据是信息共享和集成的基本对象,也是后续分析决策的根本依据。数据表征的是人们对现实世界的数字化表示。本研究中数据本体库目的就在于从数据方面,为海洋领域内提供一个能对海洋领域的数据的达到普遍认知的数据概念模型。
按照杜清运(2001)结构化多剖面的语义成分分析方法,对海洋领域的数据进行了如此刻画(图 5.17):[数据] = [数据专题] + [数据模式] + [空间形态] + [时间范围] + [空间范围] + [时间尺度] + [空间尺度] + [空间参考模型]。
这八个方面可以看成是表征数据的八个轴 ,类似于我们坐标系统中的 X,Y,Z 轴,通过这八个轴 + 加上具体的领域这个 “原点”,就形成了海洋领域内数据的一个语义参考系统。
图 5.17 海洋数据本体的语义构成
5.4.1.2.1 地理专题
地理专题表征的是海洋数据的是 “什么”,是数据的最主要语义因子,是数据的内在本质。不同的专题数据只能进行适合于它的分析才具有意义,某些模型也只能针对特定的专题数据进行分析。因此很有必要显式化的把这种知识表达出来。然而现有的模型或服务很少能将其中的参数明确定义到专题特性。因此地理专题本体即在这方面进行完善。
通常针对地理专题这种知识结构,常采用分类树的形式进行表达。对于海洋领域,目前有很多种不同的分类系统,可以根据要素来分类,也可以根据观测方式来分类,还可以按照传感器类型、观测原理等来分。
比如根据要素要素分类可以分为: ①水文参数: 常见的有水深、水温、盐度、海流、潮位、波浪、水色、透明度、海发光等; ②气象参数: 气温、气压、湿度、风速、风向、云(云状、云量)、降水、天气现象和太阳辐射等。③化学参数: 溶解氧(DO)、pH 值、化学耗氧量(COD)、悬浮物、营养盐(硝酸盐、亚硝酸盐、铵盐、磷酸盐和活性硅酸盐)、非离子氨、总氮、总磷、颗粒有机碳(POC)、颗粒有机氮(PON)、硫化物和重金属等。④地球物理参数: 海洋重力、海洋磁力、海洋地震等。⑤底质参数: 底质类型、粒度、pH 值、Eh 值、总有机质、总氮、总磷和硫化物等。⑥生物参数: 微生物、叶绿素 a、浮游植物、浮游动物、游泳生物、潮间带生物、底栖生物等。⑦人类活动参数: 养殖、捕捞、陆源污染物等。
根据观测方式分类: ①定点观测: 台站和锚定浮标站; ②大面观测: 在调查海区内,按月或季度的定点观测; ③断面观测: 在调查海区布设几条有代表性的观测断面,在一定时间内于断面上各站观测一次的资料; ④随机观测: 商船的航路观测,调查船走航观测等; ⑤遥感观测: 根据观测内容可分为水温、水色、海面高度和有效波高。
按数理概念分类: ①确定性资料,可利用明确的数学关系式来描述。它有可分为周期性和非周期性。②非确定性数据,即随机数据。
综合这几种分类方法来看,按要素分类是最能体现数据含义的分类系统,而其他分类方法多数是从外在的一些元数据信息上进行分类。因此本书采用的是按要素进行分类。在要素分类上,目前也有不同的分类体系。本书在参考了 NASA 的 GCMD(Global Change Master Directory )分 类 系统 以及 Semantic Web for Earth and Environmental Terminology(SWEET)的本体构建的思想的基础上,综合按照国家海洋信息分类与代码(HY/T075—2005)及 908 中国近海海洋综合调查评价专项指定的 《归档文档材料整理规则》 中对学科要素类目细表的规定,构建了海洋数据专题目录树(图 5.18)。该目录树参照传统动植物分类法,按 “领域 - 门类 - 大类 - 中类 - 小类”整体纲目进行组织。整个的目录树可以进行方便的扩展,比如今后随着观测手段的发展,可能会有新的数据类型填补进来,这时可以按照这个参考树,在适当的位置添加节点。比如有可能 Argo 有可能出现新的类型,这时可能需要对 Argo 进行分类,从 Argo 派生出新的类型。这样目录组织使得数据清晰,而且具有良好的扩展性。
5.4.1.2.2 数据模式
有时仅仅知道数据专题类型可能还不够,有些模型可能紧耦合于一些特定的数据模式。比如某个土地利用开发强度评级模型要求的土地利用分类级别必须是某种分类级别,这种情况下想使用另一种分类级别的土地利用数据来进行土地利用开发强度评价就出现问题。因此,对数据模式的显示化表达也很有必要。
数据模式则表达的是构成数据本质属性的组织结构。通常对于某种专题数据,对它的组织结构的认知会在一个领域内能形成一个共识。比如在海洋领域一提到海流数据,海洋专家脑海里对这个海流数据内部的组织结构有个大体感知: 比如它包含哪些信息构成,每个信息所指代的含义。数据模式本体的目的就是通过把这个存在于专家脑海中的对数据组织结构的共识显式化地表达出来,形成共享的全局模式。在此基础上,本地用户可以基于共享模型,进一步扩展定义自己的局部模式,并明确自定义模式与个共享模式的映射关系。通过这个全局的共享模式,使得各种不同的本地模式之间得以关联,从而支持数据之间的共享和互操作,为后续的智能化数据处理、集成分析提供语义基础。
图 5.18 海洋数据专题分类概念图
数据模式的显式化表达即捕捉领域内的达成共识的数据组织结构,主要是包含的字段,字段类型以及字段的度量或分类系统等。其中对每个模式内部字段关联的度量或分类系统则参考在 “其他”本体中定义的一些本体,具体如图 5.19 所示。
图 5.19 数据模式本体模型
5.4.1.2.3 地理空间形态
地理空间形态是对数据所指代的地理对象的空间特征认知的形象化符号表达。通常地理对象在不同的尺度会有不同的形象化认知。比如对于河流,大比例尺下可能会被认知为面状,但是在小比例尺下会被认知为线状。对象的不同的符号化表达,其蕴含的信息量是不一样,其所支持的操作分析也不一样。因此有必要对这种形态特征显式化表达出来,为数据的准确分析和模型的正确运行提供支持。
在本地理空间形态概念模型中,暂不考虑不同空间形态之间存在的空间拓扑关系。对于是特征数据(矢量),其高层部分参考 ISO 19125 的简单要素模型进行组织; 而对于场数据(栅格)部分,则只划分为矢量场和标量场两大类。底层部分则是在高层抽象的基础上采用继承派生的方式,构造海洋领域的底层领域地理空间形态本体。在海洋领域目前已经有比较成熟的抽象模型,本研究主要参考 ArcMarine 的数据模型进行本体组织。
5.4.1.2.4 地理空间参考
地理空间参考表达的是地理事物数字化的转化为地理数据时的在地理空间上的转换方式。尽管这个信息很少用在信息发现上,但有时某些处理模型则可能只针对特定的坐标参考类型的输入才有效。
数据的空间参考信息的表达,可以通过参考知识库(在地理对象本体库)中定义的一些空间参考系统来刻画。
5.4.1.2.5 空间粒度
空间粒度对于矢量数据一般指比例尺大小,可以用比例尺度量来表达; 而对于栅格数据则指像元大小,则可以用空间长度度量来表达。这种空间粒度信息在服务发现集成中也有作用,通常由大比例尺可以通过概化得到小比例尺数据,高分辨率数据可以通过重采样成低分辨率的数据。服务发现时便可以根据这个知识进行扩展查询,并根据这个知识对数据进行相应的处理,以满足需求。
5.4.1.2.6 地理空间范围
地理空间范围表征的是数据所指代的事物在现实空间中的延伸。任何事物都离不开空间而独立存在。因此数据的空间范围具有重要作用。地理空间范围是在地理空间数据发现和检索中经常用的一个条件,很多用户会通过空间范围来定义他们感兴趣的对象。
鉴于地名对象常被用来对地理空间位置和范围进行描述,因此地理数据的空间范围也可以通过参考一个地名对象的方式来进行表达。当然,用户也可以通过自定义的范围来对数据的地理空间范围进行表达。通过这种表达,在基于空间范围的查询时,便可以基于地名对象或者用户设定对象之间的一些关系对服务匹配发现提供一定的依据。
5.4.1.2.7 时间范围
时间范围表征的是数据所指代的事物在时间上的延伸。同空间一样,任何的事物也不可能离开时间而独立存在。时间跨度同样是数据(尤其是对海洋这种动态多变的数据)发现中起重要作用。
5.4.1.2.8 时间粒度
时间粒度对于测量数据一般指测量的周期,而对于模型反演等数据则一般指平均的粒度。时间粒度可以用时间段度量来表达,比如年、月、日等。时间粒度之间的语义关系可以用于数据的发现。比如通常可以由细粒度的数据计算出粒度粗的数据。