当前位置:在线查询网 > 在线百科全书查询 > 不确定性数据

不确定性数据_在线百科全书查询


请输入要查询的词条内容:

不确定性数据


不确定性数据的产生原因比较复杂。可能是原始数据本来就不准确或是采用了粗粒度的数据集合,也可能是原始数据是为了满足特殊应用目的或是经过处理缺失值或者数据集成而生成的。

近四十年来,传统的确定性数据管理技术得到了极大的发展,造就了一个几百亿的数据库产业。数据库技术和系统已经成为建设信息化社会基础设施的重要支撑。在传统数据库的应用中,数据的存在性和精确性均确凿无疑。近年来,随着技术的进步和人们对数据采集和处理技术理解的不断深入,不确定性数据得到广泛的重视。在许多现实的应用中,例如:经济、军事、物流、金融、电信等领域,数据的不确定性普遍存在,不确定性数据扮演关键角色。传统的数据管理技术却无法有效管理不确定性数据,这就引发了学术界和工业界对研发新型的不确定性数据管理技术的兴趣。

(1) 原始数据不准确。这是产生不确定性数据最直接的因素。首先,物理仪器所采集的数据的准确度受仪器的精度制约;其次,在网络传输过程(特别是无线网络传输)中,数据的准确性受到带宽、传输延时、能量等因素影响;最后,在传感器网络应用与RFID应用等中,周围环境也会影响原始数据的准确度。

(2) 使用粗粒度数据集合。很明显,从粗粒度数据集合转换到细粒度数据集合的过程会引入不确定性。例如,假设某人口分布数据库以乡为基础单位记录全国的人口数量,而某应用却要求查询以村为基础单位的人口数量,查询结果就存在不确定性。

(3) 满足特殊应用目的。出于隐私保护等特殊目的,某些应用无法获取原始的精确数据,而仅能够得到变换之后的不精确数据。

(4) 处理缺失值。缺失值产生的原因很多,装备故障、无法获取信息、与其他字段不一致、历史原因等都可能产生缺失值。一种典型的处理方法是插值,插值之后的数据可看作服从特定概率分布。另外,也可以删除所有含缺失值的记录,但这个操作也从侧面变动了原始数据的分布特征。

(5) 数据集成。不同数据源的数据信息可能存在不一致,在数据集成过程中就会引入不确定性。例如,Web中含很多信息,但是由于页面更新等因素,许多页面的内容并不一致。

对某些应用而言,还可能同时存在多种不确定性。例如,基于位置的服务(Location-Based Service, LBS)是移动计算领域的核心问题,在军事、通信、交通、服务业等中有着广泛的应用。LBS应用获取各移动对象的位置,为用户提供定制服务,该过程存在若干不确定性。首先,受技术手段(例如GPS技术)限制,移动对象的位置信息存在一定误差。其次,移动对象可能暂时不在服务区,导致LBS应用采集的数据存在缺失值情况。最后,某些查询要求保护用户的隐私信息,必须采用“位置隐私”等方式处理查询。

从二十世纪八十年代末开始,针对概率数据库(probabilistic database)的研究工作就从未间断,这类研究工作将不确定性引入到关系数据模型中去,取得较大研究进展。近年来,针对不确定性数据的研究工作则在更广的范围之内取得更大的进展,即:在更丰富的数据类型上处理更多种类的查询任务。图1描述了不确定性数据管理技术的典型框架,它包含四大部分:模型定义、预处理与集成、存储与索引、查询分析处理。