当前位置:在线查询网 > 在线百科全书查询 > 标准信息挖掘

标准信息挖掘_在线百科全书查询


请输入要查询的词条内容:

标准信息挖掘




概念


标准信息挖掘(Standard Information Mining,SIM)是指标准文献经过数字化和结构化的信息加工,实现多途径和多维度的信息检索,以及全方位和细粒度的信息抽取的过程。

特点


标准信息挖掘属于信息检索的范畴,但标准信息挖掘不同于一般的信息检索,是信息检索在标准信息领域的深入应用,是信息检索的创新发展。如图1所示。

在信息组织方面,信息采集的对象有纸质文献、电子文献以及网页和数据库数据。除了进行题录数据著录、全文电子扫描外,还要进行OCR识别和结构化的深度信息加工。在信息存储上,除了标准题录数据和全文数据外,也包括了结构化数据。

在功能上,对于用户来说,一般是通过标准信息检索系统,以检索和浏览两种方式进行查询,查询的结果是相关文献的题录信息以及获取文献线索,这种模式属于“文献传递”技术范式。而标准信息挖掘实现了对标准内容信息直接检索和数据抽取,例如可在标准的前言、引言、范围、规范性引用文件、术语等限定范围内进行关键词检索和结果数据抽取,以及对标准文本中的图和表进行检索和结果数据抽取,不但省去了获取和浏览原文及查找目标信息的环节,而且进一步可对抽取的结果数据在数据挖掘系统平台上进行分类、聚类、模式识别、趋势分析等知识挖掘,实现知识发现。

在应用上,由于采用了网络搜索引擎的检索方法,符合当前具有互联网用户体验的使用习惯,无需专业培训即可使用。另外,由于标准信息挖掘以XML的格式作为全文数据格式,在Web服务技术架构下,以SOA的设计原则,在云计算的互联网分布式计算环境下,即可实现以互联网为标准资源存储载体,实现“按需使用”的服务模式。

图1 标准信息挖掘技术特点

过程模型


信息传递是由信息源——信源,产生信息,通过中介等途径——信道,信息到达信息用户——信宿。

标准信息是有关标准的信息,同样标准信息传递也可分为信源、信道和信宿三个过程。如图2所示,标准信息发布机构为标准信息传递的信源,标准信息加工机构采集标准信息、加工标准信息并进行存储,形成标准信息资源库,作为信宿。

图2 标准信息传递模型

采集

标准信息发布机构发布标准信息,主要有正式的标准文本,标准公告,定期出版的标准目录,以及以数据库形式发布的标准数据。例如,中国国家标准化管理委员会定期发布中华人民共和国国家标准公告,目前发布的类型如表1所示。这些信息发布在国家标准化管理委员会网站上,同时也刊登在《中华人民共和国国家质量监督检验检疫总局公告》和《中国标准化》等期刊上。中国标准出版社出版正式国家标准文本,定期出版国家标准目录。国际标准化组织在网站上以网络数据库的形式发布标准信息,通过查询可检索到新标准的状态及相关研制情况,也可检索已有标准的修订情况。另外ISO也定期出版标准目录。这些机构以官方公开的方式发布标准信息,可看作是标准信息传递的信息源。

表1 中国国家标准化管理委员会发布的标准公告类型

标准信息加工机构,如中国标准化研究院国家标准馆、各省市标准化研究院所等标准信息收集加工服务部门,通过互联网、图书发行、期刊定购等各种渠道直接或者间接收集标准公告、标准文本、标准目录和标准数据等标准信息,进行标准数据加工,建立标准数据库,进行标准信息资源电子存储(实质上,标准信息资源主要有纸质和电子两种类型,这里只讨论电子类型标准信息传递)。

馆藏

标准信息加工机构通过采集环节,对采集来的标准信息进行数据加工,然后把加工的标准数据存储到数据库,实现了标准信息资源的电子存储,建立标准信息资源库。

标准信息资源库中有两类资源:纸质标准文献资源和电子标准文献资源。电子标准文献资源有两类标准数据:标准题录数据和标准全文数据。存储标准题录数据的数据库称为标准题录数据库,存储标准全文数据的数据库称为标准全文数据库。

使用

标准信息使用人员通过标准信息检索系统检索标准信息资源库,获得标准信息。信息检索通用的模型如图23所示,用户想查找满足特定条件的信息的需求称为信息需求,满足用户特定条件的信息称为目标信息。目标信息满足的特定条件称为检索条件,检索条件之间有逻辑或、逻辑与和逻辑非三种关系,描述检索条件的表达式为检索式。

检索工具是在对信息资源进行加工整理的基础上开发的,信息资源和用户的信息需求促使人们开发检索工具。用户为满足信息需求而设定检索条件、选择合适的检索工具和适当的方式操作检索工具、识别检索工具给出的信息线索及依据信息线索找到信息是否满足信息需求的方法等统称为检索策略。检索效果是衡量检索是否成功的重要指标,主要有查全率和查准率。

相关分词: 标准 信息 挖掘