区县级信用大数据采集方法及策略 本文关键词:区县,数据采集,策略,信用,方法
区县级信用大数据采集方法及策略 本文简介:摘要:区县级信用大数据信源单位多,数据存在形式多样。如何快速、准确采集到数据是信征系统建设的核心。论文基于我们对区县级公共信用信息共享平台的实际建设经验,针对区县级信用数据分散、工作量大等特点,介绍了数据征集的方法和策略。关键词:信用信息;数据采集信用大数据征集管理是信用信息共享平台的重要组成部分。
区县级信用大数据采集方法及策略 本文内容:
摘要:区县级信用大数据信源单位多,数据存在形式多样。如何快速、准确采集到数据是信征系统建设的核心。论文基于我们对区县级公共信用信息共享平台的实际建设经验,针对区县级信用数据分散、工作量大等特点,介绍了数据征集的方法和策略。
关键词:信用信息;数据采集
信用大数据征集管理是信用信息共享平台的重要组成部分。整个系统建设分为四个层次:信用数据采集、信用数据处理、信用数据资源、信用大数据管理。本文重点介绍数据的采集方法,并对数据处理做简要的说明。
一、数据分布与特性
区县级信用信息平台建设是贯彻国家信用体系建设要求,构建“纵向到底、横向到边、互联互通”覆盖全省的征信网络体系。区县数据征集有诸多难点,需要对信源单位的业务系统平台进行较深入的调研。区县级信用大数据具有以下特征:1.数据格式各不相同每个数据源单位有自己存放数据的机制,数据格式不统一。2.数据项编码的不一致性在不同政府部门、机构中使用的数据字典可能存在差异。3.数据质量参差不齐各数据源单位的数据质量,包括数据准确性、数据精度、数据完整性、数据逻辑一致性等情况多样化,参差不齐。信用数据采集分以下几种情况。一是,有信息系统的接入单位,采用部署部门前置机的方式进行数据采集。二是,无信息系统的接入单位,按照全省区县信用信息征集目录开发相应的信用信息直报系统、信用信息填报系统。三是,有独立网络系统单位,提供文件导入方式进行采集。
二、结构化数据采集
结构化数据采集模块接入到信源单位的业务网络中,与各信源单位的业务系统连接,不同的数据源业务数据的类型和存储方式各不相同,系统需要针对不同的异构数据开发相应的采集接口,完成与各信源单位的数据库对接,实现数据库结构化数据的采集。主要包括数据库数据交换、文件数据交换和接口数据交换。1.数据库数据交换数据库数据交换主要是针对已建业务数据库、信息量较大、更新频繁的业务部门,为各信源单位配置的数据交换软件,实时或定时从各单位业务信息库中提取信息,与部门业务系统为松耦合结构,可以在保证部门业务信息系统可靠、安全的前提下,实现部门业务数据库与前置交换信息库之间的信息交换[1]。数据库数据交换需实现两个方向的信息交换,即需要完成部门业务信息库到前置数据库间的信息交换,也需要根据实际情况及具体要求,完成前置数据库到部门业务信息库间的信息交换,满足在线实时的信息交换。数据交换软件通常部署在各共建信源单位内部,实现部门业务信息的自动提取与转换,同时支持手工录入与审核数据,通过交换平台,数据能够安全地传输到数据中心。支持双向、单向等多种交换模式。 2.数据文件上传在前置服务器或中心交换服务器上为各信源单位提供专用的系统用户和文件存放目录。信源单位通过SFTP/FTP工具或其他方式定期或实时的将既定格式的数据文件上传到服务器。信用平台通过数据交换软件实时监控文件目录,对上传文件进行解析处理后存入数据库。3.接口数据采集接口数据采集主要是根据各政府业务部门的实际情况,定制数据接口,完成各部门信用信息的对接,在保证部门业务信息系统可靠、安全的前提下,根据应用系统要求,对部门业务信息进行数据抽取和同步[2]。通过在各部门业务系统侧建立WebService接口,实现对部门业务数据的集成。系统需对WebService接口进行规范,加强身份认证和信息安全管理,建立接口管理,接口配置、开通、注销以及监控都通过这个系统完成。(1)发送数据。业务系统将数据库中的相关信息进行提取和封装,然后调用接口,以二进制格式传输给前置系统。(2)获取反馈结果:由于有可能是数据量较大,反馈结果的接口需要提供两种机制查询:同步查询:适合数据包比较小的情况。异步查询:适合数据包文件较大的情况,前置系统需要一定的处理时间,等系统处理完成后,在进行查询。
三、半/非结构化数据采集
半/非结构化数据采集主要是对政府部门、司法机关、公共事业单位、第三方机构和社会化媒体所掌握的各类半结构化和非结构化信用数据进行全方位采集。半/非结构化数据采集通过专用的数据采集器完成。采集器会将不同类型的非结构化数据转换成标准格式的结构化数据,并传送至数据处理层进行进一步加工。1.采集内容格式要进行有效的内容理解和服务,首要的是将各种来源的数据整合到一起,半结构化和非结构化数据内容极具多样性,主要包括:(1)支持office系列、XML、txt、PDF等多种文档信息抓取;(2)网站页面抓取、Windows/Unix文件系统数据抓取;(3)支持各种关系型数据库:Oracle,DB2,Sybase,MySql等;支持大字段内容,如BLOB,CLOB等;(4)支持IBMLotusDomino、SAP、MicrosoftExchange公共文件夹的抓取;(5)zip,rar,tar等压缩文件能够采集,另外压缩文件里面嵌套的压缩文件也能够采集,如rar、zip文件里面还有rar、zip文件也支持抓取。2.采集功能灵活分布:可以在多个地理位置灵活部署数据采集器,并自动的进行数据路由和管理;海量抓取:根据数据不同来源,有效的进行海量不间断抓取,而且不干扰原有业务系统的正常运行;更新及时:数据采集之后,对于相应的数据更新,具备灵活的机制,保证数据的质量与完善;结合权限:结合具体项目的流程,相应的数据都有不同的权限,抓取的时候,能够获得相关权限,以此在前台提供内容服务的同时,满足对权限的控制。3.采集流程半/非结构化数据采集流程:(1)各类数据的批量采集,进行格式化、规范化转换;(2)数据的分类和筛选;(3)将分类好的相关信息存放至数据库中。
四、信用数据处理
信用数据处理主要是对各信源单位归集的结构化和非结构化数据进行标准化和流程化的处理,按照统一的标准对各类信用数据资源进行关联、融合与集成,形成完整的主题信用数据,构建信用数据库。对于自动化处理不能完成的部分将采用人工介入的方式进行处理。1.数据清洗数据清洗的主要任务是过滤那些不符合要求的数据。清洗对象主要包括残缺数据、错误数据、重复数据三大类。2.数据转换根据源数据的数目、数据之间的相异程度等状况,进行相应的数据转换、加工和标准化[3]。 3.数据比对遵循以统一社会信用代码为主,辅助登记注册号、名称、法定代表人姓名等其他属性为标识信息,进行数据关联比对处理,生成完整、准确、动态的信用档案信息。4.数据关联对不同来源的数据进行关联整合,建立数据之间的关联关系,形成关于不同主题完整的数据视图,关联的结果根据使用场景不同保存在公共数据库中或者直接通过数据交换传递给信息使用方。5.数据装载将清洗、转换、比对后的标准化数据加载到信息资源平台的标准数据库中。数据加载包括加载周期和数据追加策略。
五、结束语
河北省区县级公共信用信息共享平台建设打破了传统的省市县数据流模式,将县级数据直接汇集到省中心,为各市提供逻辑的管理功能。能有效节省建设资金,并迅速构建起覆盖全省的信用信息网络,具有一定的参考价值。
参考文献
[1](美)Mitchel,陶俊杰,陈小莉译.Python网络数据采集,北京:人民邮电出版社,2016.
[2]陈为,沈则潜,陶煜波,等.数据可视化.北京:电子工业出版社,2013.
[3]陈燕,李桃迎,张金松.非结构化数据处理技术及应用.北京:科学出版社,2017.
作者:魏会增 白士轩 赵侠