目录
1. 建设背景 1
2. 建设内容 3
(一) 大数据计算存储平台 3
(二) 数据资源支撑平台 6
(三) 数据归集平台 10
(四) 数据治理平台 15
(五) 数据开发平台 29
(六) 数据服务平台 34
(七) 多租户管理 39
(八) 数据安全体系 42
(九) 数据标准体系 47
建设背景
按照 “平战结合、 条块联动、资源整合、科技支撑”的城市运营管理一体化新模式,通过对城市信息资源统一汇聚、挖掘分析,优化城市公共资源,修正城市运行缺陷,实现城市治理模式突破、城市服务模式突破、城市产业发展突破,形成城市运营管理体系。最终构建经济社会发展成果和智能应用场景集中可视化展示,城市管理资源高度整合、信息系统高度集成、部门联勤联动高度协同、上下贯通指挥高度统一的城市运营管理平台,为城市管理者提供辅助决策,使现代数字城市的运营管理更加科学化、精细化、智慧化。实现政府决策科学化、社会治理精准化、公共服务高效化的总体建设目标。
数据中台是对数据治理与运营的共性能力沉淀,让数据用起来,快速满足数据类应用的实现。它依托底层大数据存储和计算平台,服务上层数据应用体系,快速实现数据资产化、资产服务化,缩短数据与应用之间的距离,响应应用创新需求。满足数据开发与管理人员数据集成、标准、建模、开发、标签、资产、服务各层次应用需求,提高其生产力,缩短数据价值的萃取过程,提升数据价值提炼的能力。为各委办局后续在业务系统建设进行赋能,无需再建设数据中台,使用本次项目建设的数据中台进行租户空间资源申请即可,实现一个中台服务全市各领域、各部门。
建设内容
大数据计算存储平台
大数据计算存储平台实现对资源的弹性化服务,计算资源弹性伸缩、按需分配。通过建设基于大数据架构的计算存储平台实现全面扩展数据采集、存储、计算和应用服务能力,满足未来城市级大数据中心建设需求。
大数据计算存储平台支持多租户、项目空间的管理模式,能够实现数据物理集中逻辑隔离,为各部门开辟单独的逻辑数据隔离区,满足未来市级各部门的数据计算开发、数据分析探索的需求。
大数据计算存储平台要求融合分布式存储与计算、分布式数据仓库以及互联网云计算服务等技术,以分布式计算服务的形式实现海量数据的存储与处理。大数据存储计算需提供运维管理平台,能够更快速地解决海量数据计算问题,支持多租户架构,具备多应用多实例并发同时计算并隔离应用数据和程序的能力,可以让多个用户在一套平台上协同工作。
大数据存储计算引擎需采用分布式架构,存储能力和计算能力支持横向扩展,数据存储应采用分布式文件系统,支持多种存储格式,提供高可靠性和高性能,要求支持列式存储,同时具备高压缩比能力。大数据存储计算引擎要求支持与常见数据源如传统数据库、Hadoop、HDFS和文件进行数据导入导出,以及流式数据导入。大数据存储计算引擎要求基于统一的内存迭代计算架构,提供SQL、Graph计算、MapReduce、机器学习等多种数据处理接口和框架,需具有高吞吐高性能的数据处理能力,要求提供SQL查询界面内置丰富的函数库。建设内容主要包括:多租户功能、运维管理、集群管理、服务中心、数据处理能力、数据可用不可见等。
1、分布式架构
大数据存储计算引擎需提供基于大数据架构的分布式数据仓库,全面整合各类数据,按照主题组织信息,构建智能数据核心,提供对查询速度、并发度、扩展性的保障。
2、多租户管理
大数据存储计算引擎需支持多租户功能。实现面向不同业务单位分配逻辑隔离、物理统一的计算资源与存储资源,供各业务部门开展独立的大数据建设。让多个租户共用一个应用程序或运算环境。支持采用租户-项目-用户三级管理,实现平台为各委办局、各种专项事件和工作提供租户空间供其使用。平台在单个租户内又可以根据不同的业务部门创建不同的项目。每个租户中可以有多个用户,同一个用户可以到不同的项目中;同时租户内的用户可以分配不同的角色,不同角色具有不同的操作权限。
3、运维管理
大数据存储计算引擎要求提供运维管理功能,运维管理应支持展示当前的使用状况,显示系统的重要信息,包括且不限于集群服务器数量、集群整体磁盘使用率、集群整体CPU使用率、主机概览、服务概览、自定义监控项等内容。
4、集群管理
大数据存储计算引擎要求提供集群管理功能,集群管理要求支持显示各个物理主机或虚拟主机的CPU使用率、磁盘使用率、内存使用率、负载情况,包括实时图和趋势图;同时也要支持显示各个主机的主机名、IP地址、操作系统、CPU核数、磁盘总量、已使用磁盘量、内存总量、平均负载、版本、组件等信息,支持实现开启、关闭、重启组件以及主机删除功能。
5、服务中心
大数据存储计算引擎要求提供服务中心,服务中心应支持服务信息概览、修改服务配置、服务日志查看、服务的启动和关闭等功能,应支持系统的健康检测和冒烟测试等功能,便于运维时检测故障原因,同时还应支持数据审计日志、操作审计日志、内部服务日志等功能,便于事后回溯,服务中心还应支持硬件告警和服务告警等功能,告警可以通过邮件的方式通知管理员。
6、数据处理能力
大数据存储计算引擎要求支持SQL、MapReduce、Graph和机器学习的数据处理能力。SQL数据处理应基于DAG(有向无环图)执行模式和内存迭代计算架构;MapReduce数据处理应提供基于开发语言的编程接口;Graph数据处理应提供类似Pregel的API,并要求基于RDD数据模型进行迭代;机器学习数据处理应提供常用的机器学习算法库。
7、数据可用不可见
大数据存储计算引擎要求系统安全应具有用户访问认证,用户操作鉴权以及所有操作记录审计日志的能力。在多租户的使用场景时,应满足多用户协同、数据共享、数据保密和安全的需要,各部门的数据要求存储在各租户资源之内,租户间资源隔离,默认情况下无法直接跨部门访问数据,针对部署大数据平台下多租户间的数据交换时,交换数据应不发生物理上的搬移,数据不搬家,让租户在分配的租户空间内进行数据的交换,以实现“数据可用不可见”。
数据资源支撑平台
数据资源支撑平台负责归集全市的数据资源,围绕人口综合库、法人综合库建设基础库,并与现有地理信息库、信用库和电子证照库打造城市基础数据库能力,在城市基础数据库之上构建专题库和专题库。本次项目主要围绕城市态势感知、产业经济、公共安全建设专题库以及城市运营所需的主题库/专题库。
1、人口/法人综合库
建设人口/法人综合库,以先前建设的人口/法人基础库为基础,结合国家和省市要求和最新行业标准,持续归集各方数据,形成我市新的人口/法人综合库。进一步完善人口、法人全生命周期管理模型,实现人口、法人全生命周期管理,并提供对人口、法人全生命周期查询等服务。主要建设要求包括:
(1)对人口、法人库进行升级,新增标签画像功能。支持人口、法人标签全生命周期管理,提供基于标签的全景人口、法人查询服务,构建面向人口、法人全生命周期的数据标签体系。
(2)在对人口、法人标签管理方面,以监管和服务为目标,参考各个部门的三定方案,当地的热点事件,当地的地理特点进行建模。支撑标签的多维统计、标签动态展示。
(3)以标签体系为基础构建人口、法人画像,通过可视化形象展示人口、法人标签信息,支持对画像的查询、概览、详情等功能。
(4)需支持人口、法人敏感数据的安全分级、分类管理,实现数据的动态脱敏、加密的数据服务支撑。按照一定的分级原则对分类后的政府数据进行定级,从而为政府数据的开放和共享安全策略制定提供支撑的过程。
(5)提供人口、法人族谱管理功能,主要实现对人口、法人族谱的创建、维护、展示、查询等功能。
(6)人口、法人多维分析统计,需提供基于地域、时间等维度,构建人口、法人的多维分析模型,提供结构分析、分布分析、趋势分析等。
人口综合库的应用场景
面向统计分析场景,提供指标计算模型包含:常住人口、流动人口、迁入人口、迁出人口、出生人口、城镇人口、农村人口、男性人口、女性人口、死亡人口、人口密度,每年净增人口。
对实有人口数据进行挖掘分析,形成动态趋势分析图表,提供给管理者决策分析支持。主要包括:人口规模分析模型、人口构成分析模型、人口年龄结构分析模型、年龄结构分析模型、人口性别分析模型、人口出生分析模型、出生婴儿性别分析模型、人口死亡分析模型,以及入学、就业、住房、婚育、养老等各层次的人口数据分析,同时面向自然人亲缘关系,构建自然人家庭关系模型。
法人综合库的应用场景
法人综合库需按照统一的数据标准规范,归集各单位各部门法人相关数据,经过统一的清洗、处理、关联整合后,形成完整的、准确的、标准的法人综合库。数据来源主要包括行政审批、质监、税务、民政、人社、金融、供电等部门的法人信息,形成法人基本信息、资本资产信息、许可与荣誉、生产经营等主题分类。建设以统一社会信用代码为唯一标识的完整、准确、鲜活的法人综合数据库。
提供法人统计分析:实现将法人单位基础信息的信息内容和服务方式登记注册到相关政务信息资源共享平台的信息资源目录体系中,各政务部门用户查询目录体系,获得法人单位基础信息的服务内容和方式,通过相应的方式利用法人信息,社会公众通过网络访问方式利用法人信息。包含:法人基础信息统计,行业分布统计,地区分布统计,经济性质统计,经济类型统计,从业人员统计等。
法人监管与服务:以服务全市经济社会发展大局、提升政务服务水平、增强企业市场主体作用为导向,更好实现对企业的精准服务和精准监管、推动营商环境持续优化。
区别于传统人口库,本期建设的人口/法人综合库应具备以下新特性要求:
整合政务全域人口/法人数据
全系人口/法人标准体系
数据完整、准确、及时
完善的数据分层管理机制,快速实现业务模型加工
跨部门数据整合,支撑“数据多跑路,群众少跑路”的业务创新
长效可运营的方式
按照实际需求构建人口/法人多层次数据分析模型
人口/法人综合库构建需以数据为引擎、管理为手段、服务为载体的生态化的数据模型体系。在数据模型在构建过程中,必须紧密结合自然人核心数据特色建设,同时兼顾大数据整体的一致性和完整性的考虑。
2、电子证照库/信用库
电子证照库/信用库已经有阶段性成果,将原有电子证照库/信用库原有数据归集到城市运营管理平台,统一进行数据治理,提升数据质量,做好数据分析展示和提供对外服务。
3、地理信息库
已建设地理信息库,将现有的基础地理数据格式转换与入库,包括二维、三维基础数据格式转换与入库,支撑各类数据展示。并根据要求把人口、法人等数据上图分析,包括但不限于户籍人口、流动人口、少数民族、国有企业、内资企业、外资企业、私营企业等内容。
4、主题库/专题库
基于基础库的建设成果,配合运管平台专题展示,围绕城市运行所关注的维度,建设多个主题库/专题库,作为城市运营管理平台的数据支撑。
综合态势感知主题库主要包括:区域分布、城市经济、人口分布、道路交通、生态环境、教育资源、产业资源。
产业经济主题库主要包括:企业总量、从业人数规模、税收及增加值贡献、人均产出及利润率效益产出等。
公共安全主题库本次主要重点建设生产安全、消防安全、交通安全和治安安全。
在现有的城市基础数据库基础上,本次项目需要构建民生服务、环保、安全生产、交通、教育、旅游等主题库,并能够按照实际需求,快速构建其他主题/专题库。
数据归集平台
数据归集主要实现基础数据的采集和存储,先把数据存起来,成为真正的数据或大量数据集中的数据资源中心。数据归集系统应提供简单、易用的从数据归集逻辑的设计、开发、调试、部署,到运行、管理、监控各个生命周期不同阶段的集成开发工具。通过数据归集系统可实现对数据归集流程的开发和部署;要求支持通过监控和日志功能,可实现对数据归集的运行过程进行实时监视。
数据归集系统应提供强健、高效的数据处理引擎,要求支持各种复杂的数据转换流程、任务调度流程的高效运行。引擎应采取异步并行处理的技术,以实现流程中的每个组件多线程并行高效处理;数据归集系统应支持集群部署方式,允许将转换或转换中的比较耗时的数据处理组件部署在多台服务器上并发执行,将转换的工作分摊到多台服务器上,从而提高数据归集系统的数据处理效率。
数据归集系统应提供Web形式的统一管理平台,可将分布式网络环境中部署的数据归集系统服务器运行实例、运行在数据归集系统服务内的任务流程集中统一管理监控。同时管理平台应提供丰富的管理Rest API接口、方便的管理扩展机制,并支持对统一管理平台进行集成并扩展自定义插件。
1、多数据源管理
数据归集系统要求基于Java技术和标准数据库接口,要求支持部署在多种主流操作系统和国产操作系统上,要求支持与各种主流数据库、开源数据库、国产数据库的接入,比如:Oracle、MySQL、DB2、Teradata、SQL Server、PostgreSQL、Sybase等,并支持对各种结构化/非结构化格式文件的读写,以及通过多种协议与其他应用系统的交互,系统应支持与Hadoop平台的HDFS、Hive等组件的数据对接,以全量或者增量的形式将业务平台的数据和大数据平台的数据进行交换。并支持对各种结构化/非结构化格式文件的读写,以及通过多种协议与其他应用系统的交互。
2、转换管理
数据归集系统应提供大量的任务组件和转换组件,如多源的数据合并、数据的路由、数据行列转换、数据库表查询、数据校验、循环调度、流程告警、值映射、合并记录、数据计算、随机数、数据拆分、数据生成、数据去重、数据分组、数据去重等复杂处理,要求支持通过拖拽方式快速完成各种复杂的数据归集需求和集成的调度控制,无需人工编码,快速构建数据归集应用。
3、作业管理
数据归集系统应支持作业管理功能,作业管理可在转换管理的基础上,提供定时执行的服务。定时调度方式应至少包含:手动,按秒、按分钟,按天,按周,按月,按年和实时。
4、运维监控
数据归集系统应支持运维监控功能,运维监控应支持实时查看数据归集系统上的每个节点的系统运行状况,从而在系统出现状况时能快速的定位问题,例如:节点掉线、CPU运行过高、内存占用过高等问题;通过数据统计和数据对账,可以查看各个转换、作业的数据数统计等信息。
5、系统管理
数据归集系统应支持系统管理功能,系统管理应支持对数据源、转换、作业等配置信息进行导入导出,支持下载或者查看日志,便于分析和定位问题等,并可支持查看和导出相关日志,应支持管理配置允许访问系统的IP列表。推送配置应支持对全局短息网关配置。
6、权限管理
数据归集系统应支持权限管理功能,权限管理应支持创建自定义角色,通过自定义角色可给不同用户分配不同权限,实现权限的细化管理。处于安全考虑,不同用户之间的数据隔离。
7、租户管理
数据归集系统应支持租户管理功能,通过租户管理,应支持创建不同租户和创建租户的数据源、转换、作业等资源,租户空间下的资源对租户内的所有成员用户可见,不同租户的资源要求必须隔离。租户内的用户应支持创建自己的数据源、转换、作业等私有资源,私有资源对于租户的成员是不可见的。
8、工具管理
数据归集系统应支持工具管理功能,应支持批量作业、文件导入等功能,批量作业应支持批量创建多表同步任务的场景,减少创建转换和作业的工作量,实现快速同步任务的创建。
数据采集主要内容包括:
市直单位、区县部门现有业务系统;
市直单位、区县部门未来新建业务系统;
现有已建成的基础资源库,如人口库、法人、地理信息等;
现有已建成的主题资源库;
同时要求在部门内部先对数据进行如下处理:
整合规则配置:提供数据剔重、映射、转换、比对等数据整合规则的动态配置功能。提供数据的关联和聚合处理功能,并能形成完整的数据视图。
数据转换:提供对数据格式、语义等不一致数据的数据转换功能,为公共信息服务平台提供统一的、可识别、可处理的数据。
提供主流的数据转换方法,包括字符串转换、字段赋值、数据比对、数学运算、身份证格式转换等。提供数据比对可视化配置。
数据稽核:提供数据比对、核对等数据稽核功能,确保入库的数据准确性、完整性和一致性。
查询统计:能够提供整合结果信息的查询统计功能。
与现有平台整合要求:
已建政务信息资源共享开放平台,目前汇聚67个部门2400多个数据目录、79亿余条结构化数据、200多个API服务,是政数据共享开放的核心系统。
此次建设的数据中台将汇聚全市各个委办局的各业务领域数据。数据在数据中台重新进行数据汇集、治理、存储、开发建模、数据共享等一系列数据治理过程。
1、面临问题
(1) 数据的所属权
共享开放平台上的数据是各个业务的原始数据,数据的所属权归各业务单位。数据如果出现质量问题,需要原单位对数据进行修正。数据中台上的数据是大数据局治理形成的数据,需要大数据局进行数据的溯源,找到原因进行数据修正。
(2) 数据的原始属性
共享开放平台上的数据属于原始数据,数据中台上的贴源层的数据也属于原始数据,到了主题层、专题层是加工过的数据。
2、共享开放平台和数据中台的关系
(1)共享开放平台是数据中台的一个核心数据源。
作为政务业务数据共享交换的核心系统,市共享开放平台会长期存在,不仅仅为其它各业务部门提供数据的共享交换,同时也为大数据局提供共享交换,可以作为数据中台的数据来源的一个重要归集单元。
(2)共享开放平台为数据中台提供数据开放服务。
共享开放平台作为政务数据对外开放的核心系统,数据中台同样会将一些治理后的数据通过共享开放平台对外开放。两者之间相互协作,形成互相补充模式。
数据治理平台
数据治理是建设过程中至关重要的部分,面向大数据应用提供高价值数据支撑,确保大数据应用分析的准确性。数据治理面向用户提供数据治理工具和数据管理工具,用户可通过该工具将汇聚到大数据中心的“数据”转化为 “价值信息”,让用户清晰地了解数据资产,能像管理交换机、服务器一样管理数据资源,从而向大数据应用提供正确的、高价值的数据保障大数据应用运行。
数据治理系统通过对数据全生命周期、端到端的全链路透明化管控,实现“数据模型标准化、数据关系脉络化、数据加工可视化、数据质量度量化”,实现数据资产的统一管理及全业务流程的实时监控。
大数据中心基本的数据治理包含对部门数据、基础库、主题库、专题库的数据资源治理,支持依据具体业务场景驱动,开展数据治理工作。
通过数据治理系统的建设和数据治理的实施,实现综合人口库、综合法人库、电子证照库、信用库的数据规范性达标率99%,数据完整性99%、数据准确性99%、数据一致性99%、数据时效性99%、数据可访问性99%。
数据治理包含数据数据标准管理、元数据管理、数据地图、数据清洗、数据质量、系统管理等,在数据治理过程中提供一套成熟、稳定的平台。
1、功能特性
(1)数据资产业务化管理:通过统一的术语表管理实现从业务的视角对平台各类型数据实体进行分类管理,并支持各类元数据的全文搜索,给用户提供平台活动和业务数据的全景视图,形成数据的业务上下文,让数据的业务关系脉络变得更加清晰和容易理解;并且支持将数据在权限范围内以API、原始数据导出等不同方式交付。
(2)数据分布和动态变化的实时跟踪:通过丰富直观的图形展示数据的数量、分布、构成、来源、去向等关键信息,帮助用户从总体角度把握数据分布情况和动态变化的趋势,了解数据的流向以及数据之间的相互关系,供用户进行业务问题的溯源分析和影响分析。
(3)按模型驱动进行数据整合:按主题类目对统一模型进行管理和变化跟踪,实现流程化的模型驱动的多源数据的整合,保障按照统一的模型来生成核心业务数据,并帮助用户从业务角度来管理、使用数据,促进用户对数据业务含义的理解。
(4)保障数据治理的标准规范性:通过对数据对象、代码、术语、指标等定义和使用的标准化管理,保障数据在处理环节的互通性,加速实现数据的整合,促进数据质量的改进;并形成规范统一的业务口径,提升业务规范性,消除歧义,使业务沟通更顺畅,并提升信息共享度。
(5)流程化的数据质量体系:从组织管理、流程、技术、日常运维等角度,提供图形化的数据质量监控和清洗工具,帮助用户进行全流程的数据质量监控和提升,建立全面的质量评分体系,实现流程化的质量评估和绩效考核机制.
(6)实现高效的数据集中:通过形成对大量数据源系统的集中视图、开放灵活的源接口管理、高性能和高可靠的集成任务,安全保障和来源可溯的目标数据的综合管理,帮助用户进行快速高效的数据大集中。
2、主要建设内容
(1) 数据标准管理
数据标准是一套符合市大数据项目实际建设要求,涵盖定义、操作、应用多层次数据的标准化体系。数据标准的建立必须遵循一个统一的标准进行组织,才能构成一个可流通、可共享的信息平台。数据标准管理涉及数据元、数据代码、常用规则的管理维护,主要建设要求包括:
需提供数据元全生命周期管理配置功能。
需提供数据元版本差异核对功能。
需提供元数据关联关系建立功能。
需提供标准代码项对的导入导出功能。
需提供按照实际业务领域分类后,生成带有相关业务领域特征的相关编码功能。
需提供对固定格式标准进行组合形成数据治理规则的功能。
需提供一套预置的常用数据治理规则。
数据治理对标准的需求可以划分为两类,即基础性标准和应用性标准。基础性标准主要用于在不同系统间,形成信息的一致理解和统一的坐标参照系统,是信息汇集、交换以及应用的基础,包括数据分类与编码、数据字典、数字地图标准;应用性标准是为平台功能发挥所涉及的各个环节,提供一定的标准规范,以保证信息的高效汇集和交换,包括元数据标准、数据交换技术规范、数据传输协议、数据质量标准等。
数据分类与编码
该类标准规定平台汇集、交换相关信息统一的分类系统和排列顺序以及编码规则,目的是在不同系统和用户之间建立交通数据的一致参照,对提高数据采集、处理和数据交换效率具有重要作用。数据分类与编码标准的制定将有力推进平台标准化及交通信息化建设标准化的进程。
数据字典
针对实际需求,定义数据集,建立各个领域的数据字典,规范数据概念和数据定义。在此基础上,形成完备的数据集和数据字典。
(2) 元数据管理
元数据是进行数据治理和运营的基础,通过集中的元数据服务,采集各个组成模块的元数据进行集中管理,根据元数据的信息进行数据的生命周期管理,获得数据的血缘信息及数据地图展现,基于元数据还可以通过统一的门户方便各种角色的用户进行数据的管理和控制。元数据是对数据中心所有维护数据的一个结构化的业务定义,主要是对中心所有的库表的数据进行统一管理和监控,为数据的标准化运维以及数据的质量检查等工作提供相关基础,主要建设要求如下:
需提供多种结构化数据源配置管理的能力。
需提供对国内外主流的关系型数据库如Oracle、MySQL、SQLServer、达梦、金仓等,以及HBase、MongoDB和HIVE等的支持。
需提供元数据的新增、结构管理、变更对比功能。
需提供对新增或采集的元数据进行自动化分析收录的功能。
需提供针对修改更新后的元数据结构进行数据库同步物化的功能。
需提供全方位的元数据监控能力,包括元数据连接状态、数据结构、表、视图、索引等内容。
元数据管理为数据集成、数据质量管理、数据加工整合、日常运行维护、数据安全管理和业务应用提供基础能力支持。元数据管理覆盖元数据采集、元数据存储、元数据浏览、元数据查询、元数据导入导出等。
(3) 拖拽式数据清洗转换能力
提供可视化的数据清洗转换,托拉拽操作实现清洗转换功能。规则组件包括去除空白字符、去除特定字符、大小写转换、数据脱敏、汉语转拼音、同义词替换、身份证校验转换、身份证信息提取、日期拆分、字符串截取、转换为字符串、转为Unix时间戳、全角半角转换、多表合并、多列合并、拆分列、数据分组合并、空值填充、日期标准化、电话号码清洗、分区标准化、历史拉链表、实时业务表和SQL清洗等。
数据治理人员在工作画板区域内拖拽各种清洗组件,形成数据清洗工作流,从而方便快捷的完成数据清洗治理工作,并且对业务节点进行试运行操作,避免因错误配置产生的大量系统负担。
(4) 数据地图
数据地图面向数据开发者,汇聚用户所有数据信息,通过元数据信息收集、数据血缘探查、数据权限申请授权等手段,帮助完成数据信息的收集和管理,解决数据开发者"有哪些数据可用"、"到哪里可以找到数据"的难题,并且提升数据资源的利用率,数据地图包含以下功能:
数据概览
展示面向开发者和管理者的数据资产情况,展示当前总项目数、总表数、占用存储量、消耗存储量,占用存储TOP排行等;
数据表详情
展示数据表的详细信息,如表字段信息、分区信息、数据产出信息、变更历史、血缘信息。
字段信息
通过字段信息可以了解表的结构,甚至可以通过这些基础信息直接获得表的DDL语句,以完成类似数据表结构的建设;
分区信息
当该数据表存在分区,即可了解通过分区信息可以看到表的分区情况,每个分区大小、数据量的波动情况,了解产出数据在数据量上的稳定性。
产出信息
通过产出信息可以推断表产出时间的波动情况,在依赖该表时可以推算下游表的产出时间及是否可以稳定产出。
历史变更
可以了解表级别、字段级别、分区级别的修改情况,从而推断表结构稳定性、变化频率等特征。
数据信息编辑
对应数据表管理者可在数据表中,对不完整的数据资源信息进行修改说明,完善业务信息上下文,让管理者和使用者能更清晰了解其业务含义。
(5) 数据血缘管理
数据从源到目的地,经过大量的功能模块的处理和传递,呈现在业务用户面前,很多时候需要对数据的来龙去脉进行分析。数据管理平台通过元数据模块以历史事实的方式记录每项数据的来源、处理过程、应用对接情况等,记录了数据表在治理过程中的全链血缘关系,基于这些血缘关系信息,可以轻松的进行影响分析,以数据流向为主线的血缘追溯等功能,从而提升报表信息的可信度,为政务部门数据的合规性提供验证手段,帮助业务部门实现信息共享、提升协调工作效率。
数据血缘分析在任务调度过程中非常重要,能够完整、清晰的展现任务执行情况,当某个任务执行失败,立刻告警,并能够看到由于该任务失败影响的范围,同时,向前追溯可能导致该任务失败的前置任务,快速有效的帮助运维人员及时发现问题、处理问题、解决问题。
用户可以根据数据库血缘清晰的查看数据的总体流向,支持库级、表级、字段级血缘分析。当选择了某个特定的数据表之后,就可以展示与该表关联的所有表,而且还可以根据层级进行筛选,并且辅以展示相关的统计信息。
数据血缘需支持数据表之间的血缘、数据库之间的数据流向血缘、数据处理任务血缘、工作流血缘等明细信息的展示。在展示数据血缘信息时,还可以进一步查看数据表血缘明细信息,例如数据表之间是通过什么处理生成的关系,包括处理的时间、类型、日志等相关信息。
(6) 多租户的数据治理
数据治理支持多租户管理,各租户可独立完成数据的清洗治理,租户之间的数据完全隔离。
租户是用户进行数据治理的基本单位,通过多租户逻辑隔离的软硬件资源共享机制,实现租户内的不同部门和用户的数据安全管控体系。
(7)管理中心
主要建设要求如下:
支持统计数据治理各模块实时数据、方案量,以及全流程业务监控。
支持图形化统计数据接入量变化,数据清洗量,融合数据量等。
支持从规范性、完整性、唯一性、时效性、一致性、安全性等方面对当前质量情况进行评估,形成评估等级。
支持对系统中进行的治理内容进行全局图表化统计,形成报告,可导出pdf。
支持对历史的质量评估结果进行查看比对。
(8)数据模型管理
数据建模管理是面向数据仓库的模型建设,构建一款可视化的模型设计、模型管理和模型监控的建模工具。主要建设要求包括:
支持对数据模型的分类进行管理和维护,支持模型分类的审核管理。
需提供可视化数据建模方式。
支持提供逻辑模型和物理库检测。
支持将通过检测的数据模型进行发布。
支持查看已发布数据模型的历史版本信息。
支持对数据模型根据实际业务需求进行开启和停止操作。
支持将模型数据物化到指定物理库中并采集相应元数据。
支持对于已发布版本的模型,可进行共享,供其他部门订阅使用。
(9)数据集成管理
数据集成主要在数据治理平台承担数据管道作用,通过数据集成实现不同业务数据的汇聚、数据中心基础库的清洗等流程,通过在线简单灵活的可视化页面针对不同的数据汇聚、清洗流程进行配置建立,平台直接对接调度底层的数据传输工具进行数据管道的打通;实现数据集成建模与数据集成汇聚快速、高效流转的全过程。主要建设要求如下:
提供数据集成中数据单元集模型配置,数据模型即为数据集成中的数据单元集。
提供数据集成过程中,不同元数据代码项之间的映射转换功能,基本的数据格式验证以及任务调度配置。
提供统计分析和多维度问题分析及排查功能,展现集成过程中不符合方案中各字段清洗规则的异常数据结果。
提供来源统计功能,包含各库表、字段的精确来源以及领域快速筛选能力。
(10)数据资产管理
对数据整体分业务、分层分域、分类型等多角度对数据资产进行盘点,注重基础库建模分析、元数据分类查询、数据标准规则查询、数据集成流向分析,直观展示数据资产的统计分布情况,形成全方位数据资产规模视图。供应商需提供:数据资产盘点、数据血缘分析、数据地图等功能。
(11)数据采集管理
提供数据从ODS层采集到归集库的业务功能,通过简单的操作,可以完成数据的快速采集,并形成全量、增量的采集任务。需支持高频数据的切片化采集方式,提高数据的处理效率。
(12)数据清洗管理
需提供将数据从归集库集成到标准层的集成配置和清洗规则配置。
(13)质检工单管理
需提供质量工单管理功能。针对质检结果,如果有异常数据,通过质检工单的方式向责任部门发送数据修正任务,数据责任部门接收到工单后,根据数据工单的异常数据情况,重新归集数据后,完成质检工单。
3、数据模型管理
数据建模管理是面向数据仓库的模型建设,构建一款可视化的模型设计、模型管理和模型监控的建模工具。主要建设要求包括:
支持对数据模型的分类进行管理和维护,支持模型分类的审核管理。
提供可视化数据建模方式。
支持提供逻辑模型和物理库检测。
支持将通过检测的数据模型进行发布。
支持查看已发布数据模型的历史版本信息。
支持对数据模型根据实际业务需求进行开启和停止操作。
支持将模型数据物化到指定物理库中并采集相应元数据。
支持对于已发布版本的模型,可进行共享,供其他部门订阅使用。
4、数据质量管理
高质量的数据也就是精确的、一致的和及时可用的数据,是大数据平台不可缺少的一个因素。建立数据中台后需要识别与其决策制定相关的数据,以便制定确保数据准确性和完全性,为其它应用和服务的数据共享提供方便。对数据流程设立信息采集点,包括建立模式化的操作规程、原始信息的校验、错误信息的反馈、矫正等一系列的过程。
数据资产质量评估是非实时性的定期或不定期对源或系统进行的数据质量评价,由数据质量管理人员根据需要发起,根据评估指标和评估方法,对数据质量进行评价,得到评估结果以作为数据质量改进的参考和依据。
经过数据质量的监控和评估,可以发现哪些数据是缺失的,哪些数据是不准确的,哪些数据是不符合标准的,从而制定数据质量的改进方案,制定数据清洗的规则,然后实施数据质量改进。
数据质量监控是根据稽查规则进行数据稽查和规则校验,并依据稽核和检查过程中发现的数据资产质量异常情况进行告警。为了保证应用采用数据的有效性,必须保证数据的正确性、真实性、完整性、唯一性、一致性等特性,需要一套智能化、自动化的系统保证数据的质量。
监控规则
数据质量监控支持灵活的规则配置,提供基础规则模板,拥有完备的数据质量度量标准。模板提供如波动阈值比较、固定值比较等度量方式,覆盖字段级、表级规则,包含空值、唯一值、离散值、最大值、最小值、平均值、汇总值等规则。
自定义规则
支持自定义编写规则表达式,支持标准SQL形式的自定义规则及UDF规则。
并发可用型
规则采集引擎支持可配的资源池,且支持水平扩展。此外,数据质量提供可靠的容错机制,保障采集作业状态的一致性和正确性。
智能优先级保障
规则采集引擎执行层面,提供优先级错峰保障机制,在资源有限情况下,保障强规则的任务能够得到第一时间的执行,在资源空闲时,弱规则的任务能够得到有效的执行。
质量报警
当出现质量问题触发规则时,对应负责人会收到相应的报警提示,及时对数据质量进行处理优化。
质量总览
为数据质量管理人员提供监控总览情况,用户可展现目前数据质量总体/个人所监控的表的总数、配置的规则总数和今日运行任务情况的统计信息。
对被监控对象进行相关维度的波动分析功能,实现对表波动检查和字段波动检查。采用同比和环比等方式校验数据波动性,确认所传数据从记录数目和数据量两个维度的总量和增量是否正确。如果在波动检查过程中,发现和配置的检查规则不一致的情况时,提交相应的告警信息。
提供对数据表字段空值率、合法率检查功能,能够统计生成数据质量完整性和合法性评估报告,并支持下载。完整性评估:不完整比率即空值字段占比,是指每张表的不完整列的比率,即不完整字段数/字段总数。值域合法率:合法值数/有值总数。
预置多种监控分析规则
根据预定义规则对数据进行质量监控功能,从而保证系统所提供数据的可用性与正确性。质量监控规则包括布尔分析、完整性分析、标准值域分析、枚举值分析、数值分析、唯一性分析、数值分布、唯一性分析、数值分布分析、外键检查分析、日期分析、日期范围分析。针对数据库表可以调用上述质量监控规则进行数据质量监测。
数据开发平台
数据开发平台主要面向大数据业务分析人员、设计测试人员、业务管理维护人员、数据集成商, 为大数据平台集成和应用业务开发部门提供一个快速、可靠、准确、可复用的业务开发生成环境,实现大数据与行业领域知识高效融合,形成快速市场应用业务生成能力。最终,建立支撑大数据应用业务的生态体系。 通过数据分析模型化的过程,具备 3 大统一、 1 大自动化理念。
三大统一:
大数据分析语言和分析工具的统一:集成了各类大数据分析语言与分析工具,用不同类型的模型代替不同的语言和工具,形成了多样化分析模型的统一大数据分析架构与平台。
业务分析与实施过程的统一:形成了大数据分析过程的统一流程化过程,将大数据分析工作的任务与从事人员通过统一的流成实现了大数据分析技术与行业领域知识高效融合和流程化管理模式。
业务开发与管理维护的统一:通过统一的平台将大数据应用业务的开发与业务管理进行了统一,便捷了业务的共享、管理与运维。
一大自动化:
实现了分析逻辑->分析实现->测试验证->调度运行->运行结果数据展示的自动化流程和模型的自动化解释、 部署、环节准备与调度运行关键环节,屏蔽了底层系统配置等对分析人员的可见性。
1、数据开发主要功能
数据开发平台需包含模型管理、模型可视化设计、基础模型管理等开发模块,以及数据发现准备,元数据管理等管理模块。
2、可据视化模型开发(模型设计)
(1)提供多种大数据分析模型开发环境的支持
支持单独的 Mapreduce 大数据分析模型开发环境、 Spark 大数据分析模型开发环境、 Hive大数据分析开发环境、 Sqoop 大数据开发环境、 Elasticsaerch„„等各类大数据组件的混合开发环境。也提供可扩展的 Java、 Scala、 Python 程序程序块执行环境。因而支撑多样化的分析业务与模型的混合开发。
(2)平台支撑批处理 Mapreduce 和流式处理 Spark 双引擎。
(3)可视化业务便捷开发
提供 Web 化的可视化快速业务开发方式, 支持多种大数据分析模型开发环境,具备可视化的业务模型设计能力、可视化的数据查询与运行结果数据查看能力。开发的大数据业务模型任务可以直接部署到大数据基础运行环境上进行运行。 开发人员通过数据流模式的程序设计功能建立一连串的数据流程图。完整的图形接口允许开发人员使用GUI 拖放功能来描绘出内部的数据流。多样性的功能模型、处理语言模型、强大的调试排错功能以及允许使用扩展的外部 java 程序代码和 Scala、 Python、 Hive、 sqoop 脚本的开放式基础扩展模型都可让开发人员在设计时更得心应手。
3、预设基础模型库
数据开发平台须提供业界最为广泛流行的数据整合与分析模型 AI 的基础模型库,提供了大量内建模型与程序,至少包含单不限于统计模型、数据转换模型、数据输入模型、数据输出模型、表分析模型、分类模型、表查询模型、聚类模型、关联分析模型、时序分析模型、推荐模型、回归模型、机器学习模型、因子分析模型、采样算法、决策方法、判别分析等类别模型,供开发人员选取使用。
4、模型提交运行与日志跟踪
提供模型提交预览与自动化模型解释、准备与运行功能,所设计的模型可以直接提交给大数据运行环境进行运行。 AI 提供本地日志查看功能, 设计人员可以使用内建的日志功能来监视业务模型的工作过程。您也可以将日志通过其接口输出到远端数据库, 并直接使用各种日程管理工具来监控数据处理任务。
5、运行结果数据查看
提供对模型运行结果直接查看的功能,方便业务开发人员对业务模型进行验证、调优。
6、模型管理与调度/资源管理
(1)模型管理
主要提供模型检索;模型信息查阅,模型元数据查看,运行日志即情况查看;对其他用户发布的模型进行使用模型申请;对其他用户申请的模型使用进行审批;模型发布;模型类别配属等功能。
(2)资源管理(我的资源库)
对数据建模分析过程中需要用到的 JDBC 驱动程序,第三方 Lib, jar 包,流接口,私有模型插件进行管理。
(3)调度规划
提供了丰富灵活的模型运行调度规划策略,用户可以发起及时调度、多种方案的定时调度和多种方案的周期任务调度规划。
(4)调度监控
系统提供了三级日志跟踪与查阅功能,可以对调度任务日志进行详细跟踪与查看。同时提供了任务执行流程示意图,根据该示意图,用户可以清晰的判断业务模型的执行情况,诊断执行问题,快速定位模型问题并加以修正。
(5)系统运维管理
提供界面化得系统运维管理。
(6)自动化模型解释
对不同类型的数据流程模型自动化的解释为大数据系统能够识别的 Mapreduce、sqoop、 hive、 R 程序单元。
(7)自动化模型运行环境准备
自动化的完成模型运行环境准备、采用权限认证服务对模型运行权限进行自动化认证,提交可运行任务调度请求。
(8)第三方模型插件功能扩展
系统是强大的开放式环境,基于插件架构, 支撑大量的用户自定义模型插件,用户自定义插件可以通过系统的基础模型管理功能对自定义模型进行增添删除管理。
数据服务平台
基于完善的安全控制机制和数据使用管理机制,整合全市各级各应用系统和公共平台的数据及服务共享接口,将数据来源、数据分析、数据使用有机的串联起来进行统一的管理,提高数据管理能力,提升管理质量,构建全市统一的数据服务平台。
为了更有效的对数据进行控制,市政务服务体系是以服务接口方式对各业务系统实现数据共享的。各政府部门可通过数据开放平台获取数据资源服务,也可通过数据服务平台将服务接口应用提供给其他业务系统进行调用。数据服务平台作为该流程的支撑平台,支持多种类型的接口服务、支持第三方接口的转换、接口的生命周期管理及运行情况监控等必要功能。
1、系统主要功能
(1)服务注册
服务资源注册用于对外发布的服务接口首先需要进行注册管理。系统提供API资源发布功能,部门用户可将可将本地数据资源包装成API接口后自行发布,也可将第三方数据接口重新包装后发布,服务注册时需要登记该接口服务发布的服务接口标识、服务接口名称、服务类别、服务分类信息、服务规范版本、输入参数信息、输出参数信息、接口类型、共享等级、资源有效期、服务接口描述、服务接口地址、允许请求范围等注册并编目后的服务接口可以在检索的界面中按照类目分别展示,方便使用人员查找需要使用的服务。大数据中心负责服务注册的审核工作。自助服务注册主要包括服务请求方注册和服务接口的注册。
服务请求方注册:在线登记注册服务请求方的相关描述信息:包括服务请求方标识、服务请求方名称、服务请求方简述、所属业务条线、所属行政层级、所属应用系统类别、所属应用系统名称、管理单位名称、管理单位机构代码。
服务接口注册:在线登记共享服务所遵循的服务规约相关描述信息,包括:查询方法、输入参数、输出参数、约束参数等。在线登记注册服务接口的相关描述信息:包括服务接口标识、服务接口名称、服务类别、服务分类信息、服务规范版本、服务接口描述服务接口地址、允许请求范围等。
(2)协议转换
支持协议转换功能,支持将RESTful API、 Soap、 Dubbo等当前主流协议转换为RESTful,转换过程对用户透明,用户仅需要录入真实服务信息,录入后由平台自动完成转换,并生成相应的API文档。
(3)服务审核
系统提供审核功能可对服务请求方的请求信息进行审核,只有审核确认的用户,才可查看服务资源。
系统提供服务资源审核功能,服务注册发布后,系统对服务接口信息进行核查、审批,批准之后,服务才可发布,审核不通过的服务退回重新修改。
(4)服务授权
系统对服务请求方、用户、资源进行了分级管理,支持服务以及目录权限控制,通过服务权限控制实现服务授权。每个请求方预先设定了等级,结合数据项等级,控制用户可访问和订阅的范围,可基于行政层级、岗位、地域等进行授权。
(5)服务发布
系统发布的服务会选择发布的目录,通过发布目录来确认发布范围,同时设置共享等级,根据共享等级来保证哪些申请方可以浏览订阅该资源。通过对共享数据访问方式的控制以及数据颗粒度控制,服务方实现对自身共享数据的管理,即数据服务方在开放自己的数据服务接口的同时,设定对资源的访问授权。同时为了实现对数据服务过程的全记录,系统监控服务方每笔数据服务过程
(6)服务目录
通过目录管理系统对发布的服务接口进行编目管理,服务目录可自动更新,并根据当前申请方和用户的授权范围查看可访问的服务资源。
服务会按照主题分类、发布单位等进行分类检索,并提供服务资源名称、分类、服务资源描述、好评度、热度等信息。
(7)服务订阅
使用方通过平台找到感兴趣的资源后,发起订阅申请,经供应方授权同意后,才有访问服务的权限。
(8)认证机制
提供免认证、Basic认证、Digest认证、Token认证四种认证机制来阻止非法调用,用户可根据业务需求自行选择认证方式。
(9)服务限速
支持从服务和应用两个维度进行限速,同时支持达到限速阈值后邮件告警,以防止突发流量对用户真实服务造成冲击。
(10)多维分析
提供多维分析功能,用户可以从多个维度来查看服务的调用情况,支持从服务维度、应用维度、管理者等维度来进行统计分析。
(11)运维监控
提供丰富的运维功能,支持查看集群状态、系统资源占用情况、操作记录、系统日志、监控告警等信息,以便运维人员快速掌握平台运行情况。
2、数据表转服务的在线封装
支持数据表转服务能力,支持根据主流关系型数据库的数据元信息自动生成RESTfulAPI功能,包括但不限于MySQL、Oracle和PostgreSQL等。提供从数据表生成RESTful服务的能力,可提高服务的开发速度。
3、服务级和应用级的访问限速
支持服务级和应用级访问限速功能,可基于服务进行限速,可限制某一应用访问服务级的速度。服务级限速,支持设置服务每秒最大访问次数;应用级限速,支持针对应用来设置每秒最大访问服务的次数。
4、服务调用情况统一监控分析
支持提供多个维度统计分析API的调用情况,包括但不限于已发布的服务数量、已发布的应用数量、服务调用的总次数(成功、失败)和服务调用轨迹分析等。同时提供服务调用Top5(今日调用,历史累积调用)、应用调用Top5(今日调用,历史累积调用)和服务调用耗时分析,可按不同维度包括按小时、按天、按月和按年等维度查看和比对API调用轨迹信息。
支持提供系统日志和操作日志记录功能,便于用户事后审计。
5、高可靠实现单节点容错机制
支持高可用部署,提供单节点容错机制,在出现单节点故障时,工作仍可正常运行。数据共享平台的分布式架构在负载均衡层和业务处理层均采用多点部署方式,管控平台和网关流量转发层面都具备高可靠性,避免由单点故障引起的整个系统不可用现象。
6、业务系统接口自助申请发布
为有效支撑各政务业务系统之间的业务协同(如一网通办中上下游业务的业务流转),服务接口自助与管理系统要提供标准化的服务接口申请发布流程和开发规范,各政务部门业务系统可参考开发规范开发业务流转接口,并参考系统上发布的操作指导自助完成接口生成与发布,其他业务部门可以在服务接口自助与管理系统上发现所有发布的服务接口,并自助完成接口的使用申请,经系统审核流程完成后直接进行服务接口的生成与发布。
多租户管理
数据中台是面向全市提供大数据基础支撑能力,本次建设需要考虑面向市各部门提供大数据基础支撑能力,包括数据治理能力、数据开发能力、数据开放能力、数据分析能力。系统建设的时候需要考虑能够为各业务部门提供具备租户隔离的平台使用能力。提供在线的大数据开发环境,各部门能够非常方便地使用平台提供的存储计算资源、工具,开展大数据的查询、开发、治理、封装等,实现数据价值化。为各业务单位便利化使用,需提供统一的登陆界面,实现多租户的统一入口。
各政务部门开展大数据的各项数据治理业务,主要包括以下重要过程:
1、租户空间的创建和授权
平台管理者为业务单位创建租户空间,即在大数据存储计算平台、数据归集治理平台、数据开发平台中创建相应租户空间。同时,为租户指定项目管理员和开发成员,分配各账号相应权限等,完成租户基础环境的准备。
2、租户内基本功能
业务单位利用数据治理平台对其租户的数据操作提供基本功能,具体要求包括:
(1) 库表查询
库表查询,需提供隔离区内的数据资源浏览功能,包括资源详情查看、资源权限申请、资源收藏、类目配置等功能。
(2) 数据资源搜索
提供租户权限范围内数据表的搜索功能,搜索结果可支持按类目、名称等条件进行排序。
(3) 数据权限管理
针对业务单位需要使用其他隔离区的数据场景,可以通过线上申请流程申请其他租户和项目申请数据访问权限。经过数据拥有部门、大数据管理中心审核通过后,即可实现对数据资源的跨租户的使用。
(4) 数据资源管理
提供可视化的建表、修改表结构功能,实现方便快捷的创建表与修改表。同时,可实现数据表生命周期修改等数据资源管理功能。
3、租户内数据治理
业务单位利用数据治理系统,对本单位租户的数据资源进行可视化的数据清洗、数据质量监控、数据建模,不断提升数据质量。
(1) 可视化数据清洗
使用数据治理系统内置丰富的数据清洗规则,对本单位租户内的数据进行清洗,解决数据中存在的不完整、重复、缺失、非标准化的问题。
(2) 数据质量监控
使用数据质量管理功能,对本单位租户内的数据按照数据质量管理流程,进行概要分析、质量规则定义,发现和监控其中的质量问题,并进行质量改进。
(3) 数据建模
提供数据模型设计功能,在本单位租户内,完成主题域、逻辑模型、物理模型建模设计,同时提供配置模型的加工逻辑显示。
4、租户内数据作业开发
业务单位利用数据开发平台对其租户的数据进行加工处理,完成数据建仓建模工作,实现数据价值提炼,具体功能要求包括:
(1) 数据作业开发
为数据使用者提供基于多租户的集成开发环境,数据开发者可以在自己的租户空间下进行ETL开发、数据挖掘算法开发、数据主题库建设等需求。数据处理程序仅本隔离区可见。
(2) 作业流程配置
通过工作流引擎,为本租户内的数据作业程序配置调度任务,实现作业任务的周期性运行。作业流的配置需支持拖拽式、可视化的配置功能。
(3) 数据作业发布上线
部门开发者在开发项目中空间完成工作流任务、资源、函数的开发并通过测试后,可将测试空间的工作流任务发布至生产项目空间中正式运行。
5、数据开放
数据开发人员在租户内数据分析结果同样需要开放并提供给应用使用,利用服务接口管理,通过向导配置地方式将数据封装为API,并将API注册至数据共享开放平台中,允许开发者自行编写API的查询SQL,并支持多表关联、复杂查询条件以及聚合函数等能力。
数据安全体系
为保障数据安全,依据国家政策法规,采用先进的数据安全技术,进行建设,实现数据安全全生命周期监管。主要考虑主要几个方面建设:数据基础安全加固、敏感数据安全资产管理平台建设、数据安全风控平台建设、数据安全监管及运维体系建设和数据安全服务。
数据基础安全加固:根据数据安全现状与缺陷的评估报告,从数据生产、数据存储、数据传输、数据处理、数据交换、数据销毁方面完善数据基础设施安全措施。
敏感数据安全资产管理平台建设:建立敏感数据资产管理系统,对核心业务系统数据进行统一资产化管理和数据访问控制策略管理,并通过对数据全生命周期的流转监控,发现数据资产管理的缺陷并优化,确保数据安全策略的一致性。
数据安全风控平台建设:建立数据风险的监控感知和控制机制,对数据流动情况进行实时监控,同时建立数据行为风控和溯源审计系统,分析并预警数据风险事件,进行事前风险预防、事中风险预警、事后风险溯源的数据全方位安全监管。
数据安全管理及运维体系建设:建设数据安全管理体系,从组织保障、管理团队、人员培训、规范制定等管理手段出发,有效提升人员的安全防护意识。建立数据运维管理体系,借助风险控制技术规范数据使用流程和加强安全告警处理体系建设。
数据安全服务:对市大数据局职责范围内的现有业务系统提供数据资产梳理、数据评估与分级、数据权限管理审批、敏感数据识别发现、数据风险监控预警等数据安全服务,以保障数据的安全性。
1、数据存储安全设计
(1) 自动存储容错机制,保障数据高可靠性
基于数据多副本备份、自动存储容错、系统错误监控、故障自动迁移等技术,确保数据的安全性,数据可用性达到99.99%。
在离线数据处理平台中,数据采用3副本,并且保障各副本数据保存在不同的计算节点中。一旦某个计算节点出现故障时,系统可以完成监控到错误并完成故障的自动迁移。
(2) 租户隔离和用户权限控制,保障数据计算和访问安全
在租户层面,离线数据处理平台和实时数据处理平台支持租户资源隔离,包括CPU、内存等,确保不同租户间数据计算的安全;
在用户层面,离线数据处理平台和实时数据处理平台支持用户间的权限控制,确保数据访问安全。离线数据处理平台支持基于ACL的用户权限管理,可以配置灵活的数据访问控制策略,防止数据越权访问;实时数据处理平台支持LDAP、Kerberos协议,基于访问控制列表ACL支持灵活的基于角色或用户的安全控制,包括对可用资源上限(内存、连接数、优先级等)、database、table、external table、view、function、procedurallanguages 、schemas等,防止数据的越权访问。
2、数据集成安全设计
数据集成平台负责完成数据同步/传输过程,整体数据传输过程完全控制于数据ETL工具同步集群模型下,从而实现同步的通道以及同步数据流对用户完全隔离,保障数据同步过程中安全。如下图所示:
(1) 角色和权限
支持系统预定义角色和用户自定义角色,不同角色赋予不同的权限,可以细粒度的控制不同用户的权限。
(2) 多租户隔离
数据集成平台支持系统多租户隔离。数据集成平台的用户相互之间是无法管控对方的下属所有对象信息,包括Job配置信息、Job传输数据流信息。同时,不同用户不同Job运行环境互相隔离,从而保障数据ETL工具租户与租户之间、Job与Job之间的数据安全。
(3) 数据源签权
为了避免用户鉴权信息(例如用户密码、用户Token等敏感字段)泄露,数据集成平台本身提供了一套安全非对称加密方式,保证用户敏感信息不会存在泄密风险。
3、数据开发安全设计
(1) 授权管理
功能权限和数据权限分离。
功能权限基于角色和权限点控制,提供了非常细致的功能控制粒度。同时提供自定义角色功能,使用户可以进行团队分工和协作。
基于数据包进行数据授权管理。支持组织间数据交换,项目间数据交换和项目内对成员的数据授权控制,支持数据授权有效期控制。
生产环境和开发环境数据授权隔离,通过授权可控制个人用户对生产数据的可见范围,生产数据对个人只读不可写,并且混合数据可用不可看。
(2) 日志审计
日志审计模块记录所有用户通过系统对功能模块、数据的操作日志,包括用户的帐号、权限和认证的管理日志以及系统自身服务调用等的系统日志,内容包含操作产品、操作人、操作目标和操作行为等信息。遇到特殊安全事件和系统故障,日志审计可以帮助管理员进行故障快速定位,并提供客观依据进行追查和恢复。
账号管理日志:
该类日志是负责记录本系统上的每个组织帐户管理活动,具体包括创建、删除、修改、禁用等。
认证登录日志:
该类日志是负责记录本系统上的用户登录认证活动,具体包括成功的用户登录认证、失败的用户登录认证、用户注销、用户超时退出等。
权限管理日志:
该类日志是负责记录本系统上的用户权限分配策略的每一个更改活动,具体包括用户/用户组的权限指派、用户/用户组的权限移除等。
业务操作日志:
该类日志是负责记录用户在产品系统上对相应功能或数据的操作而产生的行为记录日志,如数据访问记录的日志。
(3) 数据脱敏
数据开发平台可提供数据脱敏安全服务,内置多种常用的数据脱敏方案,帮助用户对某些敏感信息通过脱敏规则进行数据的变形,在保存数据原始特征(比如数据类型、长度和属性等)的同时改变它的数值,确保应用程序可在使用脱敏数据的开发与测试过程中正常运行,从而防止敏感数据被滥用、被泄露的风险,保护敏感数据免于未经授权的访问。帮助安防系统提高安全性和保密等级、满足安全性的规范要求,以及由管理/审计机关所要求的隐私标准,以防止敏感数据被滥用、被泄露的风险。
(4) 代码安全
数据开发平台可提供代码加密功能,加密后的代码需要密钥解密才能查看到源代码,确保核心代码的安全。
代码安全另外还包括工作流的备份和恢复,数据开发平台可以将整个工作流以及工作流相关的节点、资源文件等进行离线备份和恢复,确保代码不丢失。
数据开发平台提供回收站功能,防止代码误删。
完善的用户角色权限控制,包括超级管理员、空间管理员、空间开发人员、空间测试人员等,不同角色拥有不同的操作权限
数据标准体系
数据标准是进行数据标准化的主要依据,构建一套完整的数据标准体系是开展数据标准管理工作的良好基础,有利于打通数据底层的互通性,提升数据的可用性。
数据标准从多个方面支撑政府的数字化转型。在业务方面,数据标准能够明确很多业务含义,使得业务部门之间、业务和技术之间、统计指标之间统一认识与口径。在技术方面,数据标准能够帮助构建规范的物理数据模型,实现数据在跨系统间敏捷交互,减少数据清洗的工作量,便于数据融合分析。本次标准规范建设内容包含数据标准、架构规范、运维规范、安全规范等。
1、构建数据标准的实践原则
数据标准管理工作应遵循机制先行、合理规划、贴近业务、循序渐进的实践原则。
(1) 高层负责,机制先行
数据标准工作应得到高层重视,并指定公司高层负责数据管理和数据标准管理工作,组织制定数据标准相关管理办法。应在建立专门的数据标准管理机构或工作组,负责数据标准管理的日常工作,并赋予管理权限和资源,同时可制定数据标准管理工作的考核要求。
(2) 明确定位,合理规划
数据标准化是基础性工作,短期内较难在每个应用上和业务上体现价值。应从长远出发,分阶段规划数据标准管理工作,明确各阶段的数据标准管理的优先级以及主要工作内容,确保数据标准管理工作的阶段性成果输出可作为下一阶段数据标准管理工作有效输入。针对本次项目围绕人口综合库、法人综合库的数据建设,参考国家、江苏省、市以及行业标准,形成本次基础的数据标准。
(3) 贴近业务,切合实际
应把握标准与业务需求的关系,标准来源于业务,服务于业务,是对业务的高度提升和总结。应分析业务现状,挖掘业务需求,引领业务部门的广泛、深入参与,更易获得业务部门的认可。数据标准应以落地实施为目的,并以在国家、行业标准的基础上,结合现有系统的现状,以对现有业务系统的影响最小为原则编制和落地标准,才能确保标准切实可用,让标准最终回归到业务中,发挥价值。
(4) 循序渐进,成效说话
根据业务需求,结合系统改造和新建系统的契机,选择适当的数据标准落地范围和层次,对亟待解决的标准问题进行落地。同时,还需及时总结建立和实施数据标准带来的价值和成效。
2、标准规范的分类
大数据参考架构及标准化需求,根据数据全周期管理,数据自身标准化特点,当前各领域推动大数据应用的初步实践,以及未来大数据发展的趋势,提出大数据标准体系框架,分别为:基础标准、技术标准、产品和平台标准、安全标准、应用和服务标准。
(1)基础标准
为整个标准体系提供包括总则、术语、参考模型、元数据等基础性标准。
(2)技术标准
该类标准主要针对大数据相关技术进行规范。包括大数据集描述与评估、大数据处理生命周期技术和互操作技术三类标准。其中,大数据集描述与评估主要针对描述模型、分类方法、质量模型、评估和数据溯源等方面进行规范。大数据处理生命周期技术主要针对数据的收集、预处理、分析、可视化、访问等方面进行规范。
(3)产品和平台标准
该类标准主要针对大数据相关技术产品和应用平台进行规范,包括系统级产品和工具级产品相关标准及测试规范。其中,工具级产品规范包括平台基础设施、预处理类产品、存储类产品、分布式计算工具、数据库产品、应用分析智能工具、平台管理工具类产品的的技术、功能、接口等进行规范。相应的测试规范针对相关产品和平台给出测试方法和要求。
(4)安全标准
数据安全作为数据标准的支撑体系,贯穿于数据整个生命周期的各个阶段。抛开传统的网络安全和系统安全,大数据时代下的数据安全标准主要包括通用要求、隐私保护两类标准。
(5)应用和服务标准
应用和服务类标准主要是针对数据中台所能提供的应用和服务从技术、功能、开发、维护和管理等方面进行规范。