集团级全域数据整合的大数据中心架构设计与实施

随着航空制造型企业数字化研发、制造的深入开展,全域数据如预先研究数据、技术创新数据、设计数据、工艺数据、试验数据、制造数据、服务保障数据、供应链数据、资源数据、设备实时数据等越来越半 / 非结构化、版本众多、层次结构复杂且数据量日益增多,逐步呈现出“工业大数据”的特征。


针对航空制造类大型企业对全域数据统一采集入库和共享应用需求,结合大数据分布式存储计算技术迅猛发展且日渐成熟的现状,有必要搭建集团级统一的数据管理信息基础设施环境,建立大数据中心(简称数据中心)一体化平台,提供 IT 资源线性扩展、弹性计算、实时响应、动态调节的数据处理能力,支持全域数据从下属单位传输、审核和汇聚进入数据中心,并确保数据真实性、完整性和权威性,为集团级数据交换共享和关联、深入分析挖掘做准备。


1 集团级大数据中心一体化平台业务架构


数据中心提供数据采集、存储、计算、治理和服务等功能,业务架构如图 1:

图1 业务架构


数据采集涵盖总部及所属单位产生的结构化数据、半 / 非结构化数据、设备实时流数据,数据具备多型号、多阶段、多工具、多来源、多专业、复杂结构、复杂格式、复杂关联、复杂内涵等特点,需要支持跨层级、跨地域、跨部门、跨业务、跨系统等的采集传输,支持按数据量(增量、全量)、时间(定时、实时)等任务触发规则来调度采集任务,同时提供对数据采集过程的全程监控。


数据存储面向大批量的结构化数据(关系型数据库表行列等)、非结构化数据(图像、音视频、文档、二维图纸、三维模型等)、半结构化数据(CSV、XML、JSON 的日志等)和实时流数据(设备实时数据等)的高效存储。


数据计算提供离线批量计算、内存计算、实时流式计算、图计算、查询计算等计算能力,支持将规模庞大的数据计算处理任务分解到多个分布式计算节点上执行,提高数据处理效率,并满足交互式快速查询(PB 级数据秒级查询响应)。


数据服务提供各类数据服务,包括数据分析、数据挖掘、知识图谱、数据可视化、数据共享交换和数据服务网关等功能,实现数据的共享及价值最大化。


数据治理确保数据中心提供高质量和真实可靠的数据,包括数据架构管理、数据开发管理、主数据管理、元数据管理、数据质量管理和数据安全管理等。


2 集团级大数据中心一体化平台数据架构


数据架构可以从多个角度进行描述,本文主要关注数据存储分类。针对数据中心归集的全域数据,在数据转变为数据资产的过程中,会依次形成不同类型的数据资源库。数据架构如图 2:

图2 数据架构


预处理数据库存放总部和所属单位业务系统 / 数据中心汇聚的原始格式的源数据以及人工维护产生的源数据等。


业务主题库是通过构建业务主题模型,整合处理预处理数据库的数据,并按照主题数据分类形成的主题数据。产品主题库整合产品全生命周期数据,构建虚拟产品主题库、实物产品主题库、服务保障主题库、试验数据主题库等。


公共基础库整合产品研制过程的共性基础数据,构建技术创新主题库和共性资源主题库等。


分析数据库是针对某一个业务领域建立分析模型,为决策层查看数据分析报表提供数据支撑。


知识图谱库基于机器学习和本体识别技术,从公共基础库、产品主题库、业务主题库等中提取各类实体,利用图数据库将不同来源的数据组织起来,建立数据之间的关联关系,让数据关系显性化、业务数据互通化、残缺关系完整化。


模型库基于算法模型,结合仿真、制造等专业领域的机理知识,构建各类分析模型,将业务经验沉淀为包含特定思路的业务分析模型,以反哺业务。


主数据库整合全集团核心、共享的基础数据,以数据服务方式把统一、完整、准确、权威的主数据分发给需要使用主数据的业务系统。


中央元数据库提供相应数据上下文环境描述信息的统一存储,支持对业务元数据、技术元数据和操作元数据的集中管理,可将业务术语与技术元数据链接起来,打通业务和技术的鸿沟。


3 集团级大数据中心一体化平台应用架构


应用架构反映数据采集 / 汇聚、存储、计算、管理 / 治理、分析、挖掘、开发、服务、安全以及资源虚拟化等 IT软件工具,如图 3:

图3 应用架构


4 集团级大数据中心一体化平台技术架构


数据中心采用关系型数据库与大数据混合架构的技术,技术架构如图 4:

图4 技术架构


4.1 数据集成交换


针对全域数据采集,制定不同的数据接入方式:


(1)对结构化数据如 PDM、ERP、MES、TDM 等业务系统数据,通过 ETL/ELT 工 具、API 接 口、CDC 数 据 复 制同步等方式从系统的关系型数据库中采集。


(2)对于音视频、图文档等非结构化数据,通过 FLUME/FTP/SFTP 技术接入或者开发专门的 API 接入大文件。


(3)对于设备产生的实时流数据,通过 Kafka 技术采集和处理,满足数据实时集成需求,可处理每秒数万甚至数十万个、数万计事件流。


(4)采集的各类数据要跨层级、跨地域、跨组织传输到数据中心,需要采用消息中间件,以消息队列 MQ 方式执行数据收取、打包、压缩、路由转发、接收、解压、入库等操作;大文件传输采用支持 P2P 协议的大文件传输工具。


数据采集传输过程需要统一的控制管理,包括数据源定义、任务配置、任务管理、规则定义、调度编排等;针对采集传输过程,提供任务调度及过程监控功能,包括任务监控、运行报告、任务质量、日志管理、数据质量、数据稽核等。


4.2 数据存储计算


考虑到数据存储计算架构的稳定性和扩展性,引入关系型数据库和大数据技术,满足各类数据存储计算需求。


(1)关系型数据库:采用成熟的商业版结构化关系型数据库软件,构建关系型数据库集群,即 RAC(Real Application Clusters),其核心是基于共享磁盘,集群中所有节点必须能够访问所有数据、重做日志文件、控制文件和参数文件,数据磁盘必须是全局可用的,允许所有节点访问数据库,每个节点有它自己的重做日志和控制文件,但是其他节点必须能够访问它们以便在那个节点出现系统故障时能够恢复。关系型数据库 RAC 集群架构如图 5:

图5 关系型数据库RAC集群架构


(2)数据湖软件:提供湖仓一体的智能数据湖,具备 PB ~ EB 级数据存储、计算能力,可满足海量结构化、非结构化和半结构化数据的存储需求,具备事务处理、批处理、流处理、实时与离线分析、交互查询、实时检索、多模分析等多种数据处理和多租户、数据权限和资源隔离等集群管理能力,支撑 SQL 分析、业务智能、大数据分析挖掘、机器学习、深度学习、知识图谱等数据科学领域应用,可实现“湖里”和“仓里”数据、元数据的无缝打通和自由流动。


支撑全域数据存储和计算,各类原始结构化数据保存到 Hive 中,通过数据建模对数据进行整理,形成预处理数据库、业务主题库、公共主题库和产品主题库;对时效性要求较高的面向联机分析处理(OLAP)的分析数据库保存到大规模并行处理(MPP)数据库中;非结构化数据保存到 HDFS中;设备状态、传感器等实时时序数据保存在时序数据库 IoTDB 中;实时处理中用到的临时缓存等热数据保存在 Redis 内存数据库中;为提高 HDFS存储数据增量处理能力,引入 Hudi 组件,提供一个自管理数据平面来摄取、转换和管理数据并解锁对这些数据进行增量处理的方式。数据湖提供统一的数据查询、计算组件,包括离线批处理计算 MapReduce/Tez 组件;实时流 计 算 Flink、Spark Streaming 组件,与 Kafka 结合使用,能够适用于几乎所有的流式准实时计算场景;内存计算 Spark 组件,数据存储和计算全部存在于主内存中,利用 CPU 和内存的优势,结合并行计算技术,实现高性能计算;智能搜索和全文检索的ElasticSearch 组件;知识图谱应用的图计算引擎(Graphbase)等。数据湖软件架构如图 6:

图6 数据湖软件架构


4.3 数据分析挖掘


提供报表分析、分析、交互式分析和清单提供等分析组件;提供机器学习、深度学习、人工智能技术(语音识别、图像处理、自然语言处理、知识图谱等)等挖掘组件。


4.4 数据服务


提供服务开发、注册、发布、服务目录、订阅、推送、监控等组件。


4.5 数据运维


提供计算资源、网络资源、存储资源的虚拟化组件,以及分布式集群管理、调度、资源协调、资源监控、容灾备份等组件。


4.6 数据安全


提供登录认证、访问授权、数据加密、传输加密、数据脱敏、安全审计等组件。


5 结束语


基于分布式存储计算和智能数据湖技术,建设集团级大数据中心一体化平台,实现 IT 资源的弹性伸缩与可管可控,满足海量结构化、非结构化和半结构化数据的存储计算、分析挖掘应用需求,助力提升航空制造型企业产品研发能力和运营管控水平。


作者单位:中国航空发动机集团公司 郑诗雨 魏锋

标签: 生活电器新闻资讯

豫ICP备2023009448号-49