知识驱动与物理融合:新一代油气勘探开发高质量数据集平台技术白皮书

挑战与愿景

在国家《“数据要素×”三年行动计划》与中央企业“人工智能+”专项行动的宏观战略指引下,油气行业正迎来一场深刻的数智化变革。特别是中海油“人工智能+”行动方案中明确提出的“数据脉动行动”,将构建高质量、模型可用的数据集提升到了前所未有的战略高度。对标国际先进实践(如Penobscot公开数据集、ExxonMobil基于OSDU的DDMS),我们清醒地认识到,弥合“原始数据”与“模型可用数据”之间的鸿沟,已成为激活数据要素、驱动行业高质量发展的核心命脉。


然而,当前油气上游业务在数据深度应用方面仍面临严峻挑战,这些挑战深刻制约了人工智能技术的应用深度与广度。本白皮书旨在提出一个全新的数据驱动勘探开发作业模式,并通过一个融合知识驱动与物理机理的新一代平台来使能这一模式,其核心是系统性地解决数据价值释放的瓶颈,赋能一线业务专家。


为实现这一愿景,我们必须首先正视当前油气行业在构建高质量数据集时面临的四大核心挑战:


1、数据基础与业务割裂

传统的IT数据清洗流程往往因缺乏对油气行业物理机理的深刻理解而与业务脱节。例如,在处理测井或生产数据时,一些统计学上的“异常值”可能蕴含着高压层、裂缝带等关键地质信息。缺乏物理机理约束的清洗规则,极易将这些关键信号误判并剔除,导致数据失真。此外,数据模型标准不统一、缺乏大规模业务验证等问题,使得数据基础难以有效支撑高质量模型的训练与应用。


2、高质量数据标注瓶颈

当前的数据标注工作高度依赖领域专家的手工操作,这一模式存在四大瓶颈:效率低下,无法满足大规模模型训练对海量样本的需求;成本高昂,专家资源稀缺且宝贵;质量不稳定,不同专家的标注标准和理解存在差异;缺乏统一语义模型,导致标注口径不一,数据难以复用和积累,已成为制约AI应用落地的关键环节。


3、建设流程与体系不健全

行业内尚未普遍建立起一套覆盖数据采集、治理、标注、验证、更新到应用的全生命周期建设流程与管理体系。这导致已构建的数据集往往缺乏有效的版本管理、血缘追溯和协同机制,呈现出“一次性建设、难以复用”的窘境,无法形成稳定、高效、可持续的智能数据供给能力。


4、数据价值释放困难

油气行业的一线地质油藏工程师是业务知识最丰富的群体,但他们普遍缺乏专业的算法编程与建模能力。面对海量的数据湖资产,他们虽有解决实际生产问题的迫切需求,却苦于没有“开箱即用”的低代码或无代码建模工具,导致数据资产的价值难以被充分、高效地释放。


为系统性地应对上述挑战,侏罗纪软件设计了一套全新的平台架构,旨在将复杂的数据准备与建模工作流程化、智能化、普惠化,从而支撑这一全新的作业模式。

高质量数据集平台总体架构设计


为有效应对前述挑战,平台架构设计的核心理念是 “搬运式 + 集市化” 。这一架构原则避免了替换现有企业数据湖的高风险与高成本,转而构建一个敏捷的、高价值的中间层。它高效地从数据湖中“搬运”原始数据,在平台内部通过一系列智能化的精加工与特征工程,最终形成可信、可追溯、可复用的高质量特征资产“集市”,并为业务专家提供一个集成的低代码计算与建模环境,从而在确保治理与血缘的同时,极大加速AI应用的上市时间。


平台的逻辑架构共分为四层,每一层都承担着清晰而关键的功能:


1、源数据接入层

该层作为数据联邦的战略入口,无缝集成企业现有数据资产。它能够连接到企业级数据湖和知识图谱数据库,并支持对LAS(测井)、SEGY(地震)、PDF报告、生产报表等多源异构数据的定时或触发式“搬运”任务。这一设计确保了平台能够持续获取最新的原始数据,同时又与底层数据存储解耦。


2、数据加工与特征工程层

作为平台的核心处理引擎,该层被设计为一座特征工厂 。它集成了四大关键能力,以实现从原始数据到高质量特征的转化:


(1)非结构化解析引擎:内置OCR、NLP及计算机视觉(CV)算子,能够自动化地从扫描的PDF报告、日报、岩心图像等非结构化数据中提取结构化信息。


(2)物理机理清洗引擎
:基于流体力学、地质统计学等领域知识构建规则库,对数据进行符合业务规律的清洗与校验。


(3)多模态数据融合引擎
:解决粒度对齐(granularity alignment)的核心难题,例如,将以“天”为单位的时间粒度生产数据,与以“米”为单位的深度粒度测井数据进行智能对齐,构建统一的分析视图。


(4)知识驱动标注引擎:利用企业知识图谱中沉淀的实体与关系,实现样本标签的自动化生成,极大降低人工标注成本。


3、特征资产管理层

该层是平台的数据特征集市,是实现“数据资产化即核心竞争力”的基石。它负责集中存储由特征工厂产出的高质量特征集,并提供完善的管理功能。平台支持特征的版本控制,确保模型训练的可复现性;同时提供丰富的元数据管理与全文检索功能,让用户可以快速发现、理解和复用已有的特征资产,彻底打破数据孤岛,终结跨团队的重复性数据准备工作。


4、算法建模与服务层

该层是AI能力普惠化 的载体,通过一个可视化的低代码建模画布,将复杂的算法建模过程封装为简单的拖拽式操作,将建模能力从少数数据科学家赋能给广大的前线领域专家。用户在此可以进行模型训练、效果评估,并将验证通过的模型一键发布为标准的REST API服务,供下游的生产系统直接调用,形成从数据到价值的闭环。


此四层架构设计旨在支撑一个面向业务专家的、从场景定义到模型发布的端到端核心工作流,使其流畅、高效且易于掌握。

核心用户工作流:五步法实现自助式建模


本平台设计的核心,是为地质和油藏工程师量身定制了一套简洁明了的五步法用户工作流。该流程是全新作业模式的精髓,其目标是让最懂业务的专家,在无需编写复杂代码的前提下,能够独立、高效地完成从定义业务问题到发布AI模型的端到端全过程,真正实现AI能力的普惠化。


第一步:场景定义


用户操作: 用户登录平台后,首先从预设的业务领域(如勘探、开发、工程)中选择自己关心的方向,然后定义一个具体的分析任务。


平台功能: 平台提供一系列预置的业务场景模板,例如“岩性识别(分类任务)”、“单井产量预测(回归任务)”或“钻井卡钻预警(时序异常检测)”。系统会引导用户清晰地设定其预测目标(Target Variable),如预测未来的“含水率”或识别特定深度的“砂岩层位”。


第二步:特征集构建


用户操作:
用户进入建模画布,可以从右侧的特征集市中,通过拖拽方式选择已有的高质量特征。如果现有特征不足以解决问题,用户可以利用平台工具创建新的特征。


平台功能:
平台提供强大的特征构建工具。例如,用户可以上传一份钻井日报PDF,平台通过非结构化数据提取功能自动解析出“钻井液密度”;用户可以勾选预设的物理清洗规则,如启用“物质平衡校验”,系统会自动标记并清洗不符合物理规律的数据;平台还能启动知识图谱自动标注,例如,系统在知识图谱中发现某口井在特定深度存在“油层”的试油结论,便会自动为该深度段的数据样本打上“油层”的标签。


第三步:主控因素分析


用户操作: 在构建了包含数十个候选特征的数据集后,用户需要筛选出对预测目标影响最大的关键因素,即“主控因素”。


平台功能:
平台提供一系列可视化的辅助决策工具来简化这一过程。相关性热力图可以帮助用户识别并剔除具有多重共线性的冗余特征;最大信息系数(MIC)分析则能挖掘特征与目标之间的非线性关系;平台还可以基于 树模型(如随机森林) 快速预跑,并以柱状图的形式直观展示各个特征的重要性排序,辅助专家做出科学决策。


第四步:算法建模


用户操作: 用户从平台的“算法超市”中选择一个或多个合适的算法模型,配置关键参数(或直接使用系统推荐的默认值),然后点击“开始训练”按钮。


平台功能:
平台的算法超市集成了业界主流且经过领域验证的开源算法库,覆盖多种应用场景:


1、序列类 (如 LSTM, Transformer):
适用于时间依赖性任务,如单井产量预测和测井曲线重构。


2、分类/回归类 (如 XGBoost, 随机森林): 适用于静态分类任务,如岩性识别和压裂效果评价。


3、图像类 (如 CNN, U-Net): 适用于空间特征任务,如地震相识别和岩心图像分析。


同时,平台内置了 自动调参(AutoML) 功能,可通过网格搜索或贝叶斯优化等技术,自动寻找最优的超参数组合,进一步降低建模门槛。


第五步:验证与发布


用户操作:
模型训练完成后,用户审查系统生成的模型评估报告。在确认模型性能符合业务预期后,点击“一键发布”按钮。


平台功能:
平台不仅提供标准的机器学习评估指标(如RMSE、AUC),更强调业务化评估指标,例如“历史拟合率”、“含水上升趋势符合度”等,使评估结果更贴近生产实际。一旦模型通过验证,平台能够一键将其打包成一个独立的、容器化的REST API接口,并自动注册到企业服务网关,供外部生产系统便捷调用。


实现这一流畅工作流的背后,依赖于平台一系列强大的、专为油气行业设计的关键技术模块。

关键技术模块深度解析


本章节将深入剖析支撑平台核心价值的两大创新技术引擎——物理机理规则引擎和知识图谱自动标注器,并介绍其强大的多模态数据处理能力。这些模块是确保数据达到高质量标准、并实现数据处理流程智能化的基石。


物理机理规则引擎


核心价值:
该引擎是保证数据质量、使其符合地质油藏客观规律的核心模块。它将领域专家的知识和物理公式注入数据清洗过程,从根本上解决了传统IT数据清洗方法可能误删关键业务信息的痛点,确保了输入模型的数据在源头上就是科学、可信的。


实现机制: 该引擎内置可扩展的规则库,覆盖油气勘探开发领域常见的物理约束。用户可通过简单勾选或配置的方式启用相应规则。


范围约束: 对物理量设定合理的取值区间。例如,砂岩的孔隙度 φ 通常介于0到40%之间(0 < φ <40%)。


趋势约束:
定义数据随某一变量(如深度、时间)变化的必然趋势。例如,注水井的吸水剖面累计深度值必须随着井深的增加而单调增加。


机理约束:
基于经典的工程公式或物理定律进行校验。例如,井底流压 Pwf 必须大于零(Pwf > 0),且单井的日产水量不能超过其日产液量。


用户自定义规则:
平台支持用户通过类似Excel公式的简单、直观的方式,定义新的业务校验规则,如 IF(Col_A > Col_B * 1.5, “Anomaly”, “Normal”)。
IF(Col_A > Col_B * 1.5, "Anomaly", "Normal")


这赋予业务专家极大的灵活性。


知识图谱自动标注器


核心价值:
该模块旨在从根本上解决传统数据标注高度依赖专家参与、效率低下且成本高昂等关键问题。通过充分利用企业已沉淀的知识资产,该模块能够实现对大规模数据的自动化、高效标注。


实现原理:
其核心原理是利用知识图谱中已有的实体(Entity)与地质 事件(Event) 之间的结构化关系来自动生成标签。知识图谱将油田的井、层、断层等信息以图的形式关联起来,使得机器可以像专家一样进行推理。


工作流程: 以测井曲线的岩性标注为例:


1、输入: 平台接收到一段待标注的测井数据集,包含井号和深度信息。


2、查询:
系统自动在知识图谱中发起查询,检索该井对应深度段是否存在相关的地质事件,如 “试油结论”或“岩屑录井结论” 。


3、映射与回填:
如果图谱返回了“油层”的结论,系统会根据预设的映射规则(例如,将“油层”映射为数值标签1),自动将标签回填到待标注数据集的相应位置,完成自动标注过程。


多模态非结构化解析器


核心价值:
该模块的核心使命是“激活”沉睡在企业文件系统中的海量非结构化和半结构化数据,如PDF格式的生产日报、技术报告以及BMP/JPG格式的岩心、薄片图像,将它们转化为可计算、可分析的结构化特征。


实现方案:
针对不同类型的数据,模块采用专门的解析流水线。


1、OCR/NLP流水线:
针对扫描的PDF报告,该流水线通过图像增强、表格检测、OCR识别和实体抽取等步骤,将非结构化的文本内容转化为结构化的键值对信息,例如,从生产日志中准确提取出 “油压”、“套压”、“产液量” 等关键实体及其数值。


2、图像特征化:
针对岩心、薄片等图像数据,平台利用在大型图像库上预训练好的深度学习网络(如ResNet),将每一张图片转化为一个高维的数学向量(Embedding)。这个向量浓缩了图像的核心视觉特征,使得模型能够将岩石的视觉纹理作为一个数学特征,从而“看到”视觉模式与生产结果之间的内在关联。


这些关键技术模块的实现,依赖于一套经过精心选择、以开源技术为主的现代化技术栈。

平台应用价值与未来展望


本白皮书所阐述的知识驱动与物理融合的高质量数据集平台,其核心价值远不止于一个工具集,它更是一套旨在推动油气勘探开发领域数智化转型的方法论和实践体系。通过系统性地解决从数据到价值的全链路瓶颈,平台将为企业带来深刻而持久的变革。


平台的四项核心应用价值可精炼地总结如下:


数据资产化


平台通过智能化的解析、清洗和融合,将数据湖中“看不懂、不能用”的原始数据,转化为“可计算、可分析、可复用”的高价值特征资产。由此形成的企业级特征集市,将数据真正沉淀为可度量、可管理、可持续增值的核心资产。


业务效率化


通过引入物理机理约束的自动化清洗和基于知识图谱的自动化标注等颠覆性技术,平台能够将构建一个高质量场景数据集的准备周期,从传统模式下依赖人工的数月之久,大幅缩短至数天之内,极大地加速了AI应用的迭代与落地速度。


能力普惠化


平台通过低代码/无代码的可视化建模界面,将强大的数据科学与AI建模能力赋予了最懂业务的一线地质和油藏工程师。这使得他们能够独立构建大数据模型,用数据驱动的方式去解决生产中的实际问题,从而最大限度地释放专家智慧与数据价值的乘数效应。


决策科学化


将地质油藏规律(物理机理)深度嵌入数据处理全流程,确保了用于模型训练的数据在源头上就符合科学常识。这不仅能显著提高模型的鲁棒性、可解释性与预测精度,更使得基于模型产生的决策建议具备了坚实的科学基础,提升了智能化决策的可靠性。


未来展望


展望未来,该平台将不仅仅局限于一个建模工具,而是向着一个更宏大的 智能体生态系统(Intelligent Agent Ecosystem) 演进。在此生态中:


每一个训练好的模型都将被封装成一个可复用的业务算子,如“岩性识别算子”、“产量预测算子”。


更高层次的智能体将能够根据复杂的、多步骤的地质油藏问题,自动编排和调用这些业务算子组合,以自主的方式完成综合性分析任务,从而实现从辅助决策到自主分析的跨越式发展。


同时,平台将积极探索联邦学习技术,在确保数据隐私和安全的前提下,实现跨机构、跨区域的联合建模,以应对数据孤岛挑战,并构建更丰富的可视化交互平台,将模型结果与专业图件深度融合。


我们坚信,这一平台的构建与应用,将为油气行业的智能化升级注入强大动力,开启一个数据驱动、知识赋能的新时代。

分享本文:

咨询行业专家