【摘 要】 隨著兩化融合不斷深入和工業互聯的加速發展,工業領域開放互聯程度不斷提高。工業控制系統、生產信息系統等工業領域重要信息基礎設施產生的數據潛藏著大量敏感信息,具有巨大價值,一旦發生數據安全事件將可能造成難以估量的損失。為提高工業數據安全,保障敏感信息不被泄露,本文分析了當前工業數據脫敏現狀,研究提出工業數據脫敏方案,為企業保障工業數據安全提供借鑒。
【關鍵詞】 工業數據 敏感數據 數據脫敏
1 引言
新一代信息技術與工業領域的融合發展,推動了工業數據的流通共享。但敏感的工業數據若遭到篡改、竊取等,將會威脅工業生產、社會穩定乃至國家安全。因此,迫切需要針對當前工業數據脫敏現狀,研究提出工業數據脫敏方案,對工業數據進行脫敏、審計和管理,支撐構建“可識別、可防護、可處置、可管理”的工業數據安全防護體系。
2 工業數據脫敏難點
2.1 工業數據脫敏現狀分析
在數據脫敏實踐方面,目前國內重點行業企業已意識到工業數據安全的重要性,但在數據采集、傳輸、存儲、處理、交換共享等環節,存在未進行有效的數據脫敏、直接使用原始敏感數據等現象。
在脫敏技術方面,工業企業使用的數據脫敏工具雖然具備一定的數據脫敏功能,但在技術細節方面仍有不足。一方面,內置的數據脫敏算法較為單一,支持的數據源類型較少,無法滿足多種場景下多類型工業數據脫敏后的開發和測試使用;另一方面,數據脫敏工具在工業數據分類分級、敏感數據自動識別等方面的應用尚不成熟,脫敏算法、脫敏效率、脫敏機制等都有待提高。此外,部分數據脫敏工具不具備多維可視化功能,相關技術人員無法通過任務狀態、任務進度條、脫敏報告等自動獲取工業數據脫敏的即時情況。
2.2 工業數據脫敏難點分析
工業數據脫敏存在以下難點:一是工業數據種類多、格式多,導致工業數據脫敏需針對性解決海量、多源、異構等問題;二是工業數據間邏輯關系強,數據從產生到使用與產品生命周期密切相關,關聯分析準確性要求較高等,增加了工業數據脫敏技術難度;三是工業數據實時性、連續性等特點,以及工業時序數據的高維度、關系依賴性強特征使得工業數據的動態脫敏難度大。
3 工業數據脫敏方案
3.1 數據脫敏業務流程
數據脫敏業務流程主要包括敏感數據梳理、敏感數據識別、脫敏算法選擇、脫敏任務執行、脫敏結果輸出5個步驟,如圖1所示。
3.1.1 敏感數據梳理
為使工業數據能夠安全共享使用,充分發揮其價值,首先需要梳理出其中的敏感數據,并進行有效脫敏后再流通共享,確保敏感數據不被泄露或篡改。
3.1.2 敏感數據識別
敏感數據識別是數據脫敏的前提和關鍵。本文研究提出基于機器學習的工業敏感數據識別框架,如圖2所示。該識別框架通過從已標注的數據集中提取特征屬性,利用機器學習的方法構建識別模型,從而達到識別未知數據集的目的。相比傳統的數據識別方法而言,該識別框架可支持多種機器學習算法,具有性能卓越、兼容性強等優勢。
3.1.3 脫敏算法選擇
依據不同的工業數據的類型、特征及脫敏需求,選取不同的數據脫敏算法,所采用的數據脫敏算法一般包括泛化、變形、遮蔽、隨機、替換、強加密和格式保留加密等。
3.1.4 脫敏任務執行
脫敏任務執行過程應支持任務的啟動、暫停、中斷、延續、終止等操作。
3.1.5 脫敏結果輸出
依據上述脫敏流程,輸出工業數據脫敏結果。
3.2 數據脫敏步驟
基于工業數據具有實時產生及動態增加等特征,相較于傳統的數據脫敏技術而言,批量數據脫敏技術可支持多種類型數據庫,且能一次性輕量級處理數據,更能滿足工業數據脫敏需求。因此,本文選擇Sqoop技術對工業數據進行脫敏處理。具體脫敏流程可分為3個步驟,如圖3所示。
(1)數據抽取:工業數據可利用Sqoop技術從Oracle、SQL Server、MySQL、Informix、PostgreSQL、DB2、Sybase、EDB等常用數據庫,TimescaleDB、KairosDB等時序數據庫,以及文件、FTP等接口進行抽取。數據抽取過程可保證原始數據的完整性,還可保證數據之間的邏輯關系完整。
(2)數據脫敏:通過數據脫敏算法庫中的脫敏算法實現對敏感數據的轉換,在脫敏過程中要保持數據的關聯性和完整性,確保數據在同一系統中的一致性。
(3)數據分發:工業數據脫敏后,通過數據庫、文件、FTP等接口進行分發。
3.3 數據脫敏規則
數據脫敏規則主要包括可恢復規則和不可恢復規則。可恢復規則是指可通過某種方式恢復原始數據的規則,如各類加解密規則。不可恢復規則是指使用任何方法都無法恢復原始數據的規則。對于工業數據而言,需要從數據的重要程度、用途、影響范圍等多種維度綜合確定數據脫敏規則。
3.4 數據脫敏系統
3.4.1 數據脫敏系統總體架構
工業數據脫敏系統通過采集SCADA、PLC、DCS、ERP等系統,以及工業主機、數據庫等軟硬件設備的數據,經過數據清洗、轉換等預處理過程,利用敏感數據識別與數據脫敏引擎實現對敏感數據的深度分析和脫敏處理。該系統通過設置脫敏算法選擇和脫敏任務執行子模塊,可以實現靈活配置的目的。無論是針對已有還是新上的工業數據脫敏業務,該系統都能提供一套合適的數據脫敏方案。
3.4.2 數據脫敏系統功能
數據脫敏系統功能包括敏感數據梳理、敏感數據識別、脫敏算法選擇、脫敏任務執行及安全管理5個模塊功能,如圖4所示。
(1)敏感數據梳理
數據脫敏系統應內置完善的敏感數據特征庫,支持包括
Oracle、SQL Server、MySQL、Informix、PostgreSQL、DB2、Sybase、EDB等主流數據庫、TimescaleDB、KairosDB等時序數據庫的接入,并可支持自定義數據庫類型。
(2)敏感數據識別
數據脫敏系統應支持敏感數據的自動發現和識別,并且應配置多種識別策略。
(3)脫敏算法選擇
數據脫敏系統應支持多種脫敏算法并應具備完善的脫敏規則,以實現對不同業務系統、不同數據庫的脫敏操作。數據脫敏系統應設置專門的脫敏算法管理模塊,內置包括數據替換、泛化、有損、混洗等常用的數據脫敏算法,基于機器學習、神經網絡等方法的智能化脫敏算法,以及自定義脫敏算法,便于新業務應用或系統升級。此外,數據脫敏系統還應具備相對獨立的脫敏規則管理模塊,包括可恢復性規則和不可恢復性規則等。
(4)脫敏任務執行
數據脫敏系統應具備完善的任務調度功能,包括狀態監控、調試配置、參數管理、進度執行、時間調用、命令行調用等。
(5)安全管理
數據脫敏系統應具備完善的安全管理模塊,包括系統安全管理、用戶權限管理和安全審計等。
4 結語
工業數據脫敏技術是數據脫敏與制造業相結合的技術產物,是工業企業、平臺企業等保護工業數據安全的重要技術手段。工業數據不僅包含工業生產圖紙、機理模型文件、指令代碼等,還包括大量的時序數據。如何面向工業時序數據進行脫敏處理成為工業數據脫敏技術須解決的難題。期待在不遠的將來,工業數據脫敏技術在現有工業數據脫敏方案的基礎上,可實現針對性更強、擴展性更好的功能。
(原載于《保密科學技術》2021年4月刊)