如需注冊,請前往電腦端
2020-05-06 13:50     來源:數(shù)據(jù)驅(qū)動智能     瀏覽:10670
什么是數(shù)字孿生?數(shù)字孿生是物理系統(tǒng)的虛擬副本。這個定義看起來很形象,這個簡單的定義是邁克爾·格里夫斯博士在2002年創(chuàng)造的,體現(xiàn)了這個術(shù)語的本質(zhì),這個概念最早被美國宇航局用于太空探索任務(wù)。最初,美國宇航局有一對物理孿生體:地球上真實的宇宙飛船的物理拷貝來反映遙遠宇宙飛船的狀態(tài)。
現(xiàn)在,數(shù)字孿生正在影響所有行業(yè),主要是制造業(yè)、汽車業(yè)、建筑業(yè)、公用事業(yè)和醫(yī)療保健業(yè)。數(shù)字孿生不僅在系統(tǒng)運行期間使用,而且在設(shè)計和構(gòu)建階段也能使用。
首先,了解下用于數(shù)字孿生的當(dāng)前技術(shù)以及構(gòu)成體系結(jié)構(gòu)的技術(shù),其中數(shù)據(jù)管理、數(shù)據(jù)庫和(實時)機器學(xué)習(xí)在這方面起著至關(guān)重要的作用。我們解釋了技術(shù)基礎(chǔ),下面討論下目前存在的不同類型的數(shù)字孿生。
一、數(shù)字孿生的結(jié)構(gòu)
數(shù)字孿生正在連接物理世界和虛擬世界。我們早就已經(jīng)這么做了,ERP(企業(yè)資源規(guī)劃)不就是通過虛擬拷貝來管理物理資產(chǎn)嗎,客戶數(shù)據(jù)庫中的每個記錄不是真人的數(shù)字孿生嗎?但是,要想讓數(shù)字孿生真正RUN起來,我們需要做兩件事:
實時數(shù)據(jù)集成
實時機器學(xué)習(xí)
1、實時數(shù)據(jù)集成
我們已經(jīng)做了幾十年的批量數(shù)據(jù)集成,但并沒有真正考慮實時數(shù)據(jù)集成。因此,類似于IBM Streams、Apache Flink、Apache Spark Structured Streaming、Apache Kafka和Node RED的方案應(yīng)運而生。
Apache Spark特別有用,因為它將批處理與流式處理結(jié)合起來。apachesparkversion2.3使用微批處理,與Apache Flink和IBM Streams的性能接近,更接近于實時數(shù)據(jù)集成的解決方案。
邊緣計算是工業(yè)互聯(lián)網(wǎng)中的實時數(shù)據(jù)集成重要的部分,不必總是將數(shù)據(jù)集成到一個集中的云存儲中。它也可以分布在各種各樣的邊緣上,并且可以在最有意義的地方直接處理。邊緣計算解決了三個主要問題:
網(wǎng)絡(luò)分區(qū)。越靠近邊緣,網(wǎng)絡(luò)連接就越不可靠。因此,一種更智能的本地數(shù)據(jù)處理方法可以緩解邊緣斷開的問題。
網(wǎng)絡(luò)延遲。越接近邊緣,解決方案中的網(wǎng)絡(luò)延遲就越大。關(guān)于邊緣數(shù)據(jù)的決策避免了這種延遲,因此決策速度更快。網(wǎng)絡(luò)延遲是一個重要的特性,因為大多數(shù)工業(yè)互聯(lián)網(wǎng)傳感器數(shù)據(jù)在幾秒鐘內(nèi)就失去了價值。例如,在一輛自動駕駛的汽車里,當(dāng)一個孩子跑在汽車前面時,你不能再等250毫秒才停下來。
數(shù)據(jù)隱私。工業(yè)互聯(lián)網(wǎng)傳感器,包括攝像頭和麥克風(fēng),正在捕獲非常有價值的數(shù)據(jù)。但它們也引起了人們對數(shù)據(jù)隱私的高度關(guān)注。如果數(shù)據(jù)是在邊緣直接處理的,那么關(guān)鍵信息永遠不需要離開這個小邊緣設(shè)備。例如,電梯的占用率一旦通過視頻流進行測量,就可以優(yōu)化調(diào)度和樓層分配,以減少等待時間,提高電梯的工作負荷。但是,您永遠不希望電梯內(nèi)的視頻流離開邊緣設(shè)備。
2、實時機器學(xué)習(xí)
傳統(tǒng)的ERP系統(tǒng)是基于規(guī)則的系統(tǒng)。這些規(guī)則是在軟件中手動實現(xiàn)的,主要是業(yè)務(wù)人員查看歷史數(shù)據(jù)和使用過程,涉及到很多手工工作,而且這些規(guī)則很少改變。
在數(shù)字孿生中,數(shù)據(jù)是實時接收和處理的。這允許物理系統(tǒng)的模型實時作用于數(shù)據(jù),例如由機器學(xué)習(xí)支持的黑盒模型或由領(lǐng)域?qū)<叶x的白盒模型;異常檢測器將發(fā)出警報并關(guān)閉生產(chǎn)線,以防止進一步損壞;在數(shù)字孿生機上模擬不同參數(shù)集的結(jié)果后,用最優(yōu)參數(shù)集更新實際系統(tǒng)等。
大多數(shù)機器學(xué)習(xí)模型都是在靜止數(shù)據(jù)上訓(xùn)練的。因此,我們需要將所有實時數(shù)據(jù)存儲在能夠高效檢索的地方:
許多機器學(xué)習(xí)算法也可以使用windows系統(tǒng)通過數(shù)據(jù)流進行訓(xùn)練。實現(xiàn)機器學(xué)習(xí)的一個關(guān)鍵階段是超參數(shù)調(diào)整階段,在這個階段,您可以多次使用更改的參數(shù)配置重新運行模型訓(xùn)練,以獲得最佳結(jié)果。這種調(diào)整超參數(shù)配置的過程在數(shù)據(jù)流上要困難得多,因為如果有新的想法或想測試一個新的算法,數(shù)據(jù)已經(jīng)消失了,因為它沒有被存儲。
在實時模型訓(xùn)練中,系統(tǒng)性能必須始終與數(shù)據(jù)到達率保持同步。否則,緩沖區(qū)會溢出,系統(tǒng)會被破壞,數(shù)據(jù)將會丟失。
由于windows上的訓(xùn)練減少了時間帶寬,因此不能考慮時間和距離的因素。
所以實際上我們需要同時做這兩件事,實時數(shù)據(jù)流上的數(shù)據(jù)處理和歷史數(shù)據(jù)上的數(shù)據(jù)處理,我們也必須要建立一個歷史數(shù)據(jù)匯集庫。
二、工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)管理挑戰(zhàn)
工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)的數(shù)據(jù)處理無疑是相當(dāng)具有挑戰(zhàn)性的。主要是因為大量數(shù)據(jù)以高速到達。正如我們之前所了解到的,獲取模型培訓(xùn)的歷史數(shù)據(jù)可能是至關(guān)重要的。但在我們討論最佳工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)存儲之前,讓我們考慮其他一些同樣重要的東西:元數(shù)據(jù)。
數(shù)字孿生通常反映數(shù)千個傳感器參數(shù)。為了不丟失,使用元數(shù)據(jù)數(shù)據(jù)庫。在實際中,我們使用一個圖形數(shù)據(jù)庫,因為這允許我們在層次結(jié)構(gòu)中對物理系統(tǒng)建模。例如,數(shù)據(jù)中心由3棟樓組成,每棟樓28層,每層樓有不同的房間,每個房間有不同的傳感器。因此,使用層次圖查詢,可以選擇需要考慮特定下游分析任務(wù)的相關(guān)數(shù)據(jù)源。
垃圾數(shù)據(jù)是任何IT系統(tǒng)中的一個常見問題,因此工業(yè)互聯(lián)網(wǎng)系統(tǒng)也不例外。很多人在他們的工業(yè)互聯(lián)網(wǎng)解決方案中使用時間序列數(shù)據(jù)庫,因為它們承受高吞吐量接收和高效的時間查詢。我也提供一個項目上的案例看看是怎么做的。我們使用云對象存儲和一個簡單的文件夾方案:
傳感器UUID/年/月/日/時/分/秒。
為每個傳感器創(chuàng)建每1秒時間窗口的索引。UUID避免了沖突,可以在元數(shù)據(jù)存儲庫中查找元數(shù)據(jù)。甚至不必在乎這些數(shù)據(jù)是否分布在多個工業(yè)互聯(lián)網(wǎng)邊緣,因為要么跟蹤包含特定傳感器UUID的數(shù)據(jù)分區(qū)的索引,要么只要求它們?nèi)俊?
因此,工業(yè)互聯(lián)網(wǎng)傳感器數(shù)據(jù)僅是“附加”數(shù)據(jù),它是由每個傳感器UUID的一個線程編寫的。云對象存儲現(xiàn)在可以并行到文件夾的最低級別(秒),這意味著我們可以獲得無限的線性可伸縮性!
在第二個文件夾中,使用的是Apache Parquet文件,其中壓縮了數(shù)據(jù)(以加快I/O速度并以列格式存儲),可以使用Apache SparkSQL開箱即用來獲得所有數(shù)據(jù)的SQL視圖,其中備份、復(fù)制和擴展由云對象存儲負責(zé)。
三、數(shù)字孿生的不同類型
現(xiàn)在我們已經(jīng)了解了數(shù)字孿生的基本架構(gòu)和數(shù)據(jù)管理挑戰(zhàn),讓我們來看看不同類型的數(shù)字孿生。在我們談?wù)摂?shù)字孿生時,最常想到的是一個軟件解決方案以數(shù)字方式鏡像生產(chǎn)系統(tǒng),但還有更多。生產(chǎn)系統(tǒng)在建立之前就已經(jīng)有了歷史,而數(shù)字孿生可以支持一個產(chǎn)品的完整開發(fā)周期。因此,Reason代表產(chǎn)品規(guī)劃階段,Realize代表產(chǎn)品生產(chǎn)階段,Run代表產(chǎn)品部署階段。三個不同的數(shù)字孿生,都在同時工作。也就是說,部署產(chǎn)品的數(shù)據(jù)可以影響新版本產(chǎn)品的計劃和生產(chǎn)。
下面,讓我們了解一下不同類型的數(shù)字孿生:
部分孿生。數(shù)字孿生與一個大系統(tǒng)的一部分相連。例如,發(fā)電企業(yè)生產(chǎn)車間的軸承。這種軸承在運行時可以有一個數(shù)字孿生,這可以了解它的運行狀況,如估計平均故障間隔時間(MTBF)或平均失效前時間(MTTF)。這些數(shù)據(jù)可以從當(dāng)前數(shù)據(jù)(如振動傳感器數(shù)據(jù)或聲音)中導(dǎo)出(預(yù)測或建模),也可以從設(shè)計或制造階段的數(shù)據(jù)(如設(shè)計了什么樣的齒輪齒形或使用了什么樣的成型刀具制造)。當(dāng)然,在零件操作過程中發(fā)現(xiàn)的可以反饋到設(shè)計和制造階段。
產(chǎn)品孿生。產(chǎn)品孿生基本上是一組反映其相互作用的部分孿生體。從軟件產(chǎn)品的角度來看,產(chǎn)品孿生通常是相同的,因此可以通過向下鉆取從產(chǎn)品孿生訪問部件孿生。發(fā)電企業(yè)發(fā)電機是雙軸承產(chǎn)品的一個例子,它有多個軸承和部分雙軸承。
系統(tǒng)孿生。系統(tǒng)孿生比產(chǎn)品孿生更上一層樓。同樣,系統(tǒng)孿生很可能在同一個軟件產(chǎn)品中實現(xiàn),提供與產(chǎn)品或部分孿生相似的功能,但它只是整個系統(tǒng)的一個視圖。所以讓我們繼續(xù)以發(fā)電企業(yè)為例,一個系統(tǒng)孿生(取決于它的定義)可能反映歷史和當(dāng)前狀態(tài),并預(yù)測一個發(fā)電廠、整個發(fā)電廠、甚至一個電網(wǎng)分區(qū)的特定動力傳動系統(tǒng)的未來狀態(tài)。
還有很多不同類型的數(shù)字孿生,取決于你問誰和怎么定義,但以上已經(jīng)涵蓋了最重要的類型。
四、數(shù)字孿生的發(fā)展趨勢
數(shù)字孿生還處于初步發(fā)展階段,但發(fā)展速度會很快。“盡可能多地輸入數(shù)據(jù)并運用于人工智能”—這通常是信息服務(wù)商銷售數(shù)字孿生解決方案的理由。事實上,這并沒有錯。數(shù)字孿生得益于存在大量機器生成的數(shù)據(jù),這是其他數(shù)據(jù)科學(xué)學(xué)科所沒有的奢侈品。當(dāng)有大量的數(shù)據(jù)時,使用深度學(xué)習(xí)模型開始變得可行。
數(shù)字孿生是控制中心的新版本,它將歷史和當(dāng)前系統(tǒng)狀態(tài)與未來預(yù)測狀態(tài)結(jié)合起來。向下鉆取功能允許用戶深入研究單個產(chǎn)品或產(chǎn)品部件,但也顯示了允許高度復(fù)雜優(yōu)化任務(wù)的全局。數(shù)字孿生不僅在操作上有用,而且在考慮產(chǎn)品設(shè)計和制造時也能充分發(fā)揮其潛力。