行業(yè)新聞
談?wù)劰I(yè)數(shù)據(jù)建模
2021-12-16模型應(yīng)用的場(chǎng)景
數(shù)據(jù)建模的基礎(chǔ)
很多人認(rèn)為,工業(yè)數(shù)據(jù)建模的原因是“原理不清楚”。事實(shí)上,工業(yè)對(duì)象都是物理對(duì)象,都符合自然科學(xué)的規(guī)律。工業(yè)對(duì)象是人造對(duì)象。人們建立物理的工業(yè)對(duì)象時(shí),往往也都是在科學(xué)原理的指導(dǎo)下做成的。 有些人不明白:既然科學(xué)原理清楚了,為什么還要建立模型。工業(yè)人建立模型的原因有兩個(gè):首先是科學(xué)模型是抽象的、工業(yè)模型是具體的。從抽象走到具體,需要給出若干參數(shù)。而這些參數(shù)并不一定容易獲得。其次,科學(xué)原理針對(duì)的都是簡(jiǎn)單對(duì)象,工業(yè)對(duì)象卻往往是復(fù)雜的系統(tǒng),需要大量的參數(shù)。參數(shù)多的問(wèn)題是:如果參數(shù)準(zhǔn)確度不高,理論模型的精確度就會(huì)低到難以忍受的程度,無(wú)法滿足工業(yè)生產(chǎn)的需要 下面給出一個(gè)形象的說(shuō)法:某個(gè)工業(yè)對(duì)象可以用函數(shù)Y=F(X)描述,假設(shè)它的理論模型是。應(yīng)用模型時(shí)必須依靠現(xiàn)實(shí)中能夠獲得的數(shù)據(jù)。現(xiàn)實(shí)中,X往往是無(wú)法準(zhǔn)確、及時(shí)獲得。這時(shí),人們要設(shè)法在可以得到的數(shù)據(jù)中,尋找一些與X相關(guān)的變量,如Z。于是,現(xiàn)實(shí)的數(shù)據(jù)模型往往就變成Y=H(Z)。 某廠發(fā)現(xiàn):一種材料的合格率與生產(chǎn)這種材料的班組有關(guān)。事實(shí)上,合格率與某個(gè)工藝參數(shù)有關(guān),不同班組采用的工藝參數(shù)不一樣。但每個(gè)班組采用的參數(shù)不同、也沒(méi)有記錄。所以,人們看到的是合格率與班組有關(guān)。在這個(gè)例子里,工藝參數(shù)就是X,而班組就是Z。 人們經(jīng)常發(fā)現(xiàn):材料的性能與生產(chǎn)的季節(jié)相關(guān)。本質(zhì)上,材料的性能與生產(chǎn)材料時(shí)的溫度、濕度、空氣流動(dòng)的綜合情況有關(guān)。在這里,溫度、濕度、空氣流動(dòng)情況是人們需要的X,而生產(chǎn)季節(jié)就是Z。 人們預(yù)報(bào)鋼水溫度時(shí),采用了一個(gè)經(jīng)驗(yàn)做法:如果盛放鋼水的鋼包是第一次使用,則鋼水溫度降低5度。真正的原因是:鋼包第一次盛放鋼水時(shí),鋼包壁是比較冷的,鋼水溫度降低得更快。但是,人們?nèi)菀椎玫绞褂么螖?shù)的參數(shù),卻不容易得到鋼包壁溫度相關(guān)的參數(shù)。 變量的選取是非常重要的。變量的選擇不同,最終的模型就不一樣。其中,一個(gè)重要的差別是:模型的精度和適用范圍不一樣。對(duì)科學(xué)理論模型來(lái)說(shuō),模型的精度高往往意味著適用范圍大,而現(xiàn)實(shí)的模型則不一定。從這種意義上說(shuō),模型精度未必是是越高越好。 工業(yè)企業(yè)追求穩(wěn)定,而模型往往用來(lái)應(yīng)對(duì)不穩(wěn)定的工況。工況穩(wěn)定的時(shí)候,參數(shù)波動(dòng)的范圍往往較小,簡(jiǎn)單的線性模型往往就可以奏效。復(fù)雜模型往往用于不穩(wěn)定的場(chǎng)合。用于不穩(wěn)定的場(chǎng)合時(shí),對(duì)模型適用范圍的要求就會(huì)比較大。 有些人開(kāi)發(fā)的模型精度比較高,卻不能得到生產(chǎn)廠的認(rèn)可。背后的原因是:模型在生產(chǎn)穩(wěn)定的時(shí)候精度很高,在生產(chǎn)不穩(wěn)定的時(shí)候精度較低。由于多數(shù)時(shí)間的生產(chǎn)是穩(wěn)定的,模型的平均精度往往較高。但是,生產(chǎn)穩(wěn)定的時(shí)候,工人對(duì)模型沒(méi)有需求;工人對(duì)模型有需求的時(shí)候,往往是生產(chǎn)不穩(wěn)定的時(shí)候。 模型精度和適用范圍的矛盾,是建模時(shí)最常見(jiàn)的問(wèn)題之一。 03
工業(yè)大數(shù)據(jù)時(shí)代的機(jī)會(huì)
大數(shù)據(jù)時(shí)代的重要機(jī)會(huì),就是可以用簡(jiǎn)單的方法建立好的模型。 從A地到B地時(shí),要找到一條速度最快的路徑。理論上講,建立相關(guān)模型時(shí)需要給出許多參數(shù),如距離、行駛速度等。而行駛速度,受到各種不確定因素的影響。在大數(shù)據(jù)的背景下,這個(gè)問(wèn)題就容易解決了:看看其他人怎么走的、花了多少時(shí)間。找到合適的走法,按照他們的路子走就是了。為了提高精度,還可以根據(jù)日期、時(shí)段和道路事情情況做些修正。 事實(shí)上,工業(yè)大數(shù)據(jù)的方法,早已出現(xiàn)在前人的實(shí)踐中。這類方法的基本思路就是:找一個(gè)類似的做法,在此基礎(chǔ)上進(jìn)行修訂。 鋼水冶煉前,需要給出合適的工藝參數(shù)。計(jì)算過(guò)程涉及到很多參數(shù),不容易算對(duì)。解決這個(gè)問(wèn)題的思路:先從歷史數(shù)據(jù)中找類似的成功案例。以此為基礎(chǔ),根據(jù)案例爐與本爐次的參數(shù)差異進(jìn)行修正。 熱軋帶鋼軋制結(jié)束后,需要確定冷卻水閥門(mén)的打開(kāi)組數(shù),以便冷卻到特定的目標(biāo)溫度。在冷卻過(guò)程中,冷卻速度受鋼種、厚度、起始溫度、冷卻目標(biāo)溫度、冷卻水溫度等多個(gè)因素的影響,純粹的機(jī)理模型很難準(zhǔn)確計(jì)算。解決問(wèn)題的辦法是對(duì)帶鋼進(jìn)行分組,在每個(gè)分組內(nèi)確定一組與冷卻速度有關(guān)的參數(shù)。在此基礎(chǔ)上,對(duì)具體帶鋼參數(shù)進(jìn)行變換、得到對(duì)于的冷卻制度,并根據(jù)實(shí)測(cè)結(jié)果對(duì)參數(shù)進(jìn)行修訂。在某些鋼鐵企業(yè),響應(yīng)的分組有幾萬(wàn)個(gè)。 我們注意到:上述方法其實(shí)解決了模型的應(yīng)用范圍大和精度要求高之間的矛盾。外表上看,模型適合于各種產(chǎn)品、應(yīng)用范圍很大。在這個(gè)范圍內(nèi),模型本質(zhì)上可能是非線性關(guān)系。但是,通過(guò)尋找類似的案例,就自然地回避了非線性問(wèn)題。而歷史的案例,本質(zhì)上是實(shí)踐積累的結(jié)果。具體地看,非線性模型本質(zhì)上是由若干個(gè)小模型組成的,每個(gè)模型的應(yīng)用范圍很小。這樣,就可以在每一個(gè)小的范圍內(nèi)設(shè)法提高模型的精度。在這個(gè)小的范圍內(nèi),參數(shù)的影響往往可以用線性模型或者廣義線性模型近似。在范圍足夠小的時(shí)候,人們就可以采用反饋調(diào)節(jié)等手段,進(jìn)一步提升模型的精度。 我們?cè)?jīng)提到:工業(yè)對(duì)象復(fù)雜、對(duì)精度要求高的時(shí)候,知識(shí)往往來(lái)自于實(shí)踐。上述辦法本質(zhì)上就是把實(shí)踐中行之有效的做法記下來(lái),用于指導(dǎo)下次的實(shí)踐。從本質(zhì)上講,這種辦法與PDCA持續(xù)改進(jìn)的思想是一致的。但這種持續(xù)改進(jìn)是由計(jì)算機(jī)自動(dòng)完成的。 對(duì)從事算法研究的人來(lái)講,上面的思想其實(shí)并不新穎。所謂近鄰方法、CBR方法、模式識(shí)別、R2R等方法,基本上就是這個(gè)思路。但是,在過(guò)去數(shù)據(jù)基礎(chǔ)有限的條件下,這些方法不一定能用好。比如,人們可能找不到相同或者類似的案例。 在筆者看來(lái),工業(yè)大數(shù)據(jù)的根本優(yōu)勢(shì)是數(shù)據(jù)的質(zhì)量好。質(zhì)量好的一個(gè)方面,就是數(shù)據(jù)分布范圍大,覆蓋了各種可能發(fā)生的情況。這就是所謂“ 樣本等于全體”。在這樣的前提下,就總能從歷史上找到類似的案例。所以,大數(shù)據(jù)的本質(zhì)優(yōu)勢(shì)是數(shù)據(jù)來(lái)源全面,而不是數(shù)量多到什么程度。如果數(shù)據(jù)存儲(chǔ)得足夠久、場(chǎng)景存儲(chǔ)得足夠多,新問(wèn)題就會(huì)越來(lái)越少,這類方法就容易走向?qū)嵱昧恕?nbsp;以設(shè)備故障診斷為例。針對(duì)單臺(tái)設(shè)備研究問(wèn)題時(shí),故障樣本就少,甚至每次都不一樣。但是,如果把成千上萬(wàn)臺(tái)設(shè)備的信息收集起來(lái),情況就不一樣了:每次出現(xiàn)問(wèn)題,都容易在歷史數(shù)據(jù)庫(kù)中找到類似的案例。這時(shí),人們研究的重點(diǎn),往往是如何利用理論的指導(dǎo),更加準(zhǔn)確地尋找類似案例、更加準(zhǔn)確地修正。 “戒煙最容易了:我都戒過(guò)100多次了”。 從事數(shù)據(jù)建模工作時(shí),往往就會(huì)遇到這樣的問(wèn)題:用一批數(shù)據(jù)建立數(shù)學(xué)模型,結(jié)果非常理想。但不久以后,精度卻很快降低下去、無(wú)法繼續(xù)使用。所以,許多結(jié)果很好的學(xué)術(shù)論文,在現(xiàn)實(shí)中卻是沒(méi)有用的。為什么會(huì)出現(xiàn)這樣的問(wèn)題呢? 有個(gè)小朋友說(shuō):穿紅裙子的人是我的媽媽。在特定的時(shí)間、特定的地點(diǎn),小朋友的話是正確的。但如果換了一個(gè)場(chǎng)景、換一個(gè)日子,這個(gè)判別標(biāo)準(zhǔn)可能就錯(cuò)了:媽媽可能不穿紅裙子了,穿紅裙子的女士也可能有很多個(gè)。 數(shù)據(jù)建模的失效常常也是類似原因?qū)е碌模寒?dāng)場(chǎng)景變化時(shí),模型很容易失效。要解決這樣的問(wèn)題,必須綜合運(yùn)用多個(gè)方面的特征。 許多人臉識(shí)別算法非常成功。有的算法在人臉上找到了一百多個(gè)特征。識(shí)別時(shí)綜合考慮這些特征,就不容易出錯(cuò)了。有些罪犯過(guò)了幾十年、相貌發(fā)生了很大變化,機(jī)器仍然能識(shí)別出來(lái)。 在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的完整性很好。人們有可能找到若干獨(dú)立的特征進(jìn)行綜合。這樣,模型識(shí)別的準(zhǔn)確率就大大提高了。
04
第四范式與科學(xué)規(guī)律發(fā)現(xiàn)
自然科學(xué)規(guī)律本質(zhì)上也是用數(shù)學(xué)模型描述的。自然科學(xué)規(guī)律的特點(diǎn)是:模型精度高、適用范圍大。我們前面曾經(jīng)提到,經(jīng)典科學(xué)原理往往有個(gè)特點(diǎn):變量的數(shù)目非常少。這背后有個(gè)重要的原因: 科學(xué)結(jié)論都是需要經(jīng)過(guò)嚴(yán)格檢驗(yàn)和論證的。按照科學(xué)哲學(xué)的觀點(diǎn),科學(xué)理論的基本特征是可證偽性。所謂的可證偽性,就是理論上存在一種驗(yàn)證辦法,如果驗(yàn)證結(jié)果與理論不符,就可以證明理論是錯(cuò)的。如果一個(gè)理論涉及到的因素少,就容易證偽。 復(fù)雜問(wèn)題的影響因素多,不容易嚴(yán)格論證。例如,新藥的開(kāi)發(fā)困難,就與此有關(guān)。在大數(shù)據(jù)時(shí)代,這類問(wèn)題可能得到改變。圖靈獎(jiǎng)得主吉姆·格雷(Jim Gray)將科學(xué)研究分為四類范式(Paradigm)即實(shí)驗(yàn)歸納,模型推演,仿真模擬和數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)。其中,最后一種就是通過(guò)大數(shù)據(jù)發(fā)現(xiàn)科學(xué)知識(shí)。 理論上講,許多工業(yè)過(guò)程都可以用科學(xué)公式來(lái)描述。但現(xiàn)實(shí)的影響因素太多?;?、冶金等行業(yè)的一種典型的現(xiàn)象是:在同一個(gè)生產(chǎn)過(guò)程中同時(shí)存在著幾十種化學(xué)反應(yīng)。每個(gè)化學(xué)反應(yīng)都可以用簡(jiǎn)單的化學(xué)反應(yīng)方程來(lái)描述。但反應(yīng)之間互相影響,許多參數(shù)會(huì)動(dòng)態(tài)變化、無(wú)法準(zhǔn)確確定,整體的化學(xué)反應(yīng)過(guò)程就很難準(zhǔn)確描述。 鋼鐵材料中的很多物理和化學(xué)變化是在固體中進(jìn)行的、反應(yīng)過(guò)程不充分、不徹底。故而導(dǎo)致產(chǎn)品質(zhì)量與工藝過(guò)程密切相關(guān)。鋼鐵產(chǎn)品的力學(xué)性能是多種元素的含量和工藝參數(shù)綜合影響的結(jié)果。力學(xué)性能與影響因素都是可以測(cè)量的物理量,而成分和工藝可以決定性能。理論上講,存在一個(gè)科學(xué)的公式來(lái)描述性能與成分、工藝的關(guān)系。 對(duì)于這樣的情況,傳統(tǒng)的辦法很難建立準(zhǔn)確的模型。除了問(wèn)題本身復(fù)雜外,一個(gè)重要的原因就是許多干擾是不可見(jiàn)的。這就會(huì)對(duì)模型的驗(yàn)證帶來(lái)巨大的困難。 在大數(shù)據(jù)的背景下,為解決這類困難提供了可能。一個(gè)重要的原因是:當(dāng)數(shù)據(jù)量足夠大的時(shí)候,隨機(jī)干擾是可以通過(guò)平均的方法濾除的。這相當(dāng)于數(shù)據(jù)的精度可以大大提高。同時(shí),大數(shù)據(jù)還可能為人們提供較好的樣本分布,有助于復(fù)雜問(wèn)題的解耦,即把復(fù)雜的、變量多的模型簡(jiǎn)化成若干變量數(shù)目少的簡(jiǎn)單模型。模型簡(jiǎn)單以后,也便于科學(xué)地驗(yàn)證。 模型簡(jiǎn)化的過(guò)程,其實(shí)是一個(gè)猜測(cè)和排除的過(guò)程。這一點(diǎn)和傳統(tǒng)的科學(xué)研究非常類似。是一個(gè)循環(huán)往復(fù)、不斷深入的過(guò)程,需要不斷地進(jìn)行定性判斷和定量的估計(jì)。在這個(gè)過(guò)程中,科學(xué)知識(shí)和數(shù)據(jù)中反映出來(lái)的現(xiàn)象可以共同起作用。人的經(jīng)驗(yàn)也是非常重要的:優(yōu)秀的專家往往“猜得準(zhǔn)”,能夠提高研究的效率和成功率。 需要特別指出的是:這樣的研究并不能保證成功。成功的必要條件是數(shù)據(jù)本身決定的。一定數(shù)量的科學(xué)實(shí)驗(yàn)和仿真研究也是必要的。
本文地址:http://wjfood.cn/news/IndustryNews/281.html
相關(guān)新聞推薦
- 智能化信息化工廠的MES管理系統(tǒng)可以解決哪些問(wèn)題
- 汽車整車制造過(guò)程中對(duì)MES系統(tǒng)的需求
- 智能制造工廠mes系統(tǒng)
- APS高級(jí)排產(chǎn)系統(tǒng)
- MES系統(tǒng)為企業(yè)帶來(lái)哪些好處?
- 汽車零部件行業(yè)為什么需要MES系統(tǒng)
- ERP系統(tǒng)和MES系統(tǒng)的區(qū)別與聯(lián)系?制造企業(yè)如何選擇?
- 為什么要強(qiáng)調(diào)庫(kù)位規(guī)劃,庫(kù)位規(guī)劃究竟能為倉(cāng)庫(kù)帶來(lái)什么樣的價(jià)值?
- WMS操作流程
- 細(xì)數(shù)MES生產(chǎn)管理系統(tǒng)結(jié)構(gòu)中的12大重點(diǎn)功能介紹