我正在與一家公司合作開發(fā)用于預測性維護的 ML 模型。我們擁有的數(shù)據(jù)是日志文件的集合。在每個日志文件中,我們都有來自傳感器(溫度、壓力、MototSpeed 等)的時間序列和我們記錄發(fā)生的故障的變量。此處的目的是構建一個模型,該模型將使用日志文件作為其輸入(時間序列)并預測是否會出現(xiàn)故障。為此,我有一些問題:1)能夠做到這一點的最佳模型是什么?2)處理不平衡數(shù)據(jù)的解決方案是什么?事實上,對于某種故障,我們沒有足夠的數(shù)據(jù)。在將時間序列轉(zhuǎn)換為固定長度的子時間序列后,我嘗試使用 LSTM 構建一個 RNN 分類器。如果有故障,則目標為 1,否則為 0。與零的數(shù)量相比,1 的數(shù)量可以忽略不計。結果,模型總是預測為0。解決辦法是什么?
1 回答

慕少森
TA貢獻2019條經(jīng)驗 獲得超9個贊
Mohamed,對于這個問題,您實際上可以從傳統(tǒng)的 ML 模型(隨機森林、lightGBM 或任何此類性質(zhì))開始。我建議您專注于您的功能。例如,您提到了 Pressure、MototSpeed?;仡欉^去的某個時間窗口。在同一窗口 st.dev 中計算移動平均值、最小值/最大值。要解決這個問題,您需要擁有一組健康的功能??匆幌?featuretools 包。您可以使用它或了解可以使用時間序列數(shù)據(jù)創(chuàng)建哪些功能。回到你的問題。
1)能夠做到這一點的最佳模型是什么?如上所述的傳統(tǒng) ML 方法。您也可以使用深度學習模型,但我會首先從簡單模型開始。另外,如果你沒有大量數(shù)據(jù),我可能不會接觸 RNN 模型。
2)處理不平衡數(shù)據(jù)的解決方案是什么?您可能希望對數(shù)據(jù)進行過度采樣或欠采樣。對于過采樣,請查看 SMOTE 包。
祝你好運
添加回答
舉報
0/150
提交
取消