1 回答

TA貢獻(xiàn)1802條經(jīng)驗 獲得超5個贊
以下是一些想法:
1. 有誰知道如何在 AWS Sagemaker 中實現(xiàn)一個系統(tǒng),從而對于數(shù)十萬個單元,我們可以為每個單元擁有一個單獨的經(jīng)過訓(xùn)練的模型工件?有沒有辦法使用 SKLearn 估計器為 1 個 sagemaker 訓(xùn)練作業(yè)輸出多個模型工件?
我不知道 30 個訓(xùn)練作業(yè)并發(fā)數(shù)是否是一個硬性限制,如果它是一個障礙,您應(yīng)該嘗試打開支持票詢問是否是這樣,并嘗試提高它。否則,正如您所指出的,您可以嘗試在一項作業(yè)中訓(xùn)練多個模型,并生成多個工件,您可以 (a) 手動發(fā)送到 S3,或 (b) 保存,以便將opt/ml/model
它們?nèi)堪l(fā)送到模型。 S3 中的 tar.gz 工件。請注意,如果這個工件變得太大,這可能會變得不切實際
2. 提交訓(xùn)練腳本時,Sagemaker如何利用多個CPU?這是否必須在訓(xùn)練腳本/估計器對象中指定,還是自動處理?
這取決于您使用的訓(xùn)練容器的類型。SageMaker 內(nèi)置容器由 Amazon 團(tuán)隊開發(fā),旨在高效利用可用資源。如果您在 Sklearn 容器中使用自己的代碼(例如自定義 python),則您有責(zé)任確保您的代碼高效編寫并使用可用的硬件。因此框架的選擇非常重要:)例如,一些sklearn模型支持顯式使用多個CPU(例如隨機(jī)森林n_jobs
中的參數(shù)),但我不認(rèn)為Sklearn原生支持GPU、多GPU或多節(jié)點訓(xùn)練。
添加回答
舉報