第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時綁定郵箱和手機(jī)立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

AWS Sagemaker 多項訓(xùn)練作業(yè)

AWS Sagemaker 多項訓(xùn)練作業(yè)

慕村225694 2024-01-12 10:34:57
目前,我們有一個在 AWS Sagemaker 上運行的系統(tǒng),其中多個單位擁有自己經(jīng)過訓(xùn)練的機(jī)器學(xué)習(xí)模型工件(使用帶有 Sagemaker SKLearn 估計器的 SKLearn 訓(xùn)練腳本)。通過使用 Sagemaker 的多模型端點,我們能夠在單個實例上托管所有這些單元。我們面臨的問題是,我們需要擴(kuò)展這個系統(tǒng),以便我們可以為數(shù)十萬個單元訓(xùn)練單個模型,然后將生成的模型工件托管在多模型端點上。但是,Sagemaker 對可以并行訓(xùn)練的模型數(shù)量有限制(我們的限制是 30)。除了批量訓(xùn)練我們的模型之外,有誰知道如何在 AWS Sagemaker 中實現(xiàn)一個系統(tǒng),從而對于數(shù)十萬個單元,我們可以為每個單元擁有一個單獨的經(jīng)過訓(xùn)練的模型工件?有沒有辦法使用 SKLearn 估計器為 1 個 sagemaker 訓(xùn)練作業(yè)輸出多個模型工件?此外,提交訓(xùn)練腳本時,Sagemaker如何利用多個CPU?這是否必須在訓(xùn)練腳本/估計器對象中指定,還是自動處理?
查看完整描述

1 回答

?
慕后森

TA貢獻(xiàn)1802條經(jīng)驗 獲得超5個贊

以下是一些想法:

1. 有誰知道如何在 AWS Sagemaker 中實現(xiàn)一個系統(tǒng),從而對于數(shù)十萬個單元,我們可以為每個單元擁有一個單獨的經(jīng)過訓(xùn)練的模型工件?有沒有辦法使用 SKLearn 估計器為 1 個 sagemaker 訓(xùn)練作業(yè)輸出多個模型工件?

我不知道 30 個訓(xùn)練作業(yè)并發(fā)數(shù)是否是一個硬性限制,如果它是一個障礙,您應(yīng)該嘗試打開支持票詢問是否是這樣,并嘗試提高它。否則,正如您所指出的,您可以嘗試在一項作業(yè)中訓(xùn)練多個模型,并生成多個工件,您可以 (a) 手動發(fā)送到 S3,或 (b) 保存,以便將opt/ml/model它們?nèi)堪l(fā)送到模型。 S3 中的 tar.gz 工件。請注意,如果這個工件變得太大,這可能會變得不切實際

2. 提交訓(xùn)練腳本時,Sagemaker如何利用多個CPU?這是否必須在訓(xùn)練腳本/估計器對象中指定,還是自動處理?

這取決于您使用的訓(xùn)練容器的類型。SageMaker 內(nèi)置容器由 Amazon 團(tuán)隊開發(fā),旨在高效利用可用資源。如果您在 Sklearn 容器中使用自己的代碼(例如自定義 python),則您有責(zé)任確保您的代碼高效編寫并使用可用的硬件。因此框架的選擇非常重要:)例如,一些sklearn模型支持顯式使用多個CPU(例如隨機(jī)森林n_jobs中的參數(shù)),但我不認(rèn)為Sklearn原生支持GPU、多GPU或多節(jié)點訓(xùn)練。


查看完整回答
反對 回復(fù) 2024-01-12
  • 1 回答
  • 0 關(guān)注
  • 148 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號