我應(yīng)該使用 softmax 還是 tf.nn.sigmoid_cross_entropy
我正在閱讀有關(guān) NN 的內(nèi)容,并且還想同時(shí)生成我的第一個(gè) NN(以補(bǔ)充我的閱讀內(nèi)容)。我有一個(gè)這樣的數(shù)據(jù)集:DNA_seq Sample1Name Sample1Name ConcOfDNAInSample DNASeqFoundInProcessCatAGGAG cat_0 cat_1 0.1 found_in_0 AGGAG cat_1 cat_2 0.4 found_in_3ACCCC cat_1 cat_7 0.1 found_in_2AGAGAGA cat_2 cat_10 1.9 found_in_1ADAS cat_332 cat_103 8.9 found_in_1列:DNASeq -> 一串 DNA 序列(即“序列”)Sample1Name -> 分類值,解釋 DNASeq 所在溶液的化學(xué)性質(zhì)。Sample2Name -> 分類值,解釋 DNASeq 所在溶液的化學(xué)性質(zhì)。ConcOfDNAInSample -> Sample2SName 中 DNA 濃度的定量值。DNASeqFoundInProcessCat -> 這是我要預(yù)測的標(biāo)簽。它是一個(gè)具有四個(gè)類別(found_in_0 -> found_in_3)的分類值。這是我對(duì)每個(gè) DNASeq 進(jìn)行三個(gè)測試以查看我是否操縱原始解決方案(即 found_in_0)的輸出,DNASeq 是否仍然存在。我的問題:對(duì)于一組看不見的序列,我希望輸出標(biāo)簽集是“found_in_1”、“found_in_2”、“found_in_3”的多類概率。即,如果上面的示例是我的測試集的輸出,那么我的輸出理想情況下應(yīng)該是這樣的:DNA_seq Sample1Name Sample1Name ConcOfDNAInSample DNASeqFoundInProcessCatAGGAG cat_0 cat_1 0.1 (0.9,0.5,0.1) AGGAG cat_1 cat_2 0.4 (0.8,0.7,0.3)ACCCC cat_1 cat_7 0.1 (0.2,0.5,0.3)AGAGAGA cat_2 cat_10 1.9 (0.7,0.2,0.9)ADAS cat_332 cat_103 8.9 (0.6,0.8,0.7)有一些注意事項(xiàng):有可能因?yàn)槲艺谧龅倪^程,一些序列不能在原始解決方案中(found_in_0),但是因?yàn)?DNA 位可以粘在一起,它們隨后可以在其他類中(found_in_1、found_in_2、found_in_3 )我只對(duì)found_in_1、found_in_2 和found_in_3 類的輸出感興趣(即我想要最后的三類概率,而不是found_in_0 的四類概率)。我能夠從 DNA 序列中生成其他特征,這只是一個(gè)例子。從我的數(shù)據(jù)可以看出,我的數(shù)據(jù)集是不平衡的,found_in_3中的數(shù)據(jù)量明顯低于其他(我的完整訓(xùn)練數(shù)據(jù)大約80000行;但是其中只有大約10000行是found_in_3;其他的都是found_in_0、found_in_1 或 found_in_2)。我要解決的是算法,特別是針對(duì)一個(gè)特定點(diǎn)。我的想法是:1.讀入數(shù)據(jù)。df = pd.read_csv('data')2.將數(shù)據(jù)集拆分為訓(xùn)練和測試import sklearnfrom sklearn.model_selection import train_test_splitX_train,X_test,Y_train,Y_test = train_test_split(X,y,test_size=0.2,random_state=42)3.了解數(shù)據(jù)集(即我在上面第 4 點(diǎn)中看到的代表性不足的地方)。我有一系列的功能......所以假設(shè)我有一個(gè)標(biāo)準(zhǔn)化的數(shù)據(jù)集,即上表。所以我知道我想為我的數(shù)據(jù)復(fù)制一組類似的步驟,并且我正在嘗試解決如何做到這一點(diǎn),我無法理解的是我是否必須使用 tf.nn.sigmoid_cross_entropy_with_logits 來解決這個(gè)問題(因?yàn)槊總€(gè)輸入都可以屬于移動(dòng)而不是一個(gè)標(biāo)簽,即可以存在于found_in_1、found_in_2和found_in_3中,這可以產(chǎn)生每個(gè)類的概率輸出?)或者我可以只使用這樣的softmax函數(shù)嗎?
查看完整描述