首頁猿問 python中蛋白質(zhì)序列的一種熱編碼

python中蛋白質(zhì)序列的一種熱編碼

Python

侃侃爾雅 2022-06-07 19:06:22

我需要將序列作為訓(xùn)練數(shù)據(jù)，將輸出列作為標(biāo)簽。但在我必須對序列應(yīng)用一種熱編碼之前，如您所見，序列的長度各不相同請建議我如何對所有氨基酸應(yīng)用一種熱編碼以分配不同的整數(shù)值

查看完整描述

1 回答

呼如林

TA貢獻(xiàn)1798條經(jīng)驗(yàn) 獲得超3個贊

沒有其他人可以確定對您的數(shù)據(jù)集進(jìn)行分類的最佳方法。這個決定只能由對目標(biāo)和數(shù)據(jù)集有很好理解的人做出。φ(x)——你的特征向量——總是非常特定于你的數(shù)據(jù)。

例如，如果您有 DNA，您可能具有特定密碼子是否存在的特征，或腺嘌呤數(shù)量的箱等，這是非常主觀的，即使有很好的理解，調(diào)整也是一項(xiàng)不平凡的任務(wù)。

您必須非常小心，因?yàn)槿绻e誤地生成特征向量，您可能會在您的數(shù)據(jù)中創(chuàng)建某些類別的偏差，使其具有一定的長度、某些氨基酸的數(shù)量等，這些偏差并不能真正代表您所分類的內(nèi)容。這可能會導(dǎo)致測試和訓(xùn)練錯誤率具有欺騙性并產(chǎn)生錯誤的結(jié)論。

老實(shí)說，如果你在上大學(xué)，我建議你請計算機(jī)科學(xué)系或其他類似部門的人來幫助你的項(xiàng)目。雖然使用預(yù)烘焙的 sklearn 編碼似乎很誘人，但它對于您的情況并不是一個好的解決方案。由于數(shù)據(jù)量有限，您很可能會在序列長度方面出現(xiàn)異常情況，并且嘗試將每個字符變成它自己的特征會導(dǎo)致擬合性能不佳。

至于實(shí)際將您的數(shù)據(jù)讀入 python，它是一個 csv，因此您可以使用 open() 和 split(',') 手動解析它，或者您可以使用一些流行的庫來解析 csv 格式。YMMV

反對回復(fù) 2022-06-07