第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時綁定郵箱和手機(jī)立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

python中蛋白質(zhì)序列的一種熱編碼

python中蛋白質(zhì)序列的一種熱編碼

侃侃爾雅 2022-06-07 19:06:22
我需要將序列作為訓(xùn)練數(shù)據(jù),將輸出列作為標(biāo)簽。但在我必須對序列應(yīng)用一種熱編碼之前,如您所見,序列的長度各不相同 請建議我如何對所有氨基酸應(yīng)用一種熱編碼以分配不同的整數(shù)值
查看完整描述

1 回答

?
呼如林

TA貢獻(xiàn)1798條經(jīng)驗(yàn) 獲得超3個贊

沒有其他人可以確定對您的數(shù)據(jù)集進(jìn)行分類的最佳方法。這個決定只能由對目標(biāo)和數(shù)據(jù)集有很好理解的人做出。φ(x)——你的特征向量——總是非常特定于你的數(shù)據(jù)。

例如,如果您有 DNA,您可能具有特定密碼子是否存在的特征,或腺嘌呤數(shù)量的箱等,這是非常主觀的,即使有很好的理解,調(diào)整也是一項(xiàng)不平凡的任務(wù)。

您必須非常小心,因?yàn)槿绻e誤地生成特征向量,您可能會在您的數(shù)據(jù)中創(chuàng)建某些類別的偏差,使其具有一定的長度、某些氨基酸的數(shù)量等,這些偏差并不能真正代表您所分類的內(nèi)容。這可能會導(dǎo)致測試和訓(xùn)練錯誤率具有欺騙性并產(chǎn)生錯誤的結(jié)論。

老實(shí)說,如果你在上大學(xué),我建議你請計算機(jī)科學(xué)系或其他類似部門的人來幫助你的項(xiàng)目。雖然使用預(yù)烘焙的 sklearn 編碼似乎很誘人,但它對于您的情況并不是一個好的解決方案。由于數(shù)據(jù)量有限,您很可能會在序列長度方面出現(xiàn)異常情況,并且嘗試將每個字符變成它自己的特征會導(dǎo)致擬合性能不佳。

至于實(shí)際將您的數(shù)據(jù)讀入 python,它是一個 csv,因此您可以使用 open() 和 split(',') 手動解析它,或者您可以使用一些流行的庫來解析 csv 格式。YMMV


查看完整回答
反對 回復(fù) 2022-06-07
  • 1 回答
  • 0 關(guān)注
  • 181 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號