1 回答

TA貢獻(xiàn)1798條經(jīng)驗(yàn) 獲得超3個贊
沒有其他人可以確定對您的數(shù)據(jù)集進(jìn)行分類的最佳方法。這個決定只能由對目標(biāo)和數(shù)據(jù)集有很好理解的人做出。φ(x)——你的特征向量——總是非常特定于你的數(shù)據(jù)。
例如,如果您有 DNA,您可能具有特定密碼子是否存在的特征,或腺嘌呤數(shù)量的箱等,這是非常主觀的,即使有很好的理解,調(diào)整也是一項(xiàng)不平凡的任務(wù)。
您必須非常小心,因?yàn)槿绻e誤地生成特征向量,您可能會在您的數(shù)據(jù)中創(chuàng)建某些類別的偏差,使其具有一定的長度、某些氨基酸的數(shù)量等,這些偏差并不能真正代表您所分類的內(nèi)容。這可能會導(dǎo)致測試和訓(xùn)練錯誤率具有欺騙性并產(chǎn)生錯誤的結(jié)論。
老實(shí)說,如果你在上大學(xué),我建議你請計算機(jī)科學(xué)系或其他類似部門的人來幫助你的項(xiàng)目。雖然使用預(yù)烘焙的 sklearn 編碼似乎很誘人,但它對于您的情況并不是一個好的解決方案。由于數(shù)據(jù)量有限,您很可能會在序列長度方面出現(xiàn)異常情況,并且嘗試將每個字符變成它自己的特征會導(dǎo)致擬合性能不佳。
至于實(shí)際將您的數(shù)據(jù)讀入 python,它是一個 csv,因此您可以使用 open() 和 split(',') 手動解析它,或者您可以使用一些流行的庫來解析 csv 格式。YMMV
添加回答
舉報