1 回答

TA貢獻1804條經(jīng)驗 獲得超3個贊
您可以分別對兩列進行標(biāo)記,然后將它們輸入到兩個不同的輸入層,將它們連接起來并將它們輸入到 LSTM 層,對嗎?如果這種方法適合您,我可以解釋如何操作。
編輯:如果您習(xí)慣使用 Functional API,請生成對應(yīng)于 2 列的 2 個填充序列輸入,如下所示:
tokenizer.fit_on_texts(f_data['Headline'])
vocab_size = len(tokenizer.word_index) + 1
headline_sequences_train = tokenizer.texts_to_sequences(f_data['Headline'])
#headline_seq_validation = tokenizer.texts_to_sequences(val_data['Headline'])
headline_padded_train = pad_sequences(headline_sequences_train, padding='post', maxlen = MAX_SEQ_LEN)
#headline_padded_validation = pad_sequences(headline_seq_validation,padding = 'post',maxlen = MAX_SEQ_LEN)
同樣對于文章正文:
tokenizer.fit_on_texts(f_data['articleBody'])
vocab_size = len(tokenizer.word_index) + 1
art_body_seq_train = tokenizer.texts_to_sequences(f_data['articleBody'])
#art_body_seq_validation = tokenizer.texts_to_sequences(val_data['articleBody'])
art_body_padded_train = pad_sequences(art_body_seq_train, padding='post', maxlen = MAX_SEQ_LEN)
#art_body_padded_validation = pad_sequences(art_body_seq_validation, padding='post', maxlen = MAX_SEQ_LEN)
注意:對于兩個不同的列,MAX_SEQ_LEN 可能不同。取決于您的喜好。我建議你分別分析Headline和Article Body欄的字長,并選擇不同的看起來合適的最大序列長度。
headline_padded_train并且art_body_padded_train是你的兩個輸入對應(yīng)于你的神經(jīng)網(wǎng)絡(luò)中的兩個輸入層。
添加回答
舉報