1 回答

TA貢獻(xiàn)1804條經(jīng)驗(yàn) 獲得超3個(gè)贊
您可以分別對(duì)兩列進(jìn)行標(biāo)記,然后將它們輸入到兩個(gè)不同的輸入層,將它們連接起來(lái)并將它們輸入到 LSTM 層,對(duì)嗎?如果這種方法適合您,我可以解釋如何操作。
編輯:如果您習(xí)慣使用 Functional API,請(qǐng)生成對(duì)應(yīng)于 2 列的 2 個(gè)填充序列輸入,如下所示:
tokenizer.fit_on_texts(f_data['Headline'])
vocab_size = len(tokenizer.word_index) + 1
headline_sequences_train = tokenizer.texts_to_sequences(f_data['Headline'])
#headline_seq_validation = tokenizer.texts_to_sequences(val_data['Headline'])
headline_padded_train = pad_sequences(headline_sequences_train, padding='post', maxlen = MAX_SEQ_LEN)
#headline_padded_validation = pad_sequences(headline_seq_validation,padding = 'post',maxlen = MAX_SEQ_LEN)
同樣對(duì)于文章正文:
tokenizer.fit_on_texts(f_data['articleBody'])
vocab_size = len(tokenizer.word_index) + 1
art_body_seq_train = tokenizer.texts_to_sequences(f_data['articleBody'])
#art_body_seq_validation = tokenizer.texts_to_sequences(val_data['articleBody'])
art_body_padded_train = pad_sequences(art_body_seq_train, padding='post', maxlen = MAX_SEQ_LEN)
#art_body_padded_validation = pad_sequences(art_body_seq_validation, padding='post', maxlen = MAX_SEQ_LEN)
注意:對(duì)于兩個(gè)不同的列,MAX_SEQ_LEN 可能不同。取決于您的喜好。我建議你分別分析Headline和Article Body欄的字長(zhǎng),并選擇不同的看起來(lái)合適的最大序列長(zhǎng)度。
headline_padded_train并且art_body_padded_train是你的兩個(gè)輸入對(duì)應(yīng)于你的神經(jīng)網(wǎng)絡(luò)中的兩個(gè)輸入層。
添加回答
舉報(bào)