第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請(qǐng)及時(shí)綁定郵箱和手機(jī)立即綁定
已解決430363個(gè)問題,去搜搜看,總會(huì)有你想問的

如何在基于注意力的模型中為配置設(shè)置參數(shù)?

如何在基于注意力的模型中為配置設(shè)置參數(shù)?

慕尼黑8549860 2022-01-11 17:20:23
配置中有一些參數(shù),特別是當(dāng)我更改max_len,hidden_size或embedding_size.config = {    "max_len": 64,    "hidden_size": 64,    "vocab_size": vocab_size,    "embedding_size": 128,    "n_class": 15,    "learning_rate": 1e-3,    "batch_size": 32,    "train_epoch": 20}我收到一個(gè)錯(cuò)誤:“ValueError:無法為張量'Placeholder:0'提供形狀(32、32)的值,其形狀為'(?,64)'”下面的張量流圖是我理解有問題的。有沒有辦法了解什么親戚max_len,hidden_size或embedding_size參數(shù)需要進(jìn)行設(shè)置,以避免我得到上述錯(cuò)誤?        embeddings_var = tf.Variable(tf.random_uniform([self.vocab_size, self.embedding_size], -1.0, 1.0),                                     trainable=True)        batch_embedded = tf.nn.embedding_lookup(embeddings_var, self.x)        # multi-head attention        ma = multihead_attention(queries=batch_embedded, keys=batch_embedded)        # FFN(x) = LN(x + point-wisely NN(x))        outputs = feedforward(ma, [self.hidden_size, self.embedding_size])        outputs = tf.reshape(outputs, [-1, self.max_len * self.embedding_size])        logits = tf.layers.dense(outputs, units=self.n_class)        self.loss = tf.reduce_mean(            tf.nn.sparse_softmax_cross_entropy_with_logits(logits=logits, labels=self.label))        self.prediction = tf.argmax(tf.nn.softmax(logits), 1)        # optimization        loss_to_minimize = self.loss        tvars = tf.trainable_variables()        gradients = tf.gradients(loss_to_minimize, tvars, aggregation_method=tf.AggregationMethod.EXPERIMENTAL_TREE)        grads, global_norm = tf.clip_by_global_norm(gradients, 1.0)        self.global_step = tf.Variable(0, name="global_step", trainable=False)        self.optimizer = tf.train.AdamOptimizer(learning_rate=self.learning_rate)        self.train_op = self.optimizer.apply_gradients(zip(grads, tvars), global_step=self.global_step,                                                       name='train_step')        print("graph built successfully!")
查看完整描述

1 回答

?
哆啦的時(shí)光機(jī)

TA貢獻(xiàn)1779條經(jīng)驗(yàn) 獲得超6個(gè)贊

max_len是訓(xùn)練集中最長(zhǎng)句子/文檔標(biāo)記的長(zhǎng)度。它是輸入張量的第二個(gè)維度(第一個(gè)是批處理)。

每個(gè)句子都將被填充到這個(gè)長(zhǎng)度。注意模型需要預(yù)定義的最長(zhǎng)句子,因?yàn)槊總€(gè)標(biāo)記都有其各自的權(quán)重。

hidden_size 是隱藏 RNN 單元的大小,可以設(shè)置為將在每個(gè)時(shí)間步輸出的任何內(nèi)容。

embedding_size 定義令牌表示的維度(例如,300 是 word2vec 的標(biāo)準(zhǔn),1024 是 BERT 嵌入等的標(biāo)準(zhǔn))。


查看完整回答
反對(duì) 回復(fù) 2022-01-11
  • 1 回答
  • 0 關(guān)注
  • 186 瀏覽
慕課專欄
更多

添加回答

舉報(bào)

0/150
提交
取消
微信客服

購(gòu)課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)