第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請(qǐng)及時(shí)綁定郵箱和手機(jī)立即綁定
已解決430363個(gè)問題,去搜搜看,總會(huì)有你想問的

如何判斷句子中是否提到了主題?-自然語言處理

如何判斷句子中是否提到了主題?-自然語言處理

慕桂英546537 2023-10-11 16:11:44
我對(duì) NLP 還很陌生,我正在尋找最適合我的問題的解決方案。為了簡(jiǎn)單起見,我想從標(biāo)題創(chuàng)建一個(gè)“標(biāo)簽列表”。標(biāo)簽是預(yù)定義的,我可以輕松標(biāo)記訓(xùn)練示例。簡(jiǎn)單的例子:格式“示例句子”-“示例標(biāo)簽列表”“世界上最大的大象”——【動(dòng)物】“我喜歡芒果和大猩猩” - [動(dòng)物、水果]“我有 3 只貓和 4 只狗” - [動(dòng)物]“我患有糖尿病” - [疾病]“我沒有糖尿病,但我有一只貓” - [動(dòng)物]我不需要標(biāo)簽的具體值例如tags = { Animal: Elephant }和 一樣有用tags = [Animals]我可以找到提取實(shí)體的唯一解決方案。我只想出了一個(gè)匹配器的構(gòu)建列表,然后嘗試所有這些,有什么聰明且高性能的方法來做到這一點(diǎn)嗎?感謝您的任何建議、提示和資源,祝您有美好的一天:)
查看完整描述

2 回答

?
慕桂英3389331

TA貢獻(xiàn)2036條經(jīng)驗(yàn) 獲得超8個(gè)贊

您可以構(gòu)建自己的自定義分類器(按照 polm23 的建議),但考慮到您是 NLP 新手,這可能過于復(fù)雜且耗時(shí)。

一種令人興奮的新方法是所謂的“零樣本分類”。這基本上意味著您采用其他人以非常通用的方式預(yù)先訓(xùn)練的通用機(jī)器學(xué)習(xí)模型進(jìn)行文本分類,并且您只需將其應(yīng)用到您的特定用例,而無需訓(xùn)練/微調(diào)它。

具體應(yīng)用于您的用例,這看起來像這樣:

# pip install transformers==3.1.0? # pip install in terminal

from transformers import pipeline


classifier = pipeline("zero-shot-classification")


sequence = "The biggest elephant in the world"

candidate_labels = ["animals", "fruits", "diseases"]


classifier(sequence, candidate_labels)


# output: {'sequence': 'The biggest elephant in the world',?

# 'labels': ['animals', 'diseases', 'fruits'],?

# 'scores': [0.9948041439056396, 0.0035726651549339294, 0.0016232384368777275]}

如果您希望算法為文本分配多個(gè)標(biāo)簽,您可以激活多標(biāo)簽分類,它會(huì)為每個(gè)文本考慮多個(gè)標(biāo)簽。


sequence = "I like mangos and gorillas"

candidate_labels = ["animals", "fruits", "diseases"]


classifier(sequence, candidate_labels, multi_class=True)


# output: {'sequence': 'I like mangos and gorillas',?

# 'labels': ['animals', 'fruits', 'diseases'],?

# 'scores': [0.9978452920913696, 0.989518404006958, 0.00015786082076374441]}

=>用你的話來說:它為每個(gè)文本“創(chuàng)建一個(gè)‘標(biāo)簽列表’”。即對(duì)于每個(gè)預(yù)定義標(biāo)簽,它提供一個(gè)置信度分?jǐn)?shù),然后您可以為“真實(shí)標(biāo)簽列表”選擇具有最高置信度分?jǐn)?shù)的標(biāo)簽。

我測(cè)試了它,實(shí)際輸出在上面的代碼中。它對(duì)所有內(nèi)容進(jìn)行了正確分類:)

它在其他用例上進(jìn)行了嘗試,雖然不是 100% 準(zhǔn)確,但它相當(dāng)不錯(cuò),因?yàn)榇a非常簡(jiǎn)單,而且您不必自己訓(xùn)練模型。


查看完整回答
反對(duì) 回復(fù) 2023-10-11
?
PIPIONE

TA貢獻(xiàn)1829條經(jīng)驗(yàn) 獲得超9個(gè)贊

你要做的就是所謂的多標(biāo)簽分類。您的“標(biāo)簽”是labels,每個(gè)文檔可以有多個(gè)標(biāo)簽。

實(shí)現(xiàn)此目的的典型方法是為每個(gè)標(biāo)簽訓(xùn)練二元分類器,然后將預(yù)測(cè)中高于閾值的標(biāo)簽視為陽性。

spaCy 支持多標(biāo)簽分類。


查看完整回答
反對(duì) 回復(fù) 2023-10-11
  • 2 回答
  • 0 關(guān)注
  • 135 瀏覽
慕課專欄
更多

添加回答

舉報(bào)

0/150
提交
取消
微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)