3 回答

TA貢獻(xiàn)1877條經(jīng)驗(yàn) 獲得超1個(gè)贊
Q1:“[..]英語詞干器今天有用嗎?因?yàn)槲覀冇写罅康挠⒄Z詞法化工具”
是。Stemmers比lemmatizers更簡(jiǎn)單,更小,通常更快,對(duì)于許多應(yīng)用,它們的結(jié)果足夠好。使用lemmatizer是浪費(fèi)資源。例如,考慮信息檢索中的維數(shù)減少。您可以在搜索到的文檔和查詢中通過driv替換所有驅(qū)動(dòng)器/驅(qū)動(dòng)器。你不介意它是驅(qū)動(dòng)器或DRIV或x17a $只要聚類inflectionally相關(guān)詞放在一起。
Q2:“[..]我們應(yīng)該如何繼續(xù)構(gòu)建強(qiáng)大的引理器,這些引理器可以采用名詞化,verbify,adjectify和adverbify preprocesses?
什么是你的一個(gè)引理的定義,它包括推導(dǎo)(驅(qū)動(dòng) - 驅(qū)動(dòng)程序)或只拐點(diǎn)(驅(qū)動(dòng)器 - 驅(qū)動(dòng)器 - 開)?它是否考慮了語義?
如果你想包括派生(大多數(shù)人會(huì)說包括修改名詞等),那么請(qǐng)記住,派生比變形更不規(guī)則。有很多特質(zhì),差距等等。你真的想要改變(改變火車)和改變(作為硬幣)以獲得相同的引理嗎?如果沒有,你在哪里繪制邊界?如何神經(jīng) - 失去勇氣,地球 - 墳 - 世人,......這真的取決于應(yīng)用程序。
如果你考慮到語義(根據(jù)具體情況,銀行會(huì)被標(biāo)記為銀行貨幣或銀行河流),你有多深(你是否將銀行機(jī)構(gòu)與銀行建設(shè)區(qū)分開來)?有些應(yīng)用程序可能根本不關(guān)心這個(gè)問題,有些應(yīng)用程序可能想要區(qū)分基本語義,有些可能希望它被罰款。
問題3:“如何將詞形還原任務(wù)輕松擴(kuò)展到與英語具有相似形態(tài)結(jié)構(gòu)的其他語言?”
“與英語相似的形態(tài)結(jié)構(gòu)”是什么意思?英語的屈折形態(tài)非常少。對(duì)于其他形態(tài)類型的語言(真正的屈折,凝聚,模板......),有很好的詞形推理器。
除了粘合語言之外,我認(rèn)為查找表(比如壓縮的trie)是最好的解決方案。(可能有一些未知單詞的備份規(guī)則,如專有名稱)。查找之后是某種消歧(范圍從微不足道 - 采取第一個(gè),或采取與POS標(biāo)簽一致的第一個(gè),更復(fù)雜)。更復(fù)雜的消歧通常是監(jiān)督的隨機(jī)算法(例如TreeTagger或更快),盡管機(jī)器學(xué)習(xí)和手動(dòng)創(chuàng)建的規(guī)則的組合也已經(jīng)完成(參見例如此)。
顯然,對(duì)于大多數(shù)語言,您不希望手動(dòng)創(chuàng)建查找表,而是根據(jù)該語言的形態(tài)描述生成查找表。對(duì)于屈折語言,你可以采用捷克語的Hajic或俄語的Mikheev的工程方式,或者,如果你大膽,你可以使用兩級(jí)形態(tài)學(xué)?;蛘吣梢栽趦烧咧g做一些事情,例如Hana(我自己)(請(qǐng)注意,這些都是包含詞形還原的完整形態(tài)分析器)?;蛘吣憧梢杂脽o人監(jiān)督的方式學(xué)習(xí)變形器 a yarowsky和Wicentowski,可能需要手動(dòng)后處理,糾正最頻繁的單詞。
有太多的選擇,它實(shí)際上取決于你想要對(duì)結(jié)果做什么。

TA貢獻(xiàn)1799條經(jīng)驗(yàn) 獲得超6個(gè)贊
詞干或詞形還原的一個(gè)經(jīng)典應(yīng)用是搜索引擎結(jié)果的改進(jìn):通過對(duì)查詢以及(在索引之前)對(duì)所有索引的索引應(yīng)用詞干(或詞形還原),搜索“擁有”的用戶能夠找到包含“has”的結(jié)果。
(可以說,動(dòng)詞在大多數(shù)搜索查詢中有點(diǎn)不常見,但同樣的原則適用于名詞,特別是在具有豐富名詞形態(tài)的語言中。)
出于搜索結(jié)果改進(jìn)的目的,干(或引理)是否有意義(“有”)或不有(“hav”)實(shí)際上并不重要。它只需要能夠代表有問題的詞及其所有的屈折形式。事實(shí)上,有些系統(tǒng)使用數(shù)字或其他類型的id-strings而不是詞干或引理(或基本形式或任何它可能被稱為)。
因此,這是一個(gè)應(yīng)用程序的示例,其中詞干分析器(根據(jù)您的定義)與詞形變換器一樣好。
但是,我并不完全相信你的(隱含的)“詞干分子”和“詞形變換器”的定義是普遍接受的。我不確定這些術(shù)語是否有普遍接受的定義,但我定義它們的方式如下:
Stemmer:使用已知后綴的規(guī)則和列表,將屈折形式減少為詞干或基本形式的函數(shù)。
Lemmatizer:一個(gè)執(zhí)行相同縮減的函數(shù),但使用全面的完整形式字典來處理不規(guī)則形式。
基于這些定義,一個(gè)詞形變換器本質(zhì)上是一個(gè)更高質(zhì)量(也更昂貴)的詞干分析器版本。
- 3 回答
- 0 關(guān)注
- 634 瀏覽
添加回答
舉報(bào)