1 回答

TA貢獻(xiàn)1802條經(jīng)驗(yàn) 獲得超10個贊
GATE是目前在自然語言處理領(lǐng)域比較受推崇的一個開源項(xiàng)目,它是一個應(yīng)用非常廣泛的自然語言處理和信息抽取的開放型基礎(chǔ)結(jié)構(gòu),由Sheffield大學(xué)的自然語言處理研究組在EPSRC(The Engineering and Physical Sciences Research Council)資助下研究開發(fā).GATE為用戶提供圖形化的開發(fā)環(huán)境,被許多自然語言處理項(xiàng)目尤其是信息抽取研究項(xiàng)目所采用.該系統(tǒng)可以自動處理文檔格式、結(jié)果存儲及分析評價(jià),還可以針對結(jié)果進(jìn)行系統(tǒng)調(diào)試.對語言處理的各個環(huán)節(jié)(從語料收集、標(biāo)注、重用到系統(tǒng)評價(jià))均能提供很好的支持. MUC所定義的信息抽取,分為命名實(shí)體識別、共指消解等五個典型的信息提取階段.其中,命名實(shí)體的識別是目前最有價(jià)值的一項(xiàng)技術(shù),它是信息抽取任務(wù)的一個非常重要的預(yù)處理模塊,也是最基礎(chǔ)的一個階段.命名實(shí)體識別就是要判斷一個文本串是否代表一個命名實(shí)體,并確定它的類別.MUC中提到的命名實(shí)體包括人名(Person)、地名(Location)、機(jī)構(gòu)名(organization)、日期(data)、時間(time)、百分?jǐn)?shù)(percentage)、貨幣(monetary value)這七類命名實(shí)體.GATE所提供的整體解決框架以及ANNIE應(yīng)用實(shí)例組件等,已經(jīng)能夠很好地實(shí)現(xiàn)英文命名實(shí)體的識別,能夠?qū)σ陨咸岬降钠哳惷麑?shí)體更為具體的識別與抽取進(jìn)行擴(kuò)展,并提供了信息抽取的抽取規(guī)則編寫與定義、詞性標(biāo)注等相關(guān)功能.本文內(nèi)容包括: 1 GATE簡介 2 GATE的基本設(shè)計(jì)思想與原理 3 英文信息抽取組件ANNIE 4 GATE中語料的收集與處理 。
- 1 回答
- 0 關(guān)注
- 1508 瀏覽
添加回答
舉報(bào)