1 回答

TA貢獻1802條經(jīng)驗 獲得超10個贊
GATE是目前在自然語言處理領域比較受推崇的一個開源項目,它是一個應用非常廣泛的自然語言處理和信息抽取的開放型基礎結構,由Sheffield大學的自然語言處理研究組在EPSRC(The Engineering and Physical Sciences Research Council)資助下研究開發(fā).GATE為用戶提供圖形化的開發(fā)環(huán)境,被許多自然語言處理項目尤其是信息抽取研究項目所采用.該系統(tǒng)可以自動處理文檔格式、結果存儲及分析評價,還可以針對結果進行系統(tǒng)調試.對語言處理的各個環(huán)節(jié)(從語料收集、標注、重用到系統(tǒng)評價)均能提供很好的支持. MUC所定義的信息抽取,分為命名實體識別、共指消解等五個典型的信息提取階段.其中,命名實體的識別是目前最有價值的一項技術,它是信息抽取任務的一個非常重要的預處理模塊,也是最基礎的一個階段.命名實體識別就是要判斷一個文本串是否代表一個命名實體,并確定它的類別.MUC中提到的命名實體包括人名(Person)、地名(Location)、機構名(organization)、日期(data)、時間(time)、百分數(shù)(percentage)、貨幣(monetary value)這七類命名實體.GATE所提供的整體解決框架以及ANNIE應用實例組件等,已經(jīng)能夠很好地實現(xiàn)英文命名實體的識別,能夠對以上提到的七類命名實體更為具體的識別與抽取進行擴展,并提供了信息抽取的抽取規(guī)則編寫與定義、詞性標注等相關功能.本文內容包括: 1 GATE簡介 2 GATE的基本設計思想與原理 3 英文信息抽取組件ANNIE 4 GATE中語料的收集與處理 。
- 1 回答
- 0 關注
- 1519 瀏覽
添加回答
舉報