主要是想做命名實(shí)體識(shí)別的標(biāo)注;具體來說,有兩個(gè)excel文件,稱之為A(n行1列),B(n行1列)。舉例來說,A中每一行是一句描述性質(zhì)的話,B中每一行都是一個(gè)實(shí)體名請(qǐng)問該如何高效地實(shí)現(xiàn)類似以下的功能:for index,row in A.iterrows():
要判斷row['描述']這一句話是否包含了B中的一個(gè)或者多個(gè)實(shí)體,并在A中進(jìn)行標(biāo)注
求指點(diǎn)思路。
3 回答

qq_花開花謝_0
TA貢獻(xiàn)1835條經(jīng)驗(yàn) 獲得超7個(gè)贊
感覺這個(gè)類似token解析。
可以把B的每一行作為一個(gè)正則表達(dá)式,用或合并為1個(gè)正則。
對(duì)于A的每一行對(duì)上面的正則進(jìn)行匹配,通過re.finditer獲取當(dāng)前行所有匹配的token
添加回答
舉報(bào)
0/150
提交
取消