我想確切地知道在這個標記器中使用指定的模式對文本做了什么:from nltk.tokenize import RegexpTokenizertokenizer = RegexpTokenizer(r'[a-zA-Z]\w+\'?\w*')text_token = text.apply(tokenizer.tokenize)其中“text”是一個熊貓系列,每一行都是一個句子。我特別想了解r'[a-zA-Z]\w+\'?\w '* 部分。詳細信息(每個組件的解釋)將不勝感激。
文本標記器模式的解釋
ibeautiful
2021-06-05 13:15:35