如何遍歷Java String的unicode代碼點(diǎn)?所以我知道String#codePointAt(int),但它是由char偏移索引,而不是由代碼點(diǎn)偏移索引。我正在考慮嘗試這樣的事情:使用String#charAt(int)得到char的指數(shù)測(cè)試是否char在高代理范圍內(nèi)如果是這樣,使用String#codePointAt(int)獲取代碼點(diǎn),并將索引增加2如果不是,則使用給定char值作為代碼點(diǎn),并將索引遞增1但我擔(dān)心的是我不確定自然處于高代理范圍內(nèi)的代碼點(diǎn)是否會(huì)存儲(chǔ)為兩個(gè)char值或一個(gè)值這似乎是迭代字符的一種非常昂貴的方式有人必須想出更好的東西。
3 回答

DIEA
TA貢獻(xiàn)1820條經(jīng)驗(yàn) 獲得超2個(gè)贊
是的,Java使用UTF-16-esque編碼來(lái)表示字符串的內(nèi)部表示,是的,它使用代理方案對(duì)基本多語(yǔ)言平面(BMP)之外的字符進(jìn)行編碼。
如果你知道你將處理BMP之外的字符,那么這是迭代Java字符串字符的規(guī)范方法:
final int length = s.length();for (int offset = 0; offset < length; ) { final int codepoint = s.codePointAt(offset); // do something with the codepoint offset += Character.charCount(codepoint);}
添加回答
舉報(bào)
0/150
提交
取消