1 回答

TA貢獻(xiàn)1815條經(jīng)驗(yàn) 獲得超13個(gè)贊
在 Go 中,一個(gè)字符串實(shí)際上只是一個(gè)字節(jié)序列,索引一個(gè)字符串會(huì)產(chǎn)生 bytes。所以你可以簡(jiǎn)單地將你的字符串分割成 4kB 的子字符串。
但是,由于 UTF-8 字符可以跨越多個(gè)字節(jié),因此您可能會(huì)在字符序列的中間拆分。如果分割后的字符串總是在解碼之前在另一端以相同的順序再次連接在一起,這不是問(wèn)題,但是如果您嘗試單獨(dú)解碼每個(gè)字符串,則可能會(huì)得到無(wú)效的前導(dǎo)或尾隨字節(jié)序列。如果你想防止這種情況發(fā)生,你可以使用這個(gè)unicode/utf8
包來(lái)檢查你是否在一個(gè)有效的前導(dǎo)字節(jié)上進(jìn)行拆分,如下所示:
package httputil
import "unicode/utf8"
const maxLen = 4096
func SplitHeader(longString string) []string {
? ? splits := []string{}
? ? var l, r int
? ? for l, r = 0, maxLen; r < len(longString); l, r = r, r+maxLen {
? ? ? ? for !utf8.RuneStart(longString[r]) {
? ? ? ? ? ? r--
? ? ? ? }
? ? ? ? splits = append(splits, longString[l:r])
? ? }
? ? splits = append(splits, longString[l:])
? ? return splits
}
直接切片字符串比[]byte來(lái)回轉(zhuǎn)換更有效,因?yàn)?astring是不可變的而 a[]byte不是,數(shù)據(jù)必須在轉(zhuǎn)換時(shí)復(fù)制到新內(nèi)存,花費(fèi) O(n) 時(shí)間(雙向?。衅?a string 只是返回一個(gè)新的字符串頭,由與原始數(shù)組相同的數(shù)組支持(花費(fèi)常數(shù)時(shí)間)。
- 1 回答
- 0 關(guān)注
- 342 瀏覽
添加回答
舉報(bào)