首頁猿問為什么 utf-8 編碼字節(jié)...

為什么 utf-8 編碼字節(jié) \xbd 在 for range 循環(huán)中被格式化為 unicode

Go

SMILET 2023-08-07 14:32:55

?[Exercise: Put an invalid UTF-8 byte sequence into the string. (How?) What happens to the iterations of the loop?]我所做的是? ? const nihongo = "\xbd日本語\xbd"? ? for index, runeValue := range nihongo {? ? ? ? fmt.Printf("%x, %d\n", runeValue, index)? ? }輸出是fffd, 065e5, 1672c, 48a9e, 7fffd, 10我的問題是。utf-8編碼的字節(jié)如何bd格式化為單位代碼點u+fffd？

查看完整描述

1 回答

小唯快跑啊

TA貢獻(xiàn)1863條經(jīng)驗獲得超2個贊

此行為由Spec: For 語句指定：

對于帶有范圍子句的語句
對于字符串值，“range”子句從字節(jié)索引 0 開始迭代字符串中的 Unicode 代碼點。在連續(xù)迭代中，索引值將是連續(xù) UTF-8 編碼代碼點的第一個字節(jié)的索引字符串和類型為的第二個值rune將是相應(yīng)代碼點的值。如果迭代遇到無效的 UTF-8 序列，則第二個值將為0xFFFDUnicode 替換字符，并且下一次迭代將在字符串中前進(jìn)一個字節(jié)。