UTF-8 的編碼規(guī)則很簡(jiǎn)單:如果只有一個(gè)字節(jié),那么最高的比特位為 0;如果有多個(gè)字節(jié),那么第一個(gè)字節(jié)從最高位開始,連續(xù)有幾個(gè)比特位的值為 1,就使用幾個(gè)字節(jié)編碼,剩下的字節(jié)均以 10 開頭。
具體的表現(xiàn)形式為:
0xxxxxxx:?jiǎn)巫止?jié)編碼形式,這和 ASCII 編碼完全一樣,因此 UTF-8 是兼容 ASCII 的;
110xxxxx 10xxxxxx:雙字節(jié)編碼形式;
1110xxxx 10xxxxxx 10xxxxxx:三字節(jié)編碼形式;
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx:四字節(jié)編碼形式。
具體的表現(xiàn)形式為:
0xxxxxxx:?jiǎn)巫止?jié)編碼形式,這和 ASCII 編碼完全一樣,因此 UTF-8 是兼容 ASCII 的;
110xxxxx 10xxxxxx:雙字節(jié)編碼形式;
1110xxxx 10xxxxxx 10xxxxxx:三字節(jié)編碼形式;
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx:四字節(jié)編碼形式。
2023-04-21