3 回答

TA貢獻(xiàn)1831條經(jīng)驗(yàn) 獲得超9個(gè)贊
使用RuneStart掃描符文邊界。在邊界處切割字符串。
var chunks []string
for len(s) > 10000 {
i := 10000
for i >= 10000 - utf8.UTFMax && !utf8.RuneStart(s[i]) {
i--
}
chunks = append(chunks, s[:i])
s = s[i:]
}
if len(s) > 0 {
chunks = append(chunks, s)
}
使用該方法,應(yīng)用程序檢查塊邊界處的幾個(gè)字節(jié)而不是整個(gè)字符串。
編寫代碼是為了在字符串不是有效的 UTF-8 編碼時(shí)保證進(jìn)度。您可能希望將此情況作為錯(cuò)誤處理或以不同方式拆分字符串。

TA貢獻(xiàn)1834條經(jīng)驗(yàn) 獲得超8個(gè)贊
看看這個(gè)代碼:
package main
import (
"fmt"
"math/rand"
"time"
)
func init() {
rand.Seed(time.Now().UnixNano())
}
var alphabet = []rune{
'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p',
'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', '?', '?', '?', 'A', 'B', 'C',
'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S',
'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '?', '?', '?',
}
func randomString(n int) string {
b := make([]rune, n, n)
for k, _ := range b {
b[k] = alphabet[rand.Intn(len(alphabet))]
}
return string(b)
}
const (
chunkSize int = 100
lead4Mask byte = 0xF8 // must equal 0xF0
lead3Mask byte = 0xF0 // must equal 0xE0
lead2Mask byte = 0xE0 // must equal 0xC0
lead1Mask byte = 0x80 // must equal 0x00
trailMask byte = 0xC0 // must equal 0x80
)
func longestPrefix(s string, n int) int {
for i := (n - 1); ; i-- {
if (s[i] & lead1Mask) == 0x00 {
return i + 1
}
if (s[i] & trailMask) != 0x80 {
return i
}
}
panic("never reached")
}
func main() {
s := randomString(100000)
for len(s) > chunkSize {
cut := longestPrefix(s, chunkSize)
fmt.Println(s[:cut])
s = s[cut:]
}
fmt.Println(s)
}
我正在使用丹麥語(yǔ)/挪威語(yǔ)字母表生成 100000 個(gè)符文的隨機(jī)字符串。
然后,“魔法”就在longestPrefix. 為了幫助您進(jìn)行位移位部分,請(qǐng)參考下圖:
程序打印出各自最長(zhǎng)的可能塊 <= chunkSize,每行一個(gè)。
- 3 回答
- 0 關(guān)注
- 192 瀏覽
添加回答
舉報(bào)