課程
                    
                        /后端開(kāi)發(fā)
                        
                            /Java
                        
                        /文件傳輸基礎(chǔ)——Java IO流

dis.readUTF()是如何確定讀多少字節(jié)的？

問(wèn)題是在學(xué)Java的DataOutputStream/DataInputStream時(shí)想到的

String?fileName?=?"dos.dat";
DataOutputStream?dos?=?new?DataOutputStream(new?FileOutputStream(fileName));
DataInputStream?dis??=?new?DataInputStream(new?FileInputStream(fileName));

//分別以u(píng)tf-8和utf-16be編碼的方式寫入兩個(gè)"中國(guó)"
dos.writeUTF("中國(guó)");
dos.writeChars("中國(guó)");

//打印readUTF()讀到的字符串
String?s?=?dis.readUTF();
System.out.println(s);

文件傳輸基礎(chǔ)——Java IO流 4-4課程中，老師演示的輸出結(jié)果只打印了一個(gè)"中國(guó)"

疑問(wèn)：

文件就是字節(jié)排列，

utf-8編碼中，中文占3個(gè)字節(jié)

utf-16be編碼中，中文占2個(gè)字節(jié)

readUTF()方法是如何確定要讀幾個(gè)字節(jié)的呢？

比如說(shuō)，

假若字節(jié)排列為11 22 33 44 55 66 77 88 99 00

11 22 33組成utf-8的'中'

44 55 66組成utf-8的'國(guó)'

77 88組成utf-16be的'中'

99 00組成utf-16be的"國(guó)"

然而77 88 99也可組成utf-8的'不知是什么的中文'、或77組成'不知是什么的英文'

那么在將字節(jié)轉(zhuǎn)為字符串的時(shí)候，read()方法是如何做到

將中文對(duì)應(yīng)的字節(jié)轉(zhuǎn)為中文，而不是轉(zhuǎn)為2個(gè)字母

將非utf-8編碼的字節(jié)比如utf-16be的字節(jié)排除，或停止，而不是繼續(xù)讀出來(lái)？

底層代碼花了很長(zhǎng)世間卻實(shí)在是看不懂，求大神解答

感謝。

咖喱炒飯

2017-04-19

源自：文件傳輸基礎(chǔ)——Java IO流 4-4

關(guān)注問(wèn)題我要回答

3232

操作

收起

1 回答

慕粉2137351520
2017-04-20

嘗試回答一下，首先是utf-16be編碼中英文都是兩個(gè)字節(jié)，那么就是根據(jù)指針兩個(gè)兩個(gè)字節(jié)編譯；utf-8編碼時(shí)中文占三個(gè)字節(jié)，英文占一個(gè)字節(jié)，設(shè)想一下，首先也是按照指針，應(yīng)該有個(gè)先后編譯順序，假設(shè)英文優(yōu)先，就是先嘗試編譯一個(gè)字節(jié)，若失敗，則嘗試編譯三個(gè)字節(jié)，成功則編譯成一個(gè)漢字，失敗則編譯成亂碼，循環(huán)下去，當(dāng)然實(shí)際情況可能復(fù)雜的多，編碼的方式也就像是一個(gè)封裝，不用考慮太多。