dis.readUTF()是如何確定讀多少字節(jié)的?
問題是在學(xué)Java的DataOutputStream/DataInputStream時想到的
String?fileName?=?"dos.dat"; DataOutputStream?dos?=?new?DataOutputStream(new?FileOutputStream(fileName)); DataInputStream?dis??=?new?DataInputStream(new?FileInputStream(fileName)); //分別以utf-8和utf-16be編碼的方式寫入兩個"中國" dos.writeUTF("中國"); dos.writeChars("中國"); //打印readUTF()讀到的字符串 String?s?=?dis.readUTF(); System.out.println(s);
文件傳輸基礎(chǔ)——Java IO流 4-4課程中,老師演示的輸出結(jié)果只打印了一個"中國"
疑問:
文件就是字節(jié)排列,
utf-8編碼中,中文占3個字節(jié)
utf-16be編碼中,中文占2個字節(jié)
readUTF()方法是如何確定要讀幾個字節(jié)的呢?
比如說,
假若字節(jié)排列為11 22 33 44 55 66 77 88 99 00
11 22 33組成utf-8的'中'
44 55 66組成utf-8的'國'
77 88組成utf-16be的'中'
99 00組成utf-16be的"國"
然而77 88 99也可組成utf-8的'不知是什么的中文'、或77組成'不知是什么的英文'
那么在將字節(jié)轉(zhuǎn)為字符串的時候,read()方法是如何做到
將中文對應(yīng)的字節(jié)轉(zhuǎn)為中文,而不是轉(zhuǎn)為2個字母
將非utf-8編碼的字節(jié)比如utf-16be的字節(jié)排除,或停止,而不是繼續(xù)讀出來?
底層代碼花了很長世間卻實在是看不懂,求大神解答
感謝。
2017-04-20
嘗試回答一下,首先是utf-16be編碼中英文都是兩個字節(jié),那么就是根據(jù)指針兩個兩個字節(jié)編譯;utf-8編碼時中文占三個字節(jié),英文占一個字節(jié),設(shè)想一下,首先也是按照指針,應(yīng)該有個先后編譯順序,假設(shè)英文優(yōu)先,就是先嘗試編譯一個字節(jié),若失敗,則嘗試編譯三個字節(jié),成功則編譯成一個漢字,失敗則編譯成亂碼,循環(huán)下去,當(dāng)然實際情況可能復(fù)雜的多,編碼的方式也就像是一個封裝,不用考慮太多。