dis.readUTF()是如何確定讀多少字節(jié)的?
問(wèn)題是在學(xué)Java的DataOutputStream/DataInputStream時(shí)想到的
String?fileName?=?"dos.dat"; DataOutputStream?dos?=?new?DataOutputStream(new?FileOutputStream(fileName)); DataInputStream?dis??=?new?DataInputStream(new?FileInputStream(fileName)); //分別以u(píng)tf-8和utf-16be編碼的方式寫入兩個(gè)"中國(guó)" dos.writeUTF("中國(guó)"); dos.writeChars("中國(guó)"); //打印readUTF()讀到的字符串 String?s?=?dis.readUTF(); System.out.println(s);
文件傳輸基礎(chǔ)——Java IO流 4-4課程中,老師演示的輸出結(jié)果只打印了一個(gè)"中國(guó)"
疑問(wèn):
文件就是字節(jié)排列,
utf-8編碼中,中文占3個(gè)字節(jié)
utf-16be編碼中,中文占2個(gè)字節(jié)
readUTF()方法是如何確定要讀幾個(gè)字節(jié)的呢?
比如說(shuō),
假若字節(jié)排列為11 22 33 44 55 66 77 88 99 00
11 22 33組成utf-8的'中'
44 55 66組成utf-8的'國(guó)'
77 88組成utf-16be的'中'
99 00組成utf-16be的"國(guó)"
然而77 88 99也可組成utf-8的'不知是什么的中文'、或77組成'不知是什么的英文'
那么在將字節(jié)轉(zhuǎn)為字符串的時(shí)候,read()方法是如何做到
將中文對(duì)應(yīng)的字節(jié)轉(zhuǎn)為中文,而不是轉(zhuǎn)為2個(gè)字母
將非utf-8編碼的字節(jié)比如utf-16be的字節(jié)排除,或停止,而不是繼續(xù)讀出來(lái)?
底層代碼花了很長(zhǎng)世間卻實(shí)在是看不懂,求大神解答
感謝。
2017-04-20
嘗試回答一下,首先是utf-16be編碼中英文都是兩個(gè)字節(jié),那么就是根據(jù)指針兩個(gè)兩個(gè)字節(jié)編譯;utf-8編碼時(shí)中文占三個(gè)字節(jié),英文占一個(gè)字節(jié),設(shè)想一下,首先也是按照指針,應(yīng)該有個(gè)先后編譯順序,假設(shè)英文優(yōu)先,就是先嘗試編譯一個(gè)字節(jié),若失敗,則嘗試編譯三個(gè)字節(jié),成功則編譯成一個(gè)漢字,失敗則編譯成亂碼,循環(huán)下去,當(dāng)然實(shí)際情況可能復(fù)雜的多,編碼的方式也就像是一個(gè)封裝,不用考慮太多。