首頁(yè) 猿問(wèn) 為什么文本文件編碼仍然是...

為什么文本文件編碼仍然是 ANSI，而在我指定它是 UTF-8 的 Java 代碼中

Java

萬(wàn)千封印 2023-06-04 10:29:32

我正在使用 FileWriter 對(duì)象將一些文本寫入文件。我指定我希望輸出為 UTF-8，但是當(dāng)我打開文本文件并另存為時(shí)，我看到它是 ANSI 編碼。我還想補(bǔ)充一點(diǎn)，當(dāng)存在標(biāo)準(zhǔn) ascii 字符集以外的字符（例如：- 日文字符）時(shí)，文件編碼為 UTF-8，但沒(méi)有則文本文件編碼為 ANSI。File json_file= new File(path);FileWriter json_file_output=newFileWriter(json_file,StandardCharsets.UTF_8);json_file_output.write("SOME JSON TEXT HERE");json_file_output.flush();我不確定是由于 java 代碼還是記事本。感謝您的幫助。

查看完整描述

1 回答

守著一只汪

TA貢獻(xiàn)1872條經(jīng)驗(yàn) 獲得超4個(gè)贊

Unicode是US-ASCII字符集的超集，
UTF-8是8位US-ASCII字符編碼的超集

沒(méi)有ANSI 編碼這樣的東西。

可能的意思是US-ASCII。并且每個(gè) 8 位 US-ASCII 文件也是一個(gè) UTF-8 文件。Unicode 是 US-ASCII 的超集。當(dāng)使用八位字節(jié)寫出時(shí)，ASCII 文件是UTF-8 文件。UTF-8 編碼是故意以這種方式設(shè)計(jì)的，以便兼容。

US-ASCII 是一個(gè) 7 位字符集，只有 128 個(gè)字符，編號(hào)為 0-127。因此，如果使用八位字節(jié)（8 位）編寫，則每個(gè)八位字節(jié)的第一位都是零。

沒(méi)有文件元數(shù)據(jù)

了解 US-ASCII 文件和 UTF-8 文件（沒(méi)有 BOM?）都只是一堆位，沒(méi)有元數(shù)據(jù)。不幸的是，計(jì)算機(jī)行業(yè)從未設(shè)法為文件系統(tǒng)元數(shù)據(jù)建立標(biāo)準(zhǔn)。因此應(yīng)用程序必須猜測(cè)內(nèi)容的內(nèi)容，或者用戶必須指明預(yù)期的格式。

您的文本編輯器可能會(huì)查看在您的文件中找到的字符域，然后嘗試使用盡可能小的范圍編碼來(lái)保守地標(biāo)記文件。如果只有 US-ASCII 字符，則標(biāo)記為 US-ASCII（顯然誤報(bào)為“ANSI”）。一旦您添加代碼點(diǎn)超出 ASCII 代碼點(diǎn)的更高編號(hào)的字符，然后標(biāo)記為 UTF-8。

反對(duì) 回復(fù) 2023-06-04