首頁猿問如何檢測文本文件的編碼/代碼頁

如何檢測文本文件的編碼/代碼頁

C# .NET

偶然的你 2019-06-09 16:33:07

如何檢測文本文件的編碼/代碼頁在我們的應用程序中，我們接收文本文件(.txt, .csv等等)來自不同的來源。讀取時，這些文件有時包含垃圾，因為在不同的/未知代碼頁中創(chuàng)建的文件。是否有方法(自動)檢測文本文件的代碼頁？這個detectEncodingFromByteOrderMarks，在StreamReader構(gòu)造函數(shù)，為UTF8和其他Unicode標記的文件，但是我正在尋找一種檢測代碼頁的方法，例如ibm850, windows1252.謝謝你的回答，這就是我所做的。我們收到的文件來自最終用戶，他們對代碼頁一無所知。接收者也是終端用戶，這是他們現(xiàn)在所知道的代碼頁：代碼頁存在，而且很煩人。解決辦法：在記事本中打開接收到的文件，看一看亂七八糟的文本。如果有人叫弗朗索瓦什么的，用你的人類智慧，你可以猜到這一點。我創(chuàng)建了一個小應用程序，用戶可以用它打開文件，并輸入一個用戶知道它會出現(xiàn)在文件中的文本，當使用正確的代碼頁時。循環(huán)遍歷所有代碼頁，并使用用戶提供的文本顯示給出解決方案的代碼頁。如果彈出多個代碼頁，請用戶指定更多文本。

查看完整描述

3 回答

慕妹3146593

TA貢獻1820條經(jīng)驗獲得超9個贊

你不能檢測到代碼頁，你需要被告知。您可以分析字節(jié)并猜測它，但這可能會給出一些奇怪的(有時是有趣的)結(jié)果。我現(xiàn)在找不到，但我相信記事本可以被騙到用中文顯示英文文本。

不管怎么說，這是你需要讀的：每個軟件開發(fā)人員絕對、積極的絕對最低限度必須了解Unicode和字符集(沒有借口！).

特別是喬爾說：

關于編碼的一個最重要的事實
如果你完全忘記了我剛才解釋的一切，請記住一個非常重要的事實。在不知道字符串使用什么編碼的情況下使用字符串是沒有意義的。你不能再把頭伸進沙子里，假裝“純文本”是ASCII。沒有純文本這樣的東西。
如果您有字符串、內(nèi)存中、文件中或電子郵件中的字符串，則必須知道它所使用的編碼方式，或者無法正確地解釋或顯示給用戶。

反對回復 2019-06-09