如何檢測文本文件的編碼/代碼頁在我們的應用程序中,我們接收文本文件(.txt, .csv等等)來自不同的來源。讀取時,這些文件有時包含垃圾,因為在不同的/未知代碼頁中創(chuàng)建的文件。是否有方法(自動)檢測文本文件的代碼頁?這個detectEncodingFromByteOrderMarks,在StreamReader構(gòu)造函數(shù),為UTF8和其他Unicode標記的文件,但是我正在尋找一種檢測代碼頁的方法,例如ibm850, windows1252.謝謝你的回答,這就是我所做的。我們收到的文件來自最終用戶,他們對代碼頁一無所知。接收者也是終端用戶,這是他們現(xiàn)在所知道的代碼頁:代碼頁存在,而且很煩人。解決辦法:在記事本中打開接收到的文件,看一看亂七八糟的文本。如果有人叫弗朗索瓦什么的,用你的人類智慧,你可以猜到這一點。我創(chuàng)建了一個小應用程序,用戶可以用它打開文件,并輸入一個用戶知道它會出現(xiàn)在文件中的文本,當使用正確的代碼頁時。循環(huán)遍歷所有代碼頁,并使用用戶提供的文本顯示給出解決方案的代碼頁。如果彈出多個代碼頁,請用戶指定更多文本。
3 回答

慕妹3146593
TA貢獻1820條經(jīng)驗 獲得超9個贊
關于編碼的一個最重要的事實
如果你完全忘記了我剛才解釋的一切,請記住一個非常重要的事實。在不知道字符串使用什么編碼的情況下使用字符串是沒有意義的。你不能再把頭伸進沙子里,假裝“純文本”是ASCII。沒有純文本這樣的東西。
如果您有字符串、內(nèi)存中、文件中或電子郵件中的字符串,則必須知道它所使用的編碼方式,或者無法正確地解釋或顯示給用戶。

森林海
TA貢獻2011條經(jīng)驗 獲得超2個贊
- 3 回答
- 0 關注
- 843 瀏覽
添加回答
舉報
0/150
提交
取消