首頁猿問 HTML 實體似乎包含無意義內(nèi)容

HTML 實體似乎包含無意義內(nèi)容

Html5

MMTTMM 2023-10-24 17:07:22

Ã¬â€¹Â Ã¬ËœÂ Ã¬â€¢Ë†上面是html，下面是代碼。這是一個名字嗎？這是什么意思？??a€1? ????? ??a€￠??

查看完整描述

1 回答

梵蒂岡之花

TA貢獻(xiàn)1900條經(jīng)驗獲得超5個贊

您有一個雙重 Mojibake，由于使用不正確的編解碼器而損壞了數(shù)據(jù)。

它實際上是韓語，一個名字：

?? ?

或者，如果使用 HTML 實體，則應(yīng)將其編碼為

신영 안

它翻譯成英文為Shin-Young An。

當(dāng)編碼為 UTF-8并按輸入代碼點分組然后使用十六進(jìn)制數(shù)字顯示時，您將得到以下結(jié)果：

ec 8b a0

ec 98 81

20

ec 95 88

為了產(chǎn)生你所擁有的輸出，有人必須具備：

使用Windows 代碼頁 1252 解碼上述 UTF-8 數(shù)據(jù)，產(chǎn)生

ì?<A0>ì?<81> ì??

（其中<A0>是不間斷空格字符，并且<81>是無效的 CP1252 字節(jié)，但這在許多解碼器中經(jīng)常被忽略；我已將它們包含在此表示法中，因為否則它們將無法打?。?/p>

將產(chǎn)生的混亂再次編碼為 UTF-8，得到以下字節(jié)值：

c3 ac e2 80 b9 c2 a0

c3 ac cb 9c c2 81

20

c3 ac e2 80 a2 cb 86

（分組與上面正確的 UTF-8 匹配）

使用相同的 Windows CP1252 編解碼器第二次解碼這些 UTF-8 字節(jié)，這次生成：

??a€1?<A0>?????<81> ??a€￠??

<A0>（與和字符上的注釋相同<81>）

最后將結(jié)果字符編碼為 HTML 實體：

Ã¬â€¹Â Ã¬ËœÂ Ã¬â€¢Ë†

如果您安裝了 Python，那么該ftfy庫可以一步“修復(fù)”文本，如下所示：

>>> import ftfy

>>> sample = 'Ã¬â€¹Â Ã¬ËœÂ Ã¬â€¢Ë†'

>>> ftfy.ftfy(sample)

'?? ?'

我使用該庫來告訴我使用了哪些編解碼器，并使用它的草率 CP1252 解碼器來生成上面的解碼。

例如，對于您的輸入，我使用了：

>>> ftfy.fixes.fix_encoding_and_explain(ftfy.fixes.unescape_html(sample))

('?? ?', [('encode', 'sloppy-windows-1252', 0), ('decode', 'utf-8', 0), ('encode', 'sloppy-windows-1252', 0), ('decode', 'utf-8', 0)])

看到修復(fù)計劃，并反向解釋了 Mojibake 最初是如何生產(chǎn)的。

反對回復(fù) 2023-10-24

1 回答
0 關(guān)注
159 瀏覽

關(guān)注

添加回答

舉報

0/150

提交

取消

使用 Ctrl+D 可將網(wǎng)站添加到書簽

微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

HTML 實體似乎包含無意義內(nèi)容

HTML 實體似乎包含無意義內(nèi)容

1 回答

添加回答