我正在嘗試解析 docx 文件。我先解壓縮它,然后嘗試讀取 Document.xml 文件,with open(..)并引發(fā)錯(cuò)誤“'charmap'編解碼器無(wú)法解碼位置 7618 中的字節(jié) 0x98:字符映射到”。XML 是“UTF-8”編碼:錯(cuò)誤:我寫了以下代碼: with open(self.tempDir + self.CONFIG['main_xml']) as xml_file:
self.dom_xml = etree.parse(xml_file)我嘗試強(qiáng)制編碼為 UTF-8,但隨后我無(wú)法etree.fromstring(..)正確讀取7618 符號(hào)(來(lái)自錯(cuò)誤)是:請(qǐng)幫我。如何正確讀取xml文件?謝謝
1 回答

蝴蝶刀刀
TA貢獻(xiàn)1801條經(jīng)驗(yàn) 獲得超8個(gè)贊
這對(duì)您的文件沒(méi)有錯(cuò)誤:
import zipfile
import xml.etree.ElementTree as ET
zipfile.ZipFile('file.docx').extractall()
root = ET.parse('word/document.xml').getroot()
添加回答
舉報(bào)
0/150
提交
取消