我使用 Apache Tika 作為服務來分析 Python 中的 Office 文檔,如下所示:url = 'http://{0}:{1}/rmeta/xml'url = url.format(self._host, self._port)res = requests.put(url, data=dat).json()如果文檔包含宏,我想從文檔中提取宏的內容,但不知道該怎么做。Apache Tika 文檔不是那么好。是否有任何標題或我需要使用的東西來使 Tika 服務器返回宏內容以及文檔的內容?
1 回答

慕容森
TA貢獻1853條經(jīng)驗 獲得超18個贊
據(jù)我了解,問題在于 Tika 默認情況下不會從 Office 文檔中提取宏。為了做到這一點,我必須為 Tika 制作一個自定義配置文件,為在 Tika 中實現(xiàn)的兩個 Microsoft Office 解析器啟用 extractMacros 屬性(我不知道他們是否使用 POI 或其他東西)。這是一個示例:https ://github.com/apache/tika/blob/master/tika-parsers/src/test/resources/org/apache/tika/parser/microsoft/tika-config-macros .xml
添加回答
舉報
0/150
提交
取消