首頁猿問 Apache Tika...

Apache Tika Server：從辦公文檔中獲取宏？

Python

慕森王 2022-10-06 18:57:36

我使用 Apache Tika 作為服務來分析 Python 中的 Office 文檔，如下所示：url = 'http://{0}:{1}/rmeta/xml'url = url.format(self._host, self._port)res = requests.put(url, data=dat).json()如果文檔包含宏，我想從文檔中提取宏的內容，但不知道該怎么做。Apache Tika 文檔不是那么好。是否有任何標題或我需要使用的東西來使 Tika 服務器返回宏內容以及文檔的內容？

查看完整描述

1 回答

慕容森

TA貢獻1853條經(jīng)驗獲得超18個贊

據(jù)我了解，問題在于 Tika 默認情況下不會從 Office 文檔中提取宏。為了做到這一點，我必須為 Tika 制作一個自定義配置文件，為在 Tika 中實現(xiàn)的兩個 Microsoft Office 解析器啟用 extractMacros 屬性（我不知道他們是否使用 POI 或其他東西）。這是一個示例：https ://github.com/apache/tika/blob/master/tika-parsers/src/test/resources/org/apache/tika/parser/microsoft/tika-config-macros .xml

反對回復 2022-10-06