我正在嘗試創(chuàng)建一個目錄爬蟲來搜索文件夾及其所有子文件夾內的所有文件中的特定關鍵字。這是我到目前為止所擁有的(在這種情況下,我正在尋找關鍵字“olofx”):import osrootDir = os.getcwd()def scan_file(filename, dirname): print(os.path.join(dirname,filename)) contains = False if("olofx" in filename): contains = True else: with open(os.path.join(dirname,filename)) as f: lines = f.readlines() for l in lines: #print(l) if("olofx" in l): contains = True break if contains: print("yes")for dirName, subdirList, fileList in os.walk(rootDir): for fname in fileList: scan_file(fname, dirName)問題是當我到達我的示例 excel 文件之一時,字符似乎不可讀。這是excel文件的一些輸出:;???+????L???P!?/??KdocProps/core.xml ?(???_K?0???C?{?v?9C??n(???v 6H???i???|Lι??sI???:??VJ' ?@1??h?^?s9O??VP?8?(//r???6`??r???7c?v ???我使用過 openpyxl,我知道我可以用它來讀取 excel 文件,但我想要一個可以讀取各種文件的腳本:word、excel、pdf 等。無論如何都要表示文件的內容,而不管文件類型如何?
2 回答

九州編程
TA貢獻1785條經驗 獲得超4個贊
看來,您的腳本以不同的編碼保存為您的文件,這些文件可能是 UTF-8 編碼的。
嘗試在您的文件的開頭添加以下行:
#!/usr/bin/env python #-*- coding: utf-8 -*-
添加回答
舉報
0/150
提交
取消