第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

Python目錄爬蟲掃描各類文件并搜索關鍵字

Python目錄爬蟲掃描各類文件并搜索關鍵字

不負相思意 2021-06-04 18:08:52
我正在嘗試創(chuàng)建一個目錄爬蟲來搜索文件夾及其所有子文件夾內的所有文件中的特定關鍵字。這是我到目前為止所擁有的(在這種情況下,我正在尋找關鍵字“olofx”):import osrootDir = os.getcwd()def scan_file(filename, dirname):    print(os.path.join(dirname,filename))    contains = False    if("olofx" in filename):        contains = True    else:        with open(os.path.join(dirname,filename)) as f:            lines = f.readlines()            for l in lines:                #print(l)                if("olofx" in l):                    contains = True                    break    if contains:        print("yes")for dirName, subdirList, fileList in os.walk(rootDir):    for fname in fileList:        scan_file(fname, dirName)問題是當我到達我的示例 excel 文件之一時,字符似乎不可讀。這是excel文件的一些輸出:;???+????L???P!?/??KdocProps/core.xml ?(???_K?0???C?{?v?9C??n(???v      6H???i???|Lι??sI???:??VJ'    ?@1??h?^?s9O??VP?8?(//r???6`??r???7c?v ???我使用過 openpyxl,我知道我可以用它來讀取 excel 文件,但我想要一個可以讀取各種文件的腳本:word、excel、pdf 等。無論如何都要表示文件的內容,而不管文件類型如何?
查看完整描述

2 回答

?
九州編程

TA貢獻1785條經驗 獲得超4個贊

看來,您的腳本以不同的編碼保存為您的文件,這些文件可能是 UTF-8 編碼的。

嘗試在您的文件的開頭添加以下行:

#!/usr/bin/env python
#-*- coding: utf-8 -*-


查看完整回答
反對 回復 2021-06-15
  • 2 回答
  • 0 關注
  • 259 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號