close
在爬 pdf 時遇到的問題
UnicodeEncodeError: 'cp950' codec can't encode character
'\u2020' in position 0: illegal multibyte sequence
想把爬下來的pdf寫進筆記本時出問題
有許多特殊符號 都需要轉編碼轉成utf8 像是一些十字架的符號(\u2020)...等
這是因為在windows環境中會預設用cp950來encode/decode 所以需要把 encoding預設成utf8(一位林網友跟我說的很感謝他)
像底下那樣因此就可以順利執行
with open('你的文件位置/1.txt', 'a',encoding = 'utf8') as f:
results = obj.get_text()
f.write(results + '\n') #f objeocct open txt
全站熱搜
留言列表