close

在爬 pdf 時遇到的問題
UnicodeEncodeError: 'cp950' codec can't encode character 
'\u2020' in position 0: illegal multibyte sequence

想把爬下來的pdf寫進筆記本時出問題

有許多特殊符號 都需要轉編碼轉成utf8 像是一些十字架的符號(\u2020)...等
這是因為在windows環境中會預設用cp950來encode/decode 所以需要把 encoding預設成utf8(一位林網友跟我說的很感謝他)
像底下那樣因此就可以順利執行

with open('你的文件位置/1.txt', 'a',encoding = 'utf8') as f: 
results = obj.get_text()
f.write(results + '\n') #f objeocct open txt

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 晨柚 的頭像
    晨柚

    晨柚的部落格

    晨柚 發表在 痞客邦 留言(0) 人氣()