作者: Tscccn |
日期: 2020 年 11 月 20 日 |
围观: 4020次+ |
没有评论
爬虫的时候由于很多打包下载zip的文件,而zip压缩包内的文件却是中文的,导致解压出来的文件是乱码的情况。
解压后的文件名大概是这个样子的 ╩Θ╔·╧└.txt 正常编码是 书生侠.txt 。
而这其实并不是因为文件编码问题导致,仅仅是文件名的编码。所以只处理文件名部分。如果要处理文件部分可以直接百度搜索即可【其实就是把对应用encode(‘cp437’).decode(‘gbk’)处理下,我这里只是处理了文件名字】
)。
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# @Author : ki[……]
最新评语