展示 122 篇文章   每页 5
AI
3329 阅读

解决问题PytorchStreamReader failed reading zip archive

在用到一个第三方的pth模型时遇到了一个奇怪的错误,加载模型在mac和linux一切正常,但在windows上加载时就遇到了报错,报错信息较长,但最后一个提示是出在pytorch的serailization里,如下: .... venv\lib\site-packages\torc......
python pytorch
爬虫
3305 阅读

Python爬虫(五)关于headless浏览器被反爬虫禁止访问

有些网站会有反爬虫的机制。反爬虫的机制有很多种,之后会在一篇文章中统一说明。 这篇文章是记录headless浏览器时被识别为爬虫的解决方式。 比如这个网站会检查访问者是否异常:"https://haveibeenpwned.com/". 当用Phantom......
python 爬虫 spider
编程语言
3277 阅读

Levenshtein Distance编辑距离算法

Levenshtein Distance又称编辑距离,是衡量两段字符的差异大小的一种方法,也可以看做从一个字符串转换到另一个字符串所需要的最少的操作数,并以此计算相似度。听说应用于拼写检查、论文查重、dna基因序列分析等,当然我没有这种用途,我在工作中因为需要预测bug,则需要匹配条件和匹配输......
python 算法
爬虫
3208 阅读

Python爬虫(七)使用scrapy快速爬取全站页面

前面介绍了用请求解析页面数据、headless加载页面js等资源的方式。我们也可以关注一下现有的轮子,一些比较优秀的爬虫框架。这里介绍一下scrapy,并以快速爬取网站全站的链接为例子说明。 scrapy是非常强大和方便的工具,它还提供了一些预设好的爬取类型。关于scrapy的组件可以参......
python 爬虫 spider
编程语言
3196 阅读

Python代码的加密和混淆

当需要发布用Python编写的程序时,保密性往往是需求之一,以避免核心代码的泄露,避免业务功能的实现细节的泄露。 接下来介绍几种方式,包括有效的,和看起来有效实际无效的。 先在同一目录里创建两个测试文件: # a.py class Test: def add(se......
python