展示 122 篇文章
每页 5 篇
在用到一个第三方的pth模型时遇到了一个奇怪的错误,加载模型在mac和linux一切正常,但在windows上加载时就遇到了报错,报错信息较长,但最后一个提示是出在pytorch的serailization里,如下:
....
venv\lib\site-packages\torc......
python
pytorch
有些网站会有反爬虫的机制。反爬虫的机制有很多种,之后会在一篇文章中统一说明。
这篇文章是记录headless浏览器时被识别为爬虫的解决方式。
比如这个网站会检查访问者是否异常:"https://haveibeenpwned.com/".
当用Phantom......
python
爬虫
spider
Levenshtein Distance又称编辑距离,是衡量两段字符的差异大小的一种方法,也可以看做从一个字符串转换到另一个字符串所需要的最少的操作数,并以此计算相似度。听说应用于拼写检查、论文查重、dna基因序列分析等,当然我没有这种用途,我在工作中因为需要预测bug,则需要匹配条件和匹配输......
python
算法
前面介绍了用请求解析页面数据、headless加载页面js等资源的方式。我们也可以关注一下现有的轮子,一些比较优秀的爬虫框架。这里介绍一下scrapy,并以快速爬取网站全站的链接为例子说明。
scrapy是非常强大和方便的工具,它还提供了一些预设好的爬取类型。关于scrapy的组件可以参......
python
爬虫
spider
当需要发布用Python编写的程序时,保密性往往是需求之一,以避免核心代码的泄露,避免业务功能的实现细节的泄露。
接下来介绍几种方式,包括有效的,和看起来有效实际无效的。
先在同一目录里创建两个测试文件:
# a.py
class Test:
def add(se......
python