展示 217 篇文章   每页 5
爬虫
2127 阅读

Python爬虫(六)模拟用户登录

对于很多网站来说,登录后才会呈现部分数据。对于非网页形式的服务端,用户身份验证也是必要的操作。 比如贴吧登录后才能看到我的收藏,比如只有有妖气会员才能看的收费漫画,等等。 于是爬虫也需要能够模拟用户登录的行为,才能获取需要的数据。 关键是在能获得服务器认可的已登录状态。而服务......
python 爬虫 spider
爬虫
3231 阅读

Python爬虫(五)关于headless浏览器被反爬虫禁止访问

有些网站会有反爬虫的机制。反爬虫的机制有很多种,之后会在一篇文章中统一说明。 这篇文章是记录headless浏览器时被识别为爬虫的解决方式。 比如这个网站会检查访问者是否异常:"https://haveibeenpwned.com/". 当用Phantom......
python 爬虫 spider
爬虫
2903 阅读

Python爬虫(四)使用selenium和headless浏览器

当只是爬静态网页时,用requests并解析页面是很方便的。如果我们看到加载页面时有调用API(浏览器的dev tool里network标签里看),也可以直接向这个api发送请求。 不过当遇到ajax异步加载或者需要执行javascript时,仅仅使用requests就不够了。这时我们可......
python 爬虫 spider
AI
2065 阅读

Tensorflow基础图像分类

当对图像进行分类时,需要提供足够的样例图像并需要带有标签,这样在训练时才能知道什么样的图像特征对应到什么标签名,达到分类的目的。另外每次训练的损失度和准确率都有可能小幅浮动,属于正常现象。 官方keras有提供一些数据集,比如手写数字,比如该教程里用到的服装,图片是28x28并带有10种......
python TensorFlow
随记
3411 阅读

Mac上matplotlib报错的解决方法

matplotlib是python的一个数据绘图包。在Mac上使用时遇到了一些报错,分别的解决方式如下。 1. 提示"ModuleNotFoundError: No module named '_tkinter'" 这个错误往往在引入包时就会报错......
python