Python Scrapy爬虫框架实战应用

通过上一节《PythonScrapy爬虫框架详解》的学习,您已经对Scrapy框架有了一个初步的认识,比如它的组件构成,配置文件,以及工作流程。本节将通过一个的简单爬虫项目对Scrapy框架做进一步介绍。 首先看一个简单的示...

Python Scrapy爬虫框架详解

Scrapy是一个基于Twisted实现的异步处理爬虫框架,该框架使用纯Python语言编写。Scrapy框架应用广泛,常用于数据采集、网络监测,以及自动化测试等。提示:Twisted是一个基于事件驱动的网络引擎框架,同样采用Python...

Python Selenium爬虫实战应用

本节讲解PythonSelenium爬虫实战案例,通过对实战案例的讲解让您进一步认识Selenium框架。 实战案例目标:抓取京东商城(https://www.jd.com/)商品名称、商品价格、评论数量,以及商铺名称。比如输入搜索“Pytho...

Python Selenium基本用法

Selenium作为一款Web自动化测试框架,提供了诸多操作浏览器的方法,本节对其中的常用方法做详细介绍。 定位节点Selenium提供了8种定位单个节点的方法,如下所示: 定位节点方法方法说明find_element...

Python Selenium的下载和安装

Selenium是一个用于测试Web应用程序的自动化测试工具,它直接运行在浏览器中,实现了对浏览器的自动化操作,它支持所有主流的浏览器,包括IE,Firefox,Safari,Chrome等。 Selenium支持所有主流平台(如,Windows、Linux、IO...

Pyhon爬虫下载小说

本节通过具体的爬虫程序,演示BS4解析库的实际应用。爬虫程序目标:下载诗词名句网(https://www.shicimingju.com/book/)《两晋演义》小说。 关于分析网页分过程,这里不再做详细介绍了,只要通读了前面的文章,那么关于如何...

Python BS4解析库用法详解

BeautifulSoup简称BS4(其中4表示版本号)是一个Python第三方库,它可以从HTML或XML文档中快速地提取指定的数据。BeautifulSoup语法简单,使用方便,并且容易理解,因此您可以快速地学习并掌握它。本节我们讲解BS4...

Python多线程爬虫详解

网络爬虫程序是一种IO密集型程序,程序中涉及了很多网络IO以及本地磁盘IO操作,这些都会消耗大量的时间,从而降低程序的执行效率,而Python提供的多线程能够在一定程度上提升IO密集型程序的执行效率。如果想学习...

Python爬虫实现Cookie模拟登录

在使用爬虫采集数据的规程中,我们会遇到许多不同类型的网站,比如一些网站需要用户登录后才允许查看相关内容,如果遇到这种类型的网站,又应该如何编写爬虫程序呢?Cookie模拟登录技术成功地解决了此类问题。 Cookie是一...

Python json模块常用方法

JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式,遵循欧洲计算机协会制定的JavaScript规范(简称ECMAScript)。JSON易于人阅读和编写,同时也易于机器解析和生成,能够有效的提升网信息的传输效率,因此它常被作...

Python爬虫抓取动态加载数据

本节讲解如何抓取豆瓣电影“分类排行榜”中的电影数据(https://movie.douban.com/chart),比如输入“犯罪”则会输出所有犯罪影片的电影名称、评分,效果如下所示: 剧情|喜剧|动作|爱情|科幻|动画|悬...

Python爬虫破解有道翻译

有道翻译是以异步方式实现数据加载的,要实现对此类网站的数据抓取,其过程相对繁琐,本节我以有道翻译为例进行详细讲解。 上一节《浏览器实现抓包过程详解》,通过控制台抓包,我们得知了POST请求的参数以及相应的参数值...

浏览器实现抓包过程详解

几乎所有浏览器都提供了抓取数据包的功能,因为浏览器为抓包提供了一个专门的操作界面,因此这种抓包方式也被称为“控制台抓包”。本节以Chrome浏览器为例进行抓包演示。 控制台抓包指的是利用浏览器开的...

Python爬虫抓取链家二手房数据

本节使用Python爬虫库完成链家二手房(https://bj.lianjia.com/ershoufang/rs/)房源信息抓取,包括楼层、区域、总价、单价等信息。在编写此程序的过程中,您将体会到lxml解析库的实际应用。 编写程序流程分析打开链...

Python lxml解析库实战应用

本节通过编写一个简单的爬虫程序,进一步熟悉lxml解析库的使用。 下面使用lxml库抓取猫眼电影Top100榜(点击访问),编写程序的过程中,注意与《Python爬虫抓取猫眼电影排行榜》中使用的正则解析方式对比,这样您会发现...

Python lxml库的安装和使用

lxml是Python的第三方解析库,完全使用Python语言编写,它对Xpath表达式提供了良好的支持,因此能够了高效地解析HTML/XML文档。本节讲解如何通过lxml库解析HTML文档。 安装lxml库lxml属于Python第三方...

Xpath Helper的安装和使用

为了帮助大家快速掌握Xpath表达式的使用,这里给大家推荐一款Xpath表达式匹配助软件,它就是XpathHelper。 XpathHelper介绍XpathHelper是一款谷歌应用商店推出的免费工具,因此您需要在谷歌商店进行下载。下载...

Xpath简明教程(十分钟入门)

在编写爬虫程序的过程中提取信息是非常重要的环节,但是有时使用正则表达式无法匹配到想要的信息,或者书写起来非常麻烦,此时就需要用另外一种数据解析方法,也就是本节要介绍的Xpath表达式。 Xpath表达式XPath(全称:XML...

Proxy SwitchyOmega安装和使用

ProxySwitchyOmega是一款非常优秀的浏览器插件,适用于Chrome和Firefox,它可以轻松快捷地管理和切换IP代理。 下载安装插件ProxySwitchyOmega下载安装非常简单,除了通过Chrome应用商店安装之外,还可以直接访...

Requests库常用方法及参数介绍

Requests库中定义了七个常用的请求方法,这些方法各自有着不同的作用,在这些请求方法中requests.get()与requests.post()方法最为常用。请求方法如下所示: 常用请求方法方法说明requests.request()...