Python爬虫

Python爬虫抓取猫眼电影排行榜

本节使用Python爬虫抓取猫眼电影网TOP100排行榜（https://maoyan.com/board/4）影片信息，包括电影名称、上映时间、主演信息。在开始编写程序之前，首先要确定页面类型（静态页面或动态页面），其次找出页面的url规律，最...

分类：Python爬虫
日期：09-01
阅读：979

Python csv模块（读写文件）

CSV文件又称为逗号分隔值文件，是一种通用的、相对简单的文件格式，用以存储表格数据，包括数字或者字符。CSV是电子表格和数据库中最常见的输入、输出文件格式，可参考《CSV介绍》。通过爬虫将数据抓取的下来，然后把数...

分类：Python爬虫
日期：08-30
阅读：759

Python re模块用法详解

在Python爬虫过程中，实现网页元素解析的方法有很多，正则解析只是其中之一，常见的还有BeautifulSoup和lxml，它们都支持网页HTML元素的解析操作。本节重点讲解如何使用re正则解析模块实现网页信息的提取。注意：...

分类：Python爬虫
日期：08-30
阅读：704

正则表达式基本语法

正则表达式(regularexpression)是一种字符串匹配模式或者规则，它可以用来检索、替换那些符合特定规则的文本。正则表达式几乎适用于所有编程语言，无论是前端语言JavaScript，还是诸如许多后端语言，比如Python、Java、C#...

分类：Python爬虫
日期：08-30
阅读：613

Python爬虫抓取百度贴吧数据

本节继续讲解Python爬虫实战案例：抓取百度贴吧（https://tieba.baidu.com/）页面，比如Python爬虫吧、编程吧，只抓取贴吧的前5个页面即可。本节我们将使用面向对象的编程方法来编写程序。判断页面类型通过简单的分析...

分类：Python爬虫
日期：08-30
阅读：996

Python爬虫抓取网页

本节讲解第一个Python爬虫实战案例：抓取您想要的网页，并将其保存至本地计算机。首先我们对要编写的爬虫程序进行简单地分析，该程序可分为以下三个部分：拼接url地址发送请求将照片保存至本地明确逻辑后...

分类：Python爬虫
日期：08-30
阅读：1073

URL编码/解码详解

当URL路径或者查询参数中，带有中文或者特殊字符的时候，就需要对URL进行编码（采用十六进制编码格式）。URL编码的原则是使用安全字符去表示那些不安全的字符。安全字符，指的是没有特殊用途或者特殊意义的字符。URL...

分类：Python爬虫
日期：08-30
阅读：847

构建User-Agnet代理池

在编写爬虫程序时，一般都会构建一个User-Agent（用户代理）池，就是把多个浏览器的UA信息放进列表中，然后再从中随机选择。构建用户代理池，能够避免总是使用一个UA来访问网站，因为短时间内总使用一个UA高频率访问的网站...

分类：Python爬虫
日期：08-30
阅读：1124

User-Agent（用户代理）是什么

User-Agent即用户代理，简称“UA”，它是一个特殊字符串头。网站服务器通过识别“UA”来确定用户所使用的操作系统版本、CPU类型、浏览器版本等信息。而网站服务器则通过判断UA来给客户端发送不...

分类：Python爬虫
日期：08-30
阅读：875

第一个Python爬虫程序

本节编写一个最简单的爬虫程序，作为学习Python爬虫前的开胃小菜。下面使用Python内置的urllib库获取网页的html信息。注意，urllib库属于Python的标准库模块，无须单独安装，它是Python爬虫的常用模块。...

分类：Python爬虫
日期：08-30
阅读：886

学习Python爬虫前的准备工作

在使用Python编写爬虫程序之前，您需要提前做一些准备工作，这样在后续学习过程中才会得心应手。知识准备1)Python语言Python爬虫作为Python编程的进阶知识，要求学习者具备较好的Python编程基础。对于没有基...

分类：Python爬虫
日期：08-30
阅读：979

如何审查网页元素

对于一个优秀的爬虫工程师而言，要善于发现网页元素的规律，并且能从中提炼出有效的信息。因此，在动手编写爬虫程序前，必须要对网页元素进行审查。本节将讲解如何使用“浏览器”审查网页元素。浏览器都自带检...

分类：Python爬虫
日期：08-30
阅读：984

静态网页和动态网页

本节我们了解一下静态网页和动态网页的相关概念。如果您熟悉前端语言的话，那么您可以快速地了解本节知识。当我们在编写一个爬虫程序前，首先要明确待爬取的页面是静态的，还是动态的，只有确定了页面类型，才方便后续对网...

分类：Python爬虫
日期：08-30
阅读：944

网页是怎样构成的

爬虫程序之所以可以抓取数据，是因为爬虫能够对网页进行分析，并在网页中提取出想要的数据。在学习Python爬虫模块前，我们有必要先熟悉网页的基本结构，这是编写爬虫程序的必备知识。如果您熟悉前端语言，那么您可以轻松地...

分类：Python爬虫
日期：08-30
阅读：645

网络爬虫是什么

网络爬虫又称网络蜘蛛、网络机器人，它是一种按照一定的规则自动浏览、检索网页信息的程序或者脚本。网络爬虫能够自动请求网页，并将所需要的数据抓取下来。通过对抓取的数据进行处理，从而提取出有价值的信息。认识爬虫...

分类：Python爬虫
日期：08-30
阅读：720

特别推荐

17/01月

微信/支付宝运动步数修改教程

点击排行

标签列表