Python csv模块(读写文件)

CSV文件又称为逗号分隔值文件,是一种通用的、相对简单的文件格式,用以存储表格数据,包括数字或者字符。CSV是电子表格和数据库中最常见的输入、输出文件格式,可参考《CSV介绍》。 通过爬虫将数据抓取的下来,然后把数...

Python re模块用法详解

在Python爬虫过程中,实现网页元素解析的方法有很多,正则解析只是其中之一,常见的还有BeautifulSoup和lxml,它们都支持网页HTML元素的解析操作。本节重点讲解如何使用re正则解析模块实现网页信息的提取。 注意:...

正则表达式基本语法

正则表达式(regularexpression)是一种字符串匹配模式或者规则,它可以用来检索、替换那些符合特定规则的文本。正则表达式几乎适用于所有编程语言,无论是前端语言JavaScript,还是诸如许多后端语言,比如Python、Java、C#...

Python爬虫抓取百度贴吧数据

本节继续讲解Python爬虫实战案例:抓取百度贴吧(https://tieba.baidu.com/)页面,比如Python爬虫吧、编程吧,只抓取贴吧的前5个页面即可。本节我们将使用面向对象的编程方法来编写程序。 判断页面类型通过简单的分析...

Python爬虫抓取网页

本节讲解第一个Python爬虫实战案例:抓取您想要的网页,并将其保存至本地计算机。 首先我们对要编写的爬虫程序进行简单地分析,该程序可分为以下三个部分:拼接url地址发送请求将照片保存至本地 明确逻辑后...

URL编码/解码详解

当URL路径或者查询参数中,带有中文或者特殊字符的时候,就需要对URL进行编码(采用十六进制编码格式)。URL编码的原则是使用安全字符去表示那些不安全的字符。安全字符,指的是没有特殊用途或者特殊意义的字符。URL...

构建User-Agnet代理池

在编写爬虫程序时,一般都会构建一个User-Agent(用户代理)池,就是把多个浏览器的UA信息放进列表中,然后再从中随机选择。构建用户代理池,能够避免总是使用一个UA来访问网站,因为短时间内总使用一个UA高频率访问的网站...

User-Agent(用户代理)是什么

User-Agent即用户代理,简称“UA”,它是一个特殊字符串头。网站服务器通过识别“UA”来确定用户所使用的操作系统版本、CPU类型、浏览器版本等信息。而网站服务器则通过判断UA来给客户端发送不...

第一个Python爬虫程序

本节编写一个最简单的爬虫程序,作为学习Python爬虫前的开胃小菜。 下面使用Python内置的urllib库获取网页的html信息。注意,urllib库属于Python的标准库模块,无须单独安装,它是Python爬虫的常用模块。...

学习Python爬虫前的准备工作

在使用Python编写爬虫程序之前,您需要提前做一些准备工作,这样在后续学习过程中才会得心应手。 知识准备1)Python语言Python爬虫作为Python编程的进阶知识,要求学习者具备较好的Python编程基础。对于没有基...

如何审查网页元素

对于一个优秀的爬虫工程师而言,要善于发现网页元素的规律,并且能从中提炼出有效的信息。因此,在动手编写爬虫程序前,必须要对网页元素进行审查。本节将讲解如何使用“浏览器”审查网页元素。 浏览器都自带检...

静态网页和动态网页

本节我们了解一下静态网页和动态网页的相关概念。如果您熟悉前端语言的话,那么您可以快速地了解本节知识。 当我们在编写一个爬虫程序前,首先要明确待爬取的页面是静态的,还是动态的,只有确定了页面类型,才方便后续对网...

网页是怎样构成的

爬虫程序之所以可以抓取数据,是因为爬虫能够对网页进行分析,并在网页中提取出想要的数据。在学习Python爬虫模块前,我们有必要先熟悉网页的基本结构,这是编写爬虫程序的必备知识。如果您熟悉前端语言,那么您可以轻松地...

网络爬虫是什么

网络爬虫又称网络蜘蛛、网络机器人,它是一种按照一定的规则自动浏览、检索网页信息的程序或者脚本。网络爬虫能够自动请求网页,并将所需要的数据抓取下来。通过对抓取的数据进行处理,从而提取出有价值的信息。认识爬虫...