爬虫即网络爬虫就是按照一定规则从互联网上抓取信息的程序。比如去百度搜索关键字“Python”,这个时候我们的浏览器就会向网站发送请求。
提取数据,数据包括了图片、文字、视频等等,都叫数据,在我们发送请求之后,网站会呈现搜索结果给我们,这其实就是返回了数据,这时候我们就可以对数据进行提取;
自动化程序,也就是我们写的代码,实现了自动提取程数据,比如批量对返回的图片进行下载和保存,替代我们一张一张图片进行手工操作。
我们一般见到的爬虫也是爬取数据用的。这类爬虫其实就做了两项工作:1.获取网页源代码;2.从网页源代码中解析和提取所需要的数据。
爬虫的分类有哪些?
①通用爬虫(大而全)
功能强大,采集面广泛,通常用于搜索引擎,比如百度浏览器就是一个很大的爬虫程序。
②聚焦爬虫(小而精)
功能相对单一,只针对特定网站的特定内容进行爬取,比如说去某个网站批量获取某些数据,这也是我们个人最常用的一种爬虫了。
③增量式爬虫(只采集更新后的内容)
这其实是聚焦爬虫的一个迭代爬虫,它只采集更新后的数据,对老数据是不采集,相当于一直存在并运行,只要有符合要求的数据更新了,就会自动爬取新的数据。
以上就是有关什么是爬虫?爬虫的作用的介绍。