网络爬虫(WebSpider),是一个很形象的名字。互联网好比一张庞大的的蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。
网络爬虫是通过什么方式来寻找网络上的信息的呢
通俗来讲,网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样不断循环,不断读取网上的信息,直到把这个网站所有的网页都抓取完为止。这样看来,网络爬虫就是一个爬行程序,一个抓取网页的程序。
网络爬虫的基本操作是抓取网页。那么如何才能随心所欲地获得自己想要的页面呢?我们先从URL开始。
网络爬虫爬取网站的过程,就是我们浏览网页的过程
跟我们日常浏览网页的思维过程如出一辙,我们浏览某个网站的时候,寻找我们需要的东西。从网站的首页开始,逐层深入,通过网络链接,最终找到我们想要的信息。打开网页的过程,其实就是浏览器作为一个浏览的“客户端”,向服务器端发送了一次请求,把服务器端的文件“抓”到本地,再进行解释、展现。这里面有一种语言叫HTML,HTML是一种标记语言,用标签标记内容并加以解析和区分。浏览器的功能是将获取到的HTML代码进行解析,然后将原始的代码转变成我们直接看到的网站页面。
指引爬虫的URL地址
通俗地说,URL是Internet上描述信息资源的字符串,主要用在各种WWW客户程序和服务器程序上。采用URL可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。URL包含了协议,IP地址或是域名,端口号,主机资源的具体地址,比如目录和文件名等。爬虫最主要的处理对象就是URL,它根据URL地址的指引去获取取得所需要的文件内容,然后对它进行进一步的处理。因此,准确地理解URL对理解网络爬虫至关重要。
总结
网络爬虫就是通过URL为引子,不断地在互联网这张大网上寻找信息,最后通过规整化解析,挖掘分析出我们想要的信息的一种技术手段,它在数据爆发的今天,是大数据采集的一大利器。
Python网络爬虫权威指南第2版(图灵出品)京东好评率98%无理由退换京东配送官方店旗舰店¥68.7购买