大数据之数据采集之网络爬虫大数据创想未 - 黄芪

TUhjnbcbe - 2025/5/17 20:23:00

治白癜风长沙哪家医院好 http://nb.ifeng.com/a/20200114/8061710_0.shtml

网络爬虫（WebSpider），是一个很形象的名字。互联网好比一张庞大的的蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。

网络爬虫是通过什么方式来寻找网络上的信息的呢

通俗来讲，网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样不断循环，不断读取网上的信息，直到把这个网站所有的网页都抓取完为止。这样看来，网络爬虫就是一个爬行程序，一个抓取网页的程序。

网络爬虫的基本操作是抓取网页。那么如何才能随心所欲地获得自己想要的页面呢？我们先从URL开始。

网络爬虫爬取网站的过程，就是我们浏览网页的过程

跟我们日常浏览网页的思维过程如出一辙，我们浏览某个网站的时候，寻找我们需要的东西。从网站的首页开始，逐层深入，通过网络链接，最终找到我们想要的信息。打开网页的过程，其实就是浏览器作为一个浏览的“客户端”，向服务器端发送了一次请求，把服务器端的文件“抓”到本地，再进行解释、展现。这里面有一种语言叫HTML，HTML是一种标记语言，用标签标记内容并加以解析和区分。浏览器的功能是将获取到的HTML代码进行解析，然后将原始的代码转变成我们直接看到的网站页面。

指引爬虫的URL地址

通俗地说，URL是Internet上描述信息资源的字符串，主要用在各种WWW客户程序和服务器程序上。采用URL可以用一种统一的格式来描述各种信息资源，包括文件、服务器的地址和目录等。URL包含了协议，IP地址或是域名，端口号，主机资源的具体地址，比如目录和文件名等。爬虫最主要的处理对象就是URL，它根据URL地址的指引去获取取得所需要的文件内容，然后对它进行进一步的处理。因此，准确地理解URL对理解网络爬虫至关重要。

总结

网络爬虫就是通过URL为引子，不断地在互联网这张大网上寻找信息，最后通过规整化解析，挖掘分析出我们想要的信息的一种技术手段，它在数据爆发的今天，是大数据采集的一大利器。

Python网络爬虫权威指南第2版(图灵出品)京东好评率98%无理由退换京东配送官方店旗舰店￥68.7购买