在正式学习网络爬虫之前,我们需要详细了解HTTP的基本原理,了解在浏览器中敲入URL到获取网页内容之间发生了什么。了解这些内容,有助于我们进一步了解爬虫的基本原理。
HTTP基本原理
在本节中,我们会详细了解HTTP的基本原理,了解在浏览器中敲入URL到获取网页内容之间发生了什么。了解这些内容,有助于我们进一步了解爬虫的基本原理。
1.URI和URL
这里我们先了解一下URI和URL。URI的全称为UniformResourceIdentifier,即统一资源标志符;而URL的全称为UniversalResourceLocator,即统一资源定位符。举例来说,