如何用python语言python3实现简单爬虫购物商城

    分析到此我们就知道抓取网页内容时,从当前页面上抽取新的URL的方法了


一、爬虫的简介及爬虫技术价值

#苐一种下载网页的方法






此处使用缺省端口号80若指定了端口号,则变成:Host::指定端口号
我们上网登陆的时候往往会看到一些欢迎信息,其中列出了你的操作的名称和版本你所使用的浏览器嘚名称和版本,这往往让很多人感到很神奇实际上,服务器应用程序就是从User-Agent这个请求报头域中获取到这些信息User-Agent请求报头域允许客户端將它的操作系统、浏览器和其它属性告诉服务器。不过这个报头域不是必需的,如果我们自己编写一个浏览器不使用User-Agent请求报头域,那麼服务器端就无法得知我们的信息了

 

响应报头
响应报头允许服务器传递不能放在状态行中的附加响应信息,以及关于服务器的信息和对Request-URI所标识的资源进行下一步访问的信息
常用的响应报头
Location
Location响应报头域用于重定向接受者到一个新的位置。Location响应报头域常用在更换域名的时候
Server
Server响应报头域包含了服务器用来处理请求的软件信息。与User-Agent请求报头域是相对应的下面是
Server响应报头域的一个例子:
Server:Apache-Coyote//evankaka/) #构造Post数据,他也是从抓大的包里分析得出的 #需要给Post数据编码

返回的数据是什么意思呢:

很简单, 我们转码下:

我要回帖

更多关于 python语言 的文章

 

随机推荐