现在的位置: 主页 > 商讯 > 文章列表

Python简单抓取原理引出分布式爬虫

作者:潜江市宏光畜牧有限公司 来源:www.qjhgnm.com 未知发布时间:2017-09-06 09:57:23
Python简单抓取原理引出分布式爬虫


首先,我们先来看看,如果是人正常的行为,是如何获取网页内容的。

(1)打开浏览器,输入URL,打开源网页

(2)选取我们想要的内容,包括标题,作者,摘要,正文等信息

(3)存储到硬盘中



上面的三个过程,映射到技术层面上,其实就是:网络请求,抓取结构化数据,数据存储。

我们使用Python写一个简单的程序,采集软件,实现上面的简单抓取功能。

#!/usr/bin/python
#-*- coding: utf-8 -*-
'''
Created on 2014-03-16

@author: Kris
'''
import urllib2, re, cookielib

def httpCrawler(url):
'''
@summary: 网页抓取
'''
content = httpRequest(url)
title = parseHtml(content)
saveData(title)

def httpRequest(url):
'''
@summary: 网络请求
'''
try:
ret = None
SockFile = None
request = urllib2.Request(url)
request.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)')
request.add_header('Pragma', 'no-cache')
opener = urllib2.build_opener()
SockFile = opener.open(request)
ret = SockFile.read()
finally:
if SockFile:
SockFile.close()
return ret

def parseHtml(html):
'''
@summary: 抓取结构化数据
'''
content = None
pattern = '([^

企业建站2800元起,携手武汉肥猫科技,做一个有见地的颜值派!更多优惠请戳:天门SEO http://tianmen.raoyu.net

上一篇:ThinkPHP官方网站源码基于thinkphp3.0版本 下一篇:最后一页