python爬虫,爬豆瓣top250电影

作者:上海建筑防水有限公司  来源:www.yxjzfs.com   发布时间:2017-09-06 13:19:59
python爬虫,爬豆瓣top250电影


python爬虫,爬豆瓣top250电影



import string
import re
import urllib2

class DouBanSpider(object) :
def __init__(self) :
self.page = 1
self.cur_url = "http://movie.douban.com/top250?start={page}&filter=&type="
self.datas = []
self._top_num = 1
def get_page(self, cur_page) :
url = self.cur_url.format(page = (cur_page - 1) * 25)
my_page = urllib2.urlopen(url).read().decode("utf-8")
return my_page
def find_title(self, my_page) :
temp_data = []
movie_items = re.findall(r'(.*?)', my_page, re.S)
for index, item in enumerate(movie_items) :
if item.find(" ") == -1 :
temp_data.append("Top" + str(self._top_num) + " " + item)
self._top_num += 1
self.datas.extend(temp_data)
def start_spider(self) :
while self.page ,站群系统

企业建站2800元起,携手武汉肥猫科技,做一个有见地的颜值派!更多优惠请戳:武汉建网站 https://www.feimao666.com


上一篇:PHP-ExcelReader:用于解析excel文件的PHP类库
下一篇:最后一页