当前位置: 华龙文档网 > 范文大全 > 公文范文 >

Python网络爬虫实习报告总结归纳

| 浏览量:

下面是小编为大家整理的Python网络爬虫实习报告总结归纳,供大家参考。

Python网络爬虫实习报告总结归纳

Python网络爬虫实习报告

目录

一、选题背景

二、爬虫原理

三、爬虫历史和分类

四、常用爬虫框架比较

Scrapy框架:Scrapy框架是一套比较成熟的Python爬虫框架,是使用Python开发的快速、高层次的信息爬取框架,可以高效的爬取web页面并提取出结构化数据。Scrapy应用范围很广,爬虫开发、数据挖掘、数据监测、自动化测试等。

Crawley框架:Crawley也是Python开发出的爬虫框架,该框架致力于改变人们从互联网中提取数据的方式。

Portia框架:Portia框架是一款允许没有任何编程基础的用户可视化地爬取网页的爬虫框架。

newspaper框架:newspaper框架是一个用来提取新闻、文章以及内容分析的Python爬虫框架。

Python-goose框架:Python-goose框架可提取的信息包括:<1>文章主体内容;<2>文章主要图片;<3>文章中嵌入的任heYoutube/Vimeo视频;<4>元描述;<5>元标签

五、数据爬取实战(豆瓣网爬取电影数据)1分析网页

# 获取html源代码

def __getHtml():

data = []

pageNum = 1

pageSize = 0

try:

while (pageSize <= 125):

# "Referer":None #注意如果依然不能抓取的话,这里可以设置抓取网站的host

# }

# = [headers]

pageNum)

pageSize += 25

pageNum += 1

print(pageSize, pageNum)

except Exception as e:

raise e

return data

2爬取数据

def __getData(html):

title = [] # 电影标题

#rating_num = [] # 评分

range_num = [] # 排名

#rating_people_num = [] # 评价人数

movie_author = [] # 导演

data = {}

# bs4解析html

soup = BeautifulSoup(html, "")

for li in ("ol", attrs={"class":

"grid_view"}).find_all("li"):

("span", class_="title").text)

#("div", class_="star").find("span",

class_="rating_num").text)

("div", class_="pic").find("em").text)

#spans = ("div", class_="star").find_all("span") #for x in range(len(spans)):

# if x <= 2:

# pass

# else:

# (spans[x].string[-len(spans[x].string):-3]) str = ("div", class_="bd").find("p", class_="").() index = ("主")

if (index == -1):

index = ("...")

print("div", class_="pic").find("em").text)

if ("div", class_="pic").find("em").text == 210): index = 60

# print("aaa")

# print(str[4:index])

(str[4:index])

data["title"] = title

#data["rating_num"] = rating_num

data["range_num"] = range_num

#data["rating_people_num"] = rating_people_num

data["movie_author"] = movie_author

return data

3数据整理、转换

def __getMovies(data):

("")

("Insert title</p><p style="color: rgb(0, 0, 0); font-size: medium;"> here")

("")

("

爬取豆瓣电影

")

("

作者:刘文斌

")

("

时间:" + nowtime + "

")

("


")

("

")

("

")

("

")

("

") #("")

("

")

#("

")

("

")

("

")

("

")

("

")

for data in datas:

for i in range(0, 25):

("

")

("

style="color:orange;text-align:center">%s" % data["title"][i])

# ("

style="color:blue;text-align:center">%s" % data["rating_num"][i])

("

style="color:red;text-align:center">%s" % data["range_num"][i])

# ("

style="color:blue;text-align:center">%s" % data["rating_people_num"][i])

("

style="color:black;text-align:center">%s" % data["movie_author"][i])

("

")

("

")

("")

("

电影评分

排名

评价人数导演
")

("")

("")

()

if __name__ == "__main__":

datas = []

htmls = __getHtml()

for i in range(len(htmls)):

data = __getData(htmls[i])

(data)

__getMovies(datas)

4数据保存、展示

结果如后图所示:

5技术难点关键点

数据爬取实战(搜房网爬取房屋数据)from bs4 import BeautifulSoup

import requests

rep = ()

= "gb2312" # 设置编码方式

html =

soup = BeautifulSoup(html, "")

f = open(, "w",encoding="utf-8")

("")

("Insert title here")

("")

("

新房成交TOP3

")

("

")

("

")

("

")

("

")

for li in ("ul",class_="ul02").find_all("li"):

name=("div",class_="pbtext").find("p").text

chengjiaoliang=("span",class_="red-f3").text try:

junjia=("div",class_="ohter").find("p",class_="gray-9")#.("? O", "平方米")

except Exception as e:

junjia=("div",class_="gray-9")#.("?O", "平方米")

("

" % name)

("

" % chengjiaoliang)

("

" % junjia)

print(name)

("

房址

成交量

均价

color=red>%s

color=blue>%s

color=green>%s

")

("")

六、总结

教师评语:

成绩:指导教师:

推荐访问:python数据分析心得体会 爬虫 归纳 实习报告

热门文章

解读吸烟与肺癌的关系

解读吸烟与肺癌的关系  世界卫生组织从1989年起将每年的5月31日定为世界无烟日,旨在引起国际社会

青春励志演讲稿:关于梦想

青春励志演讲稿:关于梦想  每一个有志青年,都不想做一辈子的路人甲,都想有一天能站在舞台上当一回主角

关于香蕉的三年级学生作文四篇

关于香蕉的三年级学生作文四篇  三年级香蕉作文300字(一)  我最喜欢吃的水果是香蕉,它不但好吃而

“科学发展、安全发展”林业局安全生产月活动总结

“科学发展、安全发展”林业局安全生产月活动总结  以“科学发展、

订货会发言稿范文四篇

订货会发言稿范文四篇  以下是工作范文网的小编给大家整理的关于订货会发言稿,希望能帮助到大家!  订

教育局信访工作年终总结4篇

教育局信访工作年终总结教育局坚持以“以人为本、以情治访”为原则,综合运用政策、法律、行政等手段,采取教育、协商、调解等多种有效方法,注重身心下移,变上访为下

组织提拔个人自传

组织提拔个人自传  无论处在什么岗位,我都会一如既往,更加努力地做好本职工作,珍惜每一次机会,争取更

五四优秀共青团员、团支部先进事迹材料【5篇】

五四优秀共青团员、团支部先进事迹材料五篇  下面工作范文网的小编就给大家分享下关于五四优秀共青团员、

关于努力奋斗的高中优秀作文4篇

关于努力奋斗的高中优秀作文4篇  01  梦想是人类的翅膀,拥有了它,人类才能在蔚蓝的天空中翱翔;梦

吸烟有害健康,戒烟为什么会那么难?珍惜身体远离香烟

吸烟有害健康,戒烟为什么会那么难?珍惜身体远离香烟  说到戒烟,我想有很多吸烟的烟民,常说的一句话就

安全生产发言稿范文【5篇】

安全生产发言稿范文五篇  下是工作范文网的小编给大家整理的关于安全生产发言稿范文,希望能帮助到大家!

关于人脸识别技术的利与弊两篇

关于人脸识别技术的利与弊两篇  以下是工作范文网的小编给大家整理的关于人脸识别技术的利与弊,希望能帮