典型文献
基于网络数据自动提取的爬虫设计与实现
文献摘要:
"互联网+"的兴起打破了数据信息的壁垒,网络爬虫被广泛应用于数据采集与数据分析中.以"豆瓣电影top250"为目标,采用基于Python语言的爬虫技术,对比BeautifulSoup、Re和Xpath 3种网页解析方式的不同,完成目标数据的爬取.实验结果表明:在数据解析速度上,Re最优;在网页解析逻辑上,BeautifulSoup最优;在综合使用角度上,Xpath较为适宜.
文献关键词:
网络爬虫;Python;BeautifulSoup;Re;Xpath
中图分类号:
作者姓名:
张璐璐;吴丽杰;孙俊杰;王星月
作者机构:
安徽粮食工程职业学院 信息技术系,安徽 合肥230031
文献出处:
引用格式:
[1]张璐璐;吴丽杰;孙俊杰;王星月-.基于网络数据自动提取的爬虫设计与实现)[J].广州航海学院学报,2022(04):74-78
A类:
top250,Xpath
B类:
网络数据,自动提取,网络爬虫,豆瓣,Python,爬虫技术,BeautifulSoup,Re,网页,爬取,数据解析
AB值:
0.288875
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。