运营探讨
Python爬取视频的设计与实现
胡雅丽
(山西青年职业学院计算机与信息工程系,山西
根据用户的需求,遵循一定的规则,收集网站的信息,利用
行分析并自动抓取网页中有价值的数据。通过导入类库、提取数据以及存储数据等流程简明阐述了爬取视频的方法。
Design and Implementation of Crawling Video Based on Python
HU Yali
(Department of Computer and Information Engineering, Shanxi Youth Vocational College, Taiyuan
users, follow certain rules,
crawler technology to analyze the data in the website and automatically grab the valuable data in the web page. This paper introduces the method of crawling video by importing class library, extracting data and storing data.
Keywords: Python; web crawler; data analysis
Telecom Power Technology
数据的任务没有完成,这个过程将会一直执行下去,
网络爬虫一般分为通用和聚焦两种类型。其中
利用搜索引擎,爬取种子页面(百度、谷歌、雅虎等),继而通过并行方式爬取互联网上所有数据,主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备。相比于通用网络爬虫,聚焦类型的网络爬虫则是面向特定主题需求的一种网络爬虫程序,是有针对性的爬取与主题相关的数据,过滤掉与主题无关的
[7]。
网络爬虫一般首先要到需要爬取的网页URL,
队列中,其次
队列中取出待取URL,4.2 提取数据
利用
中头部信息,
CPU类型、浏览器渲染引擎、浏览器语言、浏览器插件等信息的标识。具体为:
self.headers={学python看谁的视频比较好
‘User-Agent
WOW64
Chrome/67
}
<()
request.Request()
headers等信息构建了一个完整的请求:
def start_work(self, url):
print("Climbing to page {}".format(self.offset))
#(url=url, headers=self.
 2021年2月10日第38卷 第3期
file_name=””.join(file_name.split(‘/’))
print(“Grabbing{}”.format(file_name))
with open(root_dir+”\\”+file_name, ‘wb’) as f:
f.t)
4.4 创建主函数
创建主函数为:
if__name__==”__main__”:
spider=Spider()
for i in range(0,3):
url=”.......” + str(i) + “-1.html”
spider.start_work(url)
5 结 论
目前,互联网上的数据多且复杂,用户想要在短时间内获取到有价值的数据很困难。本文针对某网站的视频进行爬取进行了简单的阐述,使用具有强大功能的Python语言在爬取视频时提供重要的支持,爬取的视频以mp4文件的形式保存在程序中指定的目录下,以极快的速度获得了想要的信息。参考文献:
[1]吴永聪.浅谈Python爬虫技术的网页数据抓取与分
析[J].计算机时代,2019(8):94-96.
[2]韩文煜.基于python数据分析技术的数据整理与分析
研究[J].科技创新与应用,2020(4):157-158. [3]郭锋锋.基于python的网络爬虫研究[J].佳木斯大
学学报(自然科学版),2020,38(2):62-65. [4]赵鹏程.分布式书籍网络爬虫系统的设计与实现[D].
成都:西南交通大学,2014.
[5]王敏.分布式网络爬虫的研究与实现[J].南京:东
南大学,2017,
[6]罗楷轩.简述利用Python网络爬虫实现多下载站软件
搜索及下载地址提取[J].科学与信息化,2017(24):37-39.
[7]李玉香,王孟玉,涂宇晰.基于python的网络爬虫
技术研究[J].信息技术与信息化,2019(12):143-
145.
[8]张艳,吴玉全.基于Python 的网络数据爬虫程序设
计[J].电脑编程技巧与维护,2020(4):26-27. [9]钟机灵.基于Python网络爬虫技术的数据采集系统研
究[J].信息通信,2020(4):101-103.
[10]殷丽凤,张浩然.基于Python网上招聘信息的爬取和
分析[J].电子设计工程,2019,27(20):22-26.
图2(a)和(b)圆形符号是贪婪算法使用本地约束和全局约束结合得到的实验结果,而三角符号是贪婪算法只使用全局约束的结果。可以看出传感器候选集S1中阵元的数目随迭代次数的变化而变化。只使用全局约束算法的收敛速度要快一些,但最终选取的阵元数目明显较多。结合本地约束和全局约束不但能保证输出性能不变,还能明显减少最终选取的阵元数量。图2(c)给出了自适应因子α=0.65时最终选取的子阵位置分布图。图2(d)给出了自适应因子α=0.9时最终选取的子阵位置分布图。从这两个子图可以看出在α较小的情况下,为了减少传输能耗,算法最终会选择数据汇聚节点且朝向声源位置的阵元。随着α的增大更多地靠近和朝向声源位置的阵元会被选择,同时干扰源附近也会有部分阵元被
选中。图2(e)给出了自适应因子α=0.9时,不加干扰源的情况下最终选取的子阵位置分布图。图2(d)和(e)选取的阵元大部分相同,只是不加干扰源的情况下最终选择的阵元都聚拢于数据汇聚节点和声源。
5 结 论
通过研究基于MVDR波束形成器降噪的无线声传感器子阵选择问题,给出了以降低传感器网络整体功耗为目标的子阵选择方法,且结合工程实践要求给出了使用贪婪算法进行阵元选择的方案。通过仿真实验评估了算法功能和性能,结果表明文中方法能够大幅降低无线传感器网络的整体功耗,延长其工作时间。
参考文献:
[1]吴振锋,蒋飞,刘兴川.无线传感器网络军事应
用[M].北京:电子工业出版社,2015.
[2]Stephen B,Lieven V.Convex Optimization[M].UK:
Cambridge University Press,2004.
[3]Grant M.CVX:Matlab Software for Disciplined Convex
Programming[Z].2008.
[4]Pollefeys M,Nister D.Direct Computation of Sound
and Microphone Locations from Time-Difference-of-
Arrival Data[C]//2008 IEEE International Conference on Acoustics,Speech and Signal Processing,2008.
[5]Chepuri S,Leus G.Sparsity-Promoting Sensor
Selection for Nonlinear Measurement Models[J].IEEE
Transactions on Signal Processing,2015,63(3):684-698.
[6]Akyildiz I,Su W,Sankarasubramaniam Y,et
al.Wireless Sensor Networks:A Survey[J].Computer
Networks,2002,38(4):393–422.
(上接第190页)

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。