python⽂档处理第三⽅库_Python常⽤第三⽅库⼤盘点
python官方文档中文版Python语⾔有超过12万个第三⽅库,覆盖信息技术⼏乎所有领域。下⾯简单介绍下⽹络爬⾍、⾃动化、数据分析与可视化、WEB开发、机器学习和其他常⽤的⼀些第三⽅库,如果有你感兴趣的库,不妨去试试它的功能吧。
1、⽹络爬⾍
· requests -对HTTP协议进⾏⾼度封装,⽀持⾮常丰富的链接访问功能。 · PySpider -⼀个国⼈编写的强⼤的⽹络爬⾍系统并带有强⼤的WebUI。 · bs4 -beautifulsoup4库,⽤于解析和处理HTML和XML。 · Scrapy- 很强⼤的爬⾍框架,⽤于抓取⽹站并从其页⾯中提取结构化数据。可⽤于从数据挖掘到监控和⾃动化测试的各种⽤途 · Crawley -⾼速爬取对应⽹站的内容,⽀持关系和⾮关系数据库,数据可以导出为JSON、XML等 · Portia -可视化爬取⽹页内容 · cola -分布式爬⾍框架 · newspaper -提取新闻、⽂章以及内容分析 ·lxml -lxml是python的⼀个解析库,这个库⽀持HTML和xml的解析,⽀持XPath的解析⽅式
2、⾃动化
· XlsxWriter -操作Excel⼯作表的⽂字,数字,公式,图表等 · win32com -有关Windows系统操作、Office(Word、Excel等)⽂件读写等的综合应⽤库 · pymysql -操作MySQL数据库 · pymongo -把数据写
⼊MongoDB · smtplib -发送电⼦邮件模块 · selenium-⼀个调⽤浏览器的driver,通过这个库可以直接调⽤浏览器完成某些操作,⽐如输⼊验证码,常⽤来进⾏浏览器的⾃动化⼯作。 ·pdfminer -⼀个可以从PDF⽂档中提取各类信息的第三⽅库。与其他PDF相关的⼯具不同,它能够完全获取并分析 P D F 的⽂本数据 ·PyPDF2 -⼀个能够分割、合并和转换PDF页⾯的库。 · openpyxl - ⼀个处理Microsoft Excel⽂档的Python第三⽅库,它⽀持读写Excel的xls、xlsx、xlsm、xltx、xltm。 · python-docx -⼀个处理Microsoft Word⽂档的Python第三⽅库,它⽀持读取、查询以及修改doc、docx等格式⽂件,并能够对Word常见样式进⾏编程设置。
3、数据分析及可视化
· matplotlib -Matplotlib 是⼀个 Python 2D 绘图库,可以⽣成各种可⽤于出版品质的硬拷贝格式和跨平台交互式环境数据。Matplotlib 可⽤于 Python 脚本,Python 和 IPython shell(例如 MATLAB 或 Mathematica),Web 应⽤程序服务器和各种图形⽤户界⾯⼯具包。” · numpy -NumPy 是使⽤ Python 进⾏科学计算所需的基础包。⽤来存储和处理⼤型矩阵,如矩阵运算、⽮量处理、N维数据变换等。 · pyecharts -⽤于⽣成 Echarts 图表的类库 · pandas -⼀个强⼤的分析结构化数据的⼯具集,基于numpy扩展⽽来,提供了⼀批标准的数据模型和⼤量便捷处理数据的函数和⽅法。 · Scipy : 基于Python的matlab实现,旨在实现matlab的所有功能,在numpy库的基础上增加了众多的数学、科学以及⼯程计算中常⽤的库函数。 · Plotly -Plotly提供的图形库可以进⾏在线WEB交互,并提供具有出版品
质的图形,⽀持线图、散点图、区域图、条形图、误差条、框图、直⽅图、热图、⼦图、多轴、极坐标图、⽓泡图、玫瑰图、热⼒图、漏⽃图等众多图形 · wordcloud -词云⽣成器 · jieba -中⽂分词模块
4、WEB开发
· Django -⼀个开放源代码的Web应⽤框架,由Python写成。是Python⽣态中 最流⾏的开源 Web应⽤框架,Django采⽤模型、模板和视图的编写模式,称为MTV模式。 · Pyramid 是⼀个通⽤、开源的Python Web应⽤程序开发框架。它主要的⽬的是让Python开发者更简单的创建Web应⽤,相⽐Django,Pyramid是⼀个 相对⼩巧、快速、灵活 的开源Python Web框架。 · Tornado -⼀种 Web 服务器软件的开源版本。Tornado和现在的主流Web服务器框架(包括⼤多数Python的框架)有着明显的区别:它是⾮阻塞式服务器,⽽且速度相当快 · Flask 是轻量级Web应⽤框架,相⽐Django和Pyramid,它也被称为 微框架 。使⽤Flask开发Web应⽤⼗分⽅便,甚⾄⼏⾏代码即可建⽴⼀个⼩型⽹站。Flask核⼼⼗分简单,并不直接包含诸如数据库访问等的抽象访问层,⽽是通过扩展模块形式来⽀持。
5、机器学习
· NLTK -⼀个⾃然语⾔处理的第三⽅库,NLP领域中常⽤,可建⽴词袋模型(单词计数),⽀持词频分析(单词出现次数)、模式识别、关联分析、情感分析(词频分析 度量指标)、可视化( matploylib
做分析图)等。 · TensorFlow -⾕歌的第⼆代机器学习系统,是⼀个使⽤数据流图进⾏数值计算的开源软件库。 · Keras -是⼀个⾼级神经⽹络 API,⽤ Python 编写,能够在 TensorFlow,CNTK 或Theano 之上运⾏。它旨在实现快速实验,能够以最⼩的延迟把想法变成结果,这是进⾏研究的关键。 · Caffe -⼀个深度学习框架,主要⽤于计算机视觉,它对图像识别的分类具有很好的应⽤效果。 · theano- 深度学习库。它与Numpy紧密集成,⽀持GPU计算、单元测试和⾃我验证,为执⾏深度学习中⼤规模神经⽹络算法的运算⽽设计,擅长处理多维数组。 · Scikit-learn -是⼀个简单且⾼效的 数据挖掘和数据分析⼯具 ,它基于NumPy、SciPy和matplotlib构建。Scikit-learn的基本功能主要包括6个部分:分类,回归,聚类,数据降维,模型选择和数据预处理。Scikit-learn也被称为sklearn。
6、其他常⽤
· IPython -⼀个基于Python 的交互式shell,⽐默认的Python shell 好⽤得多,⽀持变量⾃动补全、⾃动缩进、交互式帮助、魔法命令、系统命令等,内置了许多很有⽤的功能和函数 · PTVS -Visual Studio 的 Python ⼯具 · pydub -⽀持多种格式声⾳⽂件,可进⾏多种信号处理、信号⽣成、⾳效注册、静⾳处理等 · TimeSide -能够进⾏⾳频分析、成像、转码、流媒体和标签处理的Python框架 ·dnspython -DNS⼯具包 · pygame- 专为电⼦游戏设计的⼀个模块 · PyQt5 -pyqt5是Qt5应⽤框架的Python第三⽅库,编写Python 脚本的应⽤界⾯ · PIL(Pillow) -PIL库是Python语⾔在 图像处理⽅⾯ 的重要第三⽅库,⽀持图像存储、显⽰和处理,它能够处理⼏乎所有图⽚格式,可以完成对图像的缩放
、剪裁、叠加以及向图像添加线条、图像和⽂字等操作。 · OpenCV -图像和视频⼯作库 · Py2exe :将python脚本转换为windows上可以独⽴运⾏的可执⾏程序。 · WeRoBot 是⼀个 开发框架 ,也称为的机器⼈框架。WeRoBot可以解析服务器发来的消息,并将消息转换成成Message或者Event类型

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。