python 爬虫教学
Python中数据挖掘常⽤模块
基本模块: NumPy,Pandas ,SciPy ,scikit-learn。
其他常⽤模块:
Theano:Python库,⽤来定义、优化和模拟数学表达式计算,⽤于⾼效地解决多维数组的计算问题以及深度学、框架。
Keras:基于Theano的深度学习库,主要⽤于搭建⼈⼯神经⽹络、⾃编码器、卷积神经⽹络等深度学习模型。
Gensim:Python⾃然语⾔处理模块,包括⾃然语⾔主题模型,⽤于⽂本的主题挖掘。
StatsModels:注重数据统计建模分析的数据处理模块,与Pandas结合,强⼤的数据挖掘组合。
NLTK:(natural language toolkit)Python⾃然语⾔处理模块,包括⼀系列的字符处理和语⾔统计模型。常⽤于学术研究和教学,应⽤领域有语⾔学、认知科学、⼈⼯智能、信息检索、机器学习等。
Mlpy:基于NumPy和SciPy的机器学习模块,CPython的拓展应⽤。
PyBrain:Python机器学习模块,⽤于处理神经⽹络、强化学习、⽆监督学习、进化算法。
Milk:Python机器学习⼯具箱,重点提⾼监督分类法与⼏种有效的分类分析:SVMs,kNN,随机森林和决策树等。
Pattern: Python的web挖掘模块,绑定了Google、Twitter、Wikipedia API,提供⽹络爬⾍、HTML解析功能,⽂本分析包括浅层规则解析、WordNet接⼝、句法与语义分析、TF-IDF、LSA等,还提供聚类、分类和图⽹络可视化的功能。
Orange:基于组件的数据挖掘和机器学习软件套装,它功能友好强⼤,拥有快速⽽多功能的可视化编程前端,以便浏览数据分析和可视化,且绑定了Python已进⾏脚本开发。它包含了完整的⼀系列的组件以进⾏数据预处理,并提供了数据账⽬、过渡、建模、模式评估和勘探的功能。
MXNet:深度学习最新框架,性能和速度超越Theano。
XGBoost:是⼀个速度快、效果好的boosting模型,被封装成了Python模块。该模块能够⾃动利⽤CPU的多线程进⾏并⾏,同时提⾼了算法的精度。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。