html网页爬虫,R-网页爬虫:分析HTML代码--688IT编程网

html⽹页爬⾍,R-⽹页爬⾍：分析HTML代码

前⼀篇⽂章我们学习了选择器(CSS和XPath)。

这个⽹页上获取所有可⽤的R扩展包。⽹页看起来简单，想知道选择器的表达式，在页⾯右击，选择菜单中的审查元素选项(⼤部分浏览器都有)，然后就会出现检查⾯板。我们可以看到⽹页底层的 HTML 代码。

HTML包含唯⼀的

，因此可以直接将CSS选择器设为 table

，再⽤ html_table()

提取表格并返回⼀个数据框：

library(rvest)

#> 载⼊需要的程辑包：xml2

page = read_html("cran.rstudio/web/packages/available_packages_by_name.html")

html网页设计 table

pkg_table = page %>%

html_node("table") %>%

html_table(fill = TRUE)

head(pkg_table, 5)

#> X1

#> 1

#> 2 A3

#> 3 abbyyR

#> 4 abc

#> 5 abc.data

#> X2

#> 1

#> 2 Accurate, Adaptable, and Accessible Error Metrics for Predictive\nModels

#> 3 Access to Abbyy Optical Character Recognition (OCR) API

#> 4 Tools for Approximate Bayesian Computation (ABC)

#> 5 Data Only: Tools for Approximate Bayesian Computation (ABC)

这⾥原始表没有表头。结果数据框使⽤了默认表头，并且第⼀⾏是空的，下⾯代码解决这个问题：

pkg_table = pkg_table[complete.cases(pkg_table), ]

colnames(pkg_table) = c("name", "title")

head(pkg_table, 3)

#> name

#> 2 A3

#> 3 abbyyR

#> 4 abc

#> title

#> 2 Accurate, Adaptable, and Accessible Error Metrics for Predictive\nModels #> 3 Access to Abbyy Optical Character Recognition (OCR) API

#> 4 Tools for Approximate Bayesian Computation (ABC)

发表评论

688IT编程网

html网页爬虫,R-网页爬虫:分析HTML代码

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

html网页爬虫,R-网页爬虫:分析HTML代码

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式