html⽹页爬⾍,R-⽹页爬⾍:分析HTML代码
前⼀篇⽂章我们学习了选择器(CSS和XPath)。
这个⽹页上获取所有可⽤的R扩展包。⽹页看起来简单,想知道选择器的表达式,在页⾯右击,选择菜单中的审查元素选项(⼤部分浏览器都有),然后就会出现检查⾯板。我们可以看到⽹页底层的 HTML 代码。
HTML包含唯⼀的
,因此可以直接将CSS选择器设为 table
,再⽤ html_table()
提取表格并返回⼀个数据框:
library(rvest)
#> 载⼊需要的程辑包:xml2
page = read_html("cran.rstudio/web/packages/available_packages_by_name.html")
html网页设计 table
pkg_table = page %>%
html_node("table") %>%
html_table(fill = TRUE)
head(pkg_table, 5)
#> X1
#> 1
#> 2 A3
#> 3 abbyyR
#> 4 abc
#> 5 abc.data
#> X2
#> 1
#> 2 Accurate, Adaptable, and Accessible Error Metrics for Predictive\nModels
#> 3 Access to Abbyy Optical Character Recognition (OCR) API
#> 4 Tools for Approximate Bayesian Computation (ABC)
#> 5 Data Only: Tools for Approximate Bayesian Computation (ABC)
这⾥原始表没有表头。结果数据框使⽤了默认表头,并且第⼀⾏是空的,下⾯代码解决这个问题:
pkg_table = pkg_table[complete.cases(pkg_table), ]
colnames(pkg_table) = c("name", "title")
head(pkg_table, 3)
#> name
#> 2 A3
#> 3 abbyyR
#> 4 abc
#> title
#> 2 Accurate, Adaptable, and Accessible Error Metrics for Predictive\nModels #> 3 Access to Abbyy Optical Character Recognition (OCR) API
#> 4 Tools for Approximate Bayesian Computation (ABC)

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。