易语言
怎么用正则表达式采集网页数据
大家知道,易语言好学,但正则表达式规则不好记。但你只要记住几个匹配符的用法含义,你也就基本会用正则了。不外乎“.”、“*”、“?”“()”等,也是好掌握的。
所需工具:1、当然易语言编程环境2、正则调试工具3、任意浏览器4、彗星易模块
写网页用什么语言正则调试工具推荐E正则小助手,它可以把正则表达式转换成的易语言表达式,非常方便。
好了,一切就绪,开始编程,步骤如下:
1、在易语言中建立一个按钮和编辑框,设置纵向滚动和可以换行、居中。
2、添加彗星易模块,打开测试网页,blog.sina/lm/ent/,新浪娱乐博客,打开源码复制到E 正则小助手的“欲测试文本”的文本框内。我们要采集的5个文章标题已用红框标出。搜索其中一个标题“被逼叫爸爸”,如图:
3、在查询结果,选中“width="395"height="280"alt="女演员遭导演:被逼叫爸爸"tit le="女演员遭
导演:被逼叫爸爸"/”复制到一个文本文件中,转换成一个通用的正则表达式,就是这个“width="(.*?)" height="(.*?)"alt="(.*?)"title="(.*?)"/”,点击匹配。如图:
4、再在“生成代码”中选择由正则式转换成的易语言表达式。见图:也就是红竖道中间的代码部分。:“width="+#引号+"(.*?)"+#引号+"height="+#引号+"(.*?)"+#引号+"alt="+#引号+"(.*?)"+#引号+"title="+#引号+"(.*?)"+#引号+"/”
5、在回到易语言。编写如下代码:
6、程序中的取子文本命令第二参数必须是4或3,因为我们要到是正则表达式中第3或第4个索引的子文本。
7、好了,运行程序可以看到我们提取成功了所要的5个标题。如图:
本例程是正则表达式的最简单的应用,学好正则对学习网络编程有很大的促进帮助。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论