PHP怎样用正则抓取页面中的网址_ 前言
链接也就是超级链接,是从一个元素(文字、图片、视频等)链接到另一个元素(文字、图片、视频等)。网页中的链接一般有三种,一种是肯定URL超链接,也就是一个页面的完整路径;另一种是相对URL超链接,一般都链接到同一网站的其他页面;还有一种是页面内的超链接,这种一般链接到同一页面内的其他位置。
搞清晰了链接的种类,就知道要抓链接,主要还是肯定URL 超链接和相对URL超链接。要写出正确的正则表达式,就必需要了解我们查的对象的模式。
先说肯定链接,也叫作URL(Uniform Resource Locator),标识了互联网上的唯一资源。URL的结构包含三部分:协议、服务器名称、路径和文件名。
协议是告诉扫瞄器如何处理将要打开文件的标识,最常见的就是 http 协议。本文也只考虑HTTP协议,至于其他的https、ftp、mailto、telnet协议等,依据需要也可以添加。
服务器名称是告诉扫瞄器如何到达这个服务器的方式,通常是域名或者IP地址,有时还会包含端口号(默认为80)。FTP协议中,也可以包含用户名和密码,本文就不考虑了。路径和文件名,一般以 / 分割,指出到达这个文件的路径和文件本身的名称。假如没有具体的文件名,则访问这个
文件夹下的默认文件(可以在服务器端设置)。
那么现在清晰了,要抓取的肯定链接的典型形式可以概括为
l
每个部分可以用法的字符范围有明确的规范,具体可以参考RFC1738。那么正则表达式就可以写出来了。
/(http|https):\/\/([\w\d\-_]+[\.\w\d\-_]+)[:\d+]?([ \/]?[\w\/\.]+)/i
正则匹配顶级域名网址说明如下:
(http|https)第一个括号内匹配的是协议部分。
([\w\d\-_]+[\.\w\d\-_]+)其次个括号内匹配的是域名部分。
([\/]?[\w\/\.]+)第三个括号内匹配的是相对路径。
写到这个时候,基本上大部分的网址都能匹配到了,但是对于URL中带有参数的还不能抓取,这样有可能造成再次访问的时候页面报错。关于参数RFC1738规范中要求是用?来分割,后面带上参数,但是现代的RIA应用有可能用法其他惊奇的形式进行分割。
略微修改一下,这样就可以将查询参数部分搜索出来。这里仍旧没有涵盖全部的状况,例如URL中有中文、有空格及其
他特别字符的状况,但是基本上能够满足我的需求了,就
没有连续深化。
/(http|ftp|https):\/\/([\w\d\-_]+[\.\w\d\-_]+)[:\d+ ]?([\/]?[\w\/\.\?=;%@#\+,]+)/i
用法括号的好处是,在处理结果时,可以很简单的猎取到协议、域名、相对路径这些内容,便利后续的处理。
例如用法 preg_match_all() 匹配时,结果数组索引0为全部结果、1为协议、2为域名、3为相对路径。
以上就是用法PHP的正则抓取页面中的网址的全部内容,盼望对大家在PHP用法中有所关心。
...

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。