手把手教你如何获取全网可访问的所有网站网址和网站信息--688IT编程网

⼿把⼿教你如何获取全⽹可访问的所有⽹站⽹址和⽹站信息

# 如何获取全⽹可访问的所有⽹站⽹址和⽹站信息呢

今天由于有⼀个⼩程序项⽬，是专门给织梦dedecms⽹站、WordPress⽹站做⼩程序制作免费⼩程序的。但是⼿上织梦⽹站和WordPress⽹站⽤户数量都不是很多，很好的项⽬却没有触及到⽤户，没有能给⽹站带来好处，于是就想，能不能收集现在⽹上所有的织梦⽹站和WordPress⽹站，并且获取他们的邮箱、QQ、、电话等有⽤信息呢？

带着疑问百度了⼀番，没有发现现成的可⽤数据，可是⼩程序项⽬还得往前推呢，等着⽤户来使⽤呢？既然⽹上没有现成的，要不就⾃⼰写⼀个吧。于是就有了这个cobweb全⽹⽹址采集器。

## 全⽹⽹址采集器是什么？

这是⼀个由golang编写的全⽹⽹址采集器，可⽤⾃动爬取可触及的所有⽹站信息。该⽹址采集器会⾃动采集并分析⽹站的标题、站点描述、、QQ、、⽹站所⽤的运⾏环境、ip信息等，甚⾄是⽹站所⽤的框架。

## 为什么会有这个全⽹⽹址采集器

* 因为我想收集现在全⽹的⽹址，并分析⽹站数据。

## 全⽹⽹址采集器能采集哪些内容

本采集器可以采集到的的内容有：⽂章标题、⽂章关键词、⽂章描述、⽂章详情内容、⽂章作者、⽂章发布时间、⽂章浏览量。

##全⽹⽹址采集器可⽤在哪⾥运⾏

本采集器可⽤运⾏在 Windows系统、Mac 系统、Linux系统（Centos、Ubuntu等），可⽤下载编译好的程序直接执⾏，也可以下载源码⾃⼰编译。

## 如何安装使⽤

* 下载可执⾏⽂件

请从Releases 中根据你的操作系统下载最新版的可执⾏⽂件，解压后，重命名config.dist.json为config.json，打开config.json，修改mysql 部分的配置，填写为你的mysql地址、⽤户名、密码、数据库信息，新建cobweb数据库，导⼊mysql.sql到填写的数据库中，然后双击运⾏可执⾏⽂件即可开始采集之旅。

* ⾃助编译

先clone代码到本地，本地安装go运⾏环境，在cobweb⽬录下打开cmd/Terminal命令⾏窗⼝，执⾏命。如果你没配置代理的话，还需要新设置go的代理

```shell script

```

最后执⾏下⾯命令

```shell script

gomod tidy

gomod vendor

gobuild

```

编译结束后，配置config。重命名config.dist.json为config.json，打开config.json，修改mysql部分的配置，填写为你的mysql地址、⽤户名、密码、数据库信息，新建cobweb数据库，导⼊mysql.sql到填写

的数据库中，然后双击运⾏可执⾏⽂件即可开始采集之旅。

### config.json配置说明

```

{

"mysql": { //数据库配置

"Database": "spider",

"User": "root",

"Password": "root",

"Charset": "utf8mb4",

"Host": "127.0.0.1",

"TablePrefix": "",

"Port": 3306,

"MaxIdleConnections": 1000,

"MaxOpenConnections": 100000

}

```

## 全⽹⽹址采集器运⾏原理分析

### 多线程（多协程）同时执⾏

全⽹⽹址采集器利⽤了golang得天独厚的并⾏任务优势，同时开启多个协程，可以做到⽐常规轻易得⼿的php采集代码快10倍~100倍，甚⾄更快。当然更快的采集速度还需要依靠你本地的⽹速，你家开的是500M带宽的话，开1000个协程都是可以的。

688IT编程网

手把手教你如何获取全网可访问的所有网站网址和网站信息

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

手把手教你如何获取全网可访问的所有网站网址和网站信息

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则