六十五、Spark-综合案例(搜狗搜索日志分析)--688IT编程网

六⼗五、Spark-综合案例（搜狗搜索⽇志分析）

搜狗实验室：搜索引擎查询⽇志库设计为包括约1个⽉(2008年6⽉)Sogou搜索引擎部分⽹页查询需求及⽤户点击情况的⽹页查询⽇志数据集合。为进⾏中⽂搜索引擎⽤户⾏为分析的研究者提供基准研究语料

⽬录

注：由于进⾏测试使⽤，迷你版数据就可以满⾜需求

原数据展⽰

注：原数据存在10000条，字段分别为：访问时间 \t ⽤户ID \t [查询词] \t 该URL在返回结果中的排名 \t ⽤户点击的顺序号\t ⽤户点击的URL

业务需求

需求说明：对SougouSearchLog进⾏分词并统计如下指标:

1. 热门搜索词

2. ⽤户热门搜索词(带上⽤户id)

3. 各个时间段搜索热度

业务逻辑

业务逻辑：针对SougoQ⽤户查询⽇志数据中不同字段，使⽤SparkContext读取⽇志数据，封装到RDD数据集中，调⽤Transformation函数和Action函数进⾏处理不同业务统计分析

分词⼯具

HanLP主要功能：基于HanLP最新技术，使⽤亿级通⽤语料库训练，直接API调⽤，简单⾼效！

Maven依赖

<groupId>com.hankcs</groupId>

<artifactId>hanlp</artifactId>

<version>portable-1.7.7</version>

</dependency>

HanLP⼊门案例

ample.spark

import java.util

import com.hankcs.hanlp.HanLP

import com.hankcs.hanlp.segmon.Termreplaceall()

/**

* Author tuomasi

* Desc HanLP⼊门案例

object HanLPTest {

def main(args: Array[String]): Unit = {

val words = "[HanLP⼊门案例]"

val terms: util.List[Term] = HanLP.segment(words) //分段

println(terms) //直接打印java的list:[[/w, HanLP/nx, ⼊门/vn, 案例/n, ]/w]

llection.JavaConverters._

println(terms.asScala.map(_.word)) //转为scala的list:ArrayBuffer([, HanLP, ⼊门, 案例, ])

val cleanWords1: String = placeAll("\\[|\\]", "") //将"["或"]"替换为空"" //"HanLP⼊门案例"

println(cleanWords1) //HanLP⼊门案例

println(HanLP.segment(cleanWords1).asScala.map(_.word)) //ArrayBuffer(HanLP, ⼊门, 案例)

val log = """00:00:00 2982199073774412 [360安全卫⼠] 8 3 download.it/softweb/software/firewall/antivirus/20067/17938.html"""

val cleanWords2 = log.split("\\s+")(2) //[360安全卫⼠]

.replaceAll("\\[|\\]", "") //360安全卫⼠

println(HanLP.segment(cleanWords2).asScala.map(_.word)) //ArrayBuffer(360, 安全卫⼠)

}

控制台打印效果

代码实现

ample.spark

import com.hankcs.hanlp.HanLP

688IT编程网

六十五、Spark-综合案例(搜狗搜索日志分析)

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

六十五、Spark-综合案例(搜狗搜索日志分析)

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式