第 3 卷 第 1 期专辑 9 0 21 年1 月 02 0
计 算 机 科 学 C m ue Sine o p tr c c e
V l3 o 1 u p o .9N .0S p Ot 0 2 c 1 2
面向终端用户的网页过滤模板动态生成技术研究
徐 慧 窦子辉 杨 林 陈 雪
( 中国矿业大学( 北京) 计算机科学与技术系 北京 1 0 8 ) 003
摘 要 为了满足网络终端用户对网页噪音的过滤需求, 提出一种面向终端用户的动态模板网页过滤系 统 模 型, 它 基于模板并利用用户反馈自动进化过滤系统。设计了模板生成算法, 模拟实验验证了该算法的有效性。 关键词 网页过滤, 动态模板, OM 树 D 中图法分类号 T 3 1. P 1 5 文献标识码 A
F cn h n sr W bF trT m lt y a i eea o eh ooyRsac aig eE dUe e i e e paeD n mcG nrt nTc nlg eerh t l i
XU u D ihi H i OU Z- u YANG Ln CHE u NXe i
( e at eto o p trSinea dT c nlg ,hn nvri f M nn T c nlg (eig ,eig1 0 8 ,hn ) D prm n C m ue c c n eh oo y C ia U ies yo iig & eh oo y Bin )Bin 0 0 3 C ia f e t j j
A s at I re ost f h ew r r ia sr o h e fnieftrd m n , ido y a i t m- bt c nodr a sytent okt mnl es r e W bo o l e a d akn fd n mc e r t i e u f t s ie lt a e i ei yt m o e fcn h n sr sp t r ad B sdo h e paea dtkn d atg f ft n i f paep g l r gsse m dl aigtee due u o w r .ae ntet m lt n aiga v na eo f ir i s i l t i ue e bc ,l a o yt mi vo e . h e paeg nrt nagr h saeds nd Sm lt ne prm ns sr ed akft t nsse elvd T et m lt e ea o oi m r ei e .i ua o x ei et g vr ytee et e eso h gr h ei h fc vns f ea oi m. f f i t l t K y od W bftr D n mc e pae , OM te e w rs e l , y a i t m lts D e ie r
1 引言
随着互联网应 用 的 推 广 与 普 及, 络 已 成 为 很 网 多人生活中不可或缺的一部分。但是网页噪音 随着 浮动广告、 自动弹出 网络的广泛应用却是愈演愈烈, 广告、 单击弹出广告、 不堪入目的成人广告及花哨的 a aci fs l jvsr t特效、ah 动 画 等 严 重 影 响 了 人 们 浏 览 p 网页的效率和 人 们 上 网 的 心 情。 可 是 到 目 前 为 止, 还没有相应的 规 范 来 解 决 这 一 问 题, 有 少 量 的 浏 只 览器和软件加入了有限的网页过滤功能来保护网络 用户。 因此, 研究一套 针 对 网 络 终 端 用 户 的 网 页 过 滤 系统, 对网络终 端 用 户 和 整 个 网 络 运 行 环 境 都 是 很 有意义和使用价值的。
过滤系统的核 心。 模 板 一 般 由 浏 览 器 预 先 制 定 好, 模板库在系统 升 级 中 进 行 更 新, 滤 系 统 本 身 不 对 过
1 模板库进行更新 [ ]。
() 负责在模板库中到输入网 页对 2 模板匹配: 应的过滤模板用于噪音过滤。 () 通 3 过滤器: 过 过 滤 模 板 去 除 网 页 中 的 噪 音, 输出净化后的网页。
图 1 静态模板网页过滤系统模型
2. 动态模板网页过滤系统模型 2 在静态模板库 的 网 页 过 滤 系 统 中, 于 模 板 库 由 很难 满 足 终 端 用 户 对 网 页 过 滤 系 统 的 个 是静态的, 性要求, 因此提 出 了 一 种 面 向 终 端 用 户 的 动
态 模 板 网页过滤系统模型, 如图 2 所示。 其中, 模板库 生 成 器 可 以 根 据 网 页 信 息 生 成 模 板库中的模板; 户 定 制 模 块 可 以 让 用 户 定 制 自 己 用 的网页模板; 统 进 化 模 块 可 以 根 据 用 户 定 制 的 模 系
2 基于模板的网页过滤系统模型
2. 静态模板网页过滤系统 1 静态模 板 网 页 过 滤 系 统 模 型 如 图 1 所 示。 其 中: () 存 是 1 静态模 板 库: 储 用 于 过 滤 网 页 的 模 板,
, 硕士, , 硕士生, , 徐 慧(9 1- ) 女, 副教授, 主要研究领域为数据挖掘; 窦子辉(9 8- ) 男, 主要研 究 领 域 为 数 据 挖 掘 等; 林(9 1- ) 男, 杨 16 18 16 , 硕士生, 博士, 副教授, 主要研究领域为计算机网络等; 雪(9 0- ) 女, 陈 主要研究领域为数据挖掘等。 19
·9 · 0
板修改模板库生成器的参数, 完成系统进化, 实现模 板库动态生成。
需要使用启发式规则。 判定” 3. 判定节点类型 2 利用启发式规则判定节点类型涉及以下基本概 念: () 信息指网页页面中可以被看 1 信息和信息量: 图片和多媒体对象等; 信息量是信息量化 到的文
字、 的表示, 文字用数量表示, 图片和多媒体对象用面积 除以定值表示。 () 节点信息量和页面信息量的 2 节点信息量比: 比, 代表节点在页面中的重要性。可以把 b d 节点 oy 信息量比看为 1。 () 节点文本率指节 3 节点文本率和节点链接率: 点中非链接的信息量( 包括文本和图片) 和节点 信息 量的比。节点链 接 率 指 节 点 中 链 接 的 信 息 量 ( 括 包 文本和图片) 节 点 信 息 量 的 比。 同 一 节 点 的 两 者 和 之和为 1。 对于进入用启 发 式 规 则 判 定 类 型 的 节 点, 判 其 定过程可以用图 4 表示。图中链接块类型的节点是 要去除的噪音 节 点, 为 这 种 节 点 一 般 是 图 片 或 文 因 字类型的链接集合, 一般与内容无关; 导航节点是特 殊的链接块, 为 导 航 对 浏 览 网 页 的 用 户 来 说 是 重 因 所以要单独分类并予以保留。 要的,
图 2 动态模板网页过滤系统模型
3 模板动态生成
过滤系统结构 的 核 心 是 模 板 库, 了 好 的 模 板 有 库才能有好的过滤结果。所以模板库的自动生成技 术是本文的研 究 重 点。 本 文 中, 滤 模 板 是 通 过 对 过 网页 D OM 树中噪音节点编码构成的
[] 3
。
生成网页过滤模板需要经过两个步骤: () 遍 针 1 确定 节 点 类 型: 历 网 页 D OM 树, 对 叶 子节点区分内 容 节 点 和 噪 音 节 点, 音 节 点 是 要 去 噪 内容节点是要保留的。 除的, () 生成网页过滤模板。 2 对噪音节点进行编码, 3. 遍历网页 D 1 OM 树 遍历网页 D OM 树的最 终 目 的 是 确 定 叶 子 节 点 类型。给模板生成器输入同一网站同一级别的两个
3 网页 [ ], 这样的 网 页 一 般 有 相 同 的 模 板。 在 遍 历 两
如果有 相 同 的 节 点, 么 这 个 节 那 个网页的 D OM 时,
免费模板生成器4 点通常就是噪音节点 [ ]; 如果是非相同节点, 则启用
启发式规则来判断节点的类型。
图 4 判定节点类型流程
在处理文本率 和 链 接 率 阈 值 时, 果 用 定 值 会 如 有深度遍历和 删 除 大 节 点 问 题, 是 由 于 对 大 节 点 这 和小节点用同一种判定标准所致。 如有的网页主要 内容是一段很 短 的 文 字, 有 很 多 文 字 或 图 片 链 接 但 块,o y 节 点 链 接 率 通 常 大 于 0. , 可 能 大 于 阈 bd 9 很
图 3 遍历网页 D OM 树流程
值。本文采用动态阈值的方式解决这个问题。 动态 阈值是把判定节点类型的阈值与节点信息量比关联 ·9 · 1
遍历 D 其 节 OM 树流程如图 3 所 示, 中 “ 点 类 型
起来, 这样就避免了节点大小对判定结果的影响。 式( ) 1 为节点链接率判定阈值计算公式:
3. 用户反馈和系统进化 4 用户定制模板 主 要 是 生 成 网 页 的 可 定 制 页, 可 以让用户自己选择删除哪些节点。 系统进化是根据用户自己定制的过滤模板来修 改阈值参数。因为系统过滤模板的生成主要靠阈值 来界定各节点的类型。 当用户要对自 己 定 制 过 滤 模 板 时, 明 对 系 统 说 过滤模板不满意。用户自己定制的过滤模板和 系统 生成的过滤模板之间相异的节点可以分为两类。 一 类是在系统过滤模板中的, 称为用户保留节点, 因为 定制过滤模板 中 没 有 说 明 用 户 不 想 删 除 它; 一 类 另 是在用户定制的过滤模板中的, 称为用户噪音节点。 在不同情况下, 阈值变化如下: () 链接率最 1 当结构节点被判定为噪音节点时, 低阈值要升高, 为 最 低 阈 值 过 低 导 致 计 算 出 的 判 因 致使结构节点被判定为噪音节点, 所以要 定阈值低, 升高。表现出用户噪音节点为系统噪音节点的子节 点。 () 链接率最 2 当噪音节点被判定为结构节点时, 低阈值要降低, 现 为 出 现 用 户 噪 音 节 点 为 系 统 噪 表 音节点的父节点; 当结构节点被判定为内容节点时, 文本率最低值 要 升 高, 现 为 出 现 用 户 噪 音 节 点 为 表 系统内容节点 的 子 节 点; 内 容 节 点 被 判 定 为 结 构 当 节点时, 文本率最低
值要降低, 表现为出现用户保留 节点为系统噪音节点的父节点。 对于用户噪音 节 点 和 用 户 保 留 节 点, 节 点 信 其 息量比、 链接率和文本率是已知的。可以代入式( ) 1 和式( ) 2 计算出对应的最低阈值临界值。 在计算出的临界值中会有一些偏离系统最低阈 值太远的, 这是出于用户的一些特定需要, 所以要去 除。可以设定一个 变 化 范 围, 5% , 最 低 阈 值 加 如 在 减 5% 内 的 临 界 值 才 能 用 于 计 算 系 统 新 的 最 低 阈 系统阈值变化就会缓慢变化, 不会出 现大 值。这样, 的跨越。 当用户噪音节点和用户保留节点达到一定数量 时进行系统的 进 化 才 有 意 义, 为 数 量 太 少 不 会 有 因 参考价值。在系 统 更 新 阈 值 后, 重 新 生 成 系 统 各 要 模板。
lmt iL mt ( a L mt iL mt * i i =mn i i + m x i i -mn i i ) w i hR t eg t ai o
() 1 式中, eg t ai 为 节 点 信 息 量 比, a L mt 和 w i hR t o m xi i mn i i 为阈 值 最 大 和 最 小 值。 当 节 点 信 息 量 比 iL mt 判 为 1 时, 定 阈 值 为 m x i i , 着 节 点 信 息 量 变 a L mt 随 判定阈值会 线 性 趋 近 于 mn i i 。 这 体 现 了 对 小, iL mt 大节点判定为噪音时要严, 防止误删, 对小节点宽 松 的思想。 式( ) 2 为节点文本率判定阈值计算公式:
lmt a L mt ( a L mt iL mt * i i =m x i i - m x i i -mn i i ) w i hR t eg t ai o
() 2 文本率判定阈 值 的 变 化 和 链 接 率 是 相 反 的, 其 对于大节点要宽松一点, 对于小节点要严一点, 因为 文本率一般要大于 0. , 8 放过大节点不会影响观看, 而对小节点严一点可以过滤更多的噪音。 3. 模板结构与编码 3 一个 D 就 OM 树 的 所 有 叶 子 节 点 确 定 之 后, 要 考虑 如 何 把 这 种 结 构 保 存 起 来, 就 需 要 对 D 这 OM 树进行编码。 本文使用一种快捷有效的编码来记录生成的模 板。对从根到叶子的路径中的节点用其为父节点中 的孩子编号来代表
[] 5
, 后 把 所 有 数 字 按 顺 序 用 “” 然 -
字符连接形成 叶 子 节 点 的 编 码, 所 有 叶 子 节 点 的 把 编码按发现 顺 序 用 “ ” 接 形 成 D & 连 OM 树 的 模 板。 为了应对网页 结 构 变 化 的 问 题, 模 板 中 应 该 加 入 在 一些节点信息, 如节点标签类型。 例如, OM 树编码如图 5 所示。 D
图 5 D OM 树编码示例图
如果用 深 度 优 先 遍 历 树, D 则 OM 树 的 模 板 为
4 过滤实验
本文对过滤前 后 的 网 页 进 行 了 对 比 实 验, 验 实 结果如图 6- 图 8 所示。 其中图 6 是过 滤 前 的 网 页, 7 是 用 系 统 生 成 图 图 的过滤模板过滤生成的网页, 8 是加入用户定制模 板且系统进化后生成的过滤模板过滤生成的网页。
dv=1- dv=1- t =2- t =2- t =2- i 1& i 2& d 1& d 2& d
那 3& i =3。如果图 5 中灰的节点 为 噪 音 节 点, dv 么, 过滤模板变为 dv=1- t =2- t =2- 。 i 1& d 1& d 3当 说 匹配或过滤时 发 现 标 签 名 变 了, 明 现 有 模 板 已 经 应该重新生成对应模板。 不合适了, ·9 · 2
从图 6 可以看 到, 用 过 滤 模 板 后 的 网 页 的 噪 使 音基本消失。图 7 与图 8 的差异部分是在相关阅 读 文 部分。在图 7 中, 本 节 点 由 于 被 判 定 为 结 构 节 点 又进行了迭代, 而 被 删 除。 当 大 量 用 户 定 制 模 板 从 在 保留这一部分 时, 系 统 进 化 时 会 降 低 文 本 率 最 低 阈值, 从而保留 这 一 部 分。 而 图 8 中 进 化 过 滤 网 页 中的大框表示的是保留的文本节点。 结束语 本文面向终端用户对网页过滤模板动 态生成技术的 研 究, 出 了 面 向 网 络 终 端 用 户 的 动 提 对模板生成算法、 节点类 态模板网页过滤系统模型, 型判定、 模板编码结构、 用户反馈和系统进化等相 关 技术和算法进 行 了 研 究 设 计。 实 验 结 果 表 明, 系 该 并 统可以有效地 过 滤 网 页 噪 声, 可 以 实 现 模 板 的 动 态生成。 参 考 文 献
图 6 过滤前的网页
[ ] 毛先领, 何靖, 宏 飞 . 页 去 噪: 究 综 述 [ ] 计 算 机 研 究 与 闫 网 研 1 J. 发展,0 0,2 1 )2 2 - 0 6 2 1 4 (2 :0 52 3 [ ] 何友全, 徐澄, 小 乐, . 种 基 于 统 计 学 特 征 和 D 徐 等 一 2 OM 树 的 网页去噪技术[] 重庆理工大学学报,0 1,5 1 :45 J. 2 1 2 ( )5 - 8 [ ] 袁 明 轩, 选 平, 宇, . 种 基 于 同 层 网 页 相 似 性 去 除 网 页 张 蒋 等 一 3 噪音的方法[] 计算机工程,0 6,2 2 )6 - 3 J. 2 0 3 (3 :16 [ ] 宋鳌, 支琤, 周军, . 等 基于 L S 的 特 征 树 最 在 相 似 性 匹 配 网 页 4 C 去噪算法[] 宽带网络,0 1,5 1 )4 - 8 J. 2 1 3 (3 :44 [ ] 万乐, 左万利, 高金 . 基于主题的网页噪音 去 除 机 制[ ] 计 算 机 5 J.
图 7 过滤后的网页
图 8 进化后过滤的网页
工程与设计,0 8,8 8 :0 22 7 2 0 2 ( )2 7 - 0 6
( 上接第 8 页) 5 包括基 1 数据对象。数据对象保存实际数据, ( ) 本值以及对其他数据对象的引用。 数据对象还拥有 对其元数据的 引 用, 允 许 基 本 数 据 对 象 获 取 有 关 这 数据类型、 数据
关系和数据约束的信息。 () 数据图是一组 提供 2 数据图。从概念上来说, 组件之间或层 之 间 的 传 输 单 元 的 数 据。 具 体 来 说, 数据图是一个多根的数据对象集合。 数据图记录 所 有对数据的更改, 包括新的数据对象、 被更改的数 据 对象以及被移除的数据对象。 () 3 元数据。 关 于 数 据 对 象 的 元 数 据 使 开 发 工 具和运行时框架能够内省数据, 包括数据类型、 关系 以及约束。改框架提供了一 个 通 用 的 跨 异 构 数 据 源 类型的元数据 A I来支持一般的工具和框架。 P 其主要负责两 方 面 的 工 作: 是 解 释 数 据 模 型 一 和服务调用, 完成各层模型的灵活转换和映射; 二是 从服务调用和 响 应 消 息 中 抽 取 业 务 数 据, 成 数 据 完 操作和计算, 并把结果以标准格式写入响应消息, 使 得双层平台间业务流程的交互更加准确、 便捷, 同时 能够满足用户 提 出 的 复 杂 的 考 试 时 间 安 排 规 则, 实
现复杂规则下的准确、 快速编排, 大大加强了在线考 试业务流程安排的灵活性。 结束语 随着 信 息 技 术 和 市 场 需 求 的 发 展, 数 字电视运 营 支 撑 系 统 的 设 计 需 要 进 一 步 完 善 和 改 进。物联网、 云计算等领域的发展, 也给三网融合和 数字电视带来新的机遇与挑战。对于三网融合和数 字电视的研究仍需要进一步深入。 参 考 文 献
[ ] 魏建兰 . 基于 I v 的 交 互 式 数 字 电 视 应 用 [ ] 通 信 与 广 播 电 1 P6 J. 视,0 8, :42 20 42 - 8 [ ] 赵岩 . 基于云计算下的三网融合的讨论[ ] 吉 林 广 播 电 视 大 学 2 J. 学报,0 2, :4 - 4 2 1 3 1 31 5 [ ] 马勇 . 基于三网融合的数字机顶盒的设计
与 应 用 [ ] 淮 阴 工 学 3 J. 院学报,0 2, :72 21 21 - 1 [ ] 胡云 . 三网融合的技术基础和应用分 析[ ] 信 息 化 研 究,0 1, 4 J. 21 4:- 2 91 [ ] 王汉熙 . 三网融合信息服务产业构建基础 理 论 的 研 究 方 向 [ ] 5 J. 中国海洋大学学报,0 2, :86 21 45 - 5 [ ] 王然 . 基于 O S J的 数 字 电 视 计 费 系 统 的 设 计 与 实 现 [ ] 北 6 S/ D . 京: 北京邮电大学,0 6 20
·9 · 3
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论