针对超文本页面的一个文本水印算法
摘要文本文档变成html网页:
信息隐藏技术作为信息安全学科的一个热门领域,网络上有很多针对信息隐藏技术的研究与分享,而相应的信息隐藏分析技术也得到了发展。超文本(HTML)网页水印技术是信息隐藏技术的一个分支,相较其它的水印技术, 仍存在着水印的嵌入困难、 容量有限和鲁棒性不强等问题。
针对于目前大多数采用网页中单个标签或某个符号来表示单个水印位而使得嵌入容量有限的问题, 本文通过仔细分析 HTML 中标记的各种性质和研究已经提出的信息隐藏技术,提出了自己的一种方法,通过空格的特殊作用,使得在一个符号位可以隐藏半个比特的信息,大大提高了单个水印位嵌入容量有限的问题,使得相同的网页可以嵌入更多的信息。相比于和其相识的方法,隐藏的信息的不可见性和鲁棒性也并未因为容量的提高而变得更差。
关键词:HTML 超文本 信息隐藏 信息提取
A text watermarking algorithm for hypertext pages
Yu peng, Beijing University of Post and Telecommunications school of computer science
Abstract:
Information hiding technology as a hot field of information security discipline, there are a lot of research and sharing about the information hiding on the network, and the corresponding information hiding analysis techniques have also been developed. Hypertext HTML pages watermarking technology is a branch of information hiding technology, compared with other watermarking technology, there are still some problem, like embedding difficulties, limited capacity and robustness is not strong and other issues.
For most uses in the current page in a single label or a symbol to represent a single bit watermark embedding , which leads to limited capacity issues, this article write by careful analysis and study of various properties of the HTML tags have been proposed information hiding technique,which put forward a new method that use spaces to hide a half of the symbol bit bits of information , this method can greatly improve the limited single bit watermark embedding capacity problems, so that the same page can be embedded additional information. Compared to the similar
methods, hidden invisibility and robustness of the information also did not increase the capacity and become worse because of this.
Key words : HTML , hypertext, information hiding ,information extraction
引言:
随着互联网技术的发展,通过浏览Web网页来获取信息已然成为人们获取信息的一种流行方式 和数字记录存储设备的普及使得轻易地制造、复制,传输和分发数字媒体成为可能,电子商务、电子政务和电子图书得到广泛应用,有大量的文件在互联网上流动。如果这类文件被篡改,将会产生严重的后果。另外随着这些技术的发展,这也使得盗版者能够以低廉的成本复制及传播未经授权的数字内容产品,出于对数字内容的保护和对利益的考虑,数组内容安全显得尤为重要,数字水印技术作为数字内容安全的重要部分,成为国际上研究的热点。数字水印技术作为网络时代信息安全和多媒体技术发展的新的研究热点,从一开始的研究探讨到制作出实际的版权保护和隐蔽通信的商业化产品,从最初的利用数字图像实现隐藏技术扩展到目前的数字语音,执行文件,文本文件,超文本文件等多媒体文件格式的信息隐藏技术研究,已经越来越为信息科学研究者及其应用者所关注。本文主要针对常见网络页面设计一
种针对超文本(html)页面的文本水印算法。
1.超文本水印的基本概念
超文本是随这网络的发展而发展起来的.HTML(Hypertext Markup Language)是用于制作web网页的简单标记语言或作为等在网络上传递信息的一种超文本链接标记语言。用HTML编写的超文本文档称为HTML文档,它能独立于各种操作系统平台(如UNIX,WINDOWS等)。通过HTML,将所需要表达的信息按某种规则写成HTML文件,通过专用的浏览器来识别,并将这些HTML一种能够被广泛理解的语言,“翻译“成可以识别的信息,即所有的计算机都能够理解的一种用于出版的“母语”。就是我们现在所见到的网页。
      HTML( 超文标记语言 ) 是一种建立网页文件的语言,透过标记式的指令(Tag),将影像、声音、图片、文字、动画、影视等内容显示出来。
与文本文件相比-具有更丰富的多媒体内容和效果,与其它字处理文件相比.信息量又相对较小,这一点对于网上传递多媒体
信息是十分重要的。由于这些突出的特点,使得这种格式文件在因特网的网站及E-mail上广
泛使用,而相应的信息安全问题也同时出现。因此,html信息隐藏技术的研究也就应运而生。
数字水印(Digital Watermarking)技术是将一些标识信息(即数字水印)直接嵌入数字载体当中(包括多媒体、文档、软件等)或是间接表示(修改特定区域的结构),且不影响原载体的使用价值,也不容易被探知和再次修改。但可以被生产方识别和辨认。通过这些隐藏在载体中的信息,可以达到确认内容创建者、购买者、传送隐秘信息或者判断载体是否被篡改等目的。数字水印是保护信息安全、实现防伪溯源、版权保护的有效办法,是信息隐藏技术研究领域的重要分支和研究方向。
2.数字水印技术具有特点:
1. 安全性数字水印的信息应是安全的,难以篡改或伪造,同时,应当有较低的                  误检测率,当原内容发生变化时,数字水印应当发生变化,从而可以检测原始数据的变更;当然数字水印同样对重复添加有很强的抵抗性
2. 不可察觉性:数字水印应是不可知觉的,而且应不影响被保护数据的正常使    用;不会降质;
3. 鲁棒性:是指在经历多种无意或有意的信号处理过程后,数字水印仍能保持部分完整性并能被准确鉴别。可能的信号处理过程包括信道噪声、滤波、数/模与模/数转换、重采样、剪切、位移、尺度变化以及有损压缩编码等。
4. 嵌入容量:是指载体在不发生形变的前提下可嵌入的水印信息量。尤其是隐蔽通信领域的特殊性,对水印的容量需求很大。
3.现有的HTML水印方法研究
由于商业化超文本(HTML)掩密技术的出现,相应的技术使用安全性问题也就出现了,掌握已有超文本掩密技术的一般性原理,然后从安全性角度分析和了解这些技术的特征.这就是超文本掩密分析技术研究的内容。也就是我们常说我的水印。
3.1 HTML水印的基本原理
由于HTML是超文标记语言,由各种文本加上标记构成,不存在向数字图像或者语音文件拥有的使人视觉上无法查别的冗余,因此实现真正的HTML的隐藏达到水印的几个特性是比较困难的。
基本格式
      <HTML>网页文档标记
              <HEAD>网页的题头部分
                      <TITLE>网页的标题  </TITLE>
              </HEAD>
              <BODY>网页的主体部分
                                  网页的内容   
              </BODY>
      </HTML>
图一 HTML文件的基本格式
由于与原理较复杂、样式比较多的数字头像以及语音技术相比、html信息有着特定 的数据结构和信息内容的不可变性,由此也决定了其水印的根本性不同和实现技术的  难度。与一般的文本不同,html文件的排版格式是可以改动的。根据这个原理,目前 在HTML中嵌入水印的方法目前有两种,主要是在数据元素中隐藏信息和在标记中隐 藏信息。
3.2 现已公开的HTML信息隐藏技术
现已公开的HTML信息隐藏技术都应用以上两个原理常用的有:
1) 在网页结束标记</HTML>后或者每行的行尾插入空格或TAB键隐藏信息,插入一个空格代表0,插入一个Tab代表1。
2) 修改标记名称字符的大小写,用大写表示1、小写表示0来隐藏信息。
3) 网页属性设为hidden<div class=“hidden”>the txt is hidden </dev>在标签中间隐藏信息。
4) 将属性值外面的双引号 "" 用单引号 ' ' 替换来隐藏信息, 因为属性值用单引号和双引号括起来是等价的。比如, 用双引号代表1 , 单引号代表0 。
5) 调整标记名称和标记属性之间的空格数或标记属性之间的空格数来隐藏信息, 因为符号之间的多个空格会被当成一个空格对待。比如, 用多个空格代表1 , 1 个空格代表 0 。因此若一个 HTML 标记有n个属性, 则一个标记能隐藏n 个bit的信息。
6) 在符号 ">" 的左边插入空格来隐藏信息, 因为符号 ">" 的一个或多个空格会被浏览器忽略。
比如, 用 ">"左边有空格代表 1 , 无空格代表 0 。
4.算法设计与实现
4.1算法描述
考虑到图二以下两种方式的差别性以及不容易识别性(空格的存在没有影响实际的结果)以及一般为了编辑语言的可读性通常会在“>”“<”“=”的左右留有一定的空格。
<div >
  <h3>This is a header</h3>
  </div>

<div style  =  "color:#00FF00">
  <h3>This is a header</h3>
  </div>
                    图二  两种方式的差别性比较
结合现有算法的研究,因此我们可以利用这一点来隐藏水印,算法如下:
利用标记中属性符号“>”“<”“=”左右添加空格的方法来实现基于超文本的信息隐藏, 这里以“=”为例,但实际“>”“<”均可以。其在默认时,属性赋值符“ =”的左右都是没有空格符的,但在其左右添加空格不会影响网页的实际效果可以利用标记中属性赋值号“ =”左右添加空格来隐藏信息,出现一个符号就可以隐藏半个比特的信息。隐藏方法和对应信息如下表:

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。