信息内容安全复习Word下载.docx
《信息内容安全复习Word下载.docx》由会员分享,可在线阅读,更多相关《信息内容安全复习Word下载.docx(34页珍藏版)》请在冰点文库上搜索。
文字、音频、图像/视频。
10、搜索引擎:
是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。
URL判重:
在信息采集操作启动前进行
内容摘要判重:
在采集信息存储时进行
内容安全领域网络媒体信息与搜索引擎技术相通、目标不同。
搜索引擎功能组件:
用户接口、搜索器
、索引器
、检索器四个部分组成。
11、网络媒体信息获取分类:
(1)全网信息获取:
信息获取范围涉及整个国际互联网内所有网络媒体信息,保证信息全面性,耗时长,本地存储信息量大。
(2)定点信息获取:
信息获取范围限制在一定范围内,更加注重实效性。
(3)基于主题的信息获取:
面向某些特定话题,在信息获取过程中增加话题匹配环节,本地存储信息量小。
12、
如何查看:
缓存-查看cookie信息
网络媒体信息获取方法:
(1)
Cookie是您访问网站时该网站发送到您计算机中的小文件。
网站依靠Cookie来记住您的用户名密码等访问信息。
重构网络交互过程,实现网络媒体信息获取。
●需身份认证静态媒体发布信息获取
●基于Cookie机制实现认证
●基于网络交互重构实现信息获取
●内嵌脚本语言片段的动态网页信息获取
●利用HTMLDOM树提取动态网页内的脚本语言片段
●基于Rhino实现JavaScript动态网页信息提取
(2)利用开源浏览器实现网络媒体信息获取。
●
基于浏览器模拟实现网络媒体信息获取
13、网络蜘蛛:
是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。
(1)工作原理:
网络爬虫是通过网页的链接地址来寻找网页,从网站某一个网页(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。
(2)分类:
1)传统爬虫:
从一个或若干初始网页的URL开始,获得初始网页上的URL,在
抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统
的一定停止条件。
2)聚焦爬虫:
需要根据一定的网页分析算法过滤与主题无关的链接,将有用的链接放入等待抓取的URL队列,根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。
14、网页搜索策略:
(1)广度优先策略:
在抓取过程中,在完成当前层次的搜索后,才进行下一层次的搜索。
该算法的设计和实现相对简单。
在目前为覆盖尽可能多的网页,一般使用广度优先搜索方法。
(2)深度优先策略
(3)最佳优先方法:
按照一定的网页分析算法,预测候选URL与目标网页的相似度,或与主题的相关性,并选取评价最好的一个或几个URL进行抓取。
它只访问经过网页分析算法预测为“有用”的网页。
存在的一个问题是,很多相关网页可能被忽略,因为最佳优先策略是一种局部最优搜索算法。
15、跨站广告:
显示广告
跨站广告
收集信息
访问淘宝时,生成了记录信息的cookie,关键:
cna
访问带有淘宝广告的网站,淘宝读取相关信息,得到cna
cna交由服务器处理,服务器按照浏览历史给出广告
Cookie,是网站在客户端上存放的一小块数据。
他们都由某个域存放,只能被这个域访问。
他们的区别其实并不是技术上的区别,而是使用方式上的区别。
一般,网站自身的Cookie被称为第一方Cookie,而来自他站的Cookie生成或者访问被称为第三方Cookie。
而淘宝跨站广告的本质是第三方Cookie。
16、特征:
指某一物质自身所具备的特殊性质,是区别于其他物质的基本征象和标志
一幅图像的特征:
能够充分表达该幅图像所描述的内容,以区别于其他图像或其他不同
类型图像
计算机提取的图像特征:
可计算、可高效计算
特征类型:
颜色、纹理、形状、空间关系
17、特征描述-就是用一组数值(特征向量、空间点)或符号,即特征描述子(descriptor),来表征图像、物体或图像局部区域等的某些特征。
18、应用:
基于图像内容的检索;
基于图像内容的分类;
目标物分割;
图像填补、修复;
图像拼接
19、数字图像的表示方法:
灰度图像(256级颜色,uint8):
每个像素可以是0~255之间的任何一个值;
二值图像(黑白两色,logical/boolean):
图中的每个像素的像素值用1位存储,它的值只有“0”或者“1”。
存储量的计算:
一幅640×
480的灰度图像就需要占据的存储空间是?
(300KB)
答:
640*480/1024=300KB
480的二值图像需要占据的存储空间是?
(37.5KB)
黑白图像只有两种颜色,每个像素点用一位二进制数就可以表示,一个字节的二进制数可以表示8个像素点,所以需要的总字节数就是640×
480÷
8=38400
20、彩色图像(RGB三通道,每通道256级颜色,三维数组,uint8)
21、
特征空间是240000维度,再来一幅,放缩到400*600,拉成向量,做比较
可计算的,但计算效率高吗?
平移不变吗?
旋转不变吗?
缩放不变吗?
不是
图像空间距离:
22、颜色特征:
(1)颜色矩:
(2)颜色直方图:
直方图是一个二维图,横坐标为图像中各个像素点的灰度级别,纵坐标表示具有各个灰度级别的像素在图像中出现的次数或概率。
直方图比较:
a、卡方系数(值越小越相似):
b、相关系数(绝对值越大越相似):
c、直方图相交法(值越大越相似):
(3)颜色聚合矢量:
23、纹理特征:
(1)灰度共生矩阵:
A)方向:
0°
、45°
、90°
、135°
B)偏移量:
待统计的元素距离
C)级数:
当图像灰度值级数是N时,灰度共生矩阵为N*N的矩阵.
D)灰度矩阵=频度矩阵/总频次
E)共生矩阵反应图像灰度分布关于方向、局部邻域和变化幅度的综合信息。
F)能量特征:
是灰度共生矩阵元素值的平方和,反映了图像灰度分布均匀程度。
如果共生矩阵的所有值均相等,则值小;
相反,如果其中一些值大而其它值小,则值大。
能量特征:
,P(i,j)表示共生矩阵元素
G)若灰度共生矩阵值分布均匀,也即图像近于随机或噪声很大,熵会有较大值。
熵是图像所具有的信息量的度量,是一个随机性的度量,当共生矩阵中所有元素有最大的随机性、空间共生矩阵中所有值几乎相等时,共生矩阵中元素分散分布时,熵较大。
它表示了图像中纹理的非均匀程度或复杂程度。
(2)LBP特征
对于每个像素,将其环形邻域内的8个点(也可以是环形邻域多个点.应用LBP算法的三个邻域示例所示)进行顺时针或逆时针的比较,如果中心像素值比该邻点大,则将邻点赋值为1,否则赋值为0,这样每个点都会获得一个8位二进制数(通常转换为十进制数)。
●旋转不变:
比较8位二进制数排列中最小的可能。
24、
熵是图像所具有的信息量的度量即图像近于随机或噪声量,是一个随机性的度量,当共生矩阵中所有元素有最大的随机性、共生矩阵中所有值几乎相等时,共生矩阵中元素分散分布时,熵较大。
表示了图像中纹理的非均匀程度或复杂程度。
若灰度共生矩阵值分布均匀,熵会有较大值。
形状特征:
形状特征相比颜色、纹理,鉴别力更高。
形状特征的性能往往取决于图像分割和轮廓提取的效果。
(1)目标(轮廓)提取:
●链码----->
(起始点不变)旋转不变:
差分码不变
●多边形近似:
要用尽可能少的线段,来代表边界,并保持边界的基本形状
1、基于收缩的最小周长多边形法
2、基于聚合(merge)的最小均方差线段逼近法
3、基于分裂(split)的最小均方差线段逼近法:
原始边界->
按最大距离分割边界->
连接垂直点->
最后的多边形
(2)边界描述的形状特征
●周长是边界的全局特征,指轮廓的周长。
区域R的边界B是由R的所有边界点按4-方向或8-方向连接组成的,区域的其它点称为区域的内部点
对于区域R而言,它的每1个边界点P都应满足2个条件:
(1)P本身属于区域R;
(2)P的邻域中有象素不属于区域R
区域的边界点和内部点要采用不同的连通性来定义,否则会出现歧义
如果区域R的内部点用8-方向连通来判断,则得到的边界为4-方向连通的,如果用4-方向连通来判断,则得到的边界为8-方向连通的
如果边界用单位长链码表示,则水平和垂直码的个数加上√2乘以对角码的个数=》边界长度,将边界的所有点从0排到K-1(设边界点共K个),则边界长度计算式为:
●形状数:
1个边界的形状数是这些差分中其值最小的1个序列,也就是说,形状数是值最小的(链码)差分码
每个形状数都有1个对应的阶(order),阶定义为:
形状数序列的长度(即码的个数)。
计算形状数步骤:
1、从所有满足给定阶要求的矩形中选取其长短轴比例最接近给定边界如图a的矩形,如图b所示
2、根据给定阶将选出的矩形划分为如图c所示的多个等边正方形(18阶)
3、求出与边界最吻合的多边形,如将面积的50%以上包在边界内的正方形划入内部得到d图
4、计算链码、差分码以及形状数:
Chaincode:
000030032232221211
Difference:
300031033013003130
Shapeno.:
000310330130031303
形状数提供了1种有用的形状度量方法,对每
个阶是唯一的,不随边界的旋转和尺度的变化
而改变
对2个区域边界而言,它们之间形状上的相似性可借助它们的形状数进行描述:
从小到大逐步计算两个边界的各阶形状数,并相互比较,直到找到最大阶的相等形状数,即2个区域边界之间的相似度用它们的最大公共形状数来衡量
(3)区域描述的形状特征
1、区域面积:
描述区域的大小,对属于区域的象素计数,面积公式为:
A=∑(x,y)∈R1
●重心:
区域重心-根据所有属于区域的点计算
●拓扑:
对1个给定平面区域而言,区域内的
孔数H和区域的连通成分C都是常用的拓扑性质,可进一步来定义欧拉数E:
E=C-H
例如:
A:
1个孔,1个连通成分,欧拉数为0;
B:
2个孔,1个连通成分,欧拉数为-1
●形状参数:
根据区域的周长和区域的面积计算的:
区域为圆形时F为1,其它形状时,F>
1,即当区域为圆时,F为最小。
对数字图像而言,边界按4-连通计算,则对正八边形区域F最小。
边界按8-连通计算,则对正菱形F最小。
形状参数在一定程度上描述了区域的紧凑性,无量纲,对尺度变化不敏感,如果去除由于离散区域旋转带来的误差,它对旋转也不敏感。
偏心度:
区域的偏心度是区域形状的重要描述,度量偏心度常用的一种方法是采用区域主轴和辅轴的比。
如图所示,即为A/B。
图中,
主轴与辅轴相互垂直,且是两方向上的最长值。
拓展:
几种简单的几何矩:
令平面上点坐标为P(x,y),重心为C(x!
y!
),
二阶行距:
rowMoment=[∑(x-x!
)*(x-x!
)]/A
二阶列距:
colMoment=[∑(y-y!
)*(y-y!
A为点的个数。
25、SIFT:
应用:
物体识别、图像拼接、笔迹鉴定、三维建模
26、图像分割——意义;
基于分割后图像的描述更具区分力;
分割后的图像是场景理解和基于场景理解的应用的基础;
后续计算的复杂度将降低10倍;
图像合成、影视制作、三维重建
27、分割所用基本线索
1.灰度/颜色/纹理:
判断像素(或超像素)、区域相似性
2.统计模型(类簇、直方图、混合高斯):
判断像素(或超像素)与统计模型的相似性。
在已知前背景或分割目标区域的部分信息时,可对其建立统计模型(类簇、直方图、混合高斯),并依此计算未标记像素与各自统计模型之间的距离判断其标记。
●K-means:
算法接受输入量k;
然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足:
同一聚类中的对象相似度较高;
而不同聚类中的对象相似度较小。
步骤:
1)从n个数据对象任意选择k个对象作为初始聚类中心;
2)根据每个聚类对象的均值(中心对象),计算每个对象与中心对象的距离;
并根据最小距离重新对相应对象进行划分;
3)重新计算每个(有变化)类簇均值(中心对象)
4)循环2)到3)直到每个聚类不再发生变化为止
3.
仅仅考虑了灰度(颜色/纹理)信息,忽略了相邻像素之间的约束
相邻像素(或超像素)之间的约束:
相邻像素分割标记的一致性、相邻像素分割标记的梯度相关性
28、分割方法
(1)基于阈值的分割——通过阈值对不同物体进行分割(物体与背景具有较强区别的图像分割有效)步骤:
1、确定需要的分割阈值2、将分割阈值与象素值比较以划分象素
阈值分割利用图像中要提取的目标物与其背景在灰度/颜色/纹理特性上的差异,选取一个合适的阈值,以确定图像中每个象素点应该属于目标还是背景区域,从而产生相应的二值图像(分别表示目标和背景)。
灰度是主要使用的特性,后续以灰度特性为例
另外,还可以将阈值设置为一个灰度范围[t1,t2],凡是灰度在范围内的象素都变为1,否则皆变为0,即:
设原始图像f(x,y),以一定的准则在f(x,y)中找出一个合适的灰度值,作为阈值t,则分割后的图像g(x,y),可由下式表示:
阈值t的选取是阈值分割技术得关键,若是暗背景上存在亮物体,如果t过高,则:
过多的目标点被误归为背景;
如果阈值过低,则会出现相反的情况
半分割法:
某种特殊情况下,高于阈值t的象素保持原灰度级,其它象素都变为0,称为半阈值法,分割后的图像可表示为:
●阈值选取方法
如何确定阈值:
1、选取一个初值t
2、用t分割图像得到两组像素,C0是小于等于t的,C1大于t
3、计算C0和C1中像素的平均值u0和u1
4、计算新阈值t=(u0+u1)/2
5、迭代计算2~4,直至t的变化量小于某个预定值
(1)双峰直方图阈值(全局阈值):
如果灰度级直方图呈明显的双峰状,则选取两峰之间的谷底所对应的灰度级作为阈值。
(2)Ostu阈值(全局阈值)
(3)可变阈值(局部阈值)
●图像分块取阈值
●基于局部图像特性(依赖于图像局部的亮度均值和方差)
●移动平均
(4)用图像预处理改善阈值分割
(2)基于区域的分割——把各象素划归到各个物体或区域中
●区域生长(种子象素的选取常可借助具体问题的特点进行。
)
基本思想-根据预先定义的生长准则将像素或子区域组合为更大的区域的过程。
每个区域包含具有相似性质的象素集合。
关键步骤:
(1)选择或确定一组能正确代表所需区域的种子象素
(2)确定在生长过程中能将相邻象素包括进来的准则
(3)制定让生长过程停止的条件或规则(通常是再没有满足生长准则需要的象素时停止)
一般生长过程,在进行到再没有满足生长准则需要的象素时停止,但常用的基于灰度、纹理、彩色的准则大都是基于图像中的局部性质,并没有充分考虑生长的“历史”。
为增加区域生长的能力,常考虑一些尺寸、形状等图像和目标的全局性质有关准则,在这种情况下,需对分割结果建立一定的模型或辅以一定的先验知识
●区域分裂-合并方法
基本思想:
先从整幅图像开始通过不断分裂(四叉树结构),得到任意大小且不重叠的区域,然后再合并或分裂这些区域,以满足分割的要求。
在合并时中,常根据图像的统计特性设定图像区域属性的一致性测度
分裂合并算法步骤:
(1)对任一区域Ri,如果P(Ri)=FALSE,就将其分裂成不重叠的四等分
(2)对相邻的两个区域Ri和Rj(它们可以大小不同,即不在同一层),如果条件P(Ri∪Rj)=TRUE,就将它们合并
(3)如果进一步的分裂或合并都不可能,则结束
(3)分水岭分割(形态学)——地形方法
(4)基于目标函数优化的分割——通过优化目标函数实现分割
定义目标函数,通过最优化目标函数实现分割。
目标函数可包含像素信息或区域统计信息,以及相邻像素的光滑约束、边界的光滑约束、以及梯度约束。
(5)其他——基于边缘的分割(难以生成连贯的目标物边界);
基于机器学习的方法(受限于训练用的数据库,只能针对少数几种类型的目标物做分割)
(6)运动图像分割:
差分方法:
当前图像与固定背景图像之间的差分称为减背景法
当前连续两幅图像(时间间隔Δt)之间的差分称为相邻帧差分法。
(由于不同时刻风吹、光照变化、阴影等影响,通常难以得到干净的前景)
光流方法:
光流(opticalflow)是指图像亮度模式的表观(或视在)运动(apparentmotion)在光流场中,不同的物体会有不同的速度,这为具有不同速度的其它运动物体的分割提供了方便。
(适合相对静止环境中的运动物体分割)
(7)
29、信息隐藏
加密:
对信息本身进行保护,但是信息的传递过程是暴露的
伪装:
掩盖信息存在的事实
载体可以是任何一种多媒体数据,如音频、视频、图像、甚至文本、数据等
被隐藏的信息也可以是任何形式(全部作为比特流)
利用人类感知系统以及计算机处理系统的冗余
30、实现信息隐藏的基本要求:
载体对象是正常的,不会引起怀疑;
对伪装对象的正常处理,不应破坏隐藏的信息
31、信息隐藏的应用——数字水印
水印:
存在于纸张、纸币中,用于标识真伪
数字水印:
是永久镶嵌在数字作品中,具有可鉴别性的数字信号或模式,并且不影响数字作品的可用性
数字水印作用:
确定、鉴别作者的版权声明、追踪盗版、拷贝保护
(1)用于版权保护的数字水印:
将版权所有者的信息,嵌入在要保护的数字多媒体作品中,从而防止其他团体对该作品宣称拥有版权
(2)用于盗版跟踪的数字指纹:
同一个作品被不同用户买去,售出时不仅嵌入了版权所有者信息,而且还嵌入了购买者信息,如果市场上发现盗版,可以识别盗版者
(3)用于拷贝保护的数字水印:
水印与作品的使用工具相结合(如软硬件播放器等),使得盗版的作品无法使用
●数字水印三要素:
水印本身(版权所有者、合法使用者等具体信息、图标);
水印嵌入算法;
水印检测算法
密钥
载体数据
水印信息
水印嵌入算法
含水印载体数据
水印嵌入模型
水印提取算法
原始载体数据
水印提取模型
(1)数字水印分类——从载体上分类
●图像水印
●图像是使用最多的一种多媒体数据,也是经常引起版权纠纷的一类载体
●彩色/灰度图像,卡通,设计图,二值图像(徽标、文字),等
●视频水印
●保护视频产品和节目制作者的合法利益
●音频水印
●保护MP3、CD、广播电台的节目内容等
●文档水印
●确定文档数据的所有者
(2)数字水印分类——从外观上分类
●可见水印(可察觉水印)
●其目的在于明确标识版权,防止非法的使用,降低了资料的商业价值
●不可见水印(不可察觉水印)
●水印在视觉上不可见,目的是为了将来起诉非法使用者。
不可见水印往往用在商业用的高质量图像上
(3)数字水印分类——从水印特性上分类
●健壮性数字水印
●要求水印能够经受各种常用的操作,包括无意的或恶意的处理
●只要载体信号没有被破坏到不可使用的程度,都应该能够检测出水印信息
●脆弱性数字水印(完全脆弱性/半脆弱性)
●要求水印对载体的变化很敏感,根据水印的状态来判断数据是否被篡改过
●特点:
载体数据经过很微小的处理后,水印就会被改变或毁掉
●主要用于完整性保护
●与稳健性水印的要求相反
32、信息隐藏和水印算法举例
(1)在文件格式中隐藏信息
图像文件都有一定的存贮格式
文件头主要描述图像文件的格式、文件大小、数据起始偏移地址、图像数据大小等关键信息
利用图像文件的这种特性,可以在图像文件中隐藏秘密数据
特点:
Lena图像文件增加的字节数正好等于所添加文档的字节数;
文件头中文件长度域的值增加的幅度也刚好等于所添加文档的字节数;
使用Windows的画板程序可以将伪装后的Lena图像文件正常打开;
将图像另存为一个新文档后发现,所隐藏的文档数据完全丢失。
(2)时域替换技术
任何多媒体信息,在数字化时,都会产生物理随机噪声,而人的感官系统对这些随机噪声是不敏感的
替换技术就是利用这个原理,试图用秘密信息比特替换掉随机噪声,以达到隐藏秘密信息的目的
●LSB顺序嵌入
●LSB随机嵌入
●LSB方法的特点:
把信息隐藏在载体的最不重要部分;
简单,易实现,容量大;
安全性不高,不能抵抗叠加噪声、有损压缩等破坏
(3)变换域技术
在载体频域中隐藏信息,比LSB方法能够更好地抵抗攻击,而且还保持了对人类感观的不可察觉性
常用的变换域方法:
离散余弦变换(DCT);
离散小波变换(DWT);
离散傅立叶变换(DFT)等
33、全局特征:
对整幅图像或者整个前景目标物进行描述的颜色、纹理、形状特征
34、局部特征:
对图像或目标物局部进行描述的颜色、纹理、形状特征。
(局部特征是图像中有别于其周围的地方。
局部特征通常是描述一块区域,使其能具有高可区分度)
35、局部特征和全局特征,哪一种对一类数据更具描述力呢?
(局部特征!
(计算复杂度高))
36、词级别特征和权重计算
权重计算方式4:
Bool(presence),表示某个单词是否在某个文档中出现