信息的收集处理.docx

资源描述

信息的收集处理.docx

《信息的收集处理.docx》由会员分享，可在线阅读，更多相关《信息的收集处理.docx（11页珍藏版）》请在冰点文库上搜索。

信息的收集处理.docx

信息的收集处理

UML

UnifiedModelingLanguage（UML）又称统一建模语言或标准建模语言，是始于1997年一个OMG标准，它是一个支持模型化和软件系统开发的图形化语言，为软件开发的所有阶段提供模型化和可视化支持，包括由需求分析到规格，到构造和配置。

面向对象的分析与设计（OOA&D，OOAD）方法的发展在80年代末至90年代中出现了一个高潮，UML是这个高潮的产物。

它不仅统一了Booch、Rumbaugh和Jacobson的表示方法，而且对其作了进一步的发展，并最终统一为大众所接受的标准建模语言。

文献检索VS搜索引擎

文献检索（InformationRetrieval）是指根据学习和工作的需要获取文献的过程。

宋代朱熹认为“文指典籍，献指熟知史实的贤人”[1]，近代认为文献是指具有历史价值的文章和图书或与某一学科有关的重要图书资料[2]，随着现代网络技术的发展，文献检索更多是通过计算机技术来完成。

狭义的检索（Retrieval）是指依据一定的方法，从已经组织好的大量有关文献集合中，查找并获取特定的相关文献的过程。

这里的文献集合，不是通常所指的文献本身，而是关于文献的信息或文献的线索。

广义的检索包括信息的存储和检索两个过程（StorageandRetrieval）。

信息存储是将大量无序的信息集中起来，根据信息源的外表特征和内容特征，经过整理、分类、浓缩、标引等处理，使其系统化、有序化，并按一定的技术要求建成一个具有检索功能的数据库或检索系统，供人们检索和利用。

而检索是指运用编制好的检索工具或检索系统，查找出满足用户要求的特定信息。

[4]

文献检索语言是一种人工语言，用于各种检索工具的编制和使用、并为检索系统提供一种统一的、作为基准的、用于信息交流的一种符号化或语词化的专用语言。

因其使用的场合不同，检索语言也有不同的叫法。

例如在存储文献的过程中用来标引文献，叫标引语言；用来索引文献则叫索引语言；在检索文献过程中则为检索语言。

检索语言按原理可分为3大类：

分类语言

它是将表达文献信息内容和检索课题的大量概念，按其所属的学科性质进行分类和排列，成为基本反映通常科学知识分类体系的逻辑系统，并用号码（分类号）来表示概念及其在系统中的位置，甚至还表示概念与概念之间关系的检索语言。

《中国图书馆图书分类法》是我国图书分类法的基础，中图法把一切知识门类按"五分法"分为马列、毛泽东思想；哲学；社会科学；自然科学；综合性图书这五大部类。

在此基础上建成由22个大类组成的体系系列。

主题语言

是指经过控制的，表达文献信息内容的语词。

主题词需规范，主题词表是主题词语言的体现，词表中的词作为文献内容的标识和查找文献的依据

关键词语言

指从文献内容中抽出来的关键的词，这些词作为文献内容的标识和查找目录索引的依据关键词不需要规范化，也不需要关键词表作为标引和查找图书资料的工具。

自然语言

指文献中出现的任意词。

搜索引擎

搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供检索服务，将用户检索相关的信息展示给用户的系统。

搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。

XX和谷歌等是搜索引擎的代表。

第一步：

爬行

搜索引擎是通过一种特定规律的软件跟踪网页的链接，从一个链接爬到另外一个链接，像蜘蛛在蜘蛛网上爬行一样，所以被称为“蜘蛛”也被称为“机器人”。

搜索引擎蜘蛛的爬行是被输入了一定的规则的，它需要遵从一些命令或文件的内容。

第二步：

抓取存储

搜索引擎是通过蜘蛛跟踪链接爬行到网页，并将爬行的数据存入原始页面数据库。

其中的页面数据与用户浏览器得到的HTML是完全一样的。

搜索引擎蜘蛛在抓取页面时，也做一定的重复内容检测，一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容，很可能就不再爬行。

第三步：

预处理

搜索引擎将蜘蛛抓取回来的页面，进行各种步骤的预处理。

⒈提取文字

⒉中文分词

⒊去停止词

5.正向索引

6.倒排索引

7.链接关系计算

8.特殊文件处理

除了HTML文件外，搜索引擎通常还能抓取和索引以文字为基础的多种文件类型，如PDF、Word、WPS、XLS、PPT、TXT文件等。

我们在搜索结果中也经常会看到这些文件类型。

但搜索引擎还不能处理图片、视频、Flash这类非文字内容，也不能执行脚本和程序。

第四步：

排名

用户在搜索框输入关键词后，排名程序调用索引库数据，计算排名显示给用户，排名过程与用户直接互动的。

但是，由于搜索引擎的数据量庞大，虽然能达到每日都有小的更新，但是一般情况搜索引擎的排名规则都是根据日、周、月阶段性不同幅度的更新。

压缩

利用算法将文件有损或无损地处理，以达到保留最多文件信息，而令文件体积变小。

压缩文件的基本原理是查找文件内的重复字节,并建立一个相同字节的"词典"文件,并用一个代码表示,比如在文件里有几处有一个相同的词"中华人民共和国"用一个代码表示并写入"词典"文件,这样就可以达到缩小文件的目的软件.

1压缩原理编辑

由于计算机处理的信息是以二进制数的形式表示的，因此压缩软件就是把二进制信息中相同的字符串以特殊字符标记来达到压缩的目的。

为了有助于理解文件压缩，请您在脑海里想象一幅蓝天白云的图片。

对于成千上万单调重复的蓝色像点而言，与其一个一个定义“蓝、蓝、蓝……”长长的一串颜色，还不如告诉电脑：

“从这个位置开始存储1117个蓝色像点”来得简洁，而且还能大大节约存储空间。

这是一个非常简单的图像压缩的例子。

其实，所有的计算机文件归根结底都是以“1”和“0”的形式存储的，和蓝色像点一样，只要通过合理的数学计算公式，文件的体积都能够被大大压缩以达到“数据无损稠密”的效果。

总的来说，压缩可以分为有损和无损压缩两种。

如果丢失个别的数据不会造成太大的影响，这时忽略它们是个好主意，这就是有损压缩。

有损压缩广泛应用于动画、声音和图像文件中，典型的代表就是影碟文件格式mpeg、音乐文件格式mp3和图像文件格式jpg。

但是更多情况下压缩数据必须准确无误，人们便设计出了无损压缩格式，比如常见的zip、rar等。

压缩软件（compressionsoftware）自然就是利用压缩原理压缩数据的工具，压缩后所生成的文件称为压缩包（archive），体积只有原来的几分之一甚至更小。

当然，压缩包已经是另一种文件格式了，如果你想使用其中的数据，首先得用压缩软件把数据还原，这个过程称作解压缩。

常见的压缩软件有winzip、winrar等。

2重复压缩编辑

有两种形式的重复存在于计算机数据中，zip就是对这两种重复进行了压缩。

第一种

一种是短语形式的重复，即三个字节以上的重复，对于这种重复，zip用两个数字：

1.重复位置距当前压缩位置的距离；2.重复的长度，来表示这个重复，假设这两个数字各占一个字节，于是数据便得到了压缩，这很容易理解。

一个字节有0-255共256种可能的取值，三个字节有256*256*256共一千六百多万种可能的情况，更长的短语取值的可能情况以指数方式增长，出现重复的概率似乎极低，实则不然，各种类型的数据都有出现重复的倾向，一篇论文中，为数不多的术语倾向于重复出现；一篇小说，人名和地名会重复出现；一张上下渐变的背景图片，水平方向上的像素会重复出现；程序的源文件中，语法关键字会重复出现（我们写程序时，多少次前后copy、paste？

），以几十K为单位的非压缩格式的数据中，倾向于大量出现短语式的重复。

经过上面提到的方式进行压缩后，短语式重复的倾向被完全破坏，所以在压缩的结果上进行第二次短语式压缩一般是没有效果的。

第二种

第二种重复为单字节的重复，一个字节只有256种可能的取值，所以这种重复是必然的。

其中，某些字节出现次数可能较多，另一些则较少，在统计上有分布不均匀的倾向，这是容易理解的，比如一个ASCII文本文件中，某些符号可能很少用到，而字母和数字则使用较多，各字母的使用频率也是不一样的，据说字母e的使用概率最高；许多图片呈现深色调或浅色调，深色（或浅色）的像素使用较多（这里顺便提一下：

png图片格式是一种无损压缩，其核心算法就是zip算法，它和zip格式的文件的主要区别在于：

作为一种图片格式，它在文件头处存放了图片的大小、使用的颜色数等信息）；上面提到的短语式压缩的结果也有这种倾向：

重复倾向于出现在离当前压缩位置较近的地方，重复长度倾向于比较短（20字节以内）。

这样，就有了压缩的可能：

给256种字节取值重新编码，使出现较多的字节使用较短的编码，出现较少的字节使用较长的编码，这样一来，变短的字节相对于变长的字节更多，文件的总长度就会减少，并且，字节使用比例越不均匀，压缩比例就越大。

加密

加密，是以某种特殊的算法改变原有的信息数据，使得未授权的用户即使获得了已加密的信息，但因不知解密的方法，仍然无法了解信息的内容。

加密之所以安全，绝非因不知道加密解密算法方法，而是加密的密钥是绝对的隐藏，现在流行的RSA和AES加密算法都是完全公开的，一方取得已加密的数据，就算知到加密算法也好，若没有加密的密钥，也不能打开被加密保护的信息。

加密技术包括两个元素：

算法和密钥。

算法是将普通的文本（或者可以理解的信息）与一串数字（密钥）的结合，产生不可理解的密文的步骤，密钥是用来对数据进行编码和解码的一种算法。

对称加密

采用单钥密码系统的加密方法，同一个密钥可以同时用作信息的加密和解密，这种加密方法称为对称加密，也称为单密钥加密。

需要对加密和解密使用相同密钥的加密算法。

由于其速度快，对称性加密通常在消息发送方需要加密大量数据时使用。

对称性加密也称为密钥加密。

所谓对称，就是采用这种加密方法的双方使用方式用同样的密钥进行加密和解密。

密钥是控制加密及解密过程的指令。

算法是一组规则，规定如何进行加密和解密。

非对称加密

1976年，美国学者Dime和Henman为解决信息公开传送和密钥管理问题，提出一种新的密钥交换协议，允许在不安全的媒体上的通讯双方交换信息，安全地达成一致的密钥，这就是“公开密钥系统”。

相对于“对称加密算法”这种方法也叫做“非对称加密算法”。

与对称加密算法不同，非对称加密算法需要两个密钥：

公开密钥（publickey）和私有密钥（privatekey）。

公开密钥与私有密钥是一对，如果用公开密钥对数据进行加密，只有用对应的私有密钥才能解密；如果用私有密钥对数据进行加密，那么只有用对应的公开密钥才能解密。

因为加密和解密使用的是两个不同的密钥，所以这种算法叫作非对称加密算法。

Pki

PKI（PublicKeyInfrastructure）即"公钥基础设施"，是一种遵循既定标准的密钥管理平台,它能够为所有网络应用提供加密和数字签名等密码服务及所必需的密钥和证书管理体系，简单来说，PKI就是利用公钥理论和技术建立的提供安全服务的基础设施。

PKI技术是信息安全技术的核心，也是电子商务的关键和基础技术。

CA（GlobalSign）是证书的签发机构,它是PKI的核心。

CA是负责签发证书、认证证书、管理已颁发证书的机关。

它要制定政策和具体步骤来验证、识别用户身份，并对用户证书进行签名，以确保证书持有者的身份和公钥的拥有权。

CA也拥有一个证书（内含公钥）和私钥。

网上的公众用户通过验证CA的签字从而信任CA，任何人都可以得到CA的证书（含公钥），用以验证它所签发的证书。

如果用户想得到一份属于自己的证书，他应先向CA提出申请。

在CA判明申请者的身份后，便为他分配一个公钥，并且CA将该公钥与申请者的身份信息绑在一起，并为之签字后，便形成证书发给申请者。

如果一个用户想鉴别另一个证书的真伪，他就用CA的公钥对那个证书上的签字进行验证，一旦验证通过，该证书就被认为是有效的。

证书

证书实际是由证书签证机关（CA）签发的对用户的公钥的认证。

证书的内容包括：

电子签证机关的信息、公钥用户信息、公钥、权威机构的签字和有效期等等。

目前，证书的格式和验证方法普遍遵循X.509国际标准。

加密：

我们将文字转换成不能直接阅读的形式（即密文）的过程称为加密。

解密：

我们将密文转换成能够直接阅读的文字（即明文）的过程称为解密。

如何在电子文档上实现签名的目的呢？

我们可以使用数字签名。

RSA公钥体制可实现对数字信息的数字签名，方法如下：

信息发送者用其私钥对从所传报文中提取出的特征数据（或称数字指纹）进行RSA算法操作，以保证发信人无法抵赖曾发过该信息（即不可抵赖性），同时也确保信息报文在传递过程中未被篡改（即完整性）。

当信息接收者收到报文后，就可以用发送者的公钥对数字签名进行验证。

在数字签名中有重要作用的数字指纹是通过一类特殊的散列函数（HASH函数）生成的。

对这些HASH函数的特殊要求是：

1．接受的输入报文数据没有长度限制；

2．对任何输入报文数据生成固定长度的摘要（数字指纹）输出；

3．从报文能方便地算出摘要；

4．难以对指定的摘要生成一个报文，而由该报文可以算出该指定的摘要；

5．难以生成两个不同的报文具有相同的摘要。

验证：

收方在收到信息后用如下的步骤验证您的签名：

1．使用自己的私钥将信息转为明文；

2．使用发信方的公钥从数字签名部分得到原摘要；

3．收方对您所发送的源信息进行hash运算，也产生一个摘要；

4．收方比较两个摘要，如果两者相同，则可以证明信息签名者的身份。

如果两摘要内容不符，会说明什么原因呢？

可能对摘要进行签名所用的私钥不是签名者的私钥，这就表明信息的签名者不可信；也可能收到的信息根本就不是签名者发送的信息，信息在传输过程中已经遭到破坏或篡改。

数字证书

数字证书为实现双方安全通信提供了电子认证。

在因特网、公司内部网或外部网中，使用数字证书实现身份识别和电子信息加密。

数字证书中含有密钥对（公钥和私钥）所有者的识别信息，通过验证识别信息的真伪实现对证书持有者身份的认证。

使用数字证书能做什么?

数字证书在用户公钥后附加了用户信息及CA的签名。

公钥是密钥对的一部分，另一部分是私钥。

公钥公之于众，谁都可以使用。

私钥只有自己知道。

由公钥加密的信息只能由与之相对应的私钥解密。

为确保只有某个人才能阅读自己的信件，发送者要用收件人的公钥加密信件；收件人便可用自己的私钥解密信件。

同样，为证实发件人的身份，发送者要用自己的私钥对信件进行签名；收件人可使用发送者的公钥对签名进行验证，以确认发送者的身份。

在线交易中您可使用数字证书验证对方身份。

用数字证书加密信息，可以确保只有接收者才能解密、阅读原文，信息在传递过程中的保密性和完整性。

有了数字证书网上安全才得以实现，电子邮件、在线交易和信用卡购物的安全才能得到保证。

认证、数字证书和PKI解决的几个问题?

保密性-只有收件人才能阅读信息。

认证性-确认信息发送者的身份。

完整性-信息在传递过程中不会被篡改。

不可抵赖性-发送者不能否认已发送的信息。

应用

电子商务

电子商务（E-business）要求顾客可以在网上进行各种商务活动，不必担心自己的信用卡会被人盗用。

在过去，用户为了防止信用卡的号码被窃取到，一般是通过电话订货，然后使用用户的信用卡进行付款。

现在人们开始用RSA（一种公开/私有密钥）的加密技术，提高信用卡交易的安全性，从而使电子商务走向实用成为可能。

许多人都知道NETSCAPE公司是Internet商业中领先技术的提供者，该公司提供了一种基于RSA和保密密钥的应用于因特网的技术，被称为安全插座层（SecureSocketsLayer，SSL）。

也许很多人知道Socket，它是一个编程界面，并不提供任何安全措施，而SSL不但提供编程界面，而且向上提供一种安全的服务，SSL3.0现在已经应用到了服务器和浏览器上，SSL2.0则只能应用于服务器端。

SSL3.0用一种电子证书（electriccertificate）来实行身份进行验证后，双方就可以用保密密钥进行安全的会话了。

它同时使用“对称”和“非对称”加密方法，在客户与电子商务的服务器进行沟通的过程中，客户会产生一个SessionKey，然后客户用服务器端的公钥将SessionKey进行加密，再传给服务器端，在双方都知道SessionKey后，传输的数据都是以SessionKey进行加密与解密的，但服务器端发给用户的公钥必需先向有关发证机关申请，以得到公证。

基于SSL3.0提供的安全保障，用户就可以自由订购商品并且给出信用卡号了，也可以在网上和合作伙伴交流商业信息并且让供应商把订单和收货单从网上发过来，这样可以节省大量的纸张，为公司节省大量的电话、传真费用。

在过去，电子信息交换（ElectricDataInterchange，EDI）、信息交易（informationtransaction）和金融交易（financialtransaction）都是在专用网络上完成的，使用专用网的费用大大高于互联网。

正是这样巨大的诱惑，才使人们开始发展因特网上的电子商务，但不要忘记数据加密。

在VPN中的应用

现在，越多越多的公司走向国际化，一个公司可能在多个国家都有办事机构或销售中心，每一个机构都有自己的局域网LAN（LocalAreaNetwork），但在当今的网络社会人们的要求不仅如此，用户希望将这些LAN连结在一起组成一个公司的广域网，这个在现在已不是什么难事了。

事实上，很多公司都已经这样做了，但他们一般使用租用专用线路来连结这些局域网，他们考虑的就是网络的安全问题。

现在具有加密/解密功能的路由器已到处都是，这就使人们通过互联网连接这些局域网成为可能，这就是我们通常所说的虚拟专用网（VirtualPrivateNetwork，VPN）。

当数据离开发送者所在的局域网时，该数据首先被用户湍连接到互联网上的路由器进行硬件加密，数据在互联网上是以加密的形式传送的，当达到目的LAN的路由器时，该路由器就会对数据进行解密，这样目的LAN中的用户就可以看到真正的信息了。

平遥票号的金融密码

山西票号签发的一张汇票，上面写着“来国氏流”与“书害”，查对“密码”，才能翻译其意即“六万二千”，“十一月十八”。

山西票号制订了“认票不认人”的兑付原则，用汉字做代码以防假冒。

如代表1-12月的密码是“谨防假票冒取，勿忘细视书章”12个字；而“国宝流通”，代表“万千百十”；“赵氏连城璧，由来在下传”10个字，代表大写数字壹至拾。

密码有的是五言诗，有的是历史典故，有的是警句，便于票号伙计背诵熟记。

同时书写汇票由专人负责，他的毛笔字迹事先通报每个分号，让大家熟悉。

这种双管齐下的防伪保密措施，充分利用了中国方块文字的特点。

展开阅读全文