基于Android系统的手机语音识别软件开发文档格式.docx

资源描述

基于Android系统的手机语音识别软件开发文档格式.docx

《基于Android系统的手机语音识别软件开发文档格式.docx》由会员分享，可在线阅读，更多相关《基于Android系统的手机语音识别软件开发文档格式.docx（31页珍藏版）》请在冰点文库上搜索。

基于Android系统的手机语音识别软件开发文档格式.docx

2.1Eclipse介绍…………………………………………………...…………………..4

2.2JDK开发环境介绍……………………………………………………………….4

2.3安卓平台介绍…….……………………………………………………………....5

2.4安卓开发环境搭建………………………………………………………….........5

3需求分析…………………………………...…………………………………….…...9

3.1系统开发目标…………………………………………………………………….9

3.2系统需求分析………………………………………………………………….....9

3.2可行性分析………………………………………………………………….......11

4软件设计与客户端功能实现……………………………………………………….12

4.1概要设计………………………………………………………………………...12

4.2包与类视图……………………………………………………………………...12

4.3语音合成功能实现……………………………………………………………...15

4.4文件保存功能实现……...………………………………………………………16

4.5文件上传功能实现……………………………………………………………...17

4.6本章小结………………………………………………………………………...19

5服务器端功能实现………………………………………………………………….21

5.1Tomcat服务器搭建………………………………………………………………21

5.2服务器接收文件…………………………………………………………………22

6软件运行测试……………………...…………………………….............................24

6.1软件测试目的…………………………………………………………………...24

6.2软件测试环境…………………………………………………………...………24

6.3功能测试……………….………………………………………………………..24

6.4兼容性测试…………...…….…………….……………………..……….……...25

7总结与展望………………………...……………………………..............................26

7.1毕业设计完成的任务…………………………………………………………...26

7.2收获和总结…………….………………………………………………………..26

7.3展望未来………………...…….………………………………………………...26

谢辞…………………………………………………………………………………….27

参考文献……………………………………………………………………………….27

1绪论

1.1课题背景及相关概念

随着现代科学的发展，移动互联网已迅速成为当今世界发展最快、规模最大的市场前景最好的行业。

但由于现有的移动终端设备交互方式存在诸多局限性，譬如键盘太小，输入文字不便；

以及无法处理特定场景下的交互，如驾车和步行等情形。

所以人们在与机器的信息交流中，需要一种更加方便、自然的方式，而语言是人类最重要、最有效、最常用和最方便的通信方式。

自从人类可以制造各种机器以来，人们就有一个理想，那就是让各种机器能“听懂”人类的语音并能按人的口头命令来行动，从而实现人机的语言交流。

这就很容易让人们想到能否用人类的自然语言代替传统的人机交互方式（如键盘、鼠标等）。

语音识别技术，也被称为自动语音识别（AutomaticSpeechRecognition简称ASR），其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列，也就是让机器通过识别和理解把语音信号转变为相应的文本或命令的技术。

自动语音识别技术所要解决的问题是让计算机能够“听懂”人类的语言，将语言中包含的文字信息“提取”出来。

ASR技术的出现，使人类希望机器“听懂”人类的语言的理想得以实现。

1.2课题研究意义

语音识别技术是一门交叉学科，语音识别正逐步成为信息技术中人机交互的关键技术，语音识别技术与语音合成技术的结合，开启了人机交互方式的新时代，它将彻底解放用户的双手与眼睛，使人们能够甩掉键盘，通过语音命令进行操作。

语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

当今，语音识别产品在人机交互应用中占到越来越大的比例。

可以预见，语音操作将会是未来很长一段时间内智能终端继键盘和触摸操作之后的必然发展趋势。

1.3研究现状

语音识别的研究工作可以追溯到20世纪50年代AT&

T贝尔实验室的Audry系统，它是一个可以识别十个英文数字的语音识别系统。

1.3.1国内研究现状

2010年10月28日，“科大讯飞”语音云正式发布，全球首个同时提供语音合成、语音搜索、语音听写等智能语音交互能力的移动互联网智能交互平台——“讯飞语音云”正式上线。

所谓智能语音交互，通俗的说就是能让移动互联网的各种设备和服务像人一样“能听会说”：

将人的语音转换成对应的文字，或者将文字转换成清晰流畅的语音朗读出来。

同时发布的还有该平台的示范应用——“讯飞语音输入法”体验版，智能手机安装后，可以用语音来进行QQ、短信、微博等内容的输入，使原来输入繁琐的短信书写和在线手机聊天等应用更加便捷有趣。

1.3.2国外研究现状

语音技术是Google在Android1.6版本中加入的一项比较重要的新功能。

世界上第一次把语音识别移植到嵌入式设备上的是飞利浦于1998年所推出的Genie828c语言拨号的手机，但那时候的语音拨号还比较原始，只能辨认英文发音，而且成功率也很低。

时至今日，语音识别技术在手机应用中已经有了重大的发展。

继2009年年底正式发布了最先应用于诺基亚S60平台之上的中文语音搜索服务之后，Google官方又发布了一个为Android开发的语音控制应用“VoiceAction”，这个语音控制系统支持用户通过语音指令发送电子邮件、短信、拨打电话和获取驾驶导航信息等。

1.4目前仍存在的问题

21世纪作为“语音的世纪”除了蕴含无限的商机以外，也表明了它们存在发展的空间。

概括地讲，有这样一些问题需要解决：

（1）语音识别的方言和口音问题

中文有八大方言区，现在很多语音识别系统，对标准普通话的识别性能很好，但是一旦有方言或者口音，性能就会马上下降。

解决这个问题有着非常重要的意义，这将极大地拓展该技术的使用空间，因此必须解决好这个问题。

（2）信道问题

我们知道在无线互联应用中，涉及到的信道种类可能会很多，譬如固定电话、手机、IP、网络、车载系统等等，各种各样的信道都有不同的特性。

语音识别、声纹识别和语音理解如何去适应不同信道的差异是一个不得不面对的问题。

我们既需要解决多信道的问题，也要解决跨信道的问题。

（3）背景噪音问题

语音识别、声纹识别和语音理解等系统往往在有背景噪音时就不能正常工作了，这是由于背景噪音破坏了原始语音的频谱，或者说把原始语音部分或全部掩盖在噪音当中，因而无法准确地分离出来的缘故。

解决好背景噪音的问题也是技术上面临的挑战之一。

（4）自然语音理解领域

我们必须有很好的理念和技术去解决口语语言现象，比如口语中的重复、改正、强调、倒叙、省略、拖音、韵律等等。

1.5论文结构安排

论文共分六章，内容及章节安排如下：

第一章，介绍语音识别软件开发的背景、研究意义、研究现状以及目前仍存在的问题。

第二章，介绍Android平台的特征和系统架构，以及开发Android应用所需要的常用工具和开发环境的搭建。

第三章，介绍软件的需求分析。

第四章，介绍软件的具体功能的实现过程。

第五章，介绍软件的测试过程。

第六章，总结论文的收获。

2开发环境介绍

2.1Eclipse介绍

Eclipse一个开放源代码的、基于Java的可扩展开发平台。

就其本身而言，它只是一个框架和一组服务，用于通过插件组件构建开发环境。

幸运的是，Eclipse附带了一个标准的插件集，包括Java开发工具（JavaDevelopmentKit，JDK）。

Eclipse是一个市场占有率很高的JavaIDE工具，专注于为高度集成的工具开发提供一个全功能的、具有商业品质的工业平台。

主要由Eclipse项目、Eclipse工具项目和Eclipse技术项目三个项目组成，具体包括四个部分——EclipsePlatform、JDT、CDT和PDE。

JDT支持Java开发、CDT支持C开发、PDE用来支持插件开发，EclipsePlatform则是一个开放的可扩展IDE，提供了一个通用的开发平台。

它提供建造块和构造并运行集成软件开发工具的基础。

EclipsePlatform允许工具建造者独立开发与他人工具无缝集成的工具从而无须分辨一个工具功能在哪里结束，而另一个工具功能在哪里开始。

Android推荐使用Eclipse来开发Android应用，并为它提供了专门的插件：

AndroidDevelopmentTools（ADT）。

2.2JDK开发环境介绍

JDK（JavaDevelopmentKit）是SunMicrosystems针对Java开发人员发布的免费软件开发工具包（SDK，SoftwareDevelopmentKit）。

自从Java推出以来，JDK已经成为使用最广泛的JavaSDK。

作为Java语言的SDK，普通用户并不需要安装JDK来运行Java程序，而只需要安装JRE（JavaRuntimeEnvironment）。

而程序开发者必须安装JDK来编译、调试程序。

JDK还包括了用于产品环境的各种类库，如基础类库rt.jar，以及给开发人员使用的补充库，如国际化与本地化的类库、IDL库等等。

JDK是整个Java的核心，包括了Java运行环境、Java工具和Java基础类库。

JDK是学好Java的第一步。

最主流的JDK是Sun公司发布的JDK，除了Sun之外，还有很多公司和组织都开发了自己的JDK，例如IBM公司开发的JDK，BEA公司的Jrocket。

其中专门运行在x86平台的Jrocket在服务端的运行效率也要比SunJDK好很多。

从Sun的JDK5.0开始，提供了泛型等非常实用的功能，其版本也不断更新，运行效率得到了非常大的提高。

2.3安卓平台介绍

Android是一种基于Linux的自由开放源代码的操作系统，主要使用于移动设备，如智能手机和平板电脑，由Google公司和开放手机联盟领导及开发。

Android操作系统最初由AndyRubin开发，主要支持手机。

2005年8月由Google收购注资。

2007年11月，Google与84家硬件制造商、软件开发商及电信运营商组建开放手机联盟共同研发改良Android系统。

随后Google以Apache开源许可证的授权方式，发布了Android的源代码。

Android逐渐扩展到平板电脑及其他领域上，如电视、数码相机、游戏机等。

Android的架构图如图2.1所示。

Android的系统架构和其他操作系统一样，采用了分层的架构。

从架构图看，Android分为四个层，从高层到低层分别是应用程序层、应用程序框架层、系统运行库层和Linux内核层。

图2.1Android系统架构图

2.4安卓开发环境搭建

2.4.1Java环境搭建

由于Sun公司已经被Oracle收购，因此JDK可以在Oracle公司的官方网站（Files\Java\jdk1.7.0_13（JDK安装目录），点击确定。

以同样的方法新建变量名为：

CLASSPATH，变量值为：

%JAVA_HOME%\lib;

%JAVA_HOME%\lib\dt.jar。

（注意：

变量值最前面的点号表示当前目录，不能省略）。

如图2.2所示。

图2.2环境变量配置

然后在系统变量中找到“path”，并点击编辑，在变量值的最后面追加“%JAVA_HOME%\bin”，接着一直点击确定按钮，直到所有的窗口关闭。

打开运行“窗口”，输入CMD命令，在提示符窗口中输入java–version查看所安装JDK的版本，如图2.3。

在提示符窗口中输入java，如果出现如图2.4界面则表示Java环境搭建成功。

图2.3JDK版本信息

图2.4环境搭建成功显示信息

2.4.2安装Eclipse开发工具

Eclipse的安装比较简单，直接登录Eclipse官网http:

//www.eclipse.org，下载EclipseIDEforJavaDevelopers。

直接解压就可以了。

2.4.3下载安装SDK

首先到SDK官方网站下载SDK包，然后解压。

双击SDKManager.exe，显示如图2.5，下载所需要的组件。

图2.5SDK下载组件界面

2.4.4安装ADT插件

打开Eclipse，点击help→InstallnewSoftware进入后，点击add，命名及点击Archive你下载的ADT压缩包，点击OK，会解析出该插件的全部可用内容，全选（selcetall）,点击下一步……,安装时需要一定时间，在安装的过程中会出现一些提示，点击允许即可。

安装完ADT插件后，点击window→preference，发现在左边的列表上多了一项Android，点击Android，并在右侧添加SDK目标位置，如图2.6。

图2.6添加AndroidSDK目录

到这里，Android的开发环境就搭建完成了。

然后创建一个安卓模拟器就可以做安卓开发了，如图2.7。

图2.7Android模拟器界面

3需求分析

3.1系统开发目标

本课题中所要具体实现的是在Android移动平台及其各种定制手机中开发的一款通话间谍软件，它可以监听安装该软件的手机使用者的语音通话记录并将语音转换为文本保存在SD卡中，最终上传到服务器。

3.2系统需求分析

3.2.1系统模块分析

本项目主要完成对Android手机用户的语音通话记录进行监听，从功能上分为三个部分，分别是语音模块、数据存储模块和服务器模块，每个模块又包含若干个子功能模块。

项目功能模块结构如图3.1所示。

图3.1项目功能模块结构图

●语音模块

语音模块主要包括三个子模块：

（1）访问通话记录。

当用户使用手机进行通话时，软件将自动启动并访问用户的通话信息。

（2）语音识别。

将用户通话的信息进行识别并保存。

（3）语音合成。

将上一步识别的信息进行合成并转换成文本文件。

●数据库模块

（1）数据库读信息。

读取语音模块中最终形成的文本内容。

（2）数据库写信息。

将读取的信息写到指定文件中并保存到手机的SD卡当中。

（3）文件信息加密。

对之前保存到SD卡当中的文件进行加密操作。

（1）连接服务器。

当用户处于网络连接状态下时，将软件和服务器端进行连接。

（2）文件上传到服务器。

服务器连接成功后，将文件上传到服务器。

（3）文件信息解密。

对上传的文件进行解密操作。

3.2.2系统调用API功能需求分析

根据对现在产品功能的分析，客户端系统调用API子系统的功能需要，如下表所示。

表3.1客户端系统调用API子系统功能需求

功能需求

功能描述

获取通话记录

应用程序需要获取用户者的通话记录，从而进行监听过程

录音、采集语音数据

要实现将用户的通话内容后台转换成文件，需要获取系统的录音权限

访问手机SD卡

应用程序得到用户的通话信息后，需要进一步将信息保存到手机内存当中，因此需要添加访问手机SD卡的权限

数据的发送与接收

由于软件需要将文件上传到服务器，所以需要连接到移动网络进行数据的发送与接收。

发送数据方式为基于HTTP的POST请求方式。

接收数据方式通过HttpServlet类来实现

3.2.3调用者功能需求

根据对现有产品功能的分析，客户端调用者子系统的功能需要，如下表3.2所示。

表3.2客户端调用者子系统功能需求

开始语音识别

用户点击语音识别的图标（实际软件使用时为手机的拨号或者接听电话按键），客户端并开始进行语音识别

停止语音识别

用户点击挂机键或者通话过程结束，软件并停止语音识别过程

语音转换成文本

语音识别过程结果后，软件并后台依次自动完成将语音转换成文本、文件保存、文件加密、文件上传操作

文件保存

文件加密

文件上传

3.3可行性分析

该阶段通过对系统总目标的初步调研和分析，提出可行性方案并进行验证。

在此，主要这从技术可行性、经济可行性和操作可行性三个方面进行分析。

●经济可行性

本软件采用手机软件服务的形式呈现，既可直接安装到用户手机后台自动运行，也可以跟一些手机软件开发商合作绑定到软件上,从而实现软件的功能，因此市场开发空间较大，且软件开发成本低廉，从这个角度看，该软件可行。

●技术可行性

开发工具：

Eclipse

系统环境：

MicrosoftWindowsXP或以上版本

软件实现是依靠基于Android系统的开发技术，使用的是Java为主的开发语言进行开发，因此，该软件在技术上可行。

●操作可行性

软件采用Android四大组件中的Service进行设计。

Service没有用户界面，可以一直在后台运行，并且随着手机开机而启动，从而实现后台监听。

4软件设计与客户端功能实现

4.1概要设计

根据软件系统需求分析画出软件具体工作流程图，如图4.1所示。

由于软件开发时设置为后台服务程序且随着手机开机自动启动，所以当手机开机后，服务即可后台运行。

当用户进行通话时，软件服务并开始正式工作，首先将用户的语音通话内容进行识别，然后转化成文本并保存到手机内存当中，并通过文件加密模块对该文件进行加密操作。

当用户手机连接到网络时，软件并可以自动上传到指定的服务器（本论文中使用的服务器为Tomcat搭建的服务器，搭建过程和具体实现代码详见第5章），最终在服务器端完成对文件的解密并接收，从而完成语音通话的监听。

如果用户的手机并未连接到网络，由于本软件是以后台监听为宗旨，因此不能通过软件设计主动让用户手机连接到网络。

只能等待用户自己连接到网络，才能进行下一步操作。

图4.1软件工作流程图

展开阅读全文