XX语音智能转录一体化解决方案用于审讯场景.docx

资源描述

XX语音智能转录一体化解决方案用于审讯场景.docx

《XX语音智能转录一体化解决方案用于审讯场景.docx》由会员分享，可在线阅读，更多相关《XX语音智能转录一体化解决方案用于审讯场景.docx（15页珍藏版）》请在冰点文库上搜索。

XX语音智能转录一体化解决方案用于审讯场景.docx

XX语音智能转录一体化解决方案用于审讯场景

智能语音转录

一体化解决方案

1项目概述1

1.1项目背景1

1.2市场分析1

1.3应用场景1

2方案介绍2

2.1产品目标2

2.2产品架构2

2.3产品特性3

3产品功能3

3.1笔录模版3

3.2审讯笔录3

3.3笔录校对4

3.4回放录像4

3.5光盘直刻操作5

3.6硬盘录像、回放操作6

3.7硬盘数据导出8

3.8光盘数据导入至硬盘9

4核心技术9

4.1技术简介9

4.2工作原理10

5配置与部署11

5.1推荐配置11

5.2系统部署11

1项目概述

1.1项目背景

随着信息化时代的到来，海量语音的获取和存储能力愈发强大，基于语音转写的实际场景，会存在需要大量的人力投入、工作效率不高、语音数据应用质量和效果不高的情况，并且结合各大单位机构的办公现状，当前会议记录、出稿的准确性和时效性要求高，人员工作压力大，传统的人工整理方式已经很难满足要求。

当前各类型会议，特别是重大、大型会议，介于信息安全等因素，需要指派内部专职人员全程记录，会后还要花费大量的时间反复回听录音、编辑会议纪要。

很多重要会议具备时间长、信息量大、纪要输出严等特点，这对会议记录人员提出更高要求，会议记录和整理的工作强度大，且仍可能存在信息遗漏或会议思想理解偏差等问题，亟需得到解决。

基于以上背景，智能语音转录一体化解决方案应运而生，实现了以符合安全要求的方式将发言语音内容实时转换成文字和将历史语音记录并转换成文字。

该系统具有以下技术特点：

一是语音转文字准确率高，中文标准普通话的转写准确率平均可达90%；二是数据安全和保密性强，采用私有云和终端一体机的方式部署，可有效避免会议内容和信息的外泄和灵活响应实际使用需求；三是可针对发音人口音和应用领域进行定制优化，持续提升转写效果；四是人工辅助产出语音结果，实现快速校稿并发布。

智能语音转录一体化解决方案发布至今，已在多家企事业单位形成应用示范，基本覆盖了政府、企业、教育、公检法、医疗等行业，取得了良好的落地成效。

1.2市场分析

政府、事业单位、教育和中大型企业由于信息流动范围较大，很多决策信息需要及时地向相关人员传达，怎样更好更快地对会议中发言信息进行记录整理，成为智能化办公建设道路中的一项挑战，同时也给我们带来了机会。

在公检法领域，在做笔录或审讯时均需采集双方的录音，一方面用于存证分析，另一方面提高人工整理的准确率和办案效率。

在医疗领域，医生每天需要录入大量的电子病历信息，像口腔门诊和超声检查时往往不再方便去打字，急需用一种更加便捷的方式来即时快速的记录患者信息，语音录入代替传统键盘的解决方案应运而生。

1.3应用场景

1.3.1办公会议

智能语音转录一体化解决方案中的会议转写服务，可以选定不同类型会议的模板，在会议过程中将多人的发言内容按角色实时转写成文字，最终保存会议，日后可追溯浏览录音及文字。

上述同样可适用于法院庭审场景

1.3.2审讯对话

智能语音转录一体化解决方案中的审讯笔录服务，办案人可以在讯问过程中将双方的对话内容实时转写成文字，最后获取关键信息或快速成稿。

2方案介绍

2.1产品目标

智能语音转录一体化解决方案是采用“端”的架构，为特定企业或机构提供各种语音转写相关的产品服务，并最终形成一整套“软+硬”的智能解决方案。

2.2产品架构

智能语音转录一体化是基于的语音识别（ASR）技术、语音合成（TTS）技术开发的一种智能应用系统，该系统将用户的语音转化为文本并准确理解用户的业务需求，辅助信息的记录共享与决策。

智能语音转录一体化的设计理念是：

系统由多个模块组成，模块之间高内聚低耦合，易用性强。

图1【智能语音转录一体化架构图】

1、审讯人和被审讯人：

分为审讯人和被审讯人两种角色

2、麦克风:

语音采集设备，根据距离可分为远讲或近讲，根据佩戴方式可分为鹅颈式、领夹式、手持式或盒子，建议根据实际使用需要选择。

3、音频处理器：

负责接入麦克风，对声音进行编解码，将音频传输到语音转写服务器中，部分情况也可由电脑独立完成。

4、语音精灵：

负责语音转写和语音合成服务。

5、终端设备：

便携式语音识别音视频主机。

6、客户端软件：

安装在书记员电脑的软件产品，可根据实际场景区分，如语音输入，单人转录，双人讯问，多人会议（包括庭审），录音转写等。

2.3产品特性

智能辅助：

将语音转写成文字，辅助记录者完成语音信息的即时记录与分享需求。

场景适配：

针对特定用户特定使用场景进行模型和人机交互的全方位匹配。

简易部署：

产品集成化程度高，适应现场环境，简便快捷。

定制模型：

针对特定行业领域进行真实场景化的模型优化训练，提高识别准确率。

软硬结合：

语音前端与后端的软硬件结合，保证最终输出结果达到最佳效果。

3产品功能

3.1笔录模版

可根据案件需要新增、修改、删除笔录模板，可以将一个模板设为默认模板，选其中一个模板单击“设为默认模板”后，审讯时自动以默认模板作为笔录模板。

3.2审讯笔录

在未审讯界面双击排期进入审讯界面,如果存在默认模板，则自动打开默认模板，作为该次笔录的模板也可以点击打开模板，从本地选择一个文档作为该案件的笔录模板后开始审讯，审讯结束后，点击结束审讯结束此次审讯，途中也可以点击暂停审讯。

3.3笔录校对

结束审讯后排期在笔录校对列表中，单击选中再点击修改，可以修改、完善案件信息。

在笔录校对列表中选中该案件，双击进入笔录校对界面；校对的过程中发现记录错误的可以在里面进行修改。

点击右侧的回放菜单可以查看案件信息、播放案件录像、查看重点标记。

3.4回放录像

点击本地录像回放，笔录系统会根据当前所打开的笔录进行录像、案件信息关联回放,可以导出的案件或联动设备刻录时的光盘内的笔录。

3.5光盘直刻操作

1、按直刻终端前面板上的“开/关”键将直刻终端开启；（需要等待硬盘加载可以看到硬盘容量再对设备进行操作）

2、按直刻终端前面板上的“进/出仓”键将光驱仓门打开，放入两张DVD+R的空白光盘并关闭光驱仓门，等待直刻终端对放入的光盘检测、格式化；（如图2.10）

3、按直刻终端前面板上的“刻录选时”键选择刻录时长;（每按一次时间增加1小时，1-24小时循环）

4、按直刻终端前面板上的“光盘直刻”键开始光盘直刻并联动硬盘录像备份；（如图2.11）

5、按两次直刻终端前面板上的“停止光盘”键停止光盘直刻，进行封盘并联动停止硬盘录像备份；

3.6硬盘录像、回放操作

1、按直刻终端前面板上的“硬盘录像”键开始硬盘录像；

2、再按直刻终端前面板上的“硬盘录像”键停止硬盘录像；

3、用鼠标打开UI操作菜单“硬盘回放”弹出回放框选择需要回放的视频双击；

3.7硬盘数据导出

1、用鼠标打开UI操作菜单“硬盘回放”；

2、选择需要导出的视频文件在前面的勾选上；

3、选择导出路径；

4、点击备份，等待数据导出完成；

3.8光盘数据导入至硬盘

1、将需要导入的光盘放入设备光驱；（左为光驱一、右为光驱二）

2、用鼠标打开UI操作菜单“硬盘回放”；

3、选择导入输入源（光驱一或光驱二）至硬盘；

4核心技术

4.1技术简介

4.1.1语音识别技术简介

语音识别是将一大段的语音转写成文字，让机器记录下来。

4.1.2语音合成技术简介

语音合成是将文本转化成语音，让机器像人类一样能说会道。

4.2工作原理

语音识别工作原理如图2所示：

图2【语音识别工作原理】

语音信号通过音频采集设备进入系统后，首先进入预处理阶段。

预处理包括端点检测和噪声消除等环节，端点检测环节对输入的音频流进行分析，自动删除音频中静音或非人声等无效部分，保留有效语音。

噪声消除环节滤除背景噪声，满足用户在不同环境下使用需求。

经过预处理后的语音信号进入特征提取阶段，对语音信号进行分析处理，去掉与语音识别无关的冗余信息，获得影响语音识别的重要信息，同时对语音信号进行压缩。

从说话人的语音信号中提取出说话人的声学特征。

提取到的特征信号通过训练算法训练后，建立起声学模型和语言模型。

为语音特征信号的匹配提供匹配依据。

声学模型的设计与语言发音特点密切相关，识别时，将输入的语音特征同声学模型进行匹配，得到最佳的识别结果。

声学模型单元（字发音模型、半音节模型或音素模型）对语音训练数据量大小、系统识别率，以及灵活性有较大的影响。

通过声学模型的优化，可以良好的识别出方言和地区口音。

语言模型针对系统使用的语言进行设计，包括语义结构、语法规则、语言的数学描述模型等方面，在大词汇量的语音识别系统中具有不可替代的作用，当识别时遇到多音字等容易导致歧义的结果时，语言模型可以根据语言学模型、语法结构、语义学进行判断纠正，输出正确的结果。

进行语音识别时，特征信号通过声学模型进行发音处理，通过语言模型对语义、语法进行处理，经解码器找出最大概率符合该信号的字串，输出结果，传递给自然语言理解单元。

自然语言理解单元经过意图理解，找出最大概率符合规则的答案，予以输出。

5配置与部署

5.1推荐配置

4.1.1软件环境

智能语音转录一体化需要配置恰当的软件运行环境，包括但不限于：

操作系统

RedHatEnterpriseLinuxServerRelease6.2

CentOS6.5

Suse11sp1x86_64,kernel:

2.6.32

JDK

JDK1.7

服务器

Apache-Tomcat8.0.11

数据库

Oracle11.2.0XE

Redis3.2.1

表1.软件基本要求列表

4.1.2硬件环境

智能语音转录一体化具有硬件占用资源低的特点，建议最低的硬件配置如下：

服务器名

硬件配置

会议&询问笔录多功能一体机

1.会议&询问笔录多功能一体机（32G版）：

智能语音识别多用途一体设备，实现会议内容实施转写（普通话），实时编辑，会议模板定制，可支持4路麦克风（标配2支鹅颈麦克风），分角色转写记录内容。

2.会议&询问笔录多功能一体机（128G版）：

表2.硬件基本要求列表

5.2系统部署

详见《智能语音转录一体化_部署手册》。

展开阅读全文