移动设备上基于实时视觉信息的旅行翻译系统商业谋划报告书Word格式.docx

资源描述

移动设备上基于实时视觉信息的旅行翻译系统商业谋划报告书Word格式.docx

《移动设备上基于实时视觉信息的旅行翻译系统商业谋划报告书Word格式.docx》由会员分享，可在线阅读，更多相关《移动设备上基于实时视觉信息的旅行翻译系统商业谋划报告书Word格式.docx（29页珍藏版）》请在冰点文库上搜索。

移动设备上基于实时视觉信息的旅行翻译系统商业谋划报告书Word格式.docx

（二）产品前期开发研究进展情况10

（三）对产品未来发展方向的预测10

第三章技术术来源及前景11

（一）产品技术范围11

（二）国内外同行业产品11

（三）本产品与同行业产品的技术比较12

（四）公司的技术路线、关键技术、技术发展规划的介绍13

（五）公司未来5年在研发资金投入和人员投入计划13

第四章市场及行业分析16

（一）国内外市场情况16

（二）国内外主要竞争对手的比较17

（三）为提高竞争力拟采取的措施及竞争策略17

（四）产品/服务的市场分析18

（五）公司对市场变化的应对策略18

第五章营销策略19

（一）目标客户与渠道19

（二）营销模型19

第六章融资需求及财务预测22

（一）基本财务状况分析22

（二）投入资金的用途和使用计划22

第七章投资风险及资本退出24

（一）项目实施过程中可能遇到的风险及控制、防范手段24

（二）资本退出方案25

第八章附件----财务报表26

1.预测损益表26

2.预测资产负债表27

3.预测现金流量表28

摘要

本产品旨在提供移动设备上基于实时视觉信息的旅行翻译系统。

随着中国出境旅行者的逐年增加，境外旅行者语言困难问题也逐渐凸显。

目前需要使用翻译时，旅行者通常在移动设备上借助基于手动输入的字典查询软件。

但是字典软件已经远远无法满足旅行者的要求。

旅行者需要更方便快捷的方法来全面地获取境外旅途相关信息。

例如，帮助境外旅行者在未知当地语言的情况下，迅速了解旅游景点介绍、餐馆菜单、地名等，让旅行者更好地享受旅行乐趣。

为此，我们开发了基于实时视觉信息的旅行翻译系统。

用户只需要用移动设备的摄像头视频录入或者拍摄所需要翻译的文字，我们的产品将自动跟踪视频中的文字信息，从视频或图像背景中切分文字，并作光学字符识别（opticalcharacterrecognition），最终将所识别的文字从源语言自动翻译成目标语言。

同时，根据用户的需要，产品可通过无线互联网（例如HSDPA、GPRS或WiFi）查询所翻译的文字，提供给用户一体化的翻译和全方位的相关信息。

与目前一些研究所和公司研发的基于静止图像的翻译系统相比，我们的产品具有如下特点：

（1）基于实时视频，有更好的用户体验；

（2）与手持设备芯片组硬件细节结合紧密，算法针对芯片信号处理部分结构的特点进行专门优化后来实现。

一方面能够达到高效能低功耗的目标，另一方面也大大提高了技术壁垒，很难被仿制，因而能够更好地保护知识产权；

（3）字符识别中双重纠错，有力保证光学字符识别的正确性。

本产品具有可持续发展性强，可扩展性强，后续研发目标明确，前景明朗等优点，在投资方面具有技术新、发展快，短期回报低，但长期回报高且持久，同时人员精简、投入较低的特点。

上述特点与我们的商业模型结合后，本产品在不远的将来有广阔的市场前景和丰厚的利润。

第一章团队概况及公司规划

（一）团队成员情况

姓名

性别

出生日期

最高学历

专业

职务及分担的任务

所在单位

吴廷耀

男

1976.7

博士

信号与信息处理

软件设计与开发

阿尔卡特-朗讯贝尔实验室

刘新海

1976.8

讲师

通信与信息处理

比利时鲁汶大学

武汉科技大学

李敏

1979.3

研究员

信号处理电路与系统

硬件系统设计与开发

IMEC

周俊峰

1977.4

微电子

芯片设计与开发

谭畅

女

1981.3

硕士

经济学

预测财务状况及编制预测财务报表

通用汽车金融服务公司欧洲财务中心

模式识别与图像处理

技术顾问

（二）团队成员情况介绍

吴廷耀，阿尔卡特-朗讯贝尔实验室高级研究工程师，比利时鲁汶大学工学博士

▪学习工作经历

1998年北京大学电子学系理学学士，2003年北京大学信息科学中心工学硕士，2009年鲁汶大学电子工程系工学博士。

现就职于阿尔卡特-朗讯贝尔实验室（安特卫普）

▪科研成果

在国际期刊和国际会议上以第一作者身份发表科技论文13篇，领域涉及模式识别，语音识别，说话人识别，网络技术，网络视频传输等

▪获奖情况

2007年国家优秀自费留学生奖学金

2003-2009年比利时鲁汶大学博士奖学金

2001年北京大学诺基亚奖学金（一等）

2000年北京大学五四奖学金（一等）

刘新海，比利时鲁汶大学电子工程系博士生，武汉科技大学信息学院讲师

曾就职于武汉科技大学信息学院，担任讲师职位

现在比利时鲁汶大学电子工程系攻读博士学位

参与或主持多项横向或纵向课题，并申请专利一项

参与多项欧盟或比利时政府科研项目

自2006年来，以第一作者身份在国际期刊和会议上发表论文6篇，领域涉及信息检索、图像处理和计算机视觉。

2005年，获湖北省科技进步二等奖

2009年，AcademicTravelGrant,AcademischeStichtingLeuven

2009年，DoctoralStudentForumFellowship,SIAMInternationalConferenceonDataMining,USA

李敏，IMEC研究员

1997.9–2001.7：

浙江大学信息工程学院本科

2001.9–2004.7:

浙江大学信息工程学院研究生

2005.3–2009.9:

比利时鲁汶大学和IMEC微电子中心博士

2003.2–2003.9：

朗讯贝尔实验室中国基础科学研究院研发实习生

2008.9–2008.12：

美国伊利诺伊大学香槟分校（UIUC）电子系访问学者

2009.9–现在：

比利时IMEC微电子中心研究员

▪学术职务

2011IEEE世界通信大会（ICC2011）技术委员会成员（TPCmember）

2010IEEE世界通信大会（ICC2010）技术委员会成员（TPCMember）

2010欧洲电子设计自动化与测试大会（DATE2010）技术委员会成员（TPCMember）

德州仪器公司信号处理成就奖（TheTexasInstrumentExcellenceinSignalProcessingAward）

IMEC微电子中心论文冠军奖（PublicationChampionofIMEC）

IEEE信号处理系统2007年会最佳论文奖（BestpaperawardatIEEESIPS2007）

2008年国家优秀留学生奖学金

两项美国专利，一项欧盟专利

▪项目经历：

某日本公司基带芯片项目（IMEC完成）主要负责人

多个欧盟FP6，FP7项目（Multibase等）主要参与人

30余篇国际会议与期刊论文

周俊峰，比利时鲁汶大学电子工程系微电子学博士

比利时鲁汶大学ESAT-MICAS,博士（2005-2010）

AMISemiconductorBelgium，模拟和混合信号集成电路设计（2005-2008）

OnSemiconductorBelgium,模拟和混合信号集成电路设计（2008-2009）

在国际期刊和国际会议上以第一作者身份发表科技论文8篇，领域涉及低噪声模拟和混合信号电路设计，电源管理芯片设计和集成电路的电磁兼容性设计。

▪项目经历

2005.1-2006.9IWT（比利时科学与技术创新研究所）项目“汽车专用芯片的电磁兼容性设计”

2006.10-2009.3欧盟FP7项目“微电子系统设计及应用研究:

寄生参数提取和优化”（www.medeaplus.org）

2009.3-2009.12IWT项目“混合信号集成电路设计初期的电磁兼容性设计及其建模”

一项美国专利，一项欧盟专利

谭畅，通用汽车金融服务公司欧洲财务中心高级金融分析师，比利时（法语）鲁汶大学经济学硕士

2002年北京大学光华管理学院货币银行学专业获得经济学学士学位；

2004年获得比利时（法语）鲁汶大学经济学硕士学位。

2006-2007年就职于优美科（Umicore）集团财务控制部。

2007年至今就职于通用汽车金融服务公司欧洲财务中心结构性融资部。

杨琼，IMEC高级研究员，清华大学博士

现就职于比利时IMEC

2007年-2008年，就职于比利时鲁汶大学电子工程系

2004年-2007年，就职于微软亚洲研究院

主要研究方向为模式识别与图像处理。

在模式识别图像处理领域拥有多项专利，也在该领域的顶级杂志和顶级会议上发表多篇论文。

领导过“大规模人脸识别系统”、“基于人脸的门禁系统”、“综合笔迹和人脸特征的注册系统”等多个项目。

第二章项目产品及服务

本章将介绍公司产品的主要功能，目前的研发状况和未来能提供的服务。

（一）主导产品功能介绍

公司旨在提供各类移动手持设备上基于实时视觉信息的旅行翻译系统。

本系统对实时录入的视频流或者静止图像中的文字信息进行检测、切分和识别，并将识别出的文字信息翻译成指定的目标语言，同时通过移动终端网络为该文字信息提供搜索服务，获得更多相关旅行信息。

公司产品的主要功能包括：

1.基于实时视觉信息，在移动设备上实现多语言的文字识别和翻译

支持对于旅游景点介绍、菜单、地名等的多语种（中、英、法、日、德）印刷体识别，并且提供语言之间的即时翻译，比如中英互译、英法互译、英日互译、日德互译等。

用户只需拍下旅游景点介绍、菜单、地名等的视频信息，我们的产品将会对视频中的文字进行自动处理，并提供即时翻译，使用户在旅行中拥有更好的体验。

2.基于文字识别和翻译的结果，通过互联网检索为旅行者提供更多相关信息。

对于文字识别和翻译的结果，用户可以进一步通过手持设备中的无线网络，搜索互联网，得到更多的相关信息。

比如：

一名中国游客去法国旅行，在一家著名的法国餐馆就餐。

当他来到餐馆，仅需拍下餐馆的名字，我们的产品将会根据识别和翻译结果自动在互联网上进行搜索，并反馈给用户该餐馆的相关信息，例如该餐馆的历史、风格、主要特色菜肴、其他用户对各菜肴的推荐和评价以及该餐馆提供的特色服务等。

这样，他就可以在不懂法语的情况下获得很多信息，以便自己更愉悦地享受旅行。

此外，由于拥有自动翻译系统，他还可以现场学习一些法语的常用词汇，帮助他和当地人的交流。

在中长期计划中，产品功能还包括：

1.自动语言识别

在前期的计划中，用户可以通过语言设定来选择特定语种的识别和翻译。

在长期计划中，我们的产品将提供针对语言类型的自动识别功能，即通过获取的图像或视频，自动识别该文字的语言类别，并提供相应的翻译。

这样，用户不再需要进行语言设定。

在用户经常穿梭于多种语言环境之间的情况下，这一功能将给用户提供方便。

2.自动图像理解

在未来的研发计划中，我们的产品还将针对用户所拍摄的场景视频进行搜索匹配，并从互联网上自动获得相关信息。

例如，一名日本游客来到罗马斗兽场，仅需拍下斗兽场的照片或者视频，我们的产品将自动在互联网上进行搜索匹配，并抓取相关的信息，例如历史、规模、建筑规划等。

综上所述，我们的产品主要面向爱好旅游的客户和经常进行商务旅行的客户，适合用于帮助客户解决跨国旅行中的语言障碍问题，并结合手机强大的相机拍摄、信息处理和无线上网功能，给用户提供一体化的旅行翻译及信息服务。

（二）产品前期开发研究进展情况

目前公司已自主开发多语种的印刷体识别系统，运用语言模型和词典匹配对识别结果进行自动更正。

公司在主流手持设备芯片组上开发高度优化的系统，从而使我们的产品与同类产品相比具有成本低、节能等多方面的优势。

（三）对产品未来发展方向的预测

在加大研发力度的前提下，公司产品将朝多元化、多功能化和更好的用户体验方向发展，同时针对不同的客户，公司将开发功能、效果和服务有区别的产品。

具体而言，公司产品预计在3-5年内在技术领域，应用领域和市场领域会有如下发展：

1.技术领域方面

在研发初期阶段，产品是基于静止图像的翻译系统，且需要移动设备用户的协作（例如，用户帮助定位文字在图像中的位置）；

在中期阶段公司将研发基于实时视觉信息的翻译系统，开发自动文字跟踪技术、自动文字分割技术和自动翻译技术；

而公司的远期研发目标则是开发能够让用户随时随地随心所欲地拍摄且获得翻译结果或者相关信息的产品。

2.应用领域方面

在研发的初期阶段，公司的产品将主要面向主流智能手机，向手机生产厂商提供解决方案。

在中期阶段，公司将扩展产品应用范围，面向市场上流行的所有计算能力强且拥有高分辨率摄像功能的手机。

在中期或者后期阶段，公司将研发面向不同手持移动设备的产品，例如，PDA，数字摄像机，MP3等等。

3.市场领域方面

针对不同的客户，我们将开发具有不同功能的产品，并收取不同的费用。

例如，一个经常去日本出差的客户只需要日汉或者汉日的翻译系统；

而一个经常在世界各地出差的客户很可能就需要安装产品的多语言扩展包。

公司根据目标客户的需求，将研制不同的产品来满足不同客户的要求。

第三章技术术来源及前景

本章主要介绍公司产品所采用的三个技术模块，并与国内外类似产品相比较，讨论公司产品的优缺点。

最后，我们列出公司未来5年内的研发计划以及资金投入状况。

（一）产品技术范围

本产品采用多种高科技技术，实行模块化无缝连接。

产品所包含的主要技术包括在视频和图像中文字分割和切分、视频中自动追踪文字信息、光学字符识别、基于统计语言模型的自动纠错、多语言翻译等等；

另外由于本产品基于我们对手持设备芯片组硬件细节的深入了解来实现，高效率、低功耗也是本产品的创新点。

本产品还具有可持续发展性强，可扩展性强，后续研发目标明确，前景明朗等特点。

目前公司已自主开发出多语种的印刷体识别，运用语言模型和词典匹配对识别结果进行自动更正的旅行翻译系统。

自动语言识别，自动图像分析和理解等技术将是公司的中长期目标。

（二）国内外同行业产品

由于本产品有着广阔的市场前景，目前国内外一些著名研究机构和公司也在研发类似功能的产品。

其中具有代表性的是富士通，思根科技，谷歌和诺基亚。

1.富士通研究开发中心：

其产品主要采用手机翻译技术，利用带有拍照功能的手机对餐厅菜单进行识别，将中文翻译成日语。

过程首先是对拍照内容的识别，然后和菜单数据库中的信息进行匹配，并根据反馈进行翻译。

在图像处理方面对照片由于角度等问题画面会出现偏斜、构图比例失调、曝光过度或不足等问题进行自动调整。

2.思根科技：

研发“嵌入式手机中/英/欧文名片识别及文本识别技术”，其主要功能是对名片的识别并存储。

该产品具有嵌入式、小内核、多语种、拍照图像识别等多项特点。

所采用的技术包括嵌入式、多语种、手指定位技术、名片识别技术、图像拼合技术、汉字分词技术，但不提供翻译功能。

3.GoogleGoggle：

GoogleGoggle是谷歌推出的一款图像搜索工具，利用手机摄像头拍摄当地地标建筑、书籍封面、艺术作品、酒类标签以及产品商标等物体的照片后，软件自动在google上搜索相关信息，并予以识别显示。

该软件也可以通过GPS搜索附近区域的商业点，还能够自动记录名片的所有信息。

4.诺基亚shoot-to-translate:

用户利用诺基亚照相手机拍摄任何物体表面上的文字后，安装于该手机上的即时翻译应用程序通过光学字符识别技术进行文字的自动抽取和识别，并借助语言处理技术将其翻译成另外一种语言。

目前该产品只支持中文到英文的翻译处理。

（三）本产品与同行业产品的技术比较

与上述产品相比，我们的产品在技术方面有如下几个特点：

1.本产品是基于实时视觉信息的

上述同类产品都是基于静止图像的。

这种解决方案在文字分布较广的情况下有可能无法在图像中获取正确的文字信息，从而导致翻译功能失效。

例如，世界著名的博物馆卢浮宫馆藏着许多巨幅油画，而在油画下方法语注释文字通常宽度很大。

如果用户想用基于静止图像的手持设备拍照翻译技术对法语注释文字进行翻译，他需要站在较远的地方拍照，这样才能保证所拍摄的照片覆盖所有的文字信息。

但是这必然使得照片中文字的分辨率降低，从而导致文本分割精度降低和OCR模块识别率降低。

此外，在某些空间比较狭小，或者游人较多的情况下，用户很可能无法获得足够的距离来覆盖所有的文字信息。

另一方面，如果用户站在离目标较近的地方拍摄照片，以期获得较高的文字分辨率，但是由于没有覆盖所有的文字信息，OCR识别出的是单独的字符或者单词，而不是完整的句子。

这样就无法采用统计语言模型纠错技术，从而导致后续的翻译模块有较大的偏差。

相反地，本产品可以很好地解决这个问题：

本产品是基于实时视觉信息的。

用户可以在较近的距离用手机摄像功能来扫描宽度较大的文字信息，相应地系统获取到一个视频流。

系统对视频流中的文字信息进行检测、追踪、拼接，识别并纠错，得到语义上完整的句子或者段落，大幅度提高翻译模块的准确度和可懂度。

2.本产品与手持设备芯片组硬件细节关系非常密切，被仿制难度大

公司将针对各类手持设备芯片组的硬件特征来实现某些复杂算法。

移动设备操作系统有存储空间较小，运算能力相对较低的特点，因此，本团队从算法到芯片细节的知识整合将成为本产品高效率、低功耗特征的最大支撑点。

公司针对性地研发关键技术，大幅度降低所需算法的计算量。

同时，本产品的部分功能将针对不同手持设备芯片组的硬件细节做专门优化。

比如，在某些含移动GPU的芯片组中，部分算法将使用GPU来加速；

而在一些包含了媒体加速器的芯片组中，核心算法将针对媒体加速器的种类和特征进行重新调整。

这不仅提高了计算速度，同时也很好地降低被仿制的危险，保护知识产权。

由于各芯片组细节往往相差较大，简单复制破解的方法将无法移植本产品。

另一方面，本产品开发融合了从算法到芯片体系结构的大量知识，很难在短时间内被复制者吃透。

3.本产品在技术上采用双重语言模型纠错

实时的视觉信息提供了实现双重语言模型纠错的可能性。

语言模型在本产品中占据很重要的地位。

它对OCR的识别错误进行纠正，是提高翻译模块准确率的有力保证。

双重语言模型纠错包含两个步骤，第一个步骤是在词层，即通过对识别结果和字典里的词匹配，使用动态规划算法纠正某些识别错误的字母。

第二个是在句层，即通过统计语言模型，计算识别出来的单词组成语义上完整句子的概率，对可能出现的某些识别错误的单词再次纠错。

这种双重纠错的模式将极大地降低在OCR阶段出现字母或者单词识别错误。

另外完善的语言模型也有利于提高翻译模块的准确率。

4.本产品具有更好的用户体验

由于本产品是基于实时视觉信息的，用户可以随时随地随心所欲地享受本产品提供的便捷服务，而不用刻意地调整照片大小和距离远近，极大地方便了用户。

此外，除了手机外，本公司还拟研发基于其他手持设备的产品线，可以用于数字摄像机、装了摄像头的MP3、PDA、导航仪等等。

本产品相对于竞争对手的产品也具有一定的劣势。

例如，Googlegoggle依托于谷歌自身的产品，相对较容易地在该公司的平台上进行二次开发，并与该公司其他功能对接。

另外几家公司分别在图像或者OCR或者嵌入式系统的开发研究中具有相当经验，占有一定的优势。

但是正如上文指出的，目前所有的同类产品都是基于静止图像的；

基于移动视频技术的产品研发还未开始。

随着移动设备摄像技术的成熟，视频分辨率的提高，我们的产品性能也将稳步上升。

基于实时视频的旅行翻译系统能够给予用户更好的旅行体验，所以必将占领这部分市场。

（四）公司的技术路线、关键技术、技术发展规划的介绍

公司将研发具有自主产权的关键技术。

这些关键技术包括：

视频和图像中文本切分、自动追踪文字信息、光学字符识别、自动纠错、统计语言模型、自动翻译等等。

其产品流程如图1所示。

这些关键技术可以结合成三大模块，也就是，视频分析模块、光学字符识别模块和机器翻译模块。

视频分析模块的主要功能是文字分割，即在视频流中分离文字信息与别的背景噪音，并用于后续的模块。

为了提高文字分割的准确性，视频前端处理，包括图像增强和图像拼接，是必须的。

图像增强是针对视频抖动、偏斜、光线不足等问题进行纠正；

而图像拼接是通过理解视频拍摄移动方向构建语义完整的句子或段落。

光学字符识别模块是将视频流里的文字信息转换成文本，并通过字典查询和统计语言模型对识别出的文本进行纠错。

机器翻译模块是将识别出的文本信息从源语言翻译成目标语言。

在产品研发的初期阶段，用户需要指定源语言和目标语言，产品将识别出的文本翻译到目标语言；

在后期开发阶段，我们将开发自动语言识别功能，自动识别出源语言。

将源语言翻译成目标语言后，将翻译结果输出，并根据需要，通过互联网查询相关信息。

（五）公司未来5年研发资金投入和人员投入计划

公司在成立初期（1-2年间）将大部分资源和资金都投放在研发上，在中期（3-5年）则研发与市场营销并进。

在中期目标达到后，我们将评估公司业绩，以决定未来的走向。

5年内的研发资金投入和人员投入计划如表1所示。

图1：

产品技术流程

表1：

公司未来5年研发计划

年限

研发项目

目标

资金

人员投入

第一年

（1）视频解码（硬件实现），1人

（2）图像拼接，2人

（3）OCR（双重纠错，软件实现），2-3人

（4）使用已有的翻译器（例如google翻译）来实现英译汉，1人

在某种移动设备上（例如手机）软件实现基于静止图像的英汉（或者日汉）旅行翻译系统V1.0。

文字分割部分由用户划定框范围来分割；

翻译部分由字典或者互联网翻译器完成。

200万

6-7人

第二年

（1）图像和视频中文字检测和分割，2-3人

（2）图像增强，1人

（3）

展开阅读全文