找回密码
 立即注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 5652|回复: 3

[其他] 语音识别用科大讯飞 语音识别非常好用

hnyyty 发表于 2013-9-18 11:44:53 | 显示全部楼层 |阅读模式
科大讯飞早在2003年上半年就率先推出了基于Unix和Linux两个操作环境下的语音识别合成系统,填补了国内语音识别技术在这方面的技术空白。近期,科大讯飞又在此基础上开发出了基于最新语音识别合成产品Intephonic3.0的Unix和Linux版本,两个版本在上月同时发布。
语音识别合成技术(即Text To Speech)能够自动将任意文字信息实时转换为连续的语音识别,是一种能够在任何时间、任何地点向任何人提供语音识别信息服务的高效便捷手段,语音识别非常符合信息时代海量数据、动态更新和个性化查询的需求。
面对不断增长的市场需求,语音识别合成技术在近几年不断向纵深方向发展,中英文的合成效果可以跟真人发音相媲美,这种用语音识别合成系统自助服务的方式也已经开始受到人们的欢迎。然而,国内语音识别合成产品比较单一,其最明显的一点便是语音识别不能支持Windows以外的操作系统,这势必造成某些领域在应用推广语音识别时受到限制。同时,由于部分行业企业用户出于实际应用环境的考虑,或者为了追求更高的系统稳定性,而选择了Unix和Linux这两大操作系统,因此,在不断提高语音识别合成效果的同时,语音识别如何满足众多开发者对多样化应用环境的需求,已经成为至关重要的突破口了。
作为移动互联网基础能力设施,“讯飞语音云” 语音识别将上述业界领先的智能语音技术向移动互联网开发厂商和用户同时开放。移动互联网语音识别应用开发伙伴可以像使用水、电那样“即开即有、按需取用”,语音识别在很短时间内构建出“能听会说”的特色移动互联网语音识别应用,从而使移动互联网语音语音识别创新开发的门槛显著降低、开发周期显著缩短,将有力于移动互联网语音识别应用的不断创新和丰富。此次与“讯飞语音云” 语音识别同时发布的该平台第一个示范应用——“语音输入法”语音识别体验版,用户可以在科大讯飞公司网站免费下载语音识别客户端进行体验。
此次发布的unix和linux版继续延伸了科大讯飞语音识别技术优势,语音识别覆盖高端行业用户需求的理念,语音识别在原有的2.0版本上增添了不少新特性:
◆ 多种音库,满足不同应用环境下的个性化需求:适应语音识别信息服务从简单信息发布向综合资讯及娱乐和互动体验等多样化应用扩展的趋势,InterPhonic 3.0同时提供清脆甜美与平稳正式两种风格的语音识别选择,支持在系统运行语音识别状态下的自由风格切换,根据具体应用业务的需要,选择最适合语音识别风格,使整个语音识别应用给用户带来更加自然贴切的感受。
◆ 背景音乐,快速便捷提升用户体验的高效手段:实际应用证明,在合成语音识别或提示音中适当添加背景音乐,语音识别可以有效改善用户实际应用过程中的体验,使语音识别服务更加的亲切自然。InterPhonic 3.0实现了背景音乐与合成语音识别的自动融合。使用系统提供的语音识别工具,可以便捷高效的添加背景音乐,调整背景音乐和合成语音识别的音量对比,并可直接试听实际效果。
◆ 预录语音识别,一致化管理处理流畅衔接简化应用:预录语音识别与合成语音识别结合提供语音识别服务的应用中,通过InterPhonic 3.0d的预录音的统一管理功能,将预录音作为语音识别合成系统的资源,可以使预录音与合成音衔接流畅,同时避免频繁处理提示音播放与语音识别合成的切换与过渡问题,简化应用流程的复杂程度,从而进一步提高语音识别服务效果与质量。
◆ 丰富工具,增强系统可用性缩短应用发布周期:在致力于语音识别合成核心引擎的纵深研发和持续发展的同时,科大讯飞不断推出方便语音识别开发与应用的工具,旨在帮助合作伙伴和客户快速提升语音识别应用的效果和效率。InterPhonic 3.0的增强工具包套件包括了使用便捷的高效组件,如CSSML可视化编辑工具、SysthART/SynthBAT/SynthDB离线语音识别应用工具、EasyCOM文件搬运工和ReadWORD/ReadEXCEL文本格式转换工具等。
除上述特性和对Linxu和Unix操作系统的支持以外,新产品还整合提供多语言语音识别合成引擎,支持中文普通话、普通话与英语同音混读、广东话、英语(美式英语、英式英语)等多样化语种的语音识别服务,不同语言的语音识别合成引擎通过一致化接口统一管理。
作为语音识别产业的领导者,保证语音识别核心效果提升的同时,科大讯飞不断加大语音识别在多操作系统产品化方面的研究力度。经过语音识别技术开发人员数月的不懈努力,目前已成功完成将最新的InterPhonic3.0中英文混读语音识别合成系统到Unix和Linux操作系统上的移植,并且还进行了语音识别新应用环境下的大压力、多线程的稳定性和效率测试,完全达到满足实际应用的需求。此次经过移植的Unix和Linux版本语音识别合成不仅在合成效果上等同于同版本Windows产品,而且沿袭了语音识别以往的标准开发接口, 在产品特性和功能方面也做到了尽可能的统一。。同时,此次推出的interphonic 3.0 unix和linux版本对语音识别产品架构作了很大改进,大大缩短了语音识别产品开发的周期,并为今后的语音识别版本升级做好铺垫。
“语音是文化的基础,民族的象征”。智能语音识别技术不仅拥有广阔的应用空间,语音识别还在国防军事、汉语国际推广、教育等国家重大战略需求领域有着重大应用价值。而移动互联网语音识别迈入语音时代、云计算时代,在造福大众、服务百姓,语音识别为人们提供更丰富、便捷的信息服务的同时,语音识别也对国家、民族的语音资源与信息安全提出了新的挑战和更高的要求。民族语音企业能够在这一领域以强烈的民族责任感,抢先发力、占据制高点,对我国移动互联网语音识别应用及信息安全的长远发展具有重大价值和深远影响。
至此,科大讯飞语音识别合成系统已经实现了在Windows 2000/NT、Win CE、Linux和Unix等四种操作系统上的应用。在语音识别同行业中,率先使得在多种操作系统上的语音识别合成都能达到最优的合成效果,其优秀的语音识别合成效果已经在海南、浙江、成都、上海等地的实际应用中得到验证。
暗恋我心 发表于 2013-9-21 09:54:36 | 显示全部楼层
顶呀顶呀顶呀顶呀顶呀顶呀顶呀顶呀顶呀顶呀顶呀顶呀顶呀顶呀顶呀顶呀顶呀顶呀顶呀顶呀顶呀顶呀顶呀顶呀
jshzl 发表于 2013-10-23 07:22:55 | 显示全部楼层
不争气的语点,在哪?还有语点吗?
mymono 发表于 2013-11-23 18:27:51 | 显示全部楼层
这个 识别方言的准确率高吗
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2010-2015 讯飞输入法 皖ICP备05001217号

快速回复 返回顶部 返回列表