语音是人类沟通和获取信息最自然便捷的手段和方式,也是文化的基础和民族的象征。而智能语音及语言交互技术,可以应用在社会生活的方方面面,拥有广阔的产业化前景,尤其在军事、教育、汉语国际推广等重要战略领域,都有广泛应用和重大推广意义。因此,该技术及其产业一直是国内外竞相竞争的热点和焦点。
科大讯飞在智能语音核心技术研究领域,一直秉承“从市场中来、到市场中去”,“用正确的方法、做有用的研究”等核心理念,致力于建立智能语音及语言核心技术和核心技术应用产业化两大方面的竞争力。科大讯飞的核心技术主要包括:语音识别技术、语音合成技术、自然语言理解技术、语音评测技术、声纹语种技术、手写识别技术等。科大讯飞始终坚持提供国际领先的语音及语言整体解决方案,不断推出符合国家和社会需求的智能语音及语言技术产品及应用服务。
科大讯飞的主要核心技术介绍如下:所要解决的问题是让计算机能够“听懂”人类的语音,将语音中包含的文字信息“提取”出来。该技术在“能听会说”的智能计算机系统中扮演着重要角色,相当于给计算机系统安装上“耳朵”,使其具备“能听”的功能,进而实现信息时代利用“语音”这一最自然、最便捷的手段进行人机通信和交互。
又称文语转换(Text to Speech)技术,它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术。语音合成技术解决的主要问题是将文字信息转化为声音信息,即让机器像人一样开口说话。
该技术所涵盖的研究内容非常广泛,从研究成果的表现形式来说,基本可以分为基础研究和应用两大类。
基础研究:主要指对自然语言内在规律的研究,从研究深度和难度上大致可以划分为词典编撰、分词断句、词性分析、语言模型、语法分析、语义分析、语用分析等。
应用研究:主要指基于基础研究的成果,面向不同的应用,研发相关的自然语言处理技术,大的方向包括但不限于:拼音输入法、信息检索、信息抽取、自动摘要、机器翻译、语音合成、语音识别、文本匹配、文本分类、对话系统等。
又称计算机辅助语言学习(Computer Assisted Language Learning),是机器自动对用户发音进行评分、检错并给出矫正指导的技术。语音评测技术是智能语音处理领域的研究前沿,同时又因为能显著提高受众对口语学习的兴趣、效率和效果,而有着广阔的应用前景。
是一种通过语音信号提取代表说话人身份的相关特征(如反映声门开合频率的基频特征、反映口腔大小形状及声道长度的频谱特征等),进而识别出说话人身份等方面的技术。它可以广泛应用于信息安全、电话银行、智能门禁以及娱乐增值等领域。
是一种让计算机能够“认识”用户在手写设备上书写的文字信息,将有序的笔迹轨迹转换为用户所书写的字符的技术。手写识别技术在智能手机、平板电脑等移动终端设备上为用户提供了一种较传统输入方式更为便利的交互方式。它使得不熟悉或不方便键盘操作的用户也能轻松上手使用各类电子设备。