近日,由美国国家标准与技术研究院NIST发起的OpenASR挑战赛落下帷幕,科大讯飞参加了所有15个语种受限赛道和7个语种非受限赛道,全部取得第一!
继前不久荣获多语言理解评测XTREME冠军之后,科大讯飞在多语种领域再次取得突破,在探索人机交互更自然、人人沟通无障碍的征程中又迈出了坚实的一步,也为中国多语种语音语言技术赶超国际先进水平、中国智能制造的全球化奠定了坚实的基础。
从大语种向低资源多语种拓展
与NIST此前组织的其他赛事相比,OpenASR更加关注小语种语音技术,探索如何使用少量的数据达到较好的效果,同时考察低资源语音识别基础算法在多个语种上的推广性。自2020年启动以来,吸引了加拿大蒙特利尔信息科技研究中心、新加坡科技研究局、清华大学、腾讯等国内外知名研究机构和企业参与其中。
本次比赛共包含15个语种,涵盖受限赛道、受限附加赛道和非受限赛道。
15个语种信息
其中受限赛道为各参赛单位必选项,每个语种只能使用组委会提供的10小时标注语音识别数据,受限附加赛道在受限赛道的基础上允许使用开源的预训练模型,而非受限赛道可以使用受限数据以外的数据。
科大讯飞-中科大联合团队在比赛中提出了基于语音和文本统一空间表达的半监督语音识别框架(UnifiedSpatial Representation Semi-supervisedASR,USRS-ASR),获此佳绩也验证了该算法良好的推广性。
联合团队全部15个语种受限赛道成绩
联合团队参加的7个语种非受限赛道成绩
领先技术亮相国际赛场
在受限赛道上,由于每个语种只有10小时语音数据,如何使用少量文本数据,利用无监督的方法增加语音训练数据的多样性至关重要。
科大讯飞-中科大联合团队创新运用Flow-TTS语音合成进行训练数据扩增,并使用语音属性解耦技术保证合成语音的多样性。结果显示,使用上述无监督数据扩增方案,能够稳定、显著地提升低资源语音识别任务的效果。
而在非受限赛道上,虽然参赛者可以利用公开的语音数据,但数据总量仍只有数百小时,而且语音数据和文本数据的量级差距十分明显,这对于端到端识别框架来说,弊端更为明显。
USRS-ASR框架示意图
首先,对于海量文本数据的使用,创新设计了文本掩码语言模型任务、合成数据语音识别两个目标,两个任务联合训练以充分利用海量无监督文本;其次,设计了共享语言解码模块,实现了语音和文本隐层表达空间的统一,大大缓解了低资源语种的数据稀疏问题。
就在不久前,工信部正式批复同意成立国家智能语音创新中心、国家高端智能化家用电器创新中心,科技创新正不断引领产业升级。值得注意的是,在这两家国家级创新中心依托公司的股东名单中,“科大讯飞”均赫然在列。持续致力于打造源头技术创新策源地,科大讯飞正不断追寻“顶天立地”的产业梦想。
此外,科大讯飞的多语种相关技术能力也已应用于北京2022年冬奥会官方APP(冬奥通),助力冬奥信息沟通无障碍。