CCF技术公益优秀案例探访——小米科技点亮残障人士的沟通之路

近期，中国计算机学会（CCF）公益工作委员会一行人深入小米集团总部，双方围绕技术公益主题进行了富有成效的对话与交流。

此次活动由CCF常务理事、副秘书长、公益工委副主任吴国斌带队，小米集团方面由集团技术委员会AI实验室声学语音方向技术总监王育军主持。

活动伊始，代表团首先参观了小米之家全球总部店，亲身体验了小米科技所带来的创新魅力。紧接着，CCF公益工委一行与小米集团的AI实验室声学语音团队、小米公益基金会、环境、社会及公司治理（ESG）部门、集团技术委员会技术向善的专家们进行了深入的探讨。通过这些交流，代表团对小米集团的战略布局、企业文化以及在技术公益领域的实践案例有了更为深刻的认识和理解。

在访谈中，王育军老师深入介绍了小米集团入选《CCF技术公益案例集》的两个项目，两个项目都围绕着声学语音技术为残障人士带来了福音。

（一）小米开发泛在声音情境感知系统“环境音识别”帮助听障群体

环境音识别是围绕声音情境感知系统，它利用多设备协同，可以拾取围绕在用户周围的声音、感知并展示给用户。可以有效的帮助到听障人群，让他们换一种方式感知到声音。

例如，让独自在家的用户“看到”家中烧水声音；让婴儿的啼哭被听障爸爸妈妈及时“看到”；让宠物的叫声被主人“看到”；让敲门的声音被里屋的主人“看到”，让听障人群在出行的时候可以“看到”汽车鸣笛声音。

为了做到离线、及时地感知声音，小米声学语音研发团队研发了基于Transformer的嵌入式流式声音检测技术。该成果相关的多篇论文发表于ICASSP、InterSpeech等信号处理和语音领域顶级国际会议上,并在2022年度声音检测领域比赛DCASE家庭声音检测中排名第一。

不止是帮助听障人群，该系统也可以被更多的人群使用。例如，当用户被环境音包裹、睡眠时、距离危险声音较远时、佩戴耳机特别是主动降噪开启时，以及当用户随着年龄增长出现听损时。在以上这些情况下，环境音识别技术都能发挥非常大的作用。

（二）小米用语音技术帮助残障人士

有一位脑瘫患者叫张大奎，受疾病影响他无法准确地吐字发音，与人交流存在困难，但已有的语音识别系统无法准确识别他的发音，也就无法辅助他与他人交流。

小米得知这个情况之后希望用技术帮助大奎。他们发觉虽然他发音非常不准，但存在规律。小米声学语音团队早在2018年就做过方言识别的研究，能够只使用50秒的声音数据就可把普通话的语音识别模型转换成方言的语音识别模型（该工作发表在当年的语音领域顶级学术会议InterSpeech上）。因此，声学语音团队把大奎的发音就看作一种特殊的方言，用技术辅助发音。

研究团队找到了大奎的一段约5分钟的演讲录音。使用这5分钟的声音数据，成功将一个普通话语音识别模型转换成了“大奎语音识别模型”。

随后研究团队将模型部署在手机上试用，经过测试大奎的话可以完全识别，终于可以用语言和任何人自由交流了。

用语音技术帮助残障人士项目参加了小米第一届黑客马拉松大赛，并获得了当年的一等奖。

CCF公益工委在本年度将深入探访入选《2023技术公益案例集》中的企业，带您领略前沿科技转化为社会公益的强大力量。请大家持续关注，让我们共同见证科技与公益的完美融合！

点击“阅读原文”，加入CCF。