
研究揭示读唇奥秘堪萨斯大学University of Kansas的研究人员发现英语中约有三分之一的单词在发音时看起来至少与另一个单词相似。研究背景与目的2026年6月30日消息堪萨斯大学的一项新研究运用网络科学探究了人们读唇时出错的原因。言语语言听力专业的教授Michael Vitevitch及其合著者绘制了一张包含约20000个英语单词的视觉地图旨在更好地理解为何有些单词比其他单词更难通过读唇识别。研究结果发表在《美国声学学会杂志》Journal of the Acoustical Society of America上这些发现有望改进读唇训练方法提升人工智能读唇、转录及提供其他数字服务的能力。研究方法的独特之处Michael Vitevitch表示以往很多研究只关注人们读唇的准确率而没有深入研究错误本身的特征。他们采用的研究方法是关注人们读唇的错误类型。此前关于读唇的研究大多由口语研究人员开展主要关注音素以及参与者识别的单词与实际发音的接近程度。而Vitevitch关注的是视觉特征即“视位”visemes音素的视觉等价物专注于从嘴唇、下巴和嘴巴获取信息不借助听觉。他举例说有时候单词发音和视觉上都相似比如“kit”、“cat”和“cut”而有时候单词发音不同但视觉上相似比如“vet”、“fit”和“fuzz”在这两种情况下仅通过观察面部无法区分这些单词。研究得出的结论通过对单词地图的分析研究人员得出以下结论一是人们更有可能将一个单词误认成另一个更常用的单词二是发音时英语中约三分之一的单词看起来至少与另一个单词相似三是如果一个单词有很多视觉上相似的单词那么读唇识别它就会更困难四是读唇错误并非随机发生当视觉上相似的单词在视觉网络中处于同一区域时出错的可能性更大。Vitevitch还指出令人惊讶的是人们读唇的能力并不强大多数错误表明只差一两个视觉特征即一两个视位就能正确识别能获取很多信息但可能还不足以准确识别单词。研究成果的应用与后续计划研究人员绘制的视觉地图让他们了解了单词在视觉空间中的分布情况某些区域的单词分布比预期更密集视觉空间的拉伸和压缩方式超出了预期这种拉伸和压缩对读唇的准确性有影响。Vitevitch团队希望将研究成果应用于读唇训练跟踪人们随时间推移所犯的错误让错误逐渐接近目标单词。此外这项研究的另一个应用领域是自动转录训练像Zoom这样的系统在语音转录方面已经做得不错如果它们不仅利用音频信息还利用说话者面部的视觉信息是否能做得更好呢Vitevitch表示他的团队将以不同方式继续跟进这项研究继续探索人们读唇的方式有可能朝着机器学习应用方向发展并寻找帮助那些需要辅助理解语音的人的方法。Vitevitch的合著者包括堪萨斯大学的研究生Maia Flynn和Reid Kelly以及弗雷斯诺加利福尼亚州立大学California State University, Fresno的Lorin Lachs。