Krisp Technologies Inc.是一家专注于降噪、转录和会议摘要软件开发的公司,今日推出了一项实时语音技术,能够在实时对话中提高对带口音英语的理解能力。
这家位于加州伯克利的公司开发的"听者端口音转换"系统能够为个人听者调整接收到的语音,而不会改变说话者对其他人的声音表现。这与传统的口音修改工具不同,传统工具会改变说话者的输出音频。
Krisp系统在本地运行,在听者设备上处理语音,并澄清在不同口音中经常被误听的音素,同时保持说话者的自然音调和声音特征。只有听者能听到调整后的语音版本,用户可以随时启用或禁用该功能。
该公司围绕实时音频增强技术构建业务,包括降噪和语音AI工具。去年,公司推出了输出端口音转换功能,可以修改说话者对所有听者的声音表现。这次发布的新功能则反转了模式,将修改限制在个人听者端。
生产力影响
口音差异可能降低AI智能体的语音识别性能,增加人际对话中的摩擦,并提高错误风险。该公司表示:"随着语音成为工作和客户互动的主要界面,理解能力正在成为系统级要求,而不仅仅是个人挑战。"
该技术在音素级别处理传入音频,在本地运行,延迟不到200毫秒,公司称这种延迟对人耳来说是无法察觉的。它不需要转录或后处理,不存储原始音频。所有处理都在本地设备上完成,无需云端依赖。
Krisp断言口音差异对生产力有可衡量的影响。会议参与者可能需要重复自己的话,减慢对话速度或错过语境。在呼叫中心,处理多样化口音的工作人员可能经历更长的处理时间和更高的认知负荷。在人工智能系统中,识别准确性和自动化性能可能下降。
2022年的一项研究发现,工作场所的沟通不良导致每位员工每周损失超过7小时的生产力时间。
Krisp联合创始人兼总裁Arto Minasyan是亚美尼亚人,他表示亲身体验过这些影响。"我知道在通话中重复自己话语的感受,或者看到有人专注于你的发音而不是你的想法,"他在书面评论中说。"随着时间推移,这会改变人们自由说话的方式。"
该功能已通过Krisp的会议语音AI应用程序在苹果电脑和Windows PC上正式提供人际会议服务。与公司呼叫中心AI平台的集成正在进行中,该功能还将通过软件开发工具包公开,使开发者能够直接将其嵌入应用程序和语音AI智能体中。
口音修改技术曾受到批评,有人认为这些技术可能会给说话者施压要求其符合标准或抹杀身份认同。Krisp表示通过保持说话者声音不变来避免这种担忧。
该公司表示,系统不会"评分、排名或评判说话者",也不会强制执行单一的语言标准。调整仅在听者设备上进行,以减少听力负担和误听风险。
模型在多样化英语口音上进行训练,在印度、菲律宾、拉丁美洲、非洲和中文普通话口音方面报告了最强的效果。覆盖范围持续扩大。
成立于2017年的Krisp表示,其软件已部署在超过2亿台设备上,每月处理超过800亿分钟的语音对话。
Q&A
Q1:Krisp的听者端口音转换技术是如何工作的?
A:Krisp的听者端口音转换系统在本地处理语音,在音素级别调整接收到的音频,澄清不同口音中经常被误听的音素,同时保持说话者的自然音调。只有听者能听到调整后的语音,延迟不到200毫秒,对人耳来说无法察觉。
Q2:这项技术与传统口音修改工具有什么不同?
A:传统口音修改工具会改变说话者对所有听者的输出音频,而Krisp的技术仅在听者端进行调整,说话者的声音对其他人保持不变。这避免了对说话者施压要求其改变口音或抹杀身份认同的问题。
Q3:口音差异对工作场所有什么影响?
A:口音差异会降低AI智能体的语音识别性能,增加人际对话摩擦,导致会议参与者需要重复话语或减慢对话速度。在呼叫中心,工作人员处理多样化口音时会经历更长处理时间和更高认知负荷。研究显示工作场所沟通不良每周会让员工损失超过7小时生产力。