讯飞4.0离线翻译(首发讯飞神来之笔)

【新智元导读】想象一下,如果你正在参加一个重要会议,突然信号不好,没4G,也连不上WIFI,录音无法上传到云端转写,错过最佳出稿时间,损失将十分惨重!要是有一款产品可支持离线转录,还能区分说话人,把「众说纷纭」的会议迅速整理成一份合格的会议纪要,就再好不过了。

这两天,马斯克最新发布的脑机接口疯狂刷屏,预示着未来信息的提取和存储方式将产生质的变化。

脑机互联、心灵感应、数字永生,这些激动人心的词汇敲打着人们的神经。

任何一个时代,革命性的变革都是为了让人们更好地获取和处理信息。

从信息的生产,到数字化的提炼和增值,再到从海量的数据,分析洞察人们的需求,形成知识图谱,这个过程就是信息的再加工。

人脑无疑是最好的信息处理器,马斯克甚至表示,有朝一日,可以把大脑中的信息上传到云端,进行下载和存储。

讯飞4.0离线翻译(首发讯飞神来之笔)(1)

虽然现在我们还不能实现脑机互联,但是高效智能的信息提取能让我们更快地获取知识,转写就是一种重要的方式。

AI包办你的KPI:开会一小时转写五分钟

马斯克脑机接口发布会一结束,很多观众在震惊钦佩之余,也产生了强烈的质疑。

难道革命性的发布,靠的只是一张张精美的PPT吗?

AI大规模落地时代,AI不再仅仅是PPT的产物,而需要切实解决人们的刚需。

当前,AI 办公,AI 会议是大势所趋,尤其对于记者、律师等特定使用人群,用智能录音产品来协助记录就显得尤为重要。AI简直就是KPI的保障啊!

讯飞4.0离线翻译(首发讯飞神来之笔)(2)

科大讯飞正是看准了这一痛点。多年来,讯飞坚定不移的将AI转写技术通过消费品的方式传递给C端用户,赋能更高效的办公。

就在今年5月,讯飞在旗舰系列之外还发布了两款入门级的硬件转写产品,小巧的智能录音笔A1和会议宝S8。正是这些「小而美」的C端产品兼容了实用性和技术性,真正将硬核的AI转写技术带到了千家万户。

讯飞发布2020年上半年财报显示,整体表现不降反增,同时C端营收占比大幅提升,达到16.35亿元,占比高达37.59%。

讯飞4.0离线翻译(首发讯飞神来之笔)(3)

胡郁表示,「正是因为秉承着助力用户高效办公、智慧生活的理念,我们的消费者业务在过去的三年时间保持着超30%的增速,在2020年逆势增长、在618当中也取得22项单品冠军。」

无惧断网!这个离线转写功能贴心了

9月1日的新品发布会上,更是发布了最新的两款录音笔旗舰版SR702、尊享版SR901。

讯飞4.0离线翻译(首发讯飞神来之笔)(4)

这两款录音笔有什么过人之处呢?

想象一下,如果你正在参加一个重要的会议,突然信号不好了,没有4G,也没有WIFI上不去网,录音无法上传到云端进行转写处理,错过了最佳出稿时间,损失将十分惨重!

同类的智能转写产品,大多都需要网络连接畅通,而科大讯飞充分考虑了录音笔应用的各种极端场景,SR702、SR901智能录音笔在业内首次推出了离线转写功能。

讯飞4.0离线翻译(首发讯飞神来之笔)(5)

所谓离线转写,就是在不联网的条件下,实现语音到文本的转换,所有数据存取和处理都发生在本地的录音笔中。

这两款新的录音笔都内置了离线转写的功能,在断网时也能快速响应作业,优化后的本地模型,转写识别率也完全能够满足需求。

讯飞4.0离线翻译(首发讯飞神来之笔)(6)

智能录音笔SR702

另一方面,很多机密的会议内容如果上传到别人的服务器,会有信息泄露的风险,这种离线的处理方式,不仅能提高效率,还能保障数据的安全。

讯飞4.0离线翻译(首发讯飞神来之笔)(7)

离线转写不同于离线听写,技术实现上有很多难点,离线转写通常为长语音,需要长时续航和持续运算能力,对CPU功耗及散热情况提出了极高的要求。

硬件方面,讯飞录音笔采用CPU主频自适应调整、线程数动态调度等方式来缓解设备发热。

软件方面采用和云端几乎相同的算法,转写准确率比云端相对损失了10%左右(绝对1个百分点),这点损失对现实应用来说无伤大雅,而且未来在高端机型有可能做到与云端相当,甚至超过云端的效果。

讯飞4.0离线翻译(首发讯飞神来之笔)(8)

转写准确的前提是拾音准确,如果能在转写前将环境噪声处理干净,就能大大提高准确率。

各家的录音笔,硬件本身的性能几乎已经没有差异,但是软件层面,降噪算法一直在不断精进。

深度神经网络更提取更深层次的语音特征,但传统的降噪算法速度更快。

SR702及SR901将讯飞自主研发的空间-时间感知多通道神经网络与传统信号处理深度结合的降噪算法(SSA-IME)相结合,能够更好地处理前端的噪声,即使多个人同时交谈,也能精确区分各个音频,捕捉到目标说话人。

该算法不仅有效降低了环境干扰噪声,而且可以有效消除干扰说话人的声音,从而大幅降低语音识别的处理难度。在安静场景下3-10米拾音转写准确率相对提升30%,超远距离(20-50m)演讲场景也能达到90%以上,这也充分体现了讯飞在远距离降噪转写技术的领先性。

讯飞4.0离线翻译(首发讯飞神来之笔)(9)

处理好了噪声,语音识别的工作就水到渠成了。

新款录音笔基于端到端的全新语音识别框架,同时支持中英以及普通话-部分方言混合识别,无论说话人使用哪种语言,都能一次完成识别工作。

我们使用录音笔,最终目的是为了将杂乱的会议信息加工好,呈现在文字上。

录音笔中的信息有两种存在方式,首先是语音,其次是文本。

对语音的处理,SR702及SR901可以通过声纹识别技术,对不同说话人语音特色的识别,还可以实现自动区分标注说话人。一场「众说纷纭」的商务会谈自动转成一篇条分缕析,层次清楚的会议纪要。

分离与ASR联合建模的说话人分离方案,让用户能够快速检索到目标说话人,提升语音的编辑效率。

讯飞4.0离线翻译(首发讯飞神来之笔)(10)

当然,在完成语音转写后,文本依旧会有很多噪音,比如标点不准确,句子过长,段落重复过多等,SR702及SR901可以通过智能编辑功能中的标点断句、数字规整、语气词过滤、口语规整、文本分段、文本摘要等文本编辑能力,一键修正常见错误,输出最有用的信息。

和前代产品相比,最别具一格的一点,是图像视频识别等方面的创新。

讯飞智能录音笔SR901为后置三摄,包括1300万高像素主摄像头、800万像素120°超大广角摄像头、800万像素长焦摄像头;SR702为800万像素数字变焦后置单摄。

讯飞4.0离线翻译(首发讯飞神来之笔)(11)

两款产品都配备OCR功能,实现图片记录实时提取文字,瞬间将PPT/Excel/图片等形式的内容转成文字。更适合听讲座、报告等图文形式结合的记录。

录制视频还能实现自动生成可编辑的字幕。

讯飞4.0离线翻译(首发讯飞神来之笔)(12)

极致的技术是提升用户体验的前提,但深入理解用户的使用场景,才是一个产品成功的根本。

左耳进右耳出文字?不怕跨洋电话听不懂

除了技术的创新,还有场景的创新。

随着讯飞对C端产品的不断探索,AI应用场景愈加深入、细分,新品涵盖了各价位段、针对不同圈层人群提供了更加丰富的选择。

此次推出的新品当中,另一款产品SR101售价599,相比于两款旗舰产品更适用于学生党,在同等价位当中实用性的表现也很突出。

讯飞4.0离线翻译(首发讯飞神来之笔)(13)

C端产品,往往是同样的食材,烧出不同的口味。如果说技术是食材本身,那么如何烧菜,也要靠丰富的想象力和对「食客」的深刻体察。

据Canalys最新数据显示,2020年第一季度,TWS耳机占38%的市场份额,已经成为目前最大的智能音频设备品类。预计2020年TWS出货量有望超过2亿台。讯飞将AI技术附加于人人必备的终端耳机之上,是C端丰富想象力的更极致延展。

讯飞此次推出的消费类产品iFLYBUDS耳机,主打「通话实时转文字」、「智能拨号识别」和「通话译文」三大核心AI功能。

讯飞4.0离线翻译(首发讯飞神来之笔)(14)

有时候打着电话,总是忍不住到处找笔记笔记,讯飞发布会现场演示了「老婆让王伟去买菜」。

讯飞4.0离线翻译(首发讯飞神来之笔)(15)

想象一下,开车的时候突然接到领导、客户电话,根本没法腾出手记录重要信息,很抓狂怎么办。

iFLYBUDS耳机,走在路上都可以实现实时转录文字,轻松满足商务人士在自驾、通勤、会议等多场景需求,实现解放双手、高效记录。iFLYBUDS同时支持常规电话和网络电话(微信语音、腾讯会议、钉钉语音、Skype、Zoom等)。

讯飞4.0离线翻译(首发讯飞神来之笔)(16)

还有一个逆天功能就是智能拨号识别。

轻拍两下左边的耳机,讯飞APP上就会出现「想打电话给谁?」通讯录里联系人繁多,经常会有重名或是读音相似的。讯飞智能系统通过词语列举、归属地区分等方式帮助快速找到联系人并拨打电话。

「打电话给王超,科大讯飞的」,「秋萍,最近拨打的」。

讯飞4.0离线翻译(首发讯飞神来之笔)(17)

和外国客户打电话,面对生僻的专业词汇听不懂,沟通进行不下去,十分尴尬,针对这一点,iFLYBUDS专为商务人士实现通话译文对照。

全英文通话时,可将通话内容实时转译汉字,辅助英语沟通,是你耳朵上的助理翻译官。

讯飞4.0离线翻译(首发讯飞神来之笔)(18)

每一个创新都是切中要害的「痛点创新」。一直以来,讯飞深耕C端,读懂消费者,用各种创新场景深刻地解决刚需。

「技术顶天、产业立地」。正是因为理解了用户,又坚持源头技术自主创新,科大讯飞才真正走上AI智能应用的最前列。

讯飞4.0离线翻译(首发讯飞神来之笔)(19)

胡郁表示,「在AI转写赛道上,我们希望不仅为文字工作者的记录场景赋能,更是成为每个人的知识管理工具。在忙碌之中,依然可以轻松地备忘信息、捕捉灵感、记录观点。」

在产品发布后的人工智能论坛上,胡郁总提到,「人工智能是第四次工业革命的明珠,也是最后一次改变世界的发明。我们坚定地相信AI能为我们服务。这是我们的大方向,但具体怎么走是我们一步一步摸索出来的。」

100多年前,汽车刚刚代替马车,彼时,人们还惊诧于眼前的巨变,担心新技术的隐忧。

100年后,AI代替人工,席卷各个可能的生活工作场景,带来前所未有的高效和便捷。

必须要坚信有朝一日,新的发明终究会占据我们的生活。有了智能转写,让我们一起开启,高效记录新时代。

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页