随着人工智能技术的不断发展,阿里云于6月1日宣布了通义大模型的最新进展。其中,音视频内容AI新品“通义听悟”正式上线,成为国内首个开放公测的大模型应用产品。通义听悟凭借其强大的功能和卓越的性能,为用户带来了全新的音频和视频内容记录和阅读体验,成为工作学习中的得力助手。
一、通义听悟的核心能力
实时语音转写,智能记录助力高效回顾通义听悟可以实时将语音转写为文字,并生成智能记录。用户可以借助这一功能,高效地回顾会议、讲座等音频内容。此外,用户还可以通过搜索定位功能,快速找到关键内容。
文件转写,海量文件同时上传,省时省力通义听悟支持批量上传文件进行转写,用户可以一次性上传大量文件,节省时间和精力。
实时翻译,中英互译轻松自如通义听悟提供实时翻译功能,支持中英互译,方便用户进行跨语言协作。
快速标记,重点信息一目了然通义听悟可以快速标记重点内容、问题和待办事项,让用户能够清晰地了解会议或讲座中的重点信息。
轻松导出,多样格式任意选择通义听悟支持将转写的内容导出为多种格式,用户可以根据需要选择合适的格式。
二、通义听悟的进阶功能
多语言语音识别,中英文自由说通义听悟具备多语言语音识别能力,用户可以自由切换中英文进行语音输入。
准确提炼关键词,快速抓住会话主题通义听悟可以准确提取关键词,帮助用户快速抓住会议或讲座的主题要点。
智能全文概要、章节速览、发言总结,高效掌握关键信息通义听悟具备智能全文概要、章节速览和发言总结等功能,帮助用户高效地掌握会议或讲座中的关键信息。
自动总结生成待办,便于跟进通义听悟能够自动将重要内容总结为待办事项,帮助用户避免遗漏,并方便后续的跟进工作。
智能区分发言人,高效回顾一目了然通义听悟可以智能区分不同的发言人,用户可以轻松筛选特定发言人的内容,高效回顾会议或讲座。
三、通义听悟的黑科技
添加专有词汇,提升识别准确率通义听悟支持用户添加专有词汇,以提高对特定词汇的识别准确率。
提取问题,快速回顾沟通内容通义听悟可以智能提取问题,帮助用户快速回顾会议或讲座中的沟通内容。
智能替换,自动修正目标词汇通义听悟具备智能替换功能,可以自动修正目标词汇,提升转写的准确性。
检测声音事件,提醒文字识别更准确通义听悟可以实时检测声音事件,并进行提醒,以提高文字识别的准确性。
通义听悟之所以能够提供如此完善的功能,离不开两大关键技术:通义大模型和Paraformer。通义大模型是阿里达摩院于2022年9月发布的大模型系列,通过魔搭社区开源开放。今年4月7日,阿里正式发布了自研类ChatGPT产品“通义千问”,进一步推动了通义大模型的技术落地。此外,通义听悟还内置了阿里达摩院在去年12月发布的下一代语音识别基础模型Paraformer。Paraformer是业界首个应用落地的非自回归端到端语音识别模型,推理效率最高可提升10倍,并在多个权威数据集上取得了准确率第一的成绩。
通义听悟可以灵活嵌入各类音视频平台,提供实时字幕、智能摘要等功能。例如,钉钉的钉闪记就集成了通义听悟的功能。未来,升级后的通义听悟还将在夸克APP、阿里云盘等平台提供服务,为用户提供更加便捷的工作学习体验。