阿里云推出首个开放公测的大模型应用产品“通义听悟”，助力高效工作学习

随着人工智能技术的不断发展，阿里云于6月1日宣布了通义大模型的最新进展。其中，音视频内容AI新品“通义听悟”正式上线，成为国内首个开放公测的大模型应用产品。通义听悟凭借其强大的功能和卓越的性能，为用户带来了全新的音频和视频内容记录和阅读体验，成为工作学习中的得力助手。

一、通义听悟的核心能力

实时语音转写，智能记录助力高效回顾通义听悟可以实时将语音转写为文字，并生成智能记录。用户可以借助这一功能，高效地回顾会议、讲座等音频内容。此外，用户还可以通过搜索定位功能，快速找到关键内容。

文件转写，海量文件同时上传，省时省力通义听悟支持批量上传文件进行转写，用户可以一次性上传大量文件，节省时间和精力。

实时翻译，中英互译轻松自如通义听悟提供实时翻译功能，支持中英互译，方便用户进行跨语言协作。

快速标记，重点信息一目了然通义听悟可以快速标记重点内容、问题和待办事项，让用户能够清晰地了解会议或讲座中的重点信息。

轻松导出，多样格式任意选择通义听悟支持将转写的内容导出为多种格式，用户可以根据需要选择合适的格式。

二、通义听悟的进阶功能

多语言语音识别，中英文自由说通义听悟具备多语言语音识别能力，用户可以自由切换中英文进行语音输入。

准确提炼关键词，快速抓住会话主题通义听悟可以准确提取关键词，帮助用户快速抓住会议或讲座的主题要点。

智能全文概要、章节速览、发言总结，高效掌握关键信息通义听悟具备智能全文概要、章节速览和发言总结等功能，帮助用户高效地掌握会议或讲座中的关键信息。

自动总结生成待办，便于跟进通义听悟能够自动将重要内容总结为待办事项，帮助用户避免遗漏，并方便后续的跟进工作。

智能区分发言人，高效回顾一目了然通义听悟可以智能区分不同的发言人，用户可以轻松筛选特定发言人的内容，高效回顾会议或讲座。

三、通义听悟的黑科技

添加专有词汇，提升识别准确率通义听悟支持用户添加专有词汇，以提高对特定词汇的识别准确率。

提取问题，快速回顾沟通内容通义听悟可以智能提取问题，帮助用户快速回顾会议或讲座中的沟通内容。

智能替换，自动修正目标词汇通义听悟具备智能替换功能，可以自动修正目标词汇，提升转写的准确性。

检测声音事件，提醒文字识别更准确通义听悟可以实时检测声音事件，并进行提醒，以提高文字识别的准确性。

通义听悟之所以能够提供如此完善的功能，离不开两大关键技术：通义大模型和Paraformer。通义大模型是阿里达摩院于2022年9月发布的大模型系列，通过魔搭社区开源开放。今年4月7日，阿里正式发布了自研类ChatGPT产品“通义千问”，进一步推动了通义大模型的技术落地。此外，通义听悟还内置了阿里达摩院在去年12月发布的下一代语音识别基础模型Paraformer。Paraformer是业界首个应用落地的非自回归端到端语音识别模型，推理效率最高可提升10倍，并在多个权威数据集上取得了准确率第一的成绩。

通义听悟可以灵活嵌入各类音视频平台，提供实时字幕、智能摘要等功能。例如，钉钉的钉闪记就集成了通义听悟的功能。未来，升级后的通义听悟还将在夸克APP、阿里云盘等平台提供服务，为用户提供更加便捷的工作学习体验。