IBM自动为新闻播报生成字幕的AI开发成功发布

2023-12-05 大全 33 作者：考证青年

IBM研究院发布自动为新闻播报生成字幕的研究，利用长短期记忆（LSTM）网络和声学神经网络模型，搭配辅助的语言模型，研究团队与澳洲一家语音和搜寻科技公司Appen一同合作，在两项测试实验中，语音识别系统的错误率分别为6.5%和5.9％，而人类辨识的错误率分别为 3.6%和2.8%。IBM指出，在对话式电话语音领域中，语音识别系统必须处理失真、来自多个不同电话信道的随性语音录音，还包含多种说话风格，且对话式语音还会有多个对话者重迭、中断、重新开始和重复确认的语音。

_新闻字幕制作_新闻播报字幕怎么做

而新闻广播的语音识别任务更具挑战，因为还需要处理多人说话风格、多种背景噪音，和广泛的新闻领域内容，甚至是多种题材的混合内容，像是现场采访、电视节目的剪辑内容等。为了能够成功地辨识复杂的语音内容，为新闻播报内容生成字幕，IBM研究团队透过语音识别技术，建立了一套深度神经网络，该深度神经网络整合了长短期记忆网络和深度残差网络（，），以为基础打造的声学模型是含有多达25层卷积层的深度卷积式网络，用1,300个小时、多种不同的新闻内容资料，来训练生成字幕的模型。相关AI信息来源：sbf胜博发票务

tags: 语音新闻字幕深度识别

IBM自动为新闻播报生成字幕的AI开发成功发布

Android实现OCR文字识别并且转换为Excel、PDF格式输出

中国模式识别与计算机视觉大会｜多模态模型及图像安全的探索及成果

用AI解锁声音的奥秘——启英泰伦新成果发布交流会

又一家数据公司被查，爬虫到底哪里有错？

你一定要知道的商业提案写作技巧

Deep Learning object detection (2014

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

IBM自动为新闻播报生成字幕的AI开发成功发布

Android实现OCR文字识别并且转换为Excel、PDF格式输出

中国模式识别与计算机视觉大会｜多模态模型及图像安全的探索及成果

用AI解锁声音的奥秘——启英泰伦新成果发布交流会

又一家数据公司被查，爬虫到底哪里有错？

你一定要知道的商业提案写作技巧

Deep Learning object detection (2014

利用区块链等技术，加强对交通运输信用信息的归集共享和分析应用

印尼西爪哇梳邦县发生山体滑坡 已经导致2人死亡

【SpringBoot笔记10】Spring中Bean的6种作用域

ARS548 ARS549RDI 80GHZ毫米波雷达达学习笔记（一)

叠氮PEG修饰二硒化钨 (N3-WSe2；azide

ATFX：黑海运粮遭俄暂停，小麦期货开盘跳涨

关于我们

最火推荐

小编推荐

联系我们

复制成功

印尼西爪哇梳邦县发生山体滑坡已经导致2人死亡