电影解说常用的视频字幕生成语音,基于语音理解短视频字幕生成系统的设计与实现

【摘要】:随着社会的发展,短视频行业的兴起,使用短视频进行传播信息也越来越多。短视频比传统文字和图片传递的消息更丰富,而且易于理解。但是对于大部分短视频来说,没有相应的字幕,这对很多需要字幕的人来说无疑是个难题,例如听力障碍或者语言障碍等人群。而且通过加一些特效字幕,能提升视频的观赏性。随着教育行业的兴起,英语教育也是一个很重要的部分,提供英文字幕和中文字幕对于这些教育视频来说也是非常重要的,用户可以通过字幕,很容易理解视频内容。此外,由于短视频业务字幕编辑困难,而且需要字幕和语音在时间上同步,对于需要字幕的视频编辑用户来说也是比较耗时的操作,而且手工操作会存在一定的误差。因此本文主要阐述了基于语音理解的自动字幕生成系统,该系统为用户提供自动字幕服务,不仅支持中文字幕,而且支持英文字幕,节省用户大量时间,提升用户的体验感。该系统主要的功能模块包括ASR语音识别模块、AED语音事件检测模块、任务调度模块、ITN数字标准化模块、自助测试模块、字幕模块、API Gateway模块等。本文不仅对系统功能性需求进行详细的描述,对非功能性需求也进行深层次的介绍。其次,对系统的总体架构和层次架构做一个全面的阐述。之后,描述ASR语音识别的特征提取算法MFCC,语音识别模型LSTM+CTC。之后对各个模块涉及到的算法进行详细介绍,对于任务调度模块使用的是拓扑图结构相关算法,对于API Gateway模块使用的是平滑加权负载均衡算法电影解说常用的视频字幕生成语音电影解说常用的视频字幕生成语音,对于自助测试模块使用的是ARes加权蓄水池抽样算法和编辑距离算法,对于字幕模块使用的是AC自动机多模式匹配算法。该项目使用大量的传统算法,说明了传统算法应用也非常广泛。对于语音识别、语音事件检测,机器学习深度学习在该领域能达到非常好的识别效果。本项目使用传统的C/S架构,使用Linux操作系统、C++语言作为服务器开发,使用python作为客户端开发,使用多集群部署保证系统的可靠性,使用redis作为缓存、hive处理大数据等等。通过Thrift rpc和http来处理请求,通过API Gateway来分发请求到相应的机器上,减缓了系统的压力,保证系统的高可用性。本项目已经在多个短视频软件上提供服务,用户可以通过使用自动字幕系统方便快捷的编辑短视频,为短视频添加字幕。