摘要:近日,QCon全球软件开发者大会在北京召开,北京中关村(000931)科金技术有限公司(以下简称“中关村科金”)受邀参加。期间,中关村科金智慧视频事业部总经理李超接受访谈,分享音视频中台建设的思路和挑战、音视频与AIGC融合的趋势等话题。

随着人工智能技术的快速成熟,实时音视频技术与应用也在不断完善。近年来,由于消费者的行为模式悄然转变,远程业务办理、线上服务、线上营销等需求愈发旺盛,音视频技术发展进程被不断推进。


(相关资料图)

李超表示,对于大中型银行而言,随着银行整体数字化转型的迫在眉睫,音视频业务的必要性越来越高。为了更好的赋能业务部门,部分银行的科技部门会主动探索音视频技术,建立一个可控、可重用、可持续化、灵活的音视频中台,深入各业务线优化其工作模式、服务方式等,以技术来驱动金融数字化。

中关村科金智慧视频团队推出了音视频中台系统解决方案,深度融入对话式AI技术,以多人音视频通话和低延时直播等应用系统为主导,构建了更灵活、更可靠、更全面的音视频中台,实现对企业内外部沟通全链路的全覆盖,解决内部各部门及员工的视频应用需求,从而大幅提升企业内部及上下游合作伙伴间的业务处理效率。

李超 中关村科金智慧视频事业部总经理

一、技术推动业务,助力银行业价值体系重构

对于商业银行来说,建设专属音视频中台而不是借助第三方音视频工具,能够有效确保系统和数据的安全,并可依托音视频工具作为载体开展业务,深入到企业价值创造的各个业务环节中,包括招聘、研发、销售、客服等。而高品质的融合通讯能力,有助于将现有业务、服务能力迁移至线上,实现业务线上化、智能化。具体而言:

合理规划音视频框架,实现多场景海量业务高并发。相比于单一的传统音视频互动平台,专属音视频框架在通过合理规划后,可采用前沿的技术框架,拓展性较强,方便多部门共用,实现多业务场景延展,并能承受海量业务的高并发,有效保障业务的稳定性。

融合多元化技术,实现服务智能化升级。基于商业银行需求打造的专属音视频中台,由于其自身的可拓展性,更加便于融合人工智能等前沿技术,在多元化的场景中加入虚拟数字人、智能客服、远程投顾等应用,实现实时互动、远程协作、智能化展业等要求,提升客户服务体验,增强业务办理效率。

前期统筹规划,实现整体运维降本增效。此外,在音视频框架建设初期开展科学的统筹规划,将运维监控等因素充分纳入考量范围,可有效降低运维成本,提升运维效率,保障银行业务的连续性。

当前,建设音视频中台的路径包括自主建设、采用传统的通用解决方案等。然而,由于银行的技术储备、可投入资源和运维能力的参差,从0开始自主建设一个音视频中台并不现实。同时,采用传统的通用解决方案亦存在着诸多挑战:音视频中台不仅需要满足业务部门之间、客户与银行之间、业务部门与技术部门之间多个层级的需求,对于背后的技术框架、高并发能力、灵活程度、可拓展性都提出了相当高的标准。

中关村科金音视频团队通过深度的行业理解与反复打磨,推出了一套更全面、融合性更高的银行专属音视频中台技术方案。如中关村科金在为某大型国有银行建设音视频中台时,通过全面提升音视频中台技术实力,深化与外部系统的协同能力,将音视频技术、AI能力和其他能力融合,规划完善的系统运维能力,达到降本增效、打通内外部业务壁垒的目标。

中关村科金智慧视频中台产品架构

构建统一的音视频中台确保业务场景可拓展性并支持高并发

协助搭建可供全行统一使用的音视频中台,使该银行在应对新增业务需求时,可以按需在封装层以组件形式通过 SDK、API 等接口进行功能调用。一个稳固健康的底座十分重要,是银行需要大力建设的部分,如果底座足够扛住高并发,那么银行就无需在每次搭建业务时再去考虑底座的健康性、稳定性等方面的问题,减少系统开发成本。

私有化部署有效保障数据安全和服务质量

区别于提前部署好的互联网云资源,银行音视频方面私有化部署相当于是空白的阶段,无论从端口申请、权限审核、包括跨区的访问、存储等问题,都必须要单独构建。中关村科金音视频中台通过提供私有化部署能力,为银行单独使用而构建,提供对数据、安全性和服务质量的最有效控制。数据不出内网,完全满足银行需蟆M笨梢杂胍延邢低车氖軦PI直接交互,来保障各业务的联动运营,不存在安全限制等问题。此外,不论是内部系统对接的扩展、以及业务个性化扩展,灵活性高,还可独享版本管理。

全链路实时监控实现后期运维降本增效

由于音视频是动态的,所以在监控方面必须能够实时发现问题,且及时处理,因此基于中关村科金音视频中台所具备的全链路监控功能,通过对音视频互动的全链路,以及接入节点、网络状态、时延状态、设备状态等内外部因素进行实时监控,帮助银行在音视频系统发生故障时能够对故障原因进行快速的判断与修复,显著提升后期运维效率,并降低运维成本。

多重技术融合提升业务办理效率和服务质量

利用人脸比对、活体检测、OCR识别等技术与音视频技术融合,形成具有AI能力的音视频中台,解决线下业务线上化的身份核实难、互动效率低等问题,更智慧地办理业务,创造“有温度、有深度、有广度“的线上业务场景。

中关村科金音视频中台除了覆盖保险远程双录、商户远程巡检、财富远程投顾、信用卡远程面签、三农信贷签约等多种场景外,也充分发挥了系统互通的能力,让各系统、各类业务高效简洁地协作,充分利用实时质检等应用能力,使得各业务办理场景在满足金融服务合规要求的前提下,极大提升了线上业务能力与效率。

自研AI智慧双录能力

二、“1+N”创新模式,打好直播技术攻坚战

中关村科金的音视频中台在设计之初就秉承着“1+N”的创新模式,使其在技术底座能力不变的基础上,中台组件既能独立又能够合并,高度可扩展。其中,多人音视频通话能力支持双录、远程面签等线上办理的业务场景,银行通过搭建视频中台来支持用户的实时音视频交流;基于音视频中台构建的直播平台使用场景主要在于售前和营销等场景,面向的是更多客户对于音视频信息的接收与互动。

中关村科金视频营销全链路解决方案

区别于常规的企业直播,银行直播过程中可能会涉及一些金融政策、金融数据、行情分析等内容,需要非常高的安全性和保密性,因此对直播的平台、设备都有一定的要求。

中关村科金团队通过深度调研银行业应用直播的目的后,发现大多数银行希望通过直播这种小而轻、集中化的触达方式丰富营销拓展模式,增加受众提升转化,降低获客成本和客户流失率,提升用户数据利用率,以便更好地经营私域流量,提升业务办理效率。

中关村科金一站式直播服务解决方案

越大的系统周期越长,无论是决策周期还是系统建设周期,有的甚至需要耗时一年,而银行需要能够局部、快速上线并使用的直播系统。这种快速上线的直播系统在技术架构、保持通用化、支持对接行方系统的灵活性、不破坏产品形态等方面存在着诸多挑战,同时需要面对银行技术环境复杂、培训流程繁琐、实时审核要求高、运营商故障因素、服务器故障访问异常、网络/磁盘IO压力大等问题。

举个例子,在部署方面,银行对安全要求很高,会划分出多个内部的区域,区域之间不能直接互通,必须走代理方式。但代理转发音视频数据会造成大量的内部带宽占用,多层区域转发更不可行。为此,中关村科金把音视频传输服务拿到了K8s外,部署到外层的区域。由于音视频数据流都是基于UDP端口,会暴露公网IP地址,中关村科金还会考虑更多的安全策略;音视频中台的其它部分,部署在内部的区域,通过代理方式访问,包括Redis等中间件;混流服务也在K8s内的容器内,中关村科金发现对于大数据量的音视频,K8s内的代理转换有性能问题,也是进行了专项的优化。

在功能方面,中关村科金采用的是SFU传输模型,用于支持高并发传输;在音视频处理上,可支持万路视频混流,并可自定义混流模板;除音视频的相关功能外,还提供智能播报、白板画笔、屏幕共享、虚拟背景、远程协助、即时消息等多种互动能力;为了应对国产化节奏,音视频中台支持信创环境和国密;同时在断网重连机制,优化QoS抗网弱,编解码,多端适配和优化等多方面都有改进。

在存储方面,中关村科金采用的是分布式存储,并且需要保证几个备份,对于文件的动态管理来说就会变得很复杂。常规的磁盘存储不能满足大量实时音视频的要求,标准的分布式存储也并不是专门为大文件而设计的,粒度过小会产生大量的网络请求,操作系统核心层面需要调整,为此中关村科金做了很多优化,如调整缓存策略,采用冷热存储等。

中关村科金音视频中台的解决方案中,除了高并发、高可用、动态扩缩容等技术保障外,还支持了“双中心双活”和“两地三中心”两种解决方案。双中心双活方案可以实现当两个机房同时工作时,其中一个线路机房挂掉后可以动态切换到另一个机房去继续工作,同时要保证同一个房间里的用户都落在一个机房里,来保证双中心双活的策略;两地三中心是指在两个城市部署三个业务处理中心,即:生产中心、同城容灾中心、异地容灾中心,以此最大程度保证业务的连续运行。在基础音视频能力上进行灵活扩展,叠加AI、虚拟人、云计算等能力,实现了一对多的灵活对接。“1+N”的创新服务模式,使得各业务线无需再投入技术研发成本,只需专注精细化设计各自的业务能力,打造更加精细化的“技术+业务”的服务体系。

三、技术厂商需重视互动性,音视频+AI是趋势

从图文到视频,音视频产业跨越了传统的单点接收屏障,通过直播和互动的方式无限地接近人们。多元的算力、云原生、AI等能力与音视频的不断融合,推动着音视频厂商不断增强互动性,在低延迟、编解码、硬件结合等方面优化。

而AIGC、数字人的兴起,也证明了实时音视频与AI的深度融合的确能够带来更深层次的提升。对于直播这种强交互形式,工具+运营+内容缺一不可,而企业最缺乏的是内容和运营,数字人+AIGC恰好可以弥补,如主播助手,弹幕机器人,虚拟主播等。李超表示,中关村科金目前正在围绕对话式AI、实时音视频、数字人,结合前沿的AIGC等技术对这种虚实结合的实时互动进行探索,通过机器人智能实现文本、图片、音视频等多模态高质量内容的自动生成,以数字人为呈现形式,依托视频+直播的方式与用户进行互动。

中关村科金虚实结合实时互动解决方案

以数字人为例,在直播过程中使用数字人主播可以弥补真人主播的时间精力有限、人员流动性大等问题。数字人主播可以做到24小时全天候直播,保持永不疲惫的状态。因此,中关村科金在原有音视频能力平台的基础上,以多模态人机交互为核心,融合ASR、TTS、NLP等多项AI能力,打造了数字人主播。通过深度学习,数字人可以更自然的和真人交互。比如数字人主播在介绍产品同时还会不定时的与用户进行互动,帮助企业吸引新用户群体,拉近与用户的距离。

对于音视频技术发展的展望,李超坦言:未来,实时音视频将成为连接虚拟世界和现实世界、内容生产和消费的桥梁,在技术方面,将会强调更高要求的实时性和沉浸性。而通过数字人视频、数字人直播等形式,企业能够以更丰富、更轻松的形式获客和承载业务,绽放更多的想象力和可能性,对于提升业务价值来说是一个强有力的推手。

(免责声明:此文内容为广告,相关素材由广告主提供,广告主对本广告内容的真实性负责。本网发布目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,请自行核实相关内容。广告内容仅供读者参考。)

推荐内容