前几天,思科刚刚在Webexone 23大会发布了Webex 新的视频会议解决方案。思科花费几天时间和客户宣讲其新产品Webex的五大卖点,和呼叫中心的热点功能,特别是基于AI驱动的新功能。这些最新的功能展示给笔者留下了比较深的印象,隔着屏幕都能感觉到AI的力量。另外,回顾前几年几个大厂的基于音视频企业方案的各种眼花缭乱产品发布,笔者从这些密集的产品宣传和活动中感觉到了企业音视频产品升级的紧迫性。现在呈现的状态是新业态的产品竞争或者基于AI的产品竞争已经启动,产品需要适应视频会议,协同办公等用户服务市场的需求。
此图例和以下图例均来自于互联网资源
如果我们回顾这几年音视频企业解决方案的话,在疫情期间,包括后疫情的最近几年,特别是AI的蓬勃发展,给企业音视频解决方案的增加了新的亮点。以AI驱动的产品已经开始融入到了企业办公领域,为智慧企业,数字化转型带来了新的商机。从产品的发展轨迹来看,笔者总结为EC-3.0时代。这里的E表示企业(enterprise),C表示音视频通信(communication/collaboration)。EC-3.0时代具体划分为,是企业音视频解决方案总称,是从基本的语音视频功能服务为基础的IPPBX,视频会议,到功能和业务的强融合,再到现在的强业务融合基础上的以AI驱动的产品升级。这三个不同阶段代表着从1.0版本,到2.0版本以及3.0版本的革新。这一变革体现在了基于音视频的终端产品,语音的企业IPPBX,SBC,到视频会议平台。下面,笔者通过三大产品系列主线结合几个厂家的典型产品和大家分享这三个阶段的演进历程。
根据以上EC-3.0阶段版本的划分归类,我们再详细说明关于EC-3.0终端的三阶段演讲,结合目前市场上比较典型的产品案例来帮助客户更好理解这些细节内容。当然,技术在不断进步,用户需求也在不断优化,可能在不久未来,出现EC-X的阶段。我们从现在为起点,尽可能在我们有限的知识认知内把当前的形态了解地更清楚一点,帮助我们能够更好地丰富我们的产品和服务用户。
说明:笔者无意针对通信服务器端具体业务功能进行过于详细的说明。
关于企业音视频终端EC-3.0的演进说明
终端是需要配合服务器端才能使用的,而且是企业用户需要天天频繁使用的通信工具。终端,软电话,视频会议终端,智能会议室终端等。EC-3.0三个阶段必须是依次递进的,不能直接跳跃到AI时代。因为AI的数据来源于业务数据,业务数据来源于功能数据的实现。
1.0 版本: 支持基础的音视频功能,例如视频会议,语音呼叫中的互联互通,电话转接,DTMF按键,视频会议管理等基础功能。多年前传统语音交换机和IPPBX早期支持的功能。当前比较基础的视频会议所支持的视频互动基础功能。根据笔者观察,目前大概有大部分的软电话或者软终端仍然处于1.0版本,市场上很多的第三方软电话,开源软电话都处于这个阶段,它们缺乏业务功能支持和移动性支持。如果读者有兴趣的话,可以阅读以下链接获得开源软电话的资源信息。除了软电话或者软终端以外,用户还使用SIP物理终端作为终端呼叫工具。
2.0 版本:集成了第三方业务或者企业行业业务功能,企业流程处理,公司业务文档处理,实时文本传输,内容优化处理等。根据笔者观察,目前大概有少部分的企业级终端处于2.0阶段版本。此类终端基于业务定制支持或者第三方SDK支持,但是仍然缺乏强业务绑定,缺乏协同能力,业务支撑能力相对比较弱,缺乏稳定性支持,AI支持能力相对比较弱。个别行业终端需要深度和业务系统进行关联绑定。以下是在紧急指挥调度系统中支持基本呼叫基于强业务能力绑定的软终端。
3.0 版本:在基础功能的基础上,支持了比较丰富的业务流程操作,并且支持更好的用户体验。此阶段涉及到了终端,会议现场空间的体验,各种通信终端的体验。根据笔者观察,目前大概有极少部分的企业级终端处于3.0版本。此类终端基于业务定制支持或者第三方SDK支持,支持强业务绑定,支持协同能力。用户体验包括了和业务流程的无缝对接操作,用户音视频同时实时互动时互相不干扰,实时多语种语音文本的翻译,视频行业同步语音文本,实时感知会议人员现场状态,例如离开现场返回后的信息补充等等,比较典型的是avaya客户端。用户体验还包括终端支持形态的多样性包括界面操作,物理形态等。以下是yealink为了配合高品质会议用户体验开发的各种会议终端产品。
yealink各种会议室终端产品丰富用户体验
关于企业音视频服务器端的EC-3.0的演进说明
在现在的服务器端功能或者底层技术演讲中,我们不得不面对人工智能带来的商业机会,客户也同样需要最新的技术来提高其生产效率。终端的友好体验绝大部分来自于服务器端的支持,因此服务器端的功能实现显得非常重要。人工智能的技术演化也影响着服务器端的功能丰富性。笔者通过以下分享的数据说明AI和企业业务包括呼叫中心语音市场的相关性来说明AI能力和业务集成的业务操作。
基于AI的语音技术成熟度曲线
中国智能语音发展4个阶段
以上是中国智能语音发展的四个阶段,服务器端系统需要依赖于每个阶段的技术积累来打造直接的平台底座。另外,因为服务器端的接入的灵活性要求,需要支持当前市场主流智能语音平台。
金融行业的呼叫中心是利用AI智能语音接入最多的行业,我们可以通过以下图例看到当前金融行业呼叫中心和智能语音的整合情况。这是一种非常典型的基于AI的强业务用户场景。业务流程数据通过AI完成处理流程,降低人工干预的可能性。
我们再拿金融行业的解决方案作为背景说明。因为需要支持海量数据,实时互动的高效业务流程,在金融行业的解决方案中已经大量使用了AI的服务。以下是智能终端和服务器端基于AI的强业务框架。
另外,服务器端要求支持更多的协同功能,包括功能协同,媒体渠道协同,业务流程和数据存储的协同。
1.0 版本:支持基本的语音视频功能,包括复杂电话系统视频会议的管理功能。我们企业通信中比较常见的有硬件设备类型的IPPBX,UC或者目前的一些基础视频会议协同。根据笔者观察,1.0阶段版本的产品仍然在市场有比较大的需求量,可能占据了市场大部分的份额。但是用户群体基本上是缺乏业务集成需求的中小型企业,仅实现语音电话呼叫和视频会议基本功能。有基本的终端软电话支持,能够在内网环境或者限定的网络环境中实现语音视频功能,有支持非常基础的业务能力,例如,简单的CRM对接,计费系统对接。开源视频会议jitsi基本上属于1.0阶段,具备终端服务器端会议功能支持,但是缺少基于服务的多种功能支持,也缺少AI能力支持。当然,官方给出了API接口支持AI能力,但是目前还没有看到完整的产品呈现。
2.0 版本:在基于稳定的1.0阶段的语音视频功能的基础上,实现了终端,业务流程操作和简单AI的集成。企业融合通信系统逐渐递进为协同平台,实现强业务能力集成,业务流程的管理控制,多终端渠道融合和AI文本语音的交互支持。2.0阶段的服务器端产品在目前的市场上占比比较低,很多2.0阶段的产品仍然缺乏强大的协同能力,业务支持基本满足用户需求,但是还没有真正释放AI的能力。
3.0 版本:在2.0阶段的稳定的基础上,实现了协同工具的无缝融合,并且AI的高级功能,并且通过AI实现了管理人员决策,数据分析和AI助手,通过AI技术增加了高友好的用户体验。目前,市场上仅为数不多的几个大厂具备了这样的能力,例如genesys的呼叫中心。它们的产品已经进入到了3.0阶段,在AI的战场开始发力,算力才是正在的杀手锏。在进入音视频产品的3.0阶段后,某些国际大厂这方面的投入和成果非常明显。这里,我们先从IP网络进入核心组件SBC说起。
因为SBC部署在网络边缘,SBC需要实时面对大量的数据,人工处理或者我们通过自有程序很难完整解析出各种安全问题,利用AI智能算法防止DDoS攻击,智能检测非法入侵,语音质量动态检测需要通过第三方AI检测工具来支持。目前,奥科,ribbon已经支持了AI工具模块。
视频会议方面很多市场上的头部企业已经进入了3.0拼杀的战场。毕竟这些公司具备强大的研发和市场能力,对用户体验都非常关注,例如微软,Google,ZOOM和思科等。
现在我们借思科的Webex来进一步解释3.0 阶段的针对企业音视频产品的AI赋能。思科在Webex one 23重磅发布了Webex的新视频会议解决方案。新视频会议已经实现了业务逻辑和操作流程的强兼容,保证了良好的用户体验,同时利用强大的研发能力,开发出了自有的杀手锏技术,抬高了技术壁垒。
思科最新发布的Webex视频会议的五大亮点值得我们关注,包括LLM和RMM人工智能AI模块,AI助手,基于AI的音视频弱网环境中高清语音和防丢包机制,视频图像接收方二次放大和呼叫中心私人号码和业务号码的呼叫支持。现在,我们分别就这五个亮点技术和大家进行分享。
思科首次支持了创新性技术LLM(语言智能工具)和RMM(实时媒体模块)模块技术,对文本和其它通信信号,视频,表情包,语音的模型对文本处理双向处理。同时,思科的AI平台考虑了平台接入的复杂性,同时支持思科AI,企业自有AI业务平台和第三方接入的灵活性支持,通过AI hub来维护AI的多样性支持,保证AI数据的同步。
AI助手赋能的实时活动消息存储。如果会议中的一个人暂时离开,然后返回,AI助手会自动关闭屏幕,然后开启屏幕,并且把会议离开期间的文字返回给离开的人。确保能够文字获得会议的内容。
思科和微软,Google对音视频的处理方式有所不同。经过思科几年的研发,通过AI算法获得的突破性的语音编码支持,在酒店或者其它地方网络连接比较差的环境中,导致丢包等问题,思科给出了非常具有创新性的解决方案,并且保证良好的语音质量。
发布了新的语音传输容灾备份处理机制和通过AI重新生成新的语音数据包机制,如果出现网络环境导致的数据包丢失,对端收到数据后重新打包数据。并且数据发送支持了备份功能,如果在网络传输中存在一定的数据包丢失,传输时会根据备份的帧数据重新补偿这个丢包,到接收方以后还可以通过AI语音生成工具对语音进行修补,最终实现高清语音传输。
思科视频会议支持了发送方和接收方视频会议图像发送的二次放大技术。图像通过网络传输时压缩为270p, 到接收方播放时放大为1080p, 降低了网络传输数据包size,而且充分满足了接收方的用户体验。
发送端为720p | 网络压缩为270p | 接收端为1080p |
Webex的呼叫中心对业务能力和用户使用习惯支持了新的呼叫模式。在语音呼叫中心业务的扩展,一个终端设备可以使用两个呼叫号码,私人号码和webex go 号码呼叫,webex go负责通过业务号码呼叫客户。
关于EC-3.0实现所面临的10个挑战和陷阱
企业通信的基础功能,业务和AI必须是依次推进。首先实现稳定的功能,然后根据基础功能实现业务功能的绑定,最后根据业务功能数据通过AI实现智慧赋能。很多企业实现不了第一阶段到第二阶段的跨越,最终被用户和市场淘汰。
目前,很多企业在音视频方案中都在跑步进入3.0阶段。进入到新的产品服务阶段,可能需要很多挑战和陷阱,特别是针对目前AI服务能力参差不齐的时候,成熟度等问题,用户要特别注意。在数据安全方面,最近发布的《数据安全治理白皮书 5.0》中也反复明确大数据环境的数据滥用的风险。
另外,AI智能语音涉及了外部环境,社会、技术、经济、环境和政治等影响,对AI语音技术存在的风险和不确定性也是企业用户在对AI赋能企业业务存在的顾虑。
来自于德勤咨询报告
综合以上各种因素,笔者提出了企业音视频产品在进入到3.0阶段需要面临的十个挑战:
-
避免下弯道超车,目前很多产品目前仍然处于1.0阶段,为了满足用户所谓的AI功能,厂家都直接想弯道超车,集成AI功能。事实上,如果没有成熟的基础功能和比较成熟的业务能力支持,AI功能基本上就是一个摆设,用户不可能充分使用这些新的功能。
-
缺乏准确的对用户需求和公司资源的匹配度的认知。公司技术资源不能完全支持AI能力部署。
-
AI数据的算法实现以及输出结果匹配,例如,通过AI防止攻击,数据预料的处理,因为不能保证所有AI接口的同步,需要提供灵活的支持
-
目前面临的AI的标准化和局限性问题,只能支持某些特定语言,文字和资源。全球AI厂家很多,特别是涉及到某些敏感行业,某个地区的AI产品无国际规范的支持,因此其部署使用存在一定的不确定性和局限性。
-
数据安全隐私的不确定性,AI的数据安全,每个不同国家可能有不同的数据安全规范,例如国内刚刚发布的《中华人民共和国数据安全法》。用户部署时需要符合相关的安全法律法规。
-
业务的透明度和可信度:和安全是相同的,如何保证客户的业务数据的透明性是解决方案提供商面临的挑战。
-
用户需要的算力成本,算力成本是AI使用的另外一个顾虑,是否提供一个规范标准的计算方式,让用户可以确认未来部署AI的预算。因此,AI部署必须是可计算,可预估的。
-
AI引擎的本地化,第三方支持和业务定制出现的稳定性和扩展性的问题,以及切换AI平台可能导致的计算结果不一致的问题。
-
业务加AI的理解,服务提供商必须充分熟悉业务层面的操作处理流程,然后通过AI对业务流程赋能才能实现AI效果的最大化。
-
服务能力:因为很多音视频厂家的产品对接AI支持存在很多的不确定性以及为了AI能力升级出现的风险,所以企业集成商或者服务提供商需要具备一定的AI的维护和服务能力;否则AI能力会受到影响。
总结
Webexone 23虽然已经落幕,但是给用户和竞争对手留下了无限的遐想。在本次大会以后,笔者结合多年对产品市场的观察,汇总了企业音视频发展的3个阶段。虽然没有经过完整的大量数据调查,但是通过常识和个人经验积累为大家分享了一些行业产品的特点和趋势需求。
客观地说,因为用户需求的变化和AI赋能,如果企业音视频厂家的产品仍然停留在1.0阶段的话,其产品生命周期可能已经结束,客户几乎已经判了这些产品的死刑,只是等待执行。一些处于2.0阶段的产品存在升级的要求,必须面对用户的业务要求做升级同时兼顾业务能力的稳定性才能存活下来。在3.0阶段的企业音视频厂家同样需要面临AI部署的挑战,你赢还是AI赢?思科发布新webex的最近两天,我们仅看到了思科股票稍微上扬,没有太多的市场预期。视频会议解决方案是否给思科带来新的业务增长,将来怎么样?我们不知道。
另外,笔者针对企业音视频服务在3.0阶段可能遇到的10个挑战和陷阱做了分享,帮助解释了用户在AI数字化转型过程中的问题。
无论如何,AI的时代已经到来,企业音视频产品的3.0-AI阶段已经开始。我们已经隐隐约约听到了AI叩响了企业数字化的大门,拥抱AI,通过AI对企业管理进行赋能,才能不会让AI时代淘汰。
获得关于SIP/IP语音相关技术分享-加入“SIP实验室技术分享群“-QQ号-589995817
作者:james.zhu
来源:SIP实验室
原文:https://mp.weixin.qq.com/s/2DwDDk9T8ZePkJZBb0rGJA
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。