前言
本篇文章所讲的语音聊天接口,特指语音聊天API,通过接入API,在APP、小程序、Web、物联网设备等应用上实现一对一、多对多的实时音频通话、语音直播、语音会议和语音对讲等场景。
目前市面上提供语音聊天接口(API)的企业有很多,云厂商像阿里云、腾讯云、华为云、百度云、金山云、七牛云等所有云商基本都有对应的服务。PaaS类厂商声网、ZEGO即构科技、网易云信、融云等。
语音聊天接口具备哪些功能
这里以实时互动PaaS厂商的代表企业ZEGO即构科技为例,看下其语音API有哪些功能。
基础功能
主要功能 | 功能描述 | 业务场景 |
---|---|---|
音频通话 | 用户加入同一个房间,并进行音频通话。 | 1v1 语音通话 多人语音会议 |
音频直播 | 同一个房间,包含主播及观众,主播可以进行音频直播,该房间内的观众可以收听直播。 | 情感 FM 语聊房 |
通话前检测 | 在进行音频通话或直播前,对麦克风、扬声器等进行设备检测,确保通话或直播的正常运行。 | 正常的通话功能检测 |
音频质量检测 | 对音频的质量进行检测,如码率、采样率等多指标检测,确保质量稳定。 | 银行开户、远程鉴定等对音频质量较高要求和限定的场景 |
混流 | 把多人的多路音频流混流为一路流,从而只需要拉取一条流就能听到房间内所有成员的声音。 | 多人通话主播连麦 |
CDN 直播 | 统一接入多家CDN能力 ,该功能支持推流到CDN,打通 RTC 产品和 CDN 直播产品,方便用户从网页或第三方播放器直接观看直播内容。 | 高并发的基础直播、对直播延迟无强要求的场景 |
媒体播放器 | 提供播放音频媒体文件的能力,并且支持将播放的媒体文件的音频数据推流出去。 | 播放测试音频 播放背景音乐播放音频文件 |
音效播放器 | 提供音效播放器,并进行音效统一管理,实现增强真实感或者烘托场景氛围播放的简短效果音的播放控制等效果。 | 秀场直播 游戏娱乐 |
房间实时消息 | 实时消息主要提供纯文本消息的收发功能,可向同一房间内的其他用户发送广播消息和弹幕消息,或者对某些指定用户发送自定义消息,并可以根据需要自行实现点赞、送礼物、答题等互动功能。 | 秀场直播 语聊房 |
用户权限控制 | 对用户进行权限控制,如:指定用户可以进房/退房;指定用户发言/静音;指定用户。 | 语音会议 |
进阶功能
主要功能 | 功能描述 | 业务场景 |
---|---|---|
直播连麦 | 一个房间内,可以出现多个主播,进行同屏连麦直播。 | 多主播不同地区连麦 多人 KTV 合唱多人连麦直播 |
登录多房间 | 一个用户可以同时进入多个房间进行音频通话或观看直播。 | 老师多班在线教学 |
同时推送多路流 | 一个用户可以同时推多路音频流,如分享设备声音的同时,采集麦克风的声音进行发送。 | 情感电台 |
通过 URL 拉流 | 当推流端使用第三方推流工具(例如 OBS 软件、网络摄像头 IP Camera 等)将流推到 CDN 时,或通过使用 ZEGO SDK 转推 CDN 功能将音频流推送到第三方 CDN 上时,可使用直接传入 URL 地址的方式进行拉流。 | 第三方直播画面获取 |
音视频录制 | 在进行视频通话、直播、在线教学时,用户经常需要将视频录制保存下来,方便后续其他用户点播观看。ZEGO 提供了多种录制方案,满足不同场景下的录制需求。 | 会议录制 直播录制通话录制在线课堂录制 |
媒体补充增强信息 | 文本信息与音频内容打包在一起通过流媒体通道进行传输,以此实现文本数据与音频内容的精准同步的目的。 | 远端歌词同步 直播答题 |
音频频谱与声浪 | 音频频谱:即数字音频信号在各频点的能量值。 声浪:即某条流音量的大小。 | 判断麦上的用户谁在说话、麦克风、扬声器等是否可用 音频频谱动画展示等 |
耳返 | 耳机采集监听,在设备上插入耳机(普通耳机或蓝牙耳机)后,能从本机耳机侧听到本设备麦克风采集的声音。 | 秀场直播 情感 FM 音乐教学等较为专业场景 |
原始音频数据获取 | 获取原始音频录制的功能,获取的原始音频数据格式为 PCM。 | 音频数据留存或特殊处理 |
自定义音频采集 | 开发者可以自行获取音频信息后,交给 SDK 进行传输。 | 在线或本地音频文件传输 定制采集系统的音频文件进行传输 |
自定义音频前处理 | 开发者可以自行进行音频特殊处理。 | 有 SDK 无法满足的特殊的声音处理需求时,如特殊变声 |
自定义音频渲染 | 音频的由开发者自行渲染后进行播放。 | 开发者有自己的特殊渲染需求 |
音频流加密 | 推流时对流进行加密,拉流时必须有与加密密钥一致的解密密钥。 | 需要加密流信息以保护通信安全的场景 |
特色功能
主要功能 | 功能描述 | 业务场景 |
---|---|---|
万人范围音视频 | ZEGO 拥有业内领先技术,根据云端用户位置自动拉取收听范围内的远端音视频并提供空间音效(默认拉取距离最近的12路),单场景内支持 1 万个用户同时开启麦克风及摄像头。 | 虚拟办公、虚拟会展、开放虚拟世界等虚拟场景 |
多人状态实时同步 | ZEGO 拥有业内领先技术,提供有序、高频、低延时、大规模的状态同步服务,帮助开发者快速实现虚拟玩法中玩家的位置、动作、形象等实时信息同步能力,同时单场景中支持 1 万个用户同时在线。 | 虚拟办公、虚拟会展、虚拟社交、虚拟 KTV 等元宇宙场景,及需要超高频、低延时、大规模同步信息或控制指令的通用场景 |
场景化 AI 降噪 | 实时自动识别不同场景,智能调整 AI 降噪策略提供最佳的降噪及音质效果。 通话场景下将除人声外的所有声音识别为噪音并进行消除。 音乐场景下自动调整降噪效果还原音乐音质。 | 语音房、会议、语音开黑等 1v1 或多人音视频通话场景,以及声卡、弹唱、近场音乐的直播或者在线 KTV 场景 |
游戏语音 | 模仿真实世界,人根据声音的方位及距离等因素,从而有不同的听觉感受,例如距离越远,声音越小等。同时可以对能接收到音源的人进行分组限定,例如房间中,分组进行讨论,不同组听不到彼此声音等。 | 元宇宙 同一房间,分组交流或对战 |
美声 | 通过优化音色,使声音的音色更加优美动听,如低沉、假声、清澈等。 | 秀场直播 情感 FM 音乐教学 |
变声 | 通过改变用户的音调,使输出的声音在感官上与原始声音不同。如男声变女声、机器人音效、外国人音效等。 | 匿名社交 游戏娱乐 角色扮演 |
空间塑造 | 模仿某一类空间带来的特殊的听觉效果,如 KTV、大会堂等。 | 秀场直播 游戏娱乐 |
音频 3A 处理 | 在实时音视频通话或直播时,可以对音频进行 3A 处理,以提高通话或直播质量和用户体验。AEC(回声消除):对采集到的音频数据进行过滤以减少音频中的回声。AGC(自动增益控制):开启该功能后,SDK 能够自动调节麦克风音量,适应远近拾音,保持音量稳定。ANS(降噪):识别声音中的背景噪声并进行消除,开启该功能后可以使人声更加清晰。 | 所有希望有高质量实时音视频服务的场景 |
流量控制 | ZEGO 业内领先技术。SDK 根据自己以及对端当前网络环境状态来动态调整音频码率,自动适应当前网络环境及网络波动,从而保证音频能流畅发布。 | 所有希望有高质量实时音频服务的场景 |
低延迟直播 | 专注于提供稳定可靠的直播服务。相比于标准视频直播产品,音画延迟更低,同步性更强,弱网抗性更好,能为用户带来毫秒级的直播体验。 | 在线教育、秀场直播、电商直播、一起看、在线拍卖 |
网络测速 | 可在用户进行推/拉流前,检测上行和下行网络速度,判断当前网络环境下适合推/拉多大码率的音视频流。 | 通话场景、教育场景、直播场景 |
以上罗列的功能非常多,官方文档显示可以为开发者提供 4 行代码全平台极速接入音频服务的能力,让开发者在 30 分钟内构建出拥有完美音频体验的产品和服务,每月免费10000分钟,有兴趣的朋友可以去测试一下。
本文为原创稿件,版权归作者所有,如需转载,请注明出处:https://www.nxrte.com/jishu/yinshipin/6176.html