-
如何降低AI对话开发成本及部署AI对话开发应用?
AI对话开发的成本控制,从来不是“砍掉某项开支”那么简单,而是“在体验、性能和成本之间找到最优平衡”的系统工程。
-
FurGPT 扩展了用于实时交互的 AI 代理生态系统
去中心化 AI 数字伴侣平台 FurGPT 扩展了其 AI 代理生态系统,以支持在去中心化区块链网络上实现更快速响应和更具适应性的实时交互。此次扩展增强了该平台的基础设施,使其能够…
-
微软 Build 2026 大会凸显对话式 AI 的新阶段
在今年的微软Build开发者大会上,该公司发布了两款全新的语音模型,凸显了对话式 AI 基础技术的快速发展。其中就包括微软最新的语音转文本模型 MAI-Transcribe-1.5…
-
AdaCodec:一种适用于 AI 生成视频的编解码器
AI 推理的实际成本正为当前 AI 革命的迅猛势头注入一剂清醒剂,人们对优化机器学习成本的关注度也随之提升。除了将 AI 引入企业内部的潜力以及私有 AI 的普遍兴起之外,那些对 …
-
预测:菲律宾移动服务收入到2030年将超过50亿美元
据智能和生产力平台GlobalData预测,菲律宾移动服务总收入将以4.6%的复合年增长率(CAGR)从2025年的40亿美元(34亿欧元)增长到2030年的50亿美元以上。这一增…
-
研究:世界杯期间球迷最担心的技术难题
英国球迷正摩拳擦掌,准备迎接一个精彩纷呈的夏季足球盛宴。据英国本土四大足球协会(Home Nations Football Associations)的主要合作伙伴 EE 公司的一…
-
流媒体的未来:要么拿出保证,要么我不买账
流媒体已经赢得了观众,现在它需要赢得广告支出。 流媒体正在开启一种截然不同的优质视频购买方式。每次播放内容,都会留下观看记录,包括观看内容、观看时间和观看时长。这些数据精确到秒,涵…
-
Bitmovin 和 Akamai 携手为 NRJ 注入新活力
Bitmovin 和 Akamai 公布了与 NRJ 集团合作的细节,支持其将移动和网络流媒体服务迁移到 Akamai Adaptive Media Player 2 (AMP2)…
-
Miso Labs发布MisoTTS:一款拥有开放权重的80亿情感文本转语音模型
Miso Labs 发布了 MisoTTS,这是一款开放权重、拥有 80 亿参数的文本转语音模型。它能够根据文本和音频上下文生成富有表现力的语音。该模型采用残差矢量量化 (RVQ)…
-
为什么中端市场买家正在重新思考他们的 UCaaS 策略
中型企业正在重新思考其通信平台战略,并将集成、运营效率和合规性放在首位。这些公司处于独特的购买地位,既拥有小型企业的灵活性,又兼具大型企业的复杂性。 中型企业采用统一通信 ( UC…
-
英国通信管理局(Ofcom)制定人工智能战略,相关研究正在进行中
英国通信管理局 (Ofcom) 发布了其更新后的人工智能战略方针,阐述了其计划如何支持整个通信行业采用人工智能,同时应对消费者面临的新兴风险。 监管机构表示,将继续对人工智能采取技…
-
Crown Engine 0.63 恢复了其 OpenGL 渲染器,以支持旧版硬件
虽然不如 Godot 或 O3DE 等开源游戏引擎那样广为人知,但 Crown Engine 作为一款基于 C++ 的开源游戏引擎,仍在不断发展。 Crown 0.63 新增了 L…
-
机器视觉压缩的三种途径:VCM、FCM 和 V-Nova 通配符
视频内容正越来越多地被专门或主要用于机器分析,典型应用场景包括监控摄像、自动驾驶、工业检测及无人机航拍等。H.264 与 HEVC 等传统编解码标准以人类视觉感知为优化目标,而非机…
-
Ubuntu 计划为所有文本字段添加 AI 语音输入功能
有没有想过直接对着文本框说话而不是打字?Ubuntu 26.10 能听到你的心声,而且是字面意义上的“听到”。 Canonical 的工程副总裁 Jon Seager 在 Ubun…
-
Modulate 为企业用户扩展 Velma 平台,引入原生语音实时对话智能
2026年6月3日,对话式语音智能公司 Modulate 通过其开发者 API 发布了旗舰产品 Velma 模型。此前该模型仅限企业用户使用,现在任何开发者都可以访问并部署这款领先…
-
规模化架构:如何将视频会议从单服务器扩展到高可用系统
扩展视频会议是一个真正困难问题。本文拟将学习如何构建一个在饱和发生前就能做出反应的自适应扩展循环,以及如何通过准入规则在流量突增时保护通话质量。
-
SecureConf 发布可完全定制品牌的网络会议平台
SecureConf 近日宣布,在OpenAI Codex的协助下,其原有的基于Flash的网络会议平台已成功升级为基于浏览器的WebRTC应用程序。 SecureConf 最初旨…
-
在服务端用 Pion + FFmpeg + RNN 做 WebRTC 通话降噪
WebRTC 服务端音频降噪实验应该先从一个很小的验证目标开始。Go 媒体服务能不能用 Pion 收到 Opus 音频,解码成 PCM,再交给 FFmpeg 的 RNN 降噪滤镜处理,并生成可验证的输出。
-
NiCE、Capgemini 和Route 101完成一项价值5亿英镑的交易,旨在实现英国税务海关总署客户服务的现代化
NiCE、Capgemini 和 Route 101 签署了一份价值 5 亿英镑(约合 6.79 亿美元)的合同,旨在实现英国税务机关 HMRC 客户服务运营的现代化。 为此,合作…
-
Google DeepMind 发布 Gemma 4 12B:一款无需编码器的多模态模型,支持原生音频
Google DeepMind 刚刚发布了Gemma 4 12B,这是一个完全摒弃传统编码器的密集型多模态模型。视觉和音频数据直接输入到 LLM 主干网。最终生成的模型可以在配备 …