大厂Animal认证作者
-
语音生成大模型CosyVoice升级2.0版本 | 开源更新
CosyVoice是阿里巴巴通义实验室语音团队于今年7月份开源的语音生成大模型,依托大模型技术,实现自然流畅的语音生成体验。与传统语音生成技术相比,CosyVoice具有韵律自然、…
-
MQ消息乱序问题解析与实战解决方案
1. 背景 在分布式系统中,消息队列(MQ)是实现系统解耦、异步通信的重要工具。然而,MQ消费时出现的消息乱序问题,经常会对业务逻辑的正确执行和系统稳定性产生不良影响。本文将详细探…
-
3D直播观赛的背后:2D转3D技术
写在前面:随着技术的不断进步和创新,人们对于视听体验的需求也在不断提升。通过将平面视频转变为3D视频,观赏者能够沉浸于更加立体、生动的视听世界中,享受到更加真实、逼真的观赏体验。随…
-
火山引擎veImageX助力谱时智能云深耕照片直播赛道
照片直播作为一种新兴的影像传播方式,正在逐渐改变人们记录和分享美好瞬间的方式。无论是个人活动、婚礼庆典,还是企业会议、产品发布,照片直播都能实时记录并分享每一个精彩瞬间,共享美好时…
-
通义语音处理技术ClearerVoice-Studio
随着语音技术的普及,语音质量已成为人们关注的焦点。环境噪声、混响、设备拾音等问题,常常使语音质量和可懂度大打折扣。无论是录制清晰语音却因周围环境嘈杂充满噪声,还是在地铁、餐厅等喧闹…
-
对齐人类主观偏好的图像质量评价方法 | 火山引擎论文入选国际会议ACM MM’24
2024年10月28日至11月1日,ACM Multimedia(ACM MM) 2024在澳大利亚墨尔本召开,该会议是中国计算机学会(CCF)推荐的多媒体领域的A类国际学术会议。…
-
哔哩哔哩客服坐席调度系统的演进
本文详细探讨了哔哩哔哩客服坐席调度系统的演进,特别是在线客服和工单客服的调度策略。随着客户需求的增加,尤其是在大型活动期间,客服系统面临着突发的高流量和复杂的客户问题。为了提高服务…
-
B站直播S14保障全解析:高效保障技术实践
在高并发、大流量的互联网时代,如何在大型活动期间保障系统的稳定性和用户的流畅体验,是每个技术团队都面临的挑战。本文以B站直播团队在英雄联盟2024赛季全球总决赛(S14)期间的保障…
-
将淘宝直播间融入H5页面的技术探索
在数字化转型的浪潮中,如何将直播间无缝融入H5页面,成为提升用户体验和业务转化率的关键挑战之一。本文探讨了这一创新实践,通过技术解析和实际案例,展示了如何在H5页面上实现直播间的高…
-
基于IM场景下的Wasm初探:提升Web应用性能|得物技术
一 何为Wasm ? Wasm,全称 WebAssembly,官网描述是一种用于基于堆栈的虚拟机的二进制指令格式。Wasm被设计为一个可移植的目标,用于编译C/C++/Rust等高…
-
超低延迟多路径传输:技术演进与大规模业务实践
在网络技术迅猛发展的当下,超低延迟已成为视频流媒体传输的关键需求。2022 年起,火山引擎多媒体实验室针对超低延迟多路径传输领域展开了深入的前沿探索与研究。 目前,多媒体实验室与流…
-
腾讯TVQA斩获ECCV 2024压缩视频质量评估比赛冠军
近日,ECCV 2024 AIM Workshop大赛结果公布,在压缩视频质量评估赛道上,腾讯TVQA-C视频质量评估算法获得比赛冠军。未来,相关能力将在腾讯云媒体处理(MPS)产…
-
开源上新|FunASR多语言离线文件转写软件包
FunASR是由通义实验室开源的语音识别框架,集成了语音端点检测、语音识别、标点预测等领域的工业级模型的训练和部署,吸引了众多开发者参与体验和开发。 为了支持用户便捷高效的集成语音…
-
技术怎样支撑和游戏主播一起云玩游戏
0x01 游戏和直播间会碰撞出什么样的火花 游戏直播是玩家通过互联网平台实时分享其游戏过程和技巧的一种媒介。玩家可以通过这种媒介,与观众分享其游戏过程、探讨游戏玩法并可以展开小范围…
-
哔哩哔哩直播通用奖励系统揭秘
本文将介绍 B 站直播奖励系统的技术架构,从需求分析到实现细节,全面解析其背后的技术方案。
-
结合YOLOv8和OpenCV WeChat QRCode打造一款二维码识别器
二维码(QR Code)在现代生活中有广泛应用,从支付系统到信息传递,它们无处不在。本文提出了一种如何识别二维码的方法,主要贡献在于优化处理分辨率较高的图像时,由于二维码在整张图片…
-
WavTokenizer:重新定义音频压缩的突破性声学编解码器模型
大规模语言模型在涉及多发言人语音合成、音乐生成和音频生成的生成任务中取得了重大进展。将语音模态集成到多模态统一大型模型中也变得流行起来,例如 SpeechGPT 和 AnyGPT …
-
用多模态技术在多媒体系统中实现场景分类
本文研究了多模态算法在多媒体系统中进行场景分类的应用,探讨了实施过程中的挑战并给出对应的解决方案。
-
低延时直播系统在欧洲杯的实践
欧洲杯作为全球关注的足球赛事之一,实时、清晰的观赛体验对球迷至关重要,当画质清晰度接近的情况下延时的权重就会被放大。随着新技术如5G、云计算等的发展,低延时直播技术得到提升,也引发…
-
触摸未来,字节跳动提出6DoF直播创新方案
在通信技术的浪潮中,我们见证了媒体技术的一步步演进,每一步的跨越,都不仅仅是技术的升级,更是人类感知世界方式的一次飞跃。从一维时代电话的只闻其声不见其人,到二维时代视频的闻其声也见…