音视频技术开发周刊(第121期)

每周一期,纵览音视频技术领域的干货和新闻投稿: contribute@livevideostack.com。

架构

Appear.in Vs. Jitsi: WebRTC 商业订阅服务对决开源免费服务

讨论的底线在于: "两种方式的目标受众之间存在明显的差异,这可能会让这种比较毫无意义."

如何通过WebRTC开发实时互动AI视频应用

前段时间负责一个人脸和手势识别的可视化大屏项目,前端需要负责的主要任务是: 通过获取摄像机实时视频流,将获取到的视频流在canvas上播放,然后每隔1000ms抽帧,并在压缩后通过保持WebSocket连接发送给后端服务器。 经过服务器上的AI视觉模型算法处理后,前端接收人脸识别、手势识别及其他相关结构化数据,根据业务场景完成人机交互和数据展示。

Advancing WebRTC: 删除旧版本的 DTLS

确保这不会影响你的服务。

Web实时语音/视频聊天/文件传输

WebRTC(Web Real-Time Communication)是一项实时通讯技术,它允许网络应用或者站点,在不借助中间媒介的情况下,建立浏览器之间点对点(Peer-to-Peer)的连接,实现视频流音频流或者其他任意数据的传输。

传输网络

低延迟网络视频实现

本文是来自Stanford Compression Workshop 2019的演讲,作者是来自斯坦福大学的Sadjad Fouladi。这次演讲的主要内容是通过视频编解码器和传输协议的紧密集成来优化实时低延迟网络视频。

编解码

分布式网络视频编码

Wallendael在本文中阐述了针对低延迟自适应码流的分布式网络视频编码概念。 主要思想是给每人提供一个定制化的视频流,每个连接都是个性化的,可以根据个人的网络状况来调整编码,而不会影响到别人。 这样把视频分别给每个人编码,需要每人使用一个编码器、以及一组参数来定制化。 在实践中这样的假设很难做到,因此我们需要一个解决方案。

2019MSU编解码器比较及总结

莫斯科国立大学(MoscowState University)最近发布了2019 Video Codec Comparison,这是最有价值和可靠的编解码器分析之一。 此基本资源包括多个HEVC、VP9以及AV1编解码器的数据。 与之前一样,必须付费才能获取所有数据,但免费版提供了有用的数据点。 该资源还包括两个版本的报告,其中Main报告采用客观指标用100个视频对12个编解码器进行了测试,Subject报告记录了732个观看者对5个短片和11个编码器的主观评分。

Opus从入门到精通:编解码器使用

本节描述了用于编码Opus的过程和函数。 既然Opus是一个有状态的编解码器,编码过程始于创建一个编码器状态。

FFmpeg: 常用结构体分析

AVFormatContext可以说是贯穿全局的数据结构,很多函数都要用它作为参数。此结构包含了一个视频流的格式内容。其中AVInputFormat(或者AVOutputFormat,但是同一时间AVFormatContext内只能存在其中一个),AVStream,AVPacket这几个重要的结构以及一些其他信息,比如title,author,copyright等,后还有一些可能在编解码中会用到的信息,比如 duration、file_size、 bit_rate等。

视频技术

基于FPGA的异构计算在多媒体中的应用

目前处于AI大爆发时期,异构计算的选择主要在FPGA和GPU之间。 尽管目前异构计算使用最多的是利用GPU来加速,FPGA作为一种高性能、低功耗的可编程芯片,在处理海量数据时,FPGA计算效率更高,优势更为突出,尤其在大量服务器部署时,隐形的运营成本会得到显著降低。 本文来自CTAccel的研发总监周小鹏在LiveVideoStackCon2019 北京站上的分享。

移动端短语音消息音频格式选择

根据采样率和采样大小可以得知,相对自然界的信号,音频编码最多只能做到无限接近,至少目前的技术只能这样了,相对自然界的信号,任何数字音频编码方案都是有损的,因为无法完全还原。 在计算机应用中,能够达到最高保真水平的就是PCM编码,被广泛用于素材保存及音乐欣赏,CD、DVD以及我们常见的WAV文件中均有应用。

从零开始仿写一个抖音App——视频编辑SDK开发(一)

本章我将介绍 WsVideoEditor 项目的基本结构、组织方式以及运行方式。 需要大家把项目 clone 下来跟着我一步步来做。

AR的过去、现在、未来与现实

很多时候,我们都会把AR和VR放在一起讲,这主要是因为AR和VR有很多共通之处,而且对AR/VR有较好认知的行业人士基本上都相信AR/VR未来最终会融合到一起。

iOS双摄像头在直播中的应用

如今随着短视频、直播应用的火爆,客户端应用中对摄像头的使用和音视频的处理成了一个必备技能。 除了音视频采集、处理、编码等基础功能的应用,对一些摄像头新功能和新特性的探索和应用也是我们平时重点关注的方向。

人物专访

相芯科技蔡锐涛: AI虚拟形象——没有最完美,只有更完美

在LiveVideoStackCon2019深圳音视频技术大会前夕,我们邀请到了相芯科技资深图形引擎开发经理蔡锐涛老师接受采访,从个人成长聊到智能图形技术方面的创新与应用,再到相芯科技在虚拟形象上的优势,最后关于5G对于图形技术的升级方向,蔡老师也给出了自己的答案。

叶琰: AI压缩技术在追上传统编码技术

认识叶琰是经朋友引荐,在了解她的背景后很快决定邀请她来LiveVideoStackCon2019深圳,并担任了大会的Co-chair。 叶琰给我留下的印象是坦诚、直接,一旦她承诺的事情会按时做到——无论是为大会内容组织给出建议,推荐讲师候选人,还是本篇采访,叶琰总是在deadline前完成,也许当年兼顾孩子和工作的艰难经历,让她更加游刃有余。 如果一切顺利,叶琰将作为大会Co-chair在LiveVideoStackCon 2019深圳致辞,并和听众交流。

AI智能

从CVPR2019看计算机视觉的最新趋势 

我从CVPR中选取已被录用的论文进行分析,了解研究的主要领域和论文题目中的常见关键词。 这可以提供研究进展的一个迹象。

神经网络剪枝技术研究指南(2019) 

剪枝是最常用的神经网络压缩方法。 最近GitHub开源了不少YOLOv3剪枝实现,不过基本上都是基于2017年经典论文"Learning Efficient Convolutional Networks through Network Slimming", 2019年剪枝研究又有了什么新的进展? 哪些会在工业界开花结果呢?

图像

探讨iOS 中图片的解压缩到渲染过程

图片显示到屏幕上是CPU与GPU的协作完成,对应应用来说,图片是最占用手机内存的资源,将一张图片从磁盘中加载出来,并最终显示到屏幕上,中间其实经过了一系列复杂的处理过程。

资源推荐

SDWebImage

该库提供了具有缓存支持的异步图像下载器。 为了方便起见,我们为UI元素(如UIImageView,UIButton,MKAnnotationVie w)添加了类别。

活动推荐

硬派多媒体技术方案沙龙·2019深圳

从WebRTC、低延迟直播到边缘计算,从编解码Codec到AI加速,从全景视频到沉浸式音频,从5G到超高清,从金融、教育、制造等行业应用场景优化到QoE用户体验......硬派多媒体技术方案沙龙(Impact of Multimedia Technology Solution Meetup)旨在甄选技术领先、成熟的方案与案例,推动技术传播,连接多媒体技术生态上下游。

Xilinx视频加速技术专场

从AI到编码、转码,硬件加速方案正在扮演越来越重要的角色。本专题,将展现基于FPGA的硬件加速特性,在视频、图片编码与转码以及AI计算方面带来的收益。

点击“ 阅读原文 ”可查看更多详细信息,请大家科学上网。

我来评几句
登录后评论

已发表评论数()

相关站点

+订阅
热门文章