音视频技术开发周刊(第128期)

每周一期,纵览音视频技术领域的干货和新闻投稿: contribute@livevideostack.com。

架构

大家都切换到 Unified Plan 了吗? 

忽悠,继续忽悠统计的数据。

在 Chrome 中使用 WebRTC ICE 服务器进行端口扫描

这真是相当不错的。 不知道将开放多长时间。

浅谈 WebRTC NetEQ

WebRTC Native 代码里面有很多值得学习的宝藏,其中一个就是 WebRTC 的 NetEQ 模块。 根据 WebRTC 术语表 对 NetEQ 的解释:

一种动态抖动缓冲区和错误隐藏(丢包补偿)算法,用于去除网络抖动和数据包丢失的负面影响。 在保持最高语音质量的同时,保持尽可能低的延迟。 NetEQ 其实就是音视频处理中的 Jitter Buffer 模块,在 WebRTC 的语音引擎中使用。 这个模块很重要,会影响播放时的体验,同时也相当复杂。

里程碑式 Dubbo 2.7.5 版本发布,性能提升30%,支持 HTTP/2、TLS、Protobuf等特性

近日,备受瞩目的 Apache Dubbo(以下简称 Dubbo)2.7.5 版本正式发布,在 2.7.5 版本中,Dubbo 引入了很多新的特性、对现有的很多功能做了增强、同时在性能上也有了非常大的提升,这个版本无论对 Dubbo 社区亦或是开发者来说,都将是一个里程碑式的版本。

传输网络

TCP三次握手和四次挥手

TCP是一种面向连接的、可靠的、基于字节流的传输层通信协议,在发送数据前,通信双方必须在彼此间建立一条连接。 所谓的“连接”,其实是客户端和服务端保存的一份关于对方的信息,如ip地址、端口号等。 一个TCP连接通常分为三个阶段: 连接、数据传输、退出(关闭)。 通过三次握手建立一个链接,通过四次挥手来关闭一个连接。

为什么 TCP 协议有性能问题 · Why's THE Design?

TCP 协议可以说是今天互联网的基石,作为可靠的传输协议,在今天几乎所有的数据都会通过 TCP 协议传输,然而 TCP 在设计之初没有考虑到现今复杂的网络环境,当你在地铁上或者火车上被断断续续的网络折磨时,你可能都不知道这一切可能都是 TCP 协议造成的。 本文会分析 TCP 协议为什么在弱网环境下有严重的性能问题。

APP网络优化之DNS优化实践

移动端APP网络优化是客户端技术优化方向中比较重要的一个方向之一,绝大多数APP都需要有网络请求这一步,大多数APP在发起请求之前第一步要做的事情就是DNS域名解析,只有将域名解析成正确的IP后,才能进行后续的HTTP或HTTPS请求,因此DNS优化是移动端APP网络优化中首要的一步。

编解码

【Android 音视频开发打怪升级: FFmpeg音视频编解码篇】FFmpeg so库编译

使用 GCC 或 CLANG 交叉编译出Android平台可以使用的FFmpeg so库。 为了很好的迈出 FFmpeg  开发的第一步,不仅要知其然,更要知其所以然。 不仅要知道怎么样能成功编译,更要知道为什么能成功编译。 在开始动手之前,建议先通读整篇文章,相信本文定可以让你有所感悟。

基于模型的率失真优化变换

本文是来自AOMedia Symposium 2019的演讲,讲者是来自USC的Keng-Shih Lu 和 Antonio Ortega。 本次演讲主要讲述了基于模型的率失真优化变换,用图像信号处理的角度来看待一些熟悉的概念。

视频技术

移动开发者的必知音视频基础知识

作为移动开发者,大多数时候会需要接触到音视频相关的开发,而其实严格意义上我也并不是专职的音视频开发工程师,只是在 2016 因为业务需要接触到音视频相关的领域,而开源的 GSYVideoPlayer 恰好火起来之后,为了解决系列问题成了“半桶水”的音视频开发工程师。

HDR格式和趋势

本文是来自Seattle Video Tech 2019的演讲,讲者是来自Amazon的Brian Alvarez,本次演讲主要讲述了HDR格式和趋势。

基于运动的视频插帧技术

本文是来自AOMedia Symposium 2019的演讲,主要内容是基于运动的视频插帧技术(Motion Based Video Frame Interpolation),演讲内容来自YouTube/Google转码小组技术主管,同时也是都柏林圣三一大学教授的Anil Kokaram。 演讲中,Kokaram对用于视频插帧工作的各类模型预测及其效果进行了分析,指出了对运动信息的处理仍是当前各类算法的基础。

Demuxed 2019 演讲视频选

Dav1d编解码器的性能和原因分析/字幕翻译和web视频文本跟踪(VTT)/视频和流媒体架构

  • Jean Baptiste首先介绍了Dav1d提出的原因和目标,然后比较了dav1d在多个平台上的编码性能对比,结果显示Dav1d编码速度相比aomdec快2-3倍,在ARMv8平台上Dav1d比libgav1和libaom快3倍左右,在ARM v7平台大约是libgav1的2倍。

  • Jeremy Brown首先介绍了参与过的大型体育赛事,然后讲述了字幕生成和字幕翻译之间的区别,接着给出了字幕翻译工作的流程框图,并给出了VTT字幕翻译代理的特点,最后分享了一些视频瞬间。

  • Phil Cluff首先回顾了Demuxed 2018时提出的流媒体框架,然后介绍了今年更新后的框架,相比18年,更新后的流媒体架构更加复杂,接着Phil Cluff主要讲了新架构的一些改进和特点。

Intel Chip Chat 访谈音频选

软件处理释放新工作流/视频内容分发/深层神经网络

  • 第一段音频的演讲者Remi Beaudoin是Ateme的首席战略官,在本次采访中,Remi解释了如何通过软件处理释放新工作流的能力,优化视频交付的总成本,并提供新的个性化电视观看体验。 Remi介绍了TITAN平台如何应对行业中的宏观变化,以提供灵活性,可扩展性和收敛性。

  • 第二段音频的演讲者Eli Lubitch是Beamr的总裁,Beamr与英特尔合作,提供内容自适应比特技术,以满足内容分发和视频流行业最苛刻的要求。 视频内容分发正在全球范围内进行,从内容创作者使用的数十亿台移动设备到地区和国际媒体公司和广播公司,分发的内容都以不同的格式进行。 Eli分享了他的看法,他认为该行业有机会进行突破,以实现4K和8K内容的分发。

  • 第三段音频的演讲者Vinod Kannan是MulticoreWare机器学习解决方案的技术总监。 MulticoreWare的LipSync技术使用深层神经网络来确定内容是否正确同步,通过训练的分类器查找人脸并将其与语音进行匹配。 Vinod介绍了MulticoreWare参与即将推出的英特尔媒体分析精选解决方案的情况,通过Intel Xeon可扩展处理器和Intel Movidius Myriad X 视觉处理单元(VPU)为网络边缘提供实时视频和深度学习处理。

AI智能

2020 年移动开发趋势

本文翻译自 AMIT MANCHANDA 的 12 Mobile App Development Trends to Watch Out for in 2020,可点击原文参考阅读。 文章仅属个人观点,如有不同见解,欢迎留言讨论

微软北大联合提出换脸 AI 和脸部伪造检测器,演绎现实版「矛与盾」?

近日,微软研究院与北京大学的研究小组共同提出了一种全新的 AI 换脸框架 FaceShifter,以及一种检测伪造人脸图像的方法 FaceX-Ray。 前者可以极大提高换脸的高保真度,而后者则用于检测出复杂伪造人脸图像。

图像

一款常用的Android图像转换操作库

日常开发中,当涉及到 Android 的 Camera 或者图像相关的开发,或多或少都会接触一些图像格式,这些不同的格式之间会涉及到各种各样的操作,这里利用 Google 的开源框架 libyuv 封装了一个图像操作库,涉及到了 Android 中常用的图像转换操作。

资源推荐

Android音视频开发教程

本人在学习音视频开发的过程中,深刻体会到了由于知识的分散,过渡断层带来的种种困惑和痛苦,因此,希望通过自己的理解,可以把音视频开发相关的知识总结出来,并形成系列文章,循序渐进,剖析各个环节,一则对自己所学做一个总结和巩固,二则希望可以帮助想入门音视频开发的开发者小伙伴们。

ImageUtils

该图像处理库底层依赖的是 Google 开源的 libyuv 框架,因该框架功能之强大,支持图像格式之繁多,目前这里只针对 Android 中常用的图像格式之间互相操作进行了相关封装操作,方便 Java / Kotlin 进行无缝调用。

点击“ 阅读原文 ”可查看更多详细信息,请大家科学上网。

我来评几句
登录后评论

已发表评论数()

相关站点

+订阅
热门文章