音视频技术开发周刊 | 322

音视频技术开发周刊 | 322

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

超级AI不会主宰人类,但人工智能必须开源!LeCun最新采访引全网300万人围观

LeCun最新访谈视频中,再次坦露了自己对开源AI的看法。超级AI终有一天会诞生,但不会主宰人类。
GPT-4+物理引擎加持扩散模型,生成视频逼真、连贯、合理
扩散模型的出现推动了文本生成视频技术的发展,但这类方法的计算成本通常不菲,并且往往难以制作连贯的物体运动视频。为了解决这些问题,来自中国科学院深圳先进技术研究院、中国科学院大学和 VIVO AI Lab 的研究者联合提出了一个无需训练的文本生成视频新框架 ——GPT4Motion。
网络规模、训练学习速度提升,清华团队在大规模光电智能计算方向取得进展
随着大模型等人工智能技术的突破与发展,算法复杂度剧增,对传统计算芯片带来了算力和功耗的双重挑战。近年来,以光计算为基础、通过光电融合的方式构建光电神经网络的计算处理方法已经成为国际热点研究问题,有望实现计算性能的颠覆性提升。
Mirasol3B:一个多模态自回归模型,用于时间对齐和上下文模式
Mirasol3B 在多模态基准测试中达到了 SOTA 水平,优于规模更大的模型。通过学习更紧凑的表征,控制音频 - 视频特征表征的序列长度,并根据时间对应关系进行建模,Mirasol3B 能够有效满足多模态输入的高计算要求。
https://arxiv.org/abs/2311.05698


ChatGPT性能最多提升214%,刷新7个榜单!IDEA、港科大广州等提出ToG思维图谱
思维链已经out啦!想让大模型会推理还是得靠知识库:基座模型还是ChatGPT,最新思维图谱技术在多个基准数据集上实现巨大性能提升!

国产大模型黑马诞生,千亿级拿下双榜第一!知识正确性能力突出,大幅降低LLM幻觉问题

夸克,也下场大模型了。甫一问世,夸克大模型就迅速登顶权威测评双榜第一,幻觉率大幅降低,可以预见,风靡年轻人的夸克APP,要掀起新的飓风了。