音视频技术开发周刊 | 309

音视频技术开发周刊 | 309

 LiveVideoStack 

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

如何用AI大模型「读脑」并重建所见图像?中国科学院学者在线分享

人类视觉神经系统能够高效地感知和理解现实世界中的复杂视觉刺激,这种突出的能力是当下的人工智能系统无法比拟的。通过神经编码和解码模型来研究不同脑区的功能可以使我们更加深入地理解人类视觉感知系统。

硅谷研思录(二):Code Llama发布,软件开发迎来智能化范式转换拐点

受Meta的资深AI专家朋友邀请到位于Meno Park的One Hacker Way总部拜访,畅谈Llama的种种。今天就看到Meta又放出大招:Code Llama,将业界一直期待的大模型的代码能力开源,软件开发迎来智能化范式转换的拐点。这正是实实在在的 Hacker精神——在使用大模型改变世界的同时,Hacker们从来没有忘记首先来变革自己。

Nature最新封面:AI战胜了人类世界冠军,创下最快无人机竞速记录

人工智能(AI)再次战胜了人类冠军。这一次,是在无人机竞速领域。来自苏黎世大学机器人与感知研究组(Robotics and Perception Group)的 Elia Kaufmann 博士团队及其英特尔团队联合设计了一种自动驾驶系统——Swift,该系统驾驶无人机的能力可在一对一冠军赛中战胜人类对手。


RetNet或成Transformer继承者?通向更快、更强、更经济的基础架构

2023 年 7 月 25 日,来自微软研究院、清华大学的学者在 Arxiv 上发布了论文「Retentive Network: A Successor to Transformer for Large Language Models」,旨在同时实现低成本推理、并行训练、较强的长序列建模能力,使 CNN、RNN、Transformer 等时代传统意义上的「不可能三角」成为了可能,可谓「质效皆优」。正如论文名所称,RetNet 有望成为 Transformer 的「继承者」,成为 LLM 时代新的支柱性基础架构。

重磅!OpenAI发布最强ChatGPT——企业版ChatGPT

8月29日凌晨,OpenAI在官网宣布,推出企业版ChatGPT(ChatGPT Enterprise)。申请地址:https://openai.com/enterprise。OpenAI表示,企业版ChatGPT提供企业级安全和数据隐私保护,提供无限速的GPT-4访问权限,支持32K上下文输入,高级数据分析功能,自定义选项等所有高级功能。这是目前OpenAI最强版本ChatGPT。

免费使用,媲美Midjourney!文本可直接生成10多种类型图片

8月29日,文本生成图片平台ideogram宣布,消除申请试用制度,免费向所有人开放ideogram v0.1。(地址:https://ideogram.ai/)。根据「AIGC开放社区」的使用体验,ideogram支持文本生成10多种类型图片,包括3D、电影、肖像摄影、插图、海报、绘画、动漫、涂鸦等,可深度理解文本提示并生成媲美Midjourney的效果图片。

LVS2023 | 从 AIGC 到多模态媒体大模型

AIGC大模型的发展正逐渐为音视频、游戏等产业赋能,而多模态大模型作为它的下一个重要发展方向,正被业界高度关注。LiveVideoStackCon 2023 上海站邀请了来自上海交通大学的宋利教授,为大家从多模态媒体生成、多模态媒体编码和多模态媒体交互三个方面展望新一代多模态媒体的特点以及未来基于大模型的智能跨模态编码的新趋势 。