对于人工智能,人类向来保持着“期待和担忧各半”的态度。
已故物理学家斯蒂芬·霍金曾经这样评价人工智能,“人工智能可能是人类历史上最大的发明。”但是他同时强调,“它可能带来无限的好处,但也可能是我们的末日。”
霍金的这句话,表达了人们对人工智能带来的巨大潜力和威胁的“双重感情”。
现阶段,人工智能还处在爆发的前夜,但也展现出巨大的成长潜力。
窥一斑而知全豹,随着OpenAI推出Sora、谷歌发布Gemini1.5Pro,在2024年,人工智能会如何影响媒体、广告、乃至智能汽车行业呢?
2月16日,OpenAI宣布推出全新的生成式人工智能模型Sora。
对此,多家券商评价到,AI视频生成迎来里程碑时刻。
招商证券说,Sora将推动AI视频生成进入一个全新的时代。华泰证券的报告说,视频AI进入大规模应用的前夜。天风证券的报告说,下一个亿级用户的互联网平台雏形已然出现。
Sora的工作原理类似DALL-E:用户输入想要的场景,Sora即可返回一个高清视频片段。此外,Sora还可根据静态图像拓展现有视频或填充缺失的帧。
与Runway Gen2、Pika等文生视频模型相比,Sora主要实现了以下突破:
视频时长达到60秒:Sora可以通过文本指令直接输出长达60秒的视频,并保持视频主体与背景的高度流畅性与稳定性。
文本的深度理解能力:Sora可以准确理解用户的文本指令,无论是复杂的动作场景还是细腻的情感表达,Sora都能够精确捕捉并展现。
对真实世界的理解:Sora对物理规律的遵循程度较高,对于光影反射、运动方式、镜头移动等细节的呈现效果较为逼真。
长序列连贯性和目标持久性:Sora能在单个视频中生成同一角色的多个镜头,并在整个视频中保持其外观。
即使人、动物和物体被遮挡或离开画面,Sora模型也能使其保持不变。
另外,Sora表现出了良好的多模态能力。
其一、Sora不仅支持文本生成视频,还能够根据提供的图片作为输入来生成视频。
其二、Sora还能够扩展生成的视频,在时间上向前或向后扩展,并具有连接视频等视频编辑的能力。
其三、Sora还有生成图像的能力,Sora可以生成不同尺寸大小的图像,分辨率最高可达2048X2048的水平。
这意味着,只要你的要求提得足够清晰,且视频长度在60秒以内,那么Sora几乎可以零成本地执行你的所有设计。
OpenAI将Sora定位为模拟世界的视频生成模型,能够模拟真实世界运行的规律。这也是多家券商高度评价Sora的原因所在。
同期,谷歌宣布了下一代大模型Gemini 1.5 Pro。Gemini1.5 Pro将上下文窗口长度扩展到100万个tokens,实现了迄今通用大模型最长的上下文窗口。
这意味着使用1.5Pro能够一次性处理海量信息,比如1小时的视频、11小时的音频、超过30,000行的代码库,或是超过700,000个单词。
一种是AI视频大模型,一种是通用大模型,两者先后发布必定不是巧合。
GPT-4已经激起了普通人投身AI领域的热情,Gemini则展现出后发制人的潜力。不难想象,在Sora之后,谷歌也会推出自己的AI视频模型。毕竟,3D、视听等多模态模型仍是一片蓝海。
GPT-4和Gemini,就像一对双子星,在通用大模型和细分领域大模型之间不断展开竞争,也将持续促进乃至颠覆行业的认知。
虽然目前Sora存在一定的局限性,诸如无法准确模拟常见的物理运动过程,视频互动中无法正确显示物体状态的变化、长时间样本发展的不连贯性或物体突然出现等等。
但Sora所呈现的效果,所支持的视频参数等基础条件,让所有人在Sora发布的72h内,已经形成了一种共识:Sora已具备商用化技术基础,AI视频商用不再遥远。
我们可以看到ChatGPT的出现,已经大大提高了生产率:
GitHub、Copilot和Replit AI等编程助手已获得了一定成果,它们的出现提高了软件开发人员的工作效率和工作状态。
文生图的大模型飞速发展也重塑了平面设计,图像模型的输出效果已可与专业平面设计师媲美。
创作文字的成本正急剧下滑,在过去的一个世纪中,撰写书面内容的成本按实际价值计算相对稳定。但在过去两年中,随着大语言模型写作质量的提高,成本也随之下降。
我们有理由相信,文生视频大模型的出现,可以让视频成本无限压缩,颠覆动画师的工作方式,让更多的导演排出《繁花》里那种看起来很有意境的氛围。
除了颠覆影视业,Sora或在自动驾驶上大有可为。
近期,马斯克也在力证特斯拉在视频生成上的实力,“特斯拉在大约一年前就能以精确的物理生成真实世界的视频。只不过,由于训练数据来自汽车,生成的视频并不有趣。这些视频看起来像特斯拉的普通视频,实际上是通过动态生成的。”
中信证券在研报中称,在技术上,Sora采用了Diffusion Transformer的路线。OpenAI表示,Sora在训练过程中表现出了与其他模型不同的涌现能力,通过涌现学习到了物品的时间与空间的相关性以及与周围世界的互动能力等等。
比如,Sora有时能够以一些简单的方式模拟现实世界的状态。比如,画家可以在画布上留下新的笔画,并且这些笔画随着时间的推移会持续存在。再比如,视频中人可以吃汉堡并在汉堡上留下咬痕。
如上文所述,Sora可以成为真正的“世界模型”。
360董事长周鸿祎也表示,“原来的自动驾驶技术过度强调感知层面,而没有工作在认知层面。其实人在驾驶汽车的时候,很多判断是基于对这个世界的理解。比如对方的速度怎么样、能否发生碰撞、碰撞严重性如何。”
我们可以畅想这样几个场景:
Chatgpt大模型可以给Sora下达生成视频的指令,并且其可以根据人类最初的输入来实现指令的不断进阶。
Sora大模型可以根据文本、图片,乃至视频生成自动驾驶的模拟世界,训练现有的自动驾驶感知决策模型,甚至可以把互动的能力加成给现有模型。
当下,有些车企采用的九轴模拟器,在实现底盘调校的同时,也在训练自动驾驶模型。Sora的出现,将跳出传统地图建模的场景,大大提升训练的效率。
而在智能座舱层面,Sora将把文本、2D的大模型交互形式升维成3D,用户可以随时生成一段视频,甚至将沿途拍摄的视频在线实时剪辑,诸如智己已经开始将AI技术用于增强摄像头感知画面画质。
我们不妨再展望一下,AI对自动驾驶的加成,加上电池技术的进步,可以促使自主移动设备(比如自动驾驶出租车)的规模化。
而Robotaxi规模化的前提则是,补能的自动化。也许是换电,也是补能机器人(或机器手)。
环环相扣,AI缔造的智能世界,也许并不遥远。
不知从何时开始,买车变得像是投资期货了。千百年来一手交钱一手交货的老规矩,现在也不好使了。不少车友看到宣传一时心动,激情下单之后却陷入了“购车无现车,变相无补贴”的陷阱,让买新车这
进入12月份后,各品牌相继公布自家的最新销量,可谓“几家欢喜几家愁”。日前,《车壹圈》获取了日系三强销量情况,数据显示:11月份丰田在华销量为16.3万辆,同比增长29.3%,也是
日前,我们通过梅赛德斯—奔驰官方渠道了解到,梅赛德斯-AMG PureSpeed正式发布,作为Mythos series系列的首款量产车型,新车定位将高于迈巴赫,采用了诸多创新设计
10月底,欧盟正式宣布对华电动车加征关税,但到了11月,态度又有所松动。德国大众汽车工人罢工、唐唯实辞任Stellantis CEO、号称“欧洲宁德时代”的北方伏特申请破产....
继第一波悬念图引发广泛热议后,12月9日,长安汽车在其官方社交账号上又放出了一组新车美图。相较于首波“犹抱琵琶半遮面”的悬念图,这次的图片信息量更大,让这款内部代号C798新车瞬间
极越07Passion版,27.99万值不值?
长安启源C798官图发布,分享一下我们在官图上找到的深度信息
等了一天,小米SUV终于来了!工信部在昨晚八点多的时候,公布了第六十九批《新能源汽车车型目录》,而小米SUV赫然在列。咱们就说,工信部的小伙伴都要加班的吗(手动狗头)?几乎是同一时
继第一波悬念图引发广泛热议后,12月9日,长安汽车在其官方社交账号上又放出了一组新车美图。相较于首波“犹抱琵琶半遮面”的悬念图,这次的图片信息量更大,让这款内部代号C798新车瞬间
在漳州碧湖万达,汽车嘉年华不仅便利广大车迷和消费者到场参与,还为朋友们提供了一个购物与购车的双重选择。
随着国内汽车市场家庭观念的加深,MPV市场不再是别克GL8一家独大,不少新兴的MPV车型开始在市场里站稳脚跟。尤其是来自丰田的赛那和格瑞维亚,在今年10月份双双交出8千台以上的销量
随着智能驾驶技术的迅猛发展,越来越多的消费者开始关注车辆的安全性和驾驶体验,特别是在智能驾驶和主动安全功能方面的提升。在这个背景下,问界新M7系列凭借着全面升级的HUAWEI AD
12月9日消息,上汽乘用车正式任命周钘担任MG品牌事业部总经理一职。原MG品牌事业部总经理陆家俊另有任命。 周钘在汽车行业深耕多年,长期服务于上汽通用五菱,在品牌塑造、产品开发、市场营销、渠道拓展等多个核心岗位得到历练。 加入MG之前,周钘的职位是上汽通用五菱品牌与传播总经理。 ......
长安启源C798官宣外观,聊聊定位和品控,针对家庭用户的又一抢眼选择
日前,我们通过一汽-大众官方渠道了解到,新款大众T-ROC探歌正式上市,新车此次共推3个配置,指导价区间为15.89万-17.87万元,新车顶配车型指导价下降0.12万元,并对部分
继第一波悬念图引发广泛热议后,12月9日,长安汽车在其官方社交账号上又放出了一组新车美图。相较于首波“犹抱琵琶半遮面”的悬念图,这次的图片信息量更大,让这款内部代号C798新车瞬间
1、长安启源C798这是对着理想L6来打吗?近日,长安启源发布了全新车型C798的官图,有望于年底正式发布;从设计来看,新车采用了全新的设计风格,前脸是贯穿式灯带和分体式大灯;车身
继第一波悬念图引发广泛热议后,12月9日,长安汽车在其官方社交账号上又放出了一组新车美图。相较于首波“犹抱琵琶半遮面”的悬念图,这次的图片信息量更大,让这款内部代号C798新车瞬间