谷歌Project Astra亮相发布会。图片来源:美国Gizmodo网站
OpenAI与谷歌的又一次技术交锋刚刚落下帷幕。
北京时间5月14日凌晨,OpenAI发布了新一代多模态人工智能(AI)大模型GPT-4o,其先进的AI语音交互技术迅速吸引了人们的目光。
一天之后,谷歌在北京时间15日凌晨的I/O 2024开发者大会上,携新版Gemini AI大模型等尖端产品重装上阵,正面对决OpenAI,燃起新一轮AI领域争霸的烽火。
GPT-4o语音对话丝滑如真人
一个拥有流畅、迷人嗓音的逼真AI,可以让人类用户着迷并留下深刻的印象。调情、讲笑话、满足人类的欲望,并最终留住他们的心……这是2013年美国上映的电影《她》中的情节。在这部影片中,一位叫萨曼莎的虚拟姑娘让孤独内向的男主深陷其中。
事实上,这也是OpenAI展示的新模型GPT-4o所能让人联想到的情节。
据OpenAI介绍,GPT-4o是一个“原生多模态”模型。它命名中的o来源于“omni”一词,意为“全能的”,有包罗万象之意。它可以接受文本、音频和图像任意组合的输入,并生成这些格式的相应输出。新模型使ChatGPT能够处理50种不同的语言,速度和质量同时得到提高。它可以在短短232毫秒内处理音频输入,平均耗时320毫秒,与人类对话中的反应时间相当。
GPT-4o允许ChatGPT以更加逼真的方式与用户交流。它不仅能检测用户声音中的情绪,分析面部表情,还能根据用户需求改变语调和节奏。如果想听睡前故事,它可以用耳语说话。如果需要来一段带“酸味儿”的对话,它就能以轻松、讽刺的语气与人交谈。它甚至还可以按要求唱歌,一会儿是高亢的女高音,一会儿又能变成迷人的女低音。
有趣的是,就在GPT-4o官宣发布后,一名OpenAI的员工发布了一条意味深长的信息:“你们都会爱上它的。”
Astra让AI与人们生活无缝融合
OpenAI发布了GPT-4o后,压力就给到了谷歌。谷歌在发布会上,放出大招向OpenAI“开战”,势必要扳回一局。
谷歌在整个大会中共提到“AI”121次,并推出了从新的搜索和聊天功能到面向云客户的AI硬件等十余种新品和升级产品。其中包括由升级后Gemini模型驱动的AI助手项目Astra、对标Sora的文生视频模型Veo,以及第六代Tensor处理器单元(TPU)Trillium芯片。
Astra是一次旨在创建“通用人工智能代理”的新尝试。与GPT-4o一样,Astra具有以各种形式或多模式方式快速响应用户的卓越能力,这使得它非常适合成为AI助手。
谷歌表示,通过对视频帧和语音输入进行连续处理和编码,Astra可以创建事件时间轴并缓存信息,以便快速调用。这使AI能看、能听、能说,甚至能回忆。在一段引人入胜的视频中,这款模型通过智能手机的摄像头识别出现实世界中的物体,能直接读取代码,甚至能帮用户回忆起他的眼镜落在了哪里,还能几乎零延迟与人实时对话。
生成式AI革命远未成功
自ChatGPT宣告问世,谷歌和OpenAI的竞争就不断升级。现在,两大科技巨头更是在两天时间里纷纷亮出引人瞩目的产品。
然而,生成式AI的飞速发展也伴随着众多质疑的声音。人们对于这些科技公司所塑造的“AI未来”仍持谨慎态度。
《新科学家》杂志网站称,人们应该认识到,生成式AI的成功还远未确定。这个领域还很新,公司之间竞争的目的并不是市场份额或客户忠诚度,而仅仅是为了拥有最新产品。新的GPT-4o尽管更有“人味儿”,但AI胡编乱造的行为未必能得到限制。
根据美国皮尤研究中心的调查,尽管ChatGPT在过去几年声势浩大,但只有23%的美国成年人使用过它。英国牛津大学卡丽莎·维利兹副教授称:“这项技术到底有多大影响,目前还很不明确。大多数人尚未体验过生成式AI工具,有理由认为,这项技术最终可能不如一些人想象的那样具有革命性。”
(责任编辑:毕安吉)