当前位置:
【每日AI快讯】8月15日 周四
8月15日 周四
💡 一夜之间,谷歌版GPT-4o和AI手机全上市了
在 GPT-4o 进 iPhone 前,谷歌的 Gemini 抢先完成手机版落地。在 Made by Google 活动上,谷歌发布了 Gemini Live 及一系列 Pixel 硬件产品。Gemini Live 是对标 OpenAI 高级语音模式的产品,提供移动对话体验,可自由流畅对话、打断和改变话题,能直接唤醒,与多种安卓应用集成。
💡 Grok-2来了,能生图识图、性能比肩GPT-4o,马斯克:发展猛如火箭
马斯克旗下的 xAI 正式发布新一代 Grok 2 大模型。其早期型号在 LMSYS 榜位列第四,表现出色,在编码等方面能力突出。马斯克称其推进速度快,新一代包括 Grok - 2 和 Grok - 2 mini ,已向 X 平台的部分用户发布,目前处于测试阶段,本月晚些将通过企业 API 提供。
💡 谷歌介绍 Call Notes AI 功能:本地运行,摘录通话内容
谷歌正式公布全新的 Call Notes 功能,将在 Pixel 9 系列手机中实装。此功能属于 Call Assist 工具集,能调用 AI 摘录用户通话内容,方便用户处理重要信息,如梳理内容或记录电话号码。用户通过 Google Phone 应用可查看通话摘要,还能复制或展开查看完整记录,且相关数据在本地存储和处理,不会发送至云端。
💡 昆仑万维发布全球首个AI流媒体音乐产品Melodio
昆仑万维正式发布全球首个 AI 流媒体音乐平台 Melodio 和 AI 音乐商用创作平台 Mureka,两款产品均搭载自研 DiT 架构音乐大模型 Skymusic 2.0,该模型是业内首个能稳定生成特定风格歌曲的大模型,较上一代支持更长歌词输入、生成更长歌曲,多方面有大幅提升,成为 AIGC 音乐大模型领域最新 SOTA。Melodio 是全球首款个性化 AI 流媒体音乐平台,用户输入 Prompt 即可生成相应风格的定制化音乐。
💡 chatgpt-4o-latest AI 模型力压谷歌 Gemini 1.5 Pro,多项跑分重夺第一
谷歌上周发布的最强 Gemini 1.5 Pro 模型在 LMSYS 的聊天机器人竞技场比赛中获第一,但 OpenAI 很快推出最新的 chatgpt - 4o - latest 模型重夺第一。chatgpt - 4o - latest 是 GPT - 4o 的最新版本,具有大的上下文窗口。LMSYS 的聊天机器人竞技场通过随机让大模型对抗评测,用户投票决定积分形成排行榜。谷歌的 Gemini 1.5 Pro 上周以 1297 分登顶,而 OpenAI 的 chatgpt - 4o - latest 以 1314 分重回第一,在编码等多方面表现显著提高,总成绩及多个单项成绩均列第一。
💡 AI 斗图神器:普通视频秒变 meme,手绘动画轻松融入
一个名为 VideoDoodles 的开源项目在外网讨论度上升,它能给视频加上手绘风格的涂鸦,效果如同人工一帧一帧绘制,通过重建 3D 场景和放置平面画布来生成。可以给各种物种加四肢、加花字、加大幅度运动的手绘等,实现方式是先进行 3D 重建,放置平面画布,利用自定义追踪算法让画布跟随物体运动,用户可通过关键帧控制画布,该研究由 Adobe 研究院等机构的人员完成,团队目标是简化视频涂鸦创作过程。