当前位置:

【每日AI快讯】8月14日 周三

什么软件好
2024-08-14 09:48:20
 106人浏览

8月14日  周三

💡 非Transformer架构站起来了!首个纯无注意力大模型,超越开源巨头Llama 3.1

自 2023 年 12 月推出以来,Mamba 成为 Transformer 的有力竞争对手,如今阿布扎比技术创新研究所(TII)发布新开源 Mamba 模型 Falcon Mamba 7B。它无需增加内存存储就能处理任意长度序列,能在单个 24GB A10 GPU 上运行,在 Hugging Face 上可查看使用,分为四个变体模型,采用 Apache 2.0 许可证。

来源:机器之心


💡 首个支持普通话和方言混说的TTS大模型:河南话、上海话、粤语说得溜

自 GPT - 4o 出现后,中文语音合成大模型涌现,但在方言领域进展缓慢。巨人网络 AI Lab 团队构建了涵盖 20 种方言、超 20 万小时的数据集,训练出支持多种普通话方言混说的 TTS 大模型 Bailing - TTS 。采取了统一的方言 Token 规范、精细化 Token 对齐技术、层次混合专家结构、层次强化学习增强策略等创新技术。

来源:机器之心


💡 快手推出“飞船”App:基于“快意”AI 模型,主打虚拟陪伴

快手在推出可灵图生视频模型后,又发布“飞船”(Kraft)AI 对话助手。飞船是基于快手自研大模型“快意”的互动软件,用户在平台上是“船长”,有 AI 少女领航员引导,侧重于虚拟陪伴,回复速度快且语音体验逼真。用户能创建和定制专属 AI 虚拟角色,进行内容创作等,具有自然语言对话、个性化虚拟角色、内容创作辅助、高度定制化、语音交互等功能。

来源:IT之家


💡 谷歌发布 Gemini Live:支持 AI 语音聊天,可模拟面试场景、推荐演讲技巧

在谷歌的 Pixel 9 系列手机发布会上,发布了 Gemini Live 服务,今天起面向英语的 Gemini Advanced 订阅用户开放。Gemini Live 提供移动对话体验,对标 OpenAI ChatGPT 的 Advanced Voice 模式,采用增强型语音引擎,可多轮对话,用户能打断并提问,还能选择回应声音。谷歌演示了模拟面试等场景,该服务使用 Gemini Advanced 模型,具备大型上下文窗口,但目前不支持多模态输入,此功能将于今年晚些时候推出。

来源:IT之家


💡 谷歌发布 Pixel Studio 本地 AI 文生图应用:基于 Imagen 3 模型,2 秒内生成

在谷歌的 Pixel 9 系列手机发布会上,推出全新图像生成应用 Pixel Studio ,将预装在每台 Pixel 9 系列手机上。用户可输入提示词生成图片,应用采用本地运行,基于 Imagen 3 模型,主要生成艺术风格图片,生成时间不超 2 秒,依赖 Tensor G4 SoC 芯片,若要更优内容可调用 Gemini 在云端生成,生成的图片无编辑功能,但 Gemini overlay 功能有改进。几周前苹果也发布了类似的 iPhone 人工智能图像生成器 Image Playground ,与谷歌形成竞争。

来源:IT之家


💡 阿里通义千问开源 Qwen2-Audio 7B 语音交互大模型:自由互动,无需输入文本

阿里通义千问开源了 Qwen2-Audio 系列的 Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct 两个模型。Qwen2-Audio 是大规模音频语言模型,有语音聊天和音频分析两种音频交互模式,能接受音频输入和语音指令,在基准数据集测试中超越先前最佳模型。

来源:IT之家

标签:
评论 0
登录后即可发布评论
提交