04月10日周三

💡 苹果介绍 Ferret-UI 多模态大语言模型：更充分理解手机屏幕内容

苹果公司推出了Ferret-UI，这是一种新型多模态大语言模型，能够更好地理解手机应用程序的屏幕内容。该模型通过改进的视觉功能和专门训练的样本，提高了对移动用户界面的理解能力，超越了现有的AI模型。

💡 谷歌推出 Gemini 1.5 Pro 公共预览版，现已支持处理音频

谷歌推出了Gemini 1.5 Pro的公共预览版，这是一个能够处理音频内容的新型AI模型。Gemini 1.5 Pro可以分析音频文件，如财报电话会议录音或视频，并总结内容。这个模型的性能已经超越了谷歌更大的模型Gemini Ultra，能够理解复杂的指令而无需微调。目前，Gemini 1.5 Pro仅限于Vertex AI用户使用，而Gemini Ultra则对所有Pro用户提供服务。此外，谷歌还为生成图像的文生图模型Imagen 2添加了图片修复和扩充功能，以及数字水印功能“SynthID”。谷歌还计划将AI响应与谷歌搜索结果结合，以利用最新情报进行解答。

来源：IT之家

💡 Meta确认其Llama 3开源大语言模型将于下个月推出

Meta公司计划在一个月内发布下一代大型语言模型Llama 3，这将支持其生成式人工智能助手。Llama 3将比前代更强大，能够回答更广泛的问题，包括有争议的话题。该模型将作为开源产品发布，展示了Meta在人工智能发展上的开放哲学。尽管如此，Meta在推出图像生成工具Emu方面仍持谨慎态度，并且公司内部对生成式人工智能的局限性仍有质疑。Meta的首席人工智能科学家Yann LeCun预测，生成式人工智能的未来将是联合嵌入式预测架构（JEPA）。

来源：cnBeta

💡 谷歌宣布了一款名为Google Vids的视频创作工具

谷歌在2024年的Cloud Next大会上推出了Google Vids，一款新应用程序，旨在帮助用户在职场环境中制作视频。它提供了一个简单的界面，让用户可以描述他们的视频想法，并选择视频风格。谷歌使用AI技术来编辑视频，并提供了一个录音工作室，让用户可以录制自己的声音或选择预设的声音。Google Vids的目标是让任何人都能够成为工作中的出色故事讲述者。

来源：9to5Goole

💡 亚马逊在一项研究合作中投资2500万美元以推进人工智能

据亚马逊官网，亚马逊投资2500万美元，通过10年期研究合作的方式推进人工智能（AI）技术。该公司与华盛顿大学、筑波大学、以及英伟达构建新的合作伙伴关系。

来源：科创板电报

💡 融合视觉能力，OpenAI 向开发人员提供 GPT-4 Turbo with Vision

OpenAI 最近宣布，他们的新模型 GPT-4 Turbo with Vision 已经可以通过 OpenAI API 向开发人员提供。这个模型结合了 GPT-4 Turbo 的文本处理能力，并增加了视觉理解能力，能够处理和理解图像信息。这一新功能使得开发者能够更简单地处理包含文本和图像的复杂数据集，从而简化了开发流程。目前，GPT-4 Turbo with Vision 主要用于开发者的项目，例如辅助编程、健康分析等，但尚未应用于 ChatGPT 或对大众开放。OpenAI 暗示未来可能会将这一功能引入 ChatGPT。

来源：IT之家

当前位置：
资讯中心 /快讯/文章详情/

【每日AI快讯】4月10日周三

04月10日周三

💡 苹果介绍 Ferret-UI 多模态大语言模型：更充分理解手机屏幕内容

💡 谷歌推出 Gemini 1.5 Pro 公共预览版，现已支持处理音频

💡 Meta确认其Llama 3开源大语言模型将于下个月推出

💡 谷歌宣布了一款名为Google Vids的视频创作工具

💡 亚马逊在一项研究合作中投资2500万美元以推进人工智能

💡 融合视觉能力，OpenAI 向开发人员提供 GPT-4 Turbo with Vision

当前位置： 资讯中心 /快讯/文章详情/

【每日AI快讯】4月10日 周三

04月10日 周三

💡 苹果介绍 Ferret-UI 多模态大语言模型：更充分理解手机屏幕内容

💡 谷歌推出 Gemini 1.5 Pro 公共预览版，现已支持处理音频

💡 Meta确认其Llama 3开源大语言模型将于下个月推出

💡 谷歌宣布了一款名为Google Vids的视频创作工具

💡 亚马逊在一项研究合作中投资2500万美元 以推进人工智能

💡 融合视觉能力，OpenAI 向开发人员提供 GPT-4 Turbo with Vision

当前位置：
资讯中心 /快讯/文章详情/

【每日AI快讯】4月10日周三

04月10日周三

💡 亚马逊在一项研究合作中投资2500万美元以推进人工智能