当前位置:
【每日AI快讯】8月12日 周一
8月12日 周一
💡 能玩的Transformer可视化解释工具,本地运行GPT-2、还可实时推理
佐治亚理工学院和 IBM 研究院的研究者开发了开源交互式可视化工具「Transformer Explainer」。它通过文本生成解释原理,采用桑基图可视化,集成模型概述,有实时推理功能,无需高级资源和技能,选择 GPT-2 因其知名度高、推理快且架构相似。网友评价高,与 Karpathy 的教程搭配使用效果或更佳。
💡 给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA
AI 视频生成领域日益热闹,新的视频大模型表现出色,但背后需高成本的数据集和存在一些问题。针对这些,苹果研究人员提出 SlowFast-LLaVA(SF-LLaVA),基于 LLaVA-NeXT 架构,设计了 SlowFast 输入机制,有慢速和快速路径,解决现有视频 LLM 痛点。实验结果显示其在基准测试中超越现有免训练方法,与精心微调的 SFT 模型性能相当甚至更好。模型架构遵循标准流程,对输入视频采样和处理,实验从开放式视频问答、多项选择视频问答、文生视频等方面进行,SF-LLaVA 均有较好表现。
💡 突破大模型极限!GLM-4-long百万长文本模型上线bigmodel.cn
业务需求增加了长文本处理,考验大模型长文本能力,智谱的 GLM - 4 - long 支持高达 1M 上下文长度。作者用进阶版大海捞针测试,即插入中国队奥运金牌信息让模型整理,市面上多数大模型表现不佳,GLM - 4 - long 答对。还进行了苹果公司财报问答测试,效果不错。智谱哥们提到长文本模型通过“拾级而上”逐步适应不同上下文长度训练出来,过程中有提高训练吞吐量等细节技巧,智谱开源了 9b 版本权重,开源有助于行业发展。
💡 大模型做PPT有多牛?讯飞智文带来重磅升级!
在现代社会,PPT 至关但制作繁琐,大模型时代讯飞智文支持一键生成 PPT ,其 2.0 版本有三大技术升级,包括依托讯飞星火 V4.0 、独立训练的 PPT 文本生成大模型,能更好理解主题、抓取实时资讯、处理长文本;搭载的 AI PPT 编排创作引擎,可自由调整结构、编排大纲、配图等;更灵活的 PPT 在线编辑模组,能随意修改元素、字体等,还升级了模板库,市场潜力大,讯飞智文从用户需求出发不断打磨,解决痛点。
💡 马斯克:人工智能模型 Grok 2 测试版即将发布
特斯拉 CEO 马斯克于 8 月 11 日晚在 X 平台表示人工智能模型 Grok 2 测试版即将发布,上个月他就确认数周后推出,称其“改进巨大”,但目前尚未公布详细信息。Grok 2 发布后将紧随 Grok 3,马斯克称 Grok 3 年底左右推出,水平将“达到或超越” OpenAI GPT - 5 。Grok 第一版于 2023 年 11 月推出,xAI 此后筹集 60 亿美元,估值达 240 亿美元,今年四月发布的 Grok 1.5 提升了推理能力,能处理更长文本输入。
💡 微软 Copilot AI 被指可被黑客操纵,轻松窃取企业机密
据 Futurism 报道,安全研究人员发现微软内置于 Windows 系统的 Copilot AI 存在安全隐患,可被操控泄露企业敏感数据及用于钓鱼攻击。安全公司 Zenity 联合创始人兼 CTO Michael Bargury 在黑帽安全大会上披露,利用 Copilot 可快速生成欺骗性邮件,无需打开恶意邮件就能攻击,获取员工账户后能获取敏感数据并进行钓鱼攻击。