当前位置:

【每日AI快讯】6月18日 周二

什么软件好
2024-06-18 10:09:43
 79人浏览

06月18日  周二

💡 答案抽取正确率达96.88%,xFinder断了大模型「作弊」的小心思

大语言模型(LLM)的快速发展引发了对其公平性和可靠性的评估方法的讨论。上海算法创新研究院和中国人民大学的研究团队近日发布了一篇名为《xFinder: Robust and Pinpoint Answer Extraction for Large Language Models》的论文,深入分析了LLM评估框架的整体流程,并重点评估了答案抽取器组件在大模型评估中的可靠性和一致性。当前的评估框架主要依赖正则表达式(RegEx)来抽取答案,但这种方法存在明显缺陷,人工复核结果显示其最佳抽取正确率仅为74.38%,评估结果极不可靠。为有效解决这一问题,研究团队开发了一个名为 xFinder 的新模型,用于更准确地抽取关键答案。xFinder 具有以下优势:不要求特定格式的答案输出,具备较强的答案抽取鲁棒性,抽取准确率高达95.18%,显著优于目前最佳LLM评估框架中的RegEx方法;支持多样化题型,能够将字母选择题自动转换为问答题,并支持不同题型的混排评估,从而降低测试者拟合题型的可能性。实验结果表明,xFinder 在多种任务上均表现出色,具备较高的鲁棒性和泛化能力。未来,该研究团队将继续优化xFinder,并研究其他评估关键问题,为LLM性能的可靠评估提供坚实基础。

来源:机器之心


💡 大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4

近日,17岁的中专生姜萍在2024年阿里巴巴全球数学竞赛预选赛中取得了全球第12名的成绩,引起了广泛关注。与此同时,AI在数学竞赛中的表现也受到了关注,其中最高分34分,平均分18分,与人类选手的平均水平相当。然而,AI在数学竞赛中的主要短板是逻辑推理能力较弱,尤其在证明题上难以获得完整的得分点。为了应对这一挑战,复旦大学和上海AI Lab的研究者提出了MCT Self-Refine(MCTSr)方法,将大语言模型(LLM)与蒙特卡洛树搜索(MCTS)算法相结合,以提高LLM在复杂数学推理任务中的表现。MCTS广泛应用于需要战略规划的场景,如游戏和复杂问题解决环境。通过将MCTS的系统探索能力与LLM的Self-Refine和Self-Evaluation能力相结合,研究者旨在创建一个更强大的框架来应对当前LLM难以解决的复杂推理任务。MCTSr的架构包括初始化、选择、Self-Refine、Self-Evaluation、反向传播和更新UCT等阶段。在Self-Refine阶段,模型通过多轮对话优化针对问题的答案;在Self-Evaluation阶段,精炼后的答案经过评分以采样一个奖励值,并计算其Q值。反向传播阶段将精炼答案的值反向传播到其父节点和其他相关节点,以更新树的值信息。实验结果显示,MCTSr算法在解决数学问题中的有效性,尤其是在GSM8K和GSM-hard测试集上,成功率随着rollout次数的增加而显著提升。此外,在奥数竞赛的三个数据集上进行了测试,MCTSr成功率也得到了显著提高。

来源:机器之心


💡 IMF:对人工智能造成大规模失业、不平等加剧的可能性深感担忧

国际货币基金组织(IMF)发布了一份经济学研究报告,题为《拓宽生成式人工智能的收益:财政政策作用》,表达了对AI技术可能带来的大规模失业和加剧不平等问题的担忧,并呼吁各国政府采取措施保护经济。报告指出,生成式AI虽能促进生产力增长,但也可能影响高技能劳动者和白领工人,导致更长的失业周期。IMF建议改善失业保险体系,提供教育和培训,以及终身学习服务,帮助工人适应快速变化的就业市场,同时提出不要对AI收税,而是通过提高其他税种来应对财富不平等。

来源:科创板日报


💡 AI创新赋能消费电子新未来 中国消费电子市场有望持续复苏

根据IDC最新发布的《中国可穿戴设备市场季度跟踪报告》,2024年第一季度中国可穿戴设备市场出货量达到3367万台,同比增长36.2%,其中智能手表、手环和耳戴设备市场均实现了显著增长。在WWDC 2024上,苹果公司推出了首个适用于iPhone、iPad 和Mac的个人智能系统Apple Intelligence。多家厂商计划在穿戴设备中集成生成式AI,如苹果的AirPods研发项目备受关注,有望新增摄像头或用于强化AI功能。招商电子鄢凡团队指出,随着终端品牌、芯片、软件应用等产业链龙头在AI技术上的共同投入,PC、手机、机器人、XR、可穿戴、智能汽车和智能家居等终端有望迎来AI创新浪潮。相关上市公司中,兆威机电提供微型驱动控制系统,广泛应用于VR/AR/MR、云台、无人机等3C电子科技产品;欧菲光专注于摄像头模组、光学传感器、光学镜头等光学光电产品的生产和销售,产品主要应用于智能手机、平板、智能穿戴等移动终端以及车载摄像、安防监控等新型终端应用领域。

来源:财联社


💡 研究称 GPT-4 通过了图灵测试,54% 的人将其误认为真人

据IT之家报道,加州大学圣地亚哥分校的研究人员进行了图灵测试,参与者在与四位“对话者”进行五分钟的交流后,需要判断对方是人还是机器。这四位“对话者”分别是真人、上世纪60年代的初代聊天机器人ELIZA、以及驱动聊天机器人ChatGPT的GPT-3.5和GPT-4。结果显示,有54%的参与者将GPT-4误认为真人,而人类对话者被正确辨认的比例则为67%。这表明GPT-4在图灵测试中取得了显著的成功。图灵测试是由计算机科学家艾伦・图灵在1950年提出的,测试的标准是机器能否像人类一样进行对话,让对方误以为其是真人。然而,研究人员指出,图灵测试过于简单,对话的风格和情感因素在测试中扮演着比传统智能认知更重要的角色。IEEE的人工智能研究员内尔・沃森表示,真正的智能不仅仅是智力,还包括理解情境、他人的技能并具备同理心。她认为,这些品质对于AI成为我们生活中忠诚可靠的管家至关重要。此外,这项研究也凸显了GPT时代人工智能的巨大进步,并提出了未来人机交互的挑战,人们可能会对互动对象的真实性产生疑虑,尤其是在涉及敏感话题时。

来源:IT之家


💡 加速生成式 AI 应用开发,亚马逊 AWS 宣布向全球创企提供 2.3 亿美元资助

亚马逊AWS云科技宣布将向全球AI初创企业提供价值2.3亿美元的资助,支持这些企业加速开发生成式AI应用。这些资金将用于为初创企业提供指导、教育和免费的AWS云服务,促进这些企业进一步使用AI和ML技术。作为整体资助的一部分,亚马逊将启动第二批AWS Generative AI Accelerator计划,为80家早期初创企业提供为期10周的系统性指导,并提供价值至高100万美元的AWS云积分。这些企业还有机会参与亚马逊展示伙伴英伟达提供的行业专家见面会、技术展示,并加入英伟达NVIDIA Inception计划。AWS云科技AI产品副总裁马特·伍德表示,AWS帮助初创企业建立、启动和扩展业务的数量超过了任何其他云提供商,96%的AI/ML独角兽企业都使用AWS云服务。

来源:IT之家


标签:
评论 0
登录后即可发布评论
提交