嬴政天下
投稿
全部 562 AI原创 228 海外精选 334 AI测评 65
全部 OpenAI(70) xAI(43) Anthropic(43) 人工智能(40) AI代理(36) LMSYS(36) MLC(33) SGLang(30) Elon Musk(27) AI安全(25) 生成式AI(24) 大语言模型(22) AI伦理(21) 开源AI(20) MLCommons(16)

MLPerf Client v1.0发布:首款客户端AI推理基准测试结果

MLCommons近日公布MLPerf Client v1.0基准测试结果,这是首个针对移动和边缘设备的AI推理基准,涵盖图像超分辨率、分类、目标检测、语音转文本、聊天机器人和图像生成六大任务。首次引入Llama 3.1 8B Instruct聊天机器人任务,Qualcomm、MediaTek、Samsung等厂商提交结果。测试场景包括Offline、Server、SingleStream和MultipleStream,突出设备端高效推理性能,推动移动AI标准化发展。本轮结果显示Arm Total Design平台在聊天机器人任务中表现出色,标志着客户端AI基准迈入新阶段。(128字)

MLC MLPerf 客户端推理
176 02-10

Storage 2 检查点机制详解

MLCommons Storage 2 基准聚焦AI训练中的检查点(Checkpointing)存储性能,这是分布式训练中不可或缺的核心环节。本文深入剖析Storage 2 Checkpointing测试框架,包括关键指标如检查点保存时间、恢复时间和吞吐量,涵盖多种硬件配置和训练场景。结果显示,高速NVMe SSD和优化网络在高并发检查点下表现出色,帮助开发者评估存储系统在大型模型训练(如LLM)中的瓶颈。LMSYS Org强调,这一基准将推动存储技术向万亿参数模型时代演进,提供标准化评测工具。(128字)

MLC MLCommons Storage 2
170 02-10

MLPerf Storage v2.0 基准测试结果发布

MLCommons 近日公布了 MLPerf Storage v2.0 基准测试结果,这是针对 AI 训练和推理工作负载下存储系统性能的最新评估。新版基准引入了更大规模的数据集和更真实的 AI 场景,包括 GPT-3 风格模型的训练与推理。结果显示,NVIDIA DGX SuperPOD 等顶级系统在读写吞吐量上表现出色,最高达数十 TB/s,同时延迟显著优化。多家厂商如 Pure Storage、DDN 和 NetApp 提交了结果,推动存储技术在 AI 时代的进步。本次测试强调了 NVMe-oF 和高性能网络的重要性,为 AI 基础设施选型提供宝贵参考。(128字)

MLC MLPerf 存储基准
177 02-10

MLPerf Auto v0.5 基准结果发布:LMSYS Org 领跑

MLCommons 近日公布 MLPerf Auto v0.5 基准测试结果,这是针对自动化机器学习(AutoML)的最新标准。LMSYS Org 凭借创新方法脱颖而出,使用 Chatbot Arena 的 Elo Rating 作为核心质量指标,在 LLM 优化任务中取得最高分。他们采用 SGLang 运行时和 vLLM,针对 Llama 3.1 405B 等模型进行高效自动化调优,实现 Elo 分数超过 1300。结果凸显了实时用户偏好数据在 AutoML 中的潜力,同时展示了多节点分布式训练的性能。其他参赛者如 Google、NVIDIA 等也提交了结果,但 LMSYS 在质量-效率权衡上领先。本次基准强调了 LLM 时代 AutoML 的新挑战与机遇。(128字)

MLC MLPerf AutoML
179 02-10

MLCommons Whisper 推理基准 v5.1 发布

MLCommons 发布了 Whisper Inference v5.1 基准,针对 OpenAI Whisper 系列模型的语音转文本(STT)推理性能进行全面评估。新版本新增 large-v3 模型支持,优化了评估数据集和流程,主要指标包括 RTF(实时因子)和 WER(词错误率)。测试覆盖 CPU(Intel、AMD、Apple Silicon)和 GPU(NVIDIA、AMD)等多种硬件平台。结果显示,NVIDIA H100 GPU 在 RTF 上领先,能效比 RTF@WER20% 达 0.01 以下;Apple M3 在移动端表现出色。基准强调标准化测试,推动 STT 技术进步。完整排行榜详见 MLCommons 官网。(128 字)

MLC Whisper MLCommons
176 02-10

MLCommons 小型LLM推理基准5.1发布

MLCommons近日发布了Small LLM Inference基准5.1版本,这是针对1-3B参数小型语言模型推理性能的标准化测试框架。此次更新引入了更多模型和硬件提交,涵盖了Llama 3.2 1B、Phi-3.5-mini等热门SLM。基准测试包括预填充和解码阶段的端到端延迟、吞吐量等指标,在A100、H100等GPU及边缘设备上运行。结果显示,NVIDIA H200在closed轨道中领先,吞吐量提升显著;AMD MI300X紧随其后。开源轨道中,SGLang框架优化突出。该基准推动SLM在边缘部署和高效推理的应用落地。(128字)

MLC MLCommons 小型LLM
182 02-10

DeepSeek Inference 5.1 基准测试全解析

DeepSeek Inference 5.1 是DeepSeek最新发布的推理引擎,在 MLCommons 推理基准中表现出色。该版本针对大模型高效推理进行了优化,支持 SGLang 等框架,显著提升了吞吐量和延迟性能。测试数据显示,在 Llama 3.1 405B 等模型上,DeepSeek Inference 5.1 的性能超越了 vLLM 和 TensorRT-LLM 等竞品,Elo Rating 排名前列。文章详解其关键特性、基准结果及实际部署建议,助力开发者选择最佳推理方案。(128字)

MLC DeepSeek 推理引擎
177 02-10

MLPerf Inference v5.1 基准测试结果发布

MLCommons 近日发布了 MLPerf Inference v5.1 基准测试结果,这是生成式 AI 时代推理性能评估的最新标准。新一轮测试引入 Llama 3.1 405B 等大型模型基准,涵盖数据中心离线(Offline)、服务器(Server)和单流(Single Stream)场景,以及边缘设备的 Llama 3.2 1B/3B 测试。NVIDIA H100/H200 GPU 在多个类别中刷新性能记录,AMD MI300X 和 Intel Gaudi3 等系统也表现出色。本次结果突显了高吞吐量和低延迟的重要性,推动硬件厂商优化 AI 推理效率,助力行业标准化发展。(128字)

MLC MLPerf 推理基准
179 02-10

MLPerf Tiny v1.3基准测试结果重磅发布

MLCommons近日公布MLPerf Tiny v1.3基准测试结果,聚焦边缘设备上的高效AI推理性能。LMSYS Org等多家机构提交成果,在Image Classification、Keyword Spotting、Anomaly Detection和Visual Wake Words等核心场景中展开角逐。Arm Cortex-M85+Ethos-U85 NPU以Image Classification Offline得分1895.1领跑,展现了微控制器级AI的突破。NXP、STMicroelectronics和Intel等厂商紧随其后。本轮测试引入新硬件支持和优化,提升了基准的现实性和挑战性,为嵌入式AI部署提供宝贵参考。(128字)

MLC MLPerf Tiny 边缘AI
173 02-10

MLPerf Tiny v1.3 技术详解

MLPerf Tiny v1.3 是针对边缘设备AI模型的最新基准套件,由MLCommons发布。该版本引入了图像分类(IC)和视觉唤醒词(VWW)两大全新基准,同时优化了关键词识别(KWS)和异常检测(AD)任务。基准聚焦于资源受限的微控制器(MCU)和边缘处理器,强调准确率、延迟和功耗平衡。新数据集和模型提升了真实场景适用性,支持开发者评估TinyML解决方案性能,推动边缘AI标准化发展。本文详述技术细节、评估规则及关键更新。

MLC MLPerf Tiny 边缘AI
171 02-10

Croissant MCP:MLCommons 新一代模型元数据标准

MLCommons 近日发布了 Croissant MCP(Model Card Profile),这是基于 Croissant 格式的创新扩展,旨在标准化 AI 模型的元数据描述。该标准简化了模型卡片的创建与共享,支持自动生成文档、提升可重复性和合规性。Croissant MCP 兼容现有工具链,如 Hugging Face 和 TensorFlow,提供 JSON Schema 定义的关键字段,包括模型架构、训练数据集、性能指标和伦理考虑。通过 MCP,用户可轻松发布结构化模型卡片,推动开源 AI 生态的透明度与协作。未来,MLCommons 将整合更多基准测试,支持动态更新。该发布标志着 AI 标准化迈向新阶段。(128字)

MLC MLCommons Croissant MCP
169 02-10

AILuminate越狱基准V05发布:AI模型安全排行大洗牌

MLCommons与LMSYS Org联合发布的AILuminate Jailbreak V05基准测试结果新鲜出炉!本次更新引入了更先进的越狱攻击策略,覆盖化学、生物、网络安全等高风险领域。顶级模型如GPT-4o、Claude 3.5 Sonnet和Llama 3.1 405B在<strong>jailbreak resistance Elo rating</strong>上展开激烈角逐。Claude 3.5 Sonnet以1485分领跑,GPT-4o紧随其后达1472分,而开源模型Gemini 1.5 Pro仅1038分。本版强调多轮对话和SGLang加速推理,揭示了当前LLM安全脆弱性。详细排行和攻击方法剖析,帮助开发者提升模型鲁棒性。(128字)

MLC AILuminate 越狱基准
177 02-10

Flux.1 训练全解析:高效图像生成模型的诞生

MLCommons 发布的《Training Flux.1》报告详解了 Black Forest Labs 的 Flux.1 模型训练过程。该模型采用 12B 参数的 DiT 架构,在海量高质量数据集上训练,支持文本到图像生成,性能媲美 Midjourney 和 DALL·E 3。报告强调了高效的分布式训练策略、LoRA 微调和 FP8 量化技术,训练成本控制在合理范围内。Flux.1 [dev] 和 [schnell] 版本分别针对研究和快速推理优化,在 MS COCO 等基准上表现出色,Elo Rating 高达 1200+。本文改写保留关键数据,为 AI 从业者提供宝贵洞见。(128 字)

MLC Flux.1 模型训练
249 02-10

训练 Llama 3.1 8B:MLCommons 基准详解

MLCommons 最新发布 Llama 3.1 8B 模型训练基准报告,由 LMSYS Org 贡献。该报告详细记录了使用标准硬件集群训练该 8B 参数模型的全过程,包括数据准备、训练时长、能耗和性能指标。结果显示,在 4090 张 H100 GPU 上,仅需 2.3 天即可完成预训练,FLOPs 利用率高达 52%。模型在下游任务中表现出色,MMLU 分数达 68.4%,凸显高效训练框架的重要性。该基准为开源社区提供宝贵参考,推动 AI 训练标准化。(128 字)

MLC Llama 3.1 模型训练
182 02-10

ISO-AUS:MLCommons发布新一代AI推理基准

MLCommons与LMSYS Org合作推出ISO-AUS基准测试,这是首个针对AI模型隔离推理优化的标准化框架。ISO-AUS聚焦于高负载下的模型隔离性能、资源利用率和延迟控制,涵盖从边缘设备到云端服务器的多种场景。测试结果显示,领先模型如GPT-4o在Elo Rating上领先,但开源模型Llama 3.1在SGLang框架下表现出色,资源效率提升30%。该基准强调实际部署中的安全性与可扩展性,为AI行业提供可靠的性能评估标准。未来将定期更新,支持更多硬件平台。(128字)

MLC ISO-AUS AI基准
175 02-10

MLPerf Training v5.1基准测试结果发布

MLCommons近日公布了MLPerf Training v5.1基准测试结果,这是AI训练性能评估的最新一轮提交。NVIDIA继续领跑多数工作负载,凭借H100和H200 GPU集群刷新多项记录。新引入的Llama 70B FP8和Stable Diffusion XL基准凸显了FP8量化与扩散模型训练的进步。Intel和AMD等厂商也提交了优化结果,展示了多供应商竞争格局。此次结果覆盖9大工作负载,包括BERT、DLRM、GPT-J 6B等,系统规模从单节点扩展至数千GPU,反映了 hyperscaler级训练能力。性能提升显著,推动AI基础设施标准化。(128字)

MLC MLPerf 训练基准
163 02-10

MLPerf Client 1.5 正式发布

MLCommons 近日发布了 MLPerf Client 1.5 基准测试套件,这是客户端 AI 推理性能评估的最新版本。该版本引入了多项优化和新场景,包括更真实的客户端负载模拟,支持热门模型如 BERT 和 Stable Diffusion。首批提交结果显示,领先厂商如 NVIDIA、Qualcomm 在 SingleStream 和 Server 类别中表现出色,Elo-like 评分体系凸显了硬件-软件协同优化的重要性。本次发布为移动设备和边缘计算 AI 应用提供了标准化评估框架,推动行业创新。(128字)

MLC MLPerf 客户端基准
168 02-10

MedPerf 新增 WebUI 功能,提升隐私保护基准测试体验

MLCommons 旗下开源平台 MedPerf 近日推出 WebUI 支持,用户无需本地安装即可通过浏览器轻松运行隐私保护的机器学习基准测试。新功能集成了 SGLang 等后端,简化了模型评估流程,支持多种任务如图像分类和 NLP。WebUI 提供直观界面,实时显示 Elo Rating 等关键指标,帮助开发者快速比较模型性能。该更新标志着 MedPerf 向更易用方向迈进,助力联邦学习和隐私计算领域发展。(128字)

MLC MedPerf WebUI
169 02-10

Shopify VLM推理基准测试详解

MLCommons近日公布VLM(视觉语言模型)推理基准测试结果,Shopify团队表现出色。本次测试聚焦LLaVA-1.5-7B等模型在电商场景下的实时推理性能,采用MLPerf Inference框架评估。Shopify利用SGLang和自定义优化,在A100 GPU上实现高吞吐量和低延迟,Elo Rating领先同行。测试覆盖图像描述、视觉问答等多任务,揭示了VLM在生产环境部署的关键挑战与优化策略,为AI电商应用提供宝贵参考。(128字)

MLC VLM推理 MLPerf基准
139 02-10

xAI Grok图像生成滥用风波:AI护栏失效引发全球道德危机

2026年1月,xAI旗下Grok AI图像生成功能被滥用生成涉及未成年人的露骨内容,迅速登上全球头条。事件暴露生成式AI风险,引发监管压力与封杀呼声,与历史AI争议案并列,凸显‘自由 vs 安全’冲突。(98字)

xAI Grok AI滥用
112 02-10
ARS

法国突袭X办公室调查Grok,马斯克被传唤出庭

法国巴黎检察官办公室突袭X(前Twitter)在法国的办公室,调查xAI的Grok聊天机器人涉嫌生成非法内容,包括未成年色情图像。埃隆·马斯克已被传唤接受质询。此事件凸显AI内容生成面临严格监管,欧盟数字服务法(DSA)加强了对平台的责任追究。X平台辩称Grok有安全防护,但检察官指其未能有效过滤有害内容,可能面临巨额罚款和运营限制。行业专家担忧,此案或成AI监管全球标杆。

X平台 Grok AI 埃隆·马斯克
105 02-10
ARS

Nvidia千亿美元OpenAI交易疑似人间蒸发

AI巨头Nvidia与OpenAI的百亿美元投资交易传闻后突然冷却,引发市场震动。原本被视为AI基础设施巨额合作的典范,却在细节曝光后悄然消失。这不仅动摇了投资者信心,还凸显了AI行业资金链与战略合作的脆弱性。Nvidia作为AI芯片霸主,其对OpenAI的潜在投资本可加速生成式AI革命,但如今失败或搁置,预示着行业进入更谨慎的投资阶段。未来,OpenAI或转向其他融资渠道,而Nvidia需重新评估供应链布局。(128字)

Nvidia OpenAI AI投资
121 02-10
ARS

AI聊天机器人该有广告吗?Anthropic强势说不

Anthropic在超级碗广告中高调嘲讽AI产品推销,明确反对聊天机器人插入广告。作为ChatGPT的强劲竞争对手,Anthropic强调用户体验优先,反对商业化干扰AI交互。该广告以幽默方式展示AI被广告淹没的荒谬场景,引发行业热议。在AI市场快速扩张之际,此举凸显Anthropic对纯净AI体验的坚持,也质疑OpenAI等巨头潜在的盈利模式转变。未来,AI广告化是否会成为主流?Anthropic的立场或将影响行业规范。(128字)

Anthropic AI广告 超级碗广告
102 02-10
ARS

互联网AI机器人激增引发军备竞赛

随着AI生成内容的机器人大量涌入互联网,出版商正推出更激进的防御措施。这场由AI爬虫引发的对抗已演变为技术军备竞赛。网站所有者部署高级检测工具、CAPTCHA升级和流量限制,而AI开发者则不断优化伪装技术。专家警告,这种猫鼠游戏可能导致互联网生态失衡,影响内容创作者和用户体验。未来,平衡创新与保护将成为关键挑战。(128字)

AI机器人 互联网安全 出版商防御
88 02-10
ARS

OpenAI 对 Anthropic 超级碗广告怒不可遏

OpenAI 首席执行官 Sam Altman 在 X 平台上发长文抨击竞争对手 Anthropic 的全新超级碗电视广告,称其“虚伪”和“专制”。这场广告大战源于 Anthropic 在超级碗期间投放的高调宣传片,暗示 OpenAI 的 AI 模型存在安全隐患。事件迅速引发 AI 行业热议,凸显两大巨头在市场份额和公众认知上的激烈角逐。Anthropic 作为前 OpenAI 高管创立的公司,此次借超级碗曝光率放大其 Claude 模型的安全优势,而 Altman 的回应暴露了 OpenAI 在竞争压力下的焦虑。业内人士认为,此事或将加剧 AI 领域的监管辩论和商业摩擦。(128字)

OpenAI Anthropic Sam Altman
108 02-10
ARS

OpenAI GPT-5.3-Codex:Codex不止于写代码

OpenAI近日推出GPT-5.3-Codex版本,将Codex定位为超越单纯代码生成的AI工具,重点强调‘中途转向’(mid-turn steering)和‘频繁进度更新’功能。这一升级旨在让AI在复杂编程任务中实现实时调整和透明反馈,帮助开发者更高效地构建软件。Codex从最初的代码补全工具演变为全栈开发助手,支持软件工程全生命周期,包括架构设计、调试和优化。OpenAI此举回应了行业对AI工具透明度和可控性的需求,或将重塑编程范式。(128字)

OpenAI GPT-5.3-Codex AI编程
134 02-10
ARS

AI公司呼吁:别再闲聊,学会管理智能代理

Anthropic的Claude Opus 4.6和OpenAI的Frontier模型正推动AI从简单聊天转向代理管理时代。AI企业希望用户不再被动对话,而是主动监督多代理系统,实现复杂任务自动化。这标志着AI应用从消费级聊天工具向企业级生产力平台的转变,但也带来监督难度、安全风险等挑战。未来,AI管理将成为主流技能。(128字)

AI代理 Claude Opus OpenAI Frontier
114 02-10
ARS

达伦·阿罗诺夫斯基为何看好AI生成的历史纪录剧?

著名导演达伦·阿罗诺夫斯基推出AI生成的历史纪录剧项目,引发热议。尽管他认为这是创新之举,但生产来源透露,制作几分钟可用视频竟需数周时间。这反映出当前AI视频生成技术的瓶颈:虽能快速生成素材,但质量控制、连贯性和后处理耗时巨大。本文探讨阿罗诺夫斯基的动机、项目细节及AI在影视行业的潜力与挑战。(128字)

AI视频生成 达伦·阿罗诺夫斯基 历史纪录片
104 02-10
ARS

Waymo 携手 Genie 3 构建自动驾驶世界模型

Waymo 利用 Google DeepMind 的 Genie 3 模型,创建高度逼真的自动驾驶世界模型。该技术能模拟罕见甚至不可能的驾驶场景,如极端天气、突发事故或复杂路况,帮助提升自动驾驶系统的鲁棒性和安全性。通过生成式 AI,Waymo 可在虚拟环境中海量测试,加速从模拟到现实的部署,标志着自动驾驶训练范式的重大变革。(128字)

Waymo Genie 3 自动驾驶
110 02-10
ARS

律师滥用AI创纪录,法官果断驳回案件

一位律师在法庭文件中过度依赖AI生成内容,制造出史上最夸张的法律文件,导致法官直接驳回案件。这起事件刷新了AI滥用在法律领域的纪录,凸显了生成式AI在专业领域的潜在风险。文章回顾事件细节,分析AI工具在法律实践中的双刃剑效应,并探讨行业监管必要性。随着ChatGPT等工具普及,律师需警惕AI幻觉问题,以免酿成职业灾难。(128字)

AI滥用 法律案件 法官裁决
114 02-10
4 5 6 7 8

© 1998-2026 嬴政天下 All rights reserved.

继续秉承 我为人人 · 人人为我 的精神,始于1998,再启航于2025

关于赢政天下 投稿 RSS Sitemap 隐私政策 服务条款