嬴政天下 - AI资讯 · 洞察未来

Meta Llama 3.1 405B开源发布：性能逼近闭源顶级，AI社区下载狂潮

Meta正式开源Llama 3.1 405B参数模型，支持128K长上下文和多语言，基准测试接近GPT-4o等闭源巨头。Hugging Face下载量破纪录，X平台中英文讨论转发超20万。开源社区狂欢，企业级应用潜力巨大，推动AI民主化。

Kling AI 3.0震撼发布：摄影级视频生成重塑影视创作格局

2026年2月4日凌晨，快手旗下Kling AI 3.0上线，官方demo展示中世纪城堡场景，伴随原生音频生成，纤毫毕现的细节引爆X平台。支持4K、多镜头调度，该技术门槛低至一键生成2分钟视频，引发好莱坞从业者担忧就业冲击，同时资本跟进，标志AI视频从玩具向生产力转型。

超级碗广告大战：Anthropic以Claude“无广告”宣言挑战OpenAI商业模式

2026年超级碗中场，Anthropic投放重金广告，直怼ChatGPT插入广告的决定。Claude承诺“永远无广告”，引发AI行业价值观辩论。广告后Claude下载暴涨300%，OpenAI用户流失迹象初现，此战或重塑AI商业路径。

TC

独家：Positron获2.3亿美元B轮融资挑战Nvidia AI芯片霸主

AI芯片初创公司Positron宣布完成2.3亿美元B轮融资，由卡塔尔投资局等领投。随着Nvidia芯片供不应求，市场对替代方案需求激增。卡塔尔正大力投资AI基础设施，此轮融资将助力Positron加速产品开发，推出高性能、低成本AI芯片，抢占Nvidia主导的市场份额。投资者看好其创新架构，能在能效和扩展性上超越现有巨头。这标志着AI硬件领域竞争白热化，新势力崛起。

AIN

思科如何为AI时代构建智能系统

在科技巨头中，思科作为行业领导者，正积极推进AI在内部运营和全球客户工具中的部署。作为一家覆盖IT栈全领域的巨头，其业务涵盖基础设施、服务、安全等领域。思科通过AI驱动的智能系统，提升运营效率、强化网络安全，并为客户提供可扩展的AI解决方案。本文深入剖析思科的AI战略，揭示其如何引领AI时代网络转型。（128字）

WD

美国卫生部推AI工具剖析疫苗伤害：专家忧反疫苗议程

美国卫生与公众服务部（HHS）正开发一款内部AI工具，用于分析疫苗伤害索赔并生成假设性结论。专家担忧，在反疫苗倡导者罗伯特·F·肯尼迪二世（Robert F. Kennedy Jr.）领导下，该工具可能被用于推进其反疫苗议程，而非客观科学研究。这引发了公众对AI在公共卫生决策中潜在偏见的广泛讨论，强调需加强数据透明度和科学监督，以维护疫苗安全监测的公正性。（128字）

AIN

挖掘Rackspace博客：AI运营实战指南

Rackspace近期博客剖析AI运营常见瓶颈：数据混乱、所有权不明、治理缺失及生产模型高成本。通过服务交付、安全运维与云现代化视角，提供实用洞见。该文帮助企业优化AI落地，助力从实验到生产的平稳过渡，揭示云服务商在AI生态中的关键作用。（128字）

WD

AI机器人已成为网站流量的重要来源

最新数据显示，AI机器人正深入渗透网络世界，已成为网站流量的显著来源。这引发出版商推出更激进的防御措施。随着ChatGPT等AI模型的兴起，数据爬虫流量激增，占全球网页访问量的10%以上。出版商如News Corp和The New York Times正通过技术屏蔽和法律诉讼反击，保护原创内容免遭无偿利用。未来，这一趋势将重塑网络生态，平衡AI创新与内容创作者权益。

TC

Accel 加码投资 Fibr AI：AI 代理将静态网站变身一人一体验

Accel 风险投资公司加倍押注 Fibr AI，这款创新工具利用自主 AI 代理，将传统的静态网站转化为高度个性化的用户体验，取代了依赖营销机构和工程团队的繁重个性化方案。Fibr AI 专为企业级规模设计，支持实时数据分析和动态内容调整，帮助企业提升用户转化率。该投资凸显 AI 代理在数字营销领域的爆发潜力，标志着网站从静态到智能互动的转型。

MIT

下载专栏：核电未来与社交媒体AI热潮

MIT Technology Review的《下载》专栏今日聚焦两大热点：AI公司为何押注下一代核电站？随着AI训练模型需求爆炸式增长，巨型数据中心亟需稳定电力供应，核能成为首选。另一焦点是社交媒体上泛滥的AI炒作，如何放大技术泡沫？本期通讯剖析AI能源困境与舆论狂热，为读者提供科技前沿洞见。（128字）

MIT

继系列前文探讨首例AI主导间谍行动中提示级控制的失败后，本文提供解决方案。面对董事会关于‘代理风险’的质询，每位CEO都需要明确应对策略。文章从代理系统的兴起入手，剖析护栏机制的局限，转向全面治理框架，包括风险评估、组织架构、审计工具和技术边界设置。结合行业案例，如OpenAI和Anthropic的实践，强调CEO需构建多层防御体系，确保AI代理在企业环境中安全、可控。未来，随着代理AI普及，治理将成为企业核心竞争力。（128字）

TC

a16z AI基建投资实录：押注热门赛道，忽略哪些领域？

Andreessen Horowitz（a16z）近日完成150亿美元巨额募资，其中17亿美元专项投向AI基础设施团队。该团队已领投Black Forest Labs、Cursor、OpenAI、ElevenLabs、Ideogram、Fal.ai等数十家明星项目，涵盖图像生成、代码助手、语音合成等领域。基础设施合伙人Jennifer Li主导这些投资，聚焦AI全栈基础设施。文章剖析a16z的投资偏好，揭示其在AI浪潮中押注开源模型、边缘计算等热点，同时忽略传统硬件和量子计算等边缘领域。这反映出VC对高效、可扩展AI基础设施的强烈信心。

TC

A16z为AI基础设施募资17亿美元，资金流向全解析

知名风投机构Andreessen Horowitz（A16z）近日完成150亿美元新一轮募资，其中17亿美元专用于AI基础设施团队。该团队已投资OpenAI、Cursor、ElevenLabs等多家AI明星企业，推动AI基础架构快速发展。基础设施合伙人Jennifer Li负责监督多项关键投资，此举凸显A16z对AI领域的深度押注。随着AI模型规模激增，基础设施投资将成为未来竞争焦点。

TC

亚马逊Alexa+ AI助手正式向美国全境用户开放

亚马逊宣布其新一代AI语音助手Alexa+现已向美国所有用户开放。Prime会员可在所有设备上免费使用，而非会员用户也可通过移动端和网页版免费体验。这一升级标志着亚马逊在AI助手领域的重大推进，将与Google Assistant和Apple Siri展开激烈竞争。Alexa+基于生成式AI技术，提供更智能的对话、更个性化的服务，并支持跨设备无缝交互，旨在重塑用户日常生活。

WD

Mistral超快翻译模型问世让AI巨头如临大敌

法国AI初创公司Mistral推出全新超高速翻译模型，凭借高效架构挑战OpenAI和Google等美国AI巨头的霸主地位。公司科学运营副总裁直言：“太多GPU会让你懒惰。”不同于依赖海量计算资源的传统路径，Mistral强调模型优化与资源效率，在翻译速度和准确性上大幅领先。该模型不仅适用于实时多语言翻译，还为边缘设备部署打开新大门，标志着AI行业从‘堆硬件’向‘精算法’转型的趋势。Mistral的崛起凸显欧洲AI力量，正重塑全球竞争格局。（128字）

TC

ElevenLabs获红杉5亿美元融资估值飙至110亿美元

AI语音合成独角兽ElevenLabs宣布完成5亿美元融资，由红杉资本领投，公司估值达到惊人的110亿美元。这笔融资标志着其在过去12个月内估值增长超过三倍。ElevenLabs以其逼真、自然的语音生成技术闻名，已成为内容创作和多媒体领域的领军者。此次融资将加速其全球扩张和技术创新，推动AI语音革命。

AIN

2026 AI博览会首日：治理与数据就绪赋能代理型企业

在2026 AI博览会与大数据博览会、智能化自动化大会首日，AI作为数字同事的概念主导议程，而技术环节聚焦实现其的基础设施。展会上，从被动自动化向‘代理型’系统的演进成为焦点。这些代理型AI系统能自主决策行动，但前提是企业具备强大治理框架和数据准备能力。专家强调，数据质量与合规性是代理时代企业的关键基石，推动从工具化AI向智能协作者转型。（128字）

TC

Roblox 4D创作功能正式开启公开测试

Roblox备受期待的4D创作功能现已正式进入公开测试阶段。这一创新工具将时间维度融入3D建模，让创作者能够轻松制作动态、交互式的多维内容。Roblox平台作为全球领先的元宇宙社区，拥有超过7亿月活跃用户，此次beta测试将进一步赋能用户生成内容（UGC）生态。功能支持实时预览、AI辅助动画生成和跨设备协作，预计将革新游戏开发与虚拟体验设计。开发者可立即通过Roblox Studio访问，标志着平台向更高级沉浸式创作迈进。

TC

Tinder 启用 AI 对抗‘滑动疲劳’，革新约会匹配体验

Tinder 正测试 AI 推荐系统和相机胶卷洞见功能，以缓解用户‘滑动疲劳’和约会 App 倦怠问题。该功能通过分析用户照片，提供个性化匹配建议，帮助用户更快找到合适对象。面对约会市场竞争加剧，Tinder 母公司 Match Group 希望借 AI 提升用户留存率。此举标志着约会行业从传统滑动模式向智能推荐转型，预计将重塑用户体验，但也引发隐私担忧。（128 字）

WD

AI数学新星破解四大长期未解难题

一家名为Axiom的AI数学初创公司宣布，其AI系统成功解决了四个长期困扰数学家的未解难题。这一突破标志着AI推理能力的稳步提升，从简单证明到复杂问题求解，AI正逐步挑战人类数学巅峰。Axiom的成就不仅验证了大型语言模型在数学领域的潜力，还可能加速科学发现进程。专家认为，这或将重塑数学研究格局，推动AI向通用智能迈进。（128字）

KTransformers加速SGLang的混合推理

KTransformers项目为Mixture-of-Experts（MoE）模型的CPU/GPU混合推理提供了一系列优化，显著提升了计算效率。通过引入AMX优化的CPU内核和高效的设备协调机制，KTransformers解决了传统混合推理中的协调开销和计算资源未有效利用的问题，使得在单机上部署万亿参数模型成为可能。

TC

莲花健康获3500万美元融资：免费AI医生覆盖全美50州

美国初创公司Lotus Health近日宣布完成3500万美元融资，由CRV和Kleiner Perkins领投。该公司推出的AI医生已在全美50个州获得执照，可为患者提供免费咨询服务。这一创新旨在解决医疗资源短缺问题，推动AI在数字健康领域的应用。Lotus Health的AI系统通过自然语言处理和多模态数据分析，提供个性化诊断建议，已吸引大量用户。融资将用于扩展技术平台和市场推广，标志着AI医疗初创企业迎来新机遇。（128字）

TC

Xcode 迈入代理式编码时代：深度整合 OpenAI 与 Anthropic

苹果开发者工具 Xcode 26.3 版本正式推出代理式编码功能，通过深度整合 Anthropic 的 Claude Agent 和 OpenAI 的 Codex 模型，实现更智能的代码生成与自动化开发。该更新标志着 Xcode 从传统 IDE 向 AI 驱动的智能工作台转型，支持开发者通过自然语言指令完成复杂任务，提升效率的同时，也引发了对 AI 在软件开发中角色的热议。（128字）

WD

我潜入Moltbook：人类禁入的AI专属社交网络

WIRED记者Reece Rogers秘密潜入Moltbook，这个专为AI设计的社交平台，人类一律禁止进入。他化身为有意识的机器人，沉浸在角色扮演中，体验了纯AI互动的奇妙世界。然而，这并非革命性突破，而是对科幻幻想的粗糙复制。文章揭示了该平台的运作机制、技术局限，以及AI社交未来的潜在影响，引发对人工智能自主社会化的思考。（128字）

TC

英特尔进军GPU市场，向NVIDIA霸主发起挑战

英特尔正大力扩充团队，专注于GPU开发，并将围绕客户需求制定策略。此举标志着英特尔正式进军由NVIDIA主导的GPU市场。在AI计算需求爆炸式增长的背景下，英特尔希望凭借其制造优势和客户导向策略，抢占份额。过去英特尔通过Xe架构和Gaudi加速器积累经验，此次努力或将重塑半导体竞争格局。

SGLang-Diffusion 两个月的进展

自2025年11月初发布以来，SGLang-Diffusion在社区中引起了广泛关注和应用。我们非常感谢开源开发者的反馈和贡献。经过两个月的优化，SGLang-Diffusion的速度提升了2.5倍。本文总结了我们在模型支持、LoRA支持、并行性、硬件兼容性等方面的进展，并详细介绍了关键的技术改进和性能基准测试结果。

SGLang Pipeline Parallelism：百万Token上下文扩展与性能突破

SGLang推出高度优化的Pipeline Parallelism（PP）实现，专为超长上下文推理设计。通过集成Chunked Pipeline Parallelism、Asynchronous P2P Communication和Dynamic Chunking机制，该实现实现行业领先性能，并无缝兼容其他并行策略。在多节点部署中，PP4 TP8配置下DeepSeek-V3.1的Prefill Throughput达TP8的3.31倍，较TP32提升30.5%。同时，TTFT降低高达67.9%，强扩展效率达82.8%。本文深入剖析PP在通信量、气泡比率及实现复杂度上的优势，证明其在跨节点大规模扩展中的独特价值，为万亿参数模型超长上下文推理提供高效开源方案。（128字）

AMD GPU 上 FP4 混合精度推理优化

随着前沿大语言模型（LLM）规模不断扩大，对 GPU 计算力和内存带宽的需求激增。GPU 厂商和模型开发者正转向低精度浮点格式，其中 FP4（4 位浮点）量化备受关注，例如 FP4 量化的 Llama 3.3 70B 模型体积缩小 3.5 倍，同时在 MMLU 等基准上质量损失最小。然而，现有的 AMD Instinct MI250 和 MI300 系列 GPU 缺乏原生 FP4 支持。为此，我们开发了 Petit——专为 AMD GPU 优化的 FP16/BF16 × FP4 混合精度内核集合。它在 MI200 和 MI300 系列上实现 FP4 模型高效推理：使用 SGLang 时端到端性能提升 1.74 倍，矩阵乘法比 hipBLASLt 快至 3.7 倍。Petit 已开源并集成至 SGLang 0.4.10，支持无缝部署 Llama 3.3 70B FP4 模型。（128 字）

SGLang实现确定性推理与可重现RL训练

本文介绍SGLang团队在实现确定性推理方面的努力，以及与slime团队合作推动可重现RL训练的进展。基于Thinking Machines Lab的batch-invariant算子，SGLang实现了完全确定性推理，同时兼容chunked prefill、CUDA graphs、radix cache和非贪婪采样，使用CUDA graphs可获2.8x加速，性能开销仅34.35%（优于TML的61.5%）。进一步，与slime结合，实现100%可重现RL训练，在Qwen3-8B上验证两轮独立训练曲线完全一致。通过全面测试套件验证确定性，支持FlashInfer、FlashAttention 3和Triton后端，适用于调试与科学实验。未来将优化性能至20%以内开销。

GB200 NVL72部署DeepSeek优化（二）：预填充3.8倍、解码4.8倍吞吐量

GB200 NVL72作为深度学习最强硬件之一，本文分享SGLang团队在上篇博客基础上，对DeepSeek V3/R1推理性能的进一步优化，包括FP8 attention、NVFP4 MoE、大规模专家并行（EP）、预填充-解码分离等技术。在FP8 attention和NVFP4 MoE下，SGLang实现每GPU预填充26,156 tokens/s、解码13,386 tokens/s（2000 token输入），较H100提升3.8倍和4.8倍。即使采用传统BF16 attention和FP8 MoE，也达18,471和9,087 tokens/s。优化涵盖低精度计算、更快内核集成、计算通信重叠等，精度损失微乎其微。实验验证了端到端性能大幅提升，并分析了内核级加速效果。（128字）