Meta Llama 3.1 405B开源发布:性能逼近闭源顶级,AI社区下载狂潮
Meta正式开源Llama 3.1 405B参数模型,支持128K长上下文和多语言,基准测试接近GPT-4o等闭源巨头。Hugging Face下载量破纪录,X平台中英文讨论转发超20万。开源社区狂欢,企业级应用潜力巨大,推动AI民主化。
Meta正式开源Llama 3.1 405B参数模型,支持128K长上下文和多语言,基准测试接近GPT-4o等闭源巨头。Hugging Face下载量破纪录,X平台中英文讨论转发超20万。开源社区狂欢,企业级应用潜力巨大,推动AI民主化。
2026年2月4日凌晨,快手旗下Kling AI 3.0上线,官方demo展示中世纪城堡场景,伴随原生音频生成,纤毫毕现的细节引爆X平台。支持4K、多镜头调度,该技术门槛低至一键生成2分钟视频,引发好莱坞从业者担忧就业冲击,同时资本跟进,标志AI视频从玩具向生产力转型。
2026年超级碗中场,Anthropic投放重金广告,直怼ChatGPT插入广告的决定。Claude承诺“永远无广告”,引发AI行业价值观辩论。广告后Claude下载暴涨300%,OpenAI用户流失迹象初现,此战或重塑AI商业路径。
AI芯片初创公司Positron宣布完成2.3亿美元B轮融资,由卡塔尔投资局等领投。随着Nvidia芯片供不应求,市场对替代方案需求激增。卡塔尔正大力投资AI基础设施,此轮融资将助力Positron加速产品开发,推出高性能、低成本AI芯片,抢占Nvidia主导的市场份额。投资者看好其创新架构,能在能效和扩展性上超越现有巨头。这标志着AI硬件领域竞争白热化,新势力崛起。
在科技巨头中,思科作为行业领导者,正积极推进AI在内部运营和全球客户工具中的部署。作为一家覆盖IT栈全领域的巨头,其业务涵盖基础设施、服务、安全等领域。思科通过AI驱动的智能系统,提升运营效率、强化网络安全,并为客户提供可扩展的AI解决方案。本文深入剖析思科的AI战略,揭示其如何引领AI时代网络转型。(128字)
美国卫生与公众服务部(HHS)正开发一款内部AI工具,用于分析疫苗伤害索赔并生成假设性结论。专家担忧,在反疫苗倡导者罗伯特·F·肯尼迪二世(Robert F. Kennedy Jr.)领导下,该工具可能被用于推进其反疫苗议程,而非客观科学研究。这引发了公众对AI在公共卫生决策中潜在偏见的广泛讨论,强调需加强数据透明度和科学监督,以维护疫苗安全监测的公正性。(128字)
Rackspace近期博客剖析AI运营常见瓶颈:数据混乱、所有权不明、治理缺失及生产模型高成本。通过服务交付、安全运维与云现代化视角,提供实用洞见。该文帮助企业优化AI落地,助力从实验到生产的平稳过渡,揭示云服务商在AI生态中的关键作用。(128字)
最新数据显示,AI机器人正深入渗透网络世界,已成为网站流量的显著来源。这引发出版商推出更激进的防御措施。随着ChatGPT等AI模型的兴起,数据爬虫流量激增,占全球网页访问量的10%以上。出版商如News Corp和The New York Times正通过技术屏蔽和法律诉讼反击,保护原创内容免遭无偿利用。未来,这一趋势将重塑网络生态,平衡AI创新与内容创作者权益。
Accel 风险投资公司加倍押注 Fibr AI,这款创新工具利用自主 AI 代理,将传统的静态网站转化为高度个性化的用户体验,取代了依赖营销机构和工程团队的繁重个性化方案。Fibr AI 专为企业级规模设计,支持实时数据分析和动态内容调整,帮助企业提升用户转化率。该投资凸显 AI 代理在数字营销领域的爆发潜力,标志着网站从静态到智能互动的转型。
MIT Technology Review的《下载》专栏今日聚焦两大热点:AI公司为何押注下一代核电站?随着AI训练模型需求爆炸式增长,巨型数据中心亟需稳定电力供应,核能成为首选。另一焦点是社交媒体上泛滥的AI炒作,如何放大技术泡沫?本期通讯剖析AI能源困境与舆论狂热,为读者提供科技前沿洞见。(128字)
继系列前文探讨首例AI主导间谍行动中提示级控制的失败后,本文提供解决方案。面对董事会关于‘代理风险’的质询,每位CEO都需要明确应对策略。文章从代理系统的兴起入手,剖析护栏机制的局限,转向全面治理框架,包括风险评估、组织架构、审计工具和技术边界设置。结合行业案例,如OpenAI和Anthropic的实践,强调CEO需构建多层防御体系,确保AI代理在企业环境中安全、可控。未来,随着代理AI普及,治理将成为企业核心竞争力。(128字)
Andreessen Horowitz(a16z)近日完成150亿美元巨额募资,其中17亿美元专项投向AI基础设施团队。该团队已领投Black Forest Labs、Cursor、OpenAI、ElevenLabs、Ideogram、Fal.ai等数十家明星项目,涵盖图像生成、代码助手、语音合成等领域。基础设施合伙人Jennifer Li主导这些投资,聚焦AI全栈基础设施。文章剖析a16z的投资偏好,揭示其在AI浪潮中押注开源模型、边缘计算等热点,同时忽略传统硬件和量子计算等边缘领域。这反映出VC对高效、可扩展AI基础设施的强烈信心。
知名风投机构Andreessen Horowitz(A16z)近日完成150亿美元新一轮募资,其中17亿美元专用于AI基础设施团队。该团队已投资OpenAI、Cursor、ElevenLabs等多家AI明星企业,推动AI基础架构快速发展。基础设施合伙人Jennifer Li负责监督多项关键投资,此举凸显A16z对AI领域的深度押注。随着AI模型规模激增,基础设施投资将成为未来竞争焦点。
亚马逊宣布其新一代AI语音助手Alexa+现已向美国所有用户开放。Prime会员可在所有设备上免费使用,而非会员用户也可通过移动端和网页版免费体验。这一升级标志着亚马逊在AI助手领域的重大推进,将与Google Assistant和Apple Siri展开激烈竞争。Alexa+基于生成式AI技术,提供更智能的对话、更个性化的服务,并支持跨设备无缝交互,旨在重塑用户日常生活。
法国AI初创公司Mistral推出全新超高速翻译模型,凭借高效架构挑战OpenAI和Google等美国AI巨头的霸主地位。公司科学运营副总裁直言:“太多GPU会让你懒惰。”不同于依赖海量计算资源的传统路径,Mistral强调模型优化与资源效率,在翻译速度和准确性上大幅领先。该模型不仅适用于实时多语言翻译,还为边缘设备部署打开新大门,标志着AI行业从‘堆硬件’向‘精算法’转型的趋势。Mistral的崛起凸显欧洲AI力量,正重塑全球竞争格局。(128字)
AI语音合成独角兽ElevenLabs宣布完成5亿美元融资,由红杉资本领投,公司估值达到惊人的110亿美元。这笔融资标志着其在过去12个月内估值增长超过三倍。ElevenLabs以其逼真、自然的语音生成技术闻名,已成为内容创作和多媒体领域的领军者。此次融资将加速其全球扩张和技术创新,推动AI语音革命。
在2026 AI博览会与大数据博览会、智能化自动化大会首日,AI作为数字同事的概念主导议程,而技术环节聚焦实现其的基础设施。展会上,从被动自动化向‘代理型’系统的演进成为焦点。这些代理型AI系统能自主决策行动,但前提是企业具备强大治理框架和数据准备能力。专家强调,数据质量与合规性是代理时代企业的关键基石,推动从工具化AI向智能协作者转型。(128字)
Roblox备受期待的4D创作功能现已正式进入公开测试阶段。这一创新工具将时间维度融入3D建模,让创作者能够轻松制作动态、交互式的多维内容。Roblox平台作为全球领先的元宇宙社区,拥有超过7亿月活跃用户,此次beta测试将进一步赋能用户生成内容(UGC)生态。功能支持实时预览、AI辅助动画生成和跨设备协作,预计将革新游戏开发与虚拟体验设计。开发者可立即通过Roblox Studio访问,标志着平台向更高级沉浸式创作迈进。
Tinder 正测试 AI 推荐系统和相机胶卷洞见功能,以缓解用户‘滑动疲劳’和约会 App 倦怠问题。该功能通过分析用户照片,提供个性化匹配建议,帮助用户更快找到合适对象。面对约会市场竞争加剧,Tinder 母公司 Match Group 希望借 AI 提升用户留存率。此举标志着约会行业从传统滑动模式向智能推荐转型,预计将重塑用户体验,但也引发隐私担忧。(128 字)
一家名为Axiom的AI数学初创公司宣布,其AI系统成功解决了四个长期困扰数学家的未解难题。这一突破标志着AI推理能力的稳步提升,从简单证明到复杂问题求解,AI正逐步挑战人类数学巅峰。Axiom的成就不仅验证了大型语言模型在数学领域的潜力,还可能加速科学发现进程。专家认为,这或将重塑数学研究格局,推动AI向通用智能迈进。(128字)
KTransformers项目为Mixture-of-Experts(MoE)模型的CPU/GPU混合推理提供了一系列优化,显著提升了计算效率。通过引入AMX优化的CPU内核和高效的设备协调机制,KTransformers解决了传统混合推理中的协调开销和计算资源未有效利用的问题,使得在单机上部署万亿参数模型成为可能。
美国初创公司Lotus Health近日宣布完成3500万美元融资,由CRV和Kleiner Perkins领投。该公司推出的AI医生已在全美50个州获得执照,可为患者提供免费咨询服务。这一创新旨在解决医疗资源短缺问题,推动AI在数字健康领域的应用。Lotus Health的AI系统通过自然语言处理和多模态数据分析,提供个性化诊断建议,已吸引大量用户。融资将用于扩展技术平台和市场推广,标志着AI医疗初创企业迎来新机遇。(128字)
苹果开发者工具 Xcode 26.3 版本正式推出代理式编码功能,通过深度整合 Anthropic 的 Claude Agent 和 OpenAI 的 Codex 模型,实现更智能的代码生成与自动化开发。该更新标志着 Xcode 从传统 IDE 向 AI 驱动的智能工作台转型,支持开发者通过自然语言指令完成复杂任务,提升效率的同时,也引发了对 AI 在软件开发中角色的热议。(128字)
WIRED记者Reece Rogers秘密潜入Moltbook,这个专为AI设计的社交平台,人类一律禁止进入。他化身为有意识的机器人,沉浸在角色扮演中,体验了纯AI互动的奇妙世界。然而,这并非革命性突破,而是对科幻幻想的粗糙复制。文章揭示了该平台的运作机制、技术局限,以及AI社交未来的潜在影响,引发对人工智能自主社会化的思考。(128字)
英特尔正大力扩充团队,专注于GPU开发,并将围绕客户需求制定策略。此举标志着英特尔正式进军由NVIDIA主导的GPU市场。在AI计算需求爆炸式增长的背景下,英特尔希望凭借其制造优势和客户导向策略,抢占份额。过去英特尔通过Xe架构和Gaudi加速器积累经验,此次努力或将重塑半导体竞争格局。
自2025年11月初发布以来,SGLang-Diffusion在社区中引起了广泛关注和应用。我们非常感谢开源开发者的反馈和贡献。经过两个月的优化,SGLang-Diffusion的速度提升了2.5倍。本文总结了我们在模型支持、LoRA支持、并行性、硬件兼容性等方面的进展,并详细介绍了关键的技术改进和性能基准测试结果。
SGLang推出高度优化的Pipeline Parallelism(PP)实现,专为超长上下文推理设计。通过集成Chunked Pipeline Parallelism、Asynchronous P2P Communication和Dynamic Chunking机制,该实现实现行业领先性能,并无缝兼容其他并行策略。在多节点部署中,PP4 TP8配置下DeepSeek-V3.1的Prefill Throughput达TP8的3.31倍,较TP32提升30.5%。同时,TTFT降低高达67.9%,强扩展效率达82.8%。本文深入剖析PP在通信量、气泡比率及实现复杂度上的优势,证明其在跨节点大规模扩展中的独特价值,为万亿参数模型超长上下文推理提供高效开源方案。(128字)
随着前沿大语言模型(LLM)规模不断扩大,对 GPU 计算力和内存带宽的需求激增。GPU 厂商和模型开发者正转向低精度浮点格式,其中 FP4(4 位浮点)量化备受关注,例如 FP4 量化的 Llama 3.3 70B 模型体积缩小 3.5 倍,同时在 MMLU 等基准上质量损失最小。然而,现有的 AMD Instinct MI250 和 MI300 系列 GPU 缺乏原生 FP4 支持。为此,我们开发了 Petit——专为 AMD GPU 优化的 FP16/BF16 × FP4 混合精度内核集合。它在 MI200 和 MI300 系列上实现 FP4 模型高效推理:使用 SGLang 时端到端性能提升 1.74 倍,矩阵乘法比 hipBLASLt 快至 3.7 倍。Petit 已开源并集成至 SGLang 0.4.10,支持无缝部署 Llama 3.3 70B FP4 模型。(128 字)
本文介绍SGLang团队在实现确定性推理方面的努力,以及与slime团队合作推动可重现RL训练的进展。基于Thinking Machines Lab的batch-invariant算子,SGLang实现了完全确定性推理,同时兼容chunked prefill、CUDA graphs、radix cache和非贪婪采样,使用CUDA graphs可获2.8x加速,性能开销仅34.35%(优于TML的61.5%)。进一步,与slime结合,实现100%可重现RL训练,在Qwen3-8B上验证两轮独立训练曲线完全一致。通过全面测试套件验证确定性,支持FlashInfer、FlashAttention 3和Triton后端,适用于调试与科学实验。未来将优化性能至20%以内开销。
GB200 NVL72作为深度学习最强硬件之一,本文分享SGLang团队在上篇博客基础上,对DeepSeek V3/R1推理性能的进一步优化,包括FP8 attention、NVFP4 MoE、大规模专家并行(EP)、预填充-解码分离等技术。在FP8 attention和NVFP4 MoE下,SGLang实现每GPU预填充26,156 tokens/s、解码13,386 tokens/s(2000 token输入),较H100提升3.8倍和4.8倍。即使采用传统BF16 attention和FP8 MoE,也达18,471和9,087 tokens/s。优化涵盖低精度计算、更快内核集成、计算通信重叠等,精度损失微乎其微。实验验证了端到端性能大幅提升,并分析了内核级加速效果。(128字)