阿里与上交大提出 LLM 长文本计算新解法:可处理文本长达 1900k 字节、效率提升 2.4 倍
编译 | 郭 思编辑丨陈彩娴在实际应用大模型的过程中,尤其是处理长文本的上下文信息时,如何高效灵活地调度计算资源成为一个学术界与工业界共同关注的问题。大语言模型所能容纳的上下文长度直接影响了诸如 Ch ...
date:2025-08-21 23:50  praise:  views:1786
Anthropic AI 最新研究成果发布:揭示大模型中的注意力回路
语言模型怎么“知道”乔丹是篮球运动员的?近日,Anthropic通过构建归因图呈现了语言模型处理这一问题时的底层机制。由下图可以看到,对于"Fact: Michael Jordan play ...
date:2025-08-21 23:40  praise:  views:2003
《非遗里的中国》带你探寻白山松水间的匠心传承
来源标题:《非遗里的中国》带你探寻白山松水间的匠心传承长白山巅的积雪映照着千年文明的星火,松花江流淌的碧波承载着多元文化的记忆。在东北这片广袤的黑土地上,吉林如同一部厚重的文化典籍,有55项国家级非物 ...
date:2025-08-21 23:31  praise:  views:356
《七月的一天》正式开机 沈月陈昊森携手勇闯漫画世界
来源标题:《七月的一天》正式开机 沈月陈昊森携手勇闯漫画世界 7月4日,由华策影视北京)有限公司出品,王昊执导、孙小闲编剧,沈月、陈昊森领衔主演,田栩宁、柯颖主演,王钧浩特别主演,欧阳雨辰、泰乐、吴浔 ...
date:2025-08-21 23:26  praise:  views:2734
被低估的面壁:打造出不输 OpenAI 的 Scaling Law 曲线
大约 1 个月前,马斯克所创办的 xAI 团队宣布开源 Grok-1——一个参数量为 3140 亿的 MoE 大模型。从参数量来看,Grok-1 超越了 70B 的 LLaMA 2,是当前开源模型中最 ...
date:2025-08-21 23:20  praise:  views:219
破解创作密码,解码市场趋势,这场研讨共探精品创作新路径
来源标题:破解创作密码,解码市场趋势,这场研讨共探精品创作新路径近年来,北京网络剧创作成果丰硕。在“北京大视听”品牌引领下,涌现出《我的阿勒泰》《滤镜》《异人之下之决战!碧游村 ...
date:2025-08-21 22:43  praise:  views:68
为什么是梁文锋做出了DeepSeek?
这是2025年开年最火的科技明星,短短几天时间,梁文锋从小到大的种种过往都被展现在世人眼前,包括他来不及装修的新房以及在房子里睡觉用的帐篷,都成为了他独特个性的象征。独特个性固然为人津津乐道,但并不是 ...
date:2025-08-21 22:31  praise:  views:251
RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理
清华和上交的最新论文中,上演了一场“学术打假”的戏码。文中研究者们对当前“纯 RL 有利于提升模型推理能力”的主流观点提出了相反的意见。通过一系列实验,他们证明引入强化学习的模型在某些任务中的表现,竟 ...
date:2025-08-21 22:24  praise:  views:2846
《少年书院行》:用青春脚步丈量文明厚度
来源标题:《少年书院行》:用青春脚步丈量文明厚度在文化类节目不断探索年轻化、可视化、沉浸式表达的新语境中,由湖南卫视与芒果TV联合推出的《少年书院行》以鲜活的少年视角与行走式的叙事模式,开辟出一条传统 ...
date:2025-08-21 21:53  praise:  views:250
反超 DeepSeek?马斯克「钞能力」砸出来的 Grok 3 终于上线了
2 月 16 号,马斯克在 X 上发布了一条自家 Grok 3 模型的发布预告。并配文“地球上最聪明的 AI”要来了。北京时间 2025 年 2 月 18 日中午,马斯克如约带领着 xAI 的工程师和 ...
date:2025-08-21 21:52  praise:  views:1673