DeepSeek OCR论文引发热议:Karpathy推崇像素输入,马斯克预言光子未来
发布时间:
2025-10-21 15:24:08
来源: 保山日报网
近日,AI领域掀起了一场关于输入形式的激烈讨论,起因是一篇DeepSeek OCR论文引发了广泛关注。AI大神Andrej Karpathy公开表示对这篇论文的喜爱,并深入探讨了像素作为大型语言模型(LLM)输入形式的潜在优势。与此同时,科技界巨头Elon Musk也加入了讨论,预言未来AI模型的输入输出将主要由光子构成。
Karpathy在评价DeepSeek OCR论文时指出,抛开模型本身的性能不谈,这篇论文引出了一个更为深刻的问题:对于LLM来说,像素是否是比文本更优越的输入形式?他进一步设想,或许所有LLM的输入都只应该是图像,即便是纯文本内容,也应该先渲染成图片再输入给模型。
为了支持这一构想,Karpathy给出了四大核心理由:
1. 更高的信息压缩效率
将文本渲染成图像可以实现更高的信息压缩,这意味着更短的上下文窗口和更高的运行效率。这对于需要处理大量数据的AI模型来说,无疑是一个巨大的优势。
2. 更通用的信息流
像素是一种远比文本更通用的信息流。它不仅能表示纯文本,还能轻松捕捉粗体、彩色文本,甚至是任意的图表和照片。这种通用性使得像素成为一种更加灵活和强大的输入形式。
3. 默认实现强大的双向注意力
像素化的输入可以很自然、很轻松地默认使用双向注意力进行处理。这种处理方式比自回归注意力更为强大,因为它能够同时考虑输入信息的上下文,从而做出更加准确的预测和判断。
4. 彻底淘汰Tokenizer
Karpathy毫不掩饰自己对Tokenizer的嫌弃。他认为Tokenizer是一个丑陋、独立、非端到端的阶段,它引入了Unicode和字节编码的所有丑陋之处,并带来了安全和越狱风险。他举例说,Tokenizer会导致两个在人眼看来完全相同的字符在网络内部被表示为两个完全不同的Token,这限制了模型的迁移学习能力。
然而,Karpathy的观点也引发了一些争议。AI学者Yoav Goldberg提出了两个疑问:为什么说图像能轻松获得双向注意力而文本不能?将输入图像切分成图块(Patches)难道不是一种类似且可能更丑陋的处理方式吗?
对此,Karpathy进行了解释。他回应说,原则上没有任何东西阻止文本使用双向注意力,但为了效率,文本通常都是以自回归的方式进行训练的。他设想可以在训练中期加入一个微调阶段,用双向注意力来处理作为条件的信息,但他不确定在实践中是否有人这样做。
在这场讨论的最后,Elon Musk也现身评论区,并给出了一个更具未来感的判断:从长远来看,AI模型超过99%的输入和输出都将是光子。他进一步解释说,宇宙中绝大多数的粒子都是光子,而这些光子最主要的来源是宇宙微波背景(CMB)。根据测算,CMB的光子密度约为每立方厘米410个,乘以可观测宇宙的巨大体积后,可以得出仅CMB贡献的光子数量就达到了一个惊人的数字。
马斯克认为,这背后揭示的物理事实是:光子在数量级上拥有无与伦比的优势。这或许就是他认为AI的未来输入输出将由光子主宰的底层逻辑。他强调,没有其他任何东西可以像光子那样实现规模化。
