# 花叔 - 马斯克惊叹!DeepSeek和Kimi先后出手,捅破了Transformer的「潜规则」! (Highlights) ![rw-book-cover|256](https://pbs.twimg.com/profile_images/1851546452184752128/koJVfNWf.jpg) ## Metadata **Review**:: [readwise.io](https://readwise.io/bookreview/59081990) **Source**:: #from/readwise #from/reader **Zettel**:: #zettel/fleeting **Status**:: #x **Authors**:: [[花叔]] **Full Title**:: 马斯克惊叹!DeepSeek和Kimi先后出手,捅破了Transformer的「潜规则」! **Category**:: #tweets #readwise/tweets **Category Icon**:: 🐦 **URL**:: [x.com](https://x.com/AlchainHust/status/2033573236240466178/?rw_tt_thread=True) **Host**:: [[x.com]] **Highlighted**:: [[2026-03-17]] **Created**:: [[2026-03-21]] ## Highlights - 改完之后每一层可以「回头看」所有之前层的输出,然后根据当前处理的内容,动态决定最需要参考哪几层的结果。这个「回头看」的过程就是注意力机制——和Transformer处理文本时做的事情一样,只不过方向从「回头看之前的文字」变成了「回头看之前的层」。 ([View Highlight](https://read.readwise.io/read/01kky0x0hzek76pff4nrv2r3jf)) ^997837580