标签:# 长文本

【论文速读】Long-Context Language Modeling with Parallel Context Encoding

简介

因为Transformer的二次时间复杂度和位置编码的扩展性有限,上下文窗口比较小,本文提出CEPE(Context Expansion with parallel encoding)并行编码上下文扩展,采用小新编码器逐块(chunk)处理输入文本,使冻结的解码器能通过cross-attention利用更长的上下文,可以使用在任何只有加码器的llm上,并且无需微调。

代码在CEPE: Preprint: Long-Context Language Modeling with Parallel Encodings