标签:# 长文本
【论文速读】Efficient Classification of Long Documents via State-Space Models
简介
Transformer由于二次时间复杂度和长度外推能力有限,难以高效处理长文档,本文通过实验证明SSM模型在长文档分类任务中更为有效。本文还提出了SSM-pooler模型,在性能相当的情况下,效率高出36%。即使在40%的极端场景下,SSM-pooler对输入噪声也表现出更高的鲁棒性。
【论文速读】Long-Context Language Modeling with Parallel Context Encoding
简介
因为Transformer的二次时间复杂度和位置编码的扩展性有限,上下文窗口比较小,本文提出CEPE(Context Expansion with parallel encoding)并行编码上下文扩展,采用小新编码器逐块(chunk)处理输入文本,使冻结的解码器能通过cross-attention利用更长的上下文,可以使用在任何只有加码器的llm上,并且无需微调。
代码在CEPE: Preprint: Long-Context Language Modeling with Parallel Encodings。