【论文速读】Can't Remember Details in Long Documents You Need Some R&R

2024-05-13 8 min read # 论文 # 长文本

【论文速读】Efficient Classification of Long Documents via State-Space Models

2024-04-22 5 min read # SSM # 论文 # 长文本

简介

Transformer由于二次时间复杂度和长度外推能力有限，难以高效处理长文档，本文通过实验证明SSM模型在长文档分类任务中更为有效。本文还提出了SSM-pooler模型，在性能相当的情况下，效率高出36%。即使在40%的极端场景下，SSM-pooler对输入噪声也表现出更高的鲁棒性。

【论文速读】Long-Context Language Modeling with Parallel Context Encoding

2024-04-21 9 min read # 论文 # 长文本

简介

因为Transformer的二次时间复杂度和位置编码的扩展性有限，上下文窗口比较小，本文提出CEPE（Context Expansion with parallel encoding）并行编码上下文扩展，采用小新编码器逐块（chunk）处理输入文本，使冻结的解码器能通过cross-attention利用更长的上下文，可以使用在任何只有加码器的llm上，并且无需微调。

代码在CEPE: Preprint: Long-Context Language Modeling with Parallel Encodings。

zhmの笔记

标签：# 长文本

【论文速读】Can't Remember Details in Long Documents You Need Some R&R

【论文速读】Efficient Classification of Long Documents via State-Space Models

简介

【论文速读】Long-Context Language Modeling with Parallel Context Encoding

简介