ivf宝典

长文本解决方案&&量化优化

显式搜索的知识库外挂方案，隐式搜索的Unlimiformer, 并行输入的pcw和并行解码NBCE。

1、长文本解析切分成chunk: 实际使用过程中发现文本解析竟然是最核心的部分，能否把需要保留语义完整性的段落拆成整段，能否高质量的解析表格，和结构化数据，对后续QA的影响最大

文本向量化：中文可用的embedding模型有不少，也可以基于simcse，consert在垂直领域做进一步的微调。在向量化阶段主要的问题是文本截断带来的上下文损失会影响召回，因此可以尝试重叠切分，拼接摘要/标题等方式

向量入库：需要高效向量检索的数据库，Milvus、Pinecone，这块最近也火了一波初创公司

用户问题改写：在多轮QA的场景，对话历史有两种使用方式，其一使用历史对话对当前query进行改写再召回，其二种是使用原始用户query去召回文本，在回复阶段引入对话历史

召回：基于用户query或改写query进行向量化检索，topK或者阈值召回。除了考虑相关性，在部分场景也要考虑时效性，文本质量等等

答案生成：使用召回文档拼接用户query进行答案生成，这一步往往还需要用到模型摘要，Refine等能力，核心是对以上召回的长文本进行压缩

搜索法最大的优点是实现简单，不过也有许多限制就是只能支持NLU任务，以及会破坏输入文本的上下文连续性，和文本顺序。但在大规模知识问答这块算是现在看到最好的方案。

2、EMBEDDING的时候，做重叠切分，单独编码。取TOPK

unlimiformr采用以上提到的重叠切分的方法，重叠率50%，这样可以更好保留上文和文本连贯性，例如第一段文本是1-500字，第二段重叠250字取250-750字。然后使用Encoder对每段文本进行独立编码，绕过Attention的平方复杂度问题。最后输出每段文本的Embedding，注意这里不是文本整体embedidng, 而是后半部分(250~500字)每个

3、PCW：并行输入，对全文本做处理。

位置编码，

加入得到每段文本的past-key-values直接进行拼接，

解码器修改attention ,对全部的样本，做

码器对全部上文进行Attention计算：这里需要修改Attention把上文的全部Attention进行拼接，让解码器的每一步可以对全部上文计算Attention

4、

输出层做概率融合，避免注意分散，保障了解码的合理性，避免乱码：

苏剑林. (May. 23, 2023). 《NBCE：使用朴素贝叶斯扩展LLM的Context处理长度》[Blog post]. Retrieved from https://spaces.ac.cn/archives/9617

苏剑林. (May. 31, 2023). 《关于NBCE方法的一些补充说明和分析》[Blog post]. Retrieved from https://spaces.ac.cn/archives/9632

https://github.com/bojone/NBCE

适用于Encoder-Decoder模型，长文本内容理解如摘要问答等场景

但差异在于PCW是在输入层进行融合，而NBCE是在输出层对每一个Step输出的预测token的概率矩阵进行融合，更大程度上避免了注意力被分散，保证了解码的合理性。

原理：朴素贝叶斯假设

基于多段文本进行并行解码的预测概率可以简化如下，也就是每段文本条件解码概率之和减去无条件解码概率

以上解码概率求和，其实是对k段文本生成的 ∗ 的概率矩阵，沿K做AvergePooling，得到最终 ∗1的解码概率。

也就是从多段上文中取1个预测置信度最高的上文进行解码。这里其实是和PCW最大的差异，也就是在解码层进行融合，并通过熵值较低的融合策略来保证解码的准确率。

以及后面苏神还通过Top-P来进一步过滤尾部的噪声，以及通过控制每一步解码的转移概率，来让解码器不会在不同上文片段之间反复切换，而是保证连续的解码片段大概率来自相同的上文片段。

把n变成超参Beta, 控制条件概率和无条件概率的占比，Beta越高解码和上文的关联度越高，QA等场景的解码准确率越高，生成自由度越低。

当前NBCE的局限性在于无法处理上文片段之间的位置关系，以及无法处理解码需要依赖多个上文片段的场景。后者感觉可以通过预测概率矩阵的相关性修改Pooling方式，而前者

INT8量化的模型效果似乎要略优于FP16, 显著优于INT4

模型的大小由其参数量及其精度决定，精度通常为 float32、float16 或 bfloat16，

Float32 (FP32) 。标准的 IEEE 32 位浮点表示，指数 8 位，尾数 23 位，符号 1 位，可以表示大范围的浮点数。大部分硬件都支持 FP32 运算指令。

Float16 (FP16) 。指数 5 位，尾数 10 位，符号 1 位。FP16 数字的数值范围远低于 FP32，存在上溢 (当用于表示非常大的数时) 和下溢 (当用于表示非常小的数时) 的风险，通过缩放损失 (loss scaling) 来缓解这个问题。

Bfloat16 (BF16) 。指数 8 位 (与 FP32 相同)，尾数 7 位，符号 1 位。这意味着 BF16 可以保留与 FP32 相同的动态范围。但是相对于 FP16，损失了 3 位精度。因此，在使用 BF16 精度时，大数值绝对没有问题，但是精度会比 FP16 差。

TensorFloat-32(TF32) 。使用 19 位表示，结合了 BF16 的范围和 FP16 的精度，是计算数据类型而不是存储数据类型。目前使用范围较小。

阅读全文

发布于 2025-05-31

喜欢 126

16

上一篇：四次不良妊娠史，多年艰难求子路，国际首例性腺基因嵌合行三代试管技术助孕婴儿健康诞生

下一篇：烟台毓璜顶医院刘雪梅：解开“试管婴儿”的神秘面纱，她用热爱与坚持为无数家庭圆梦

推荐阅读