Name		Name	Last commit message	Last commit date
parent directory ..
img		img
readme.md		readme.md

readme.md

LLMs 研究 —— LLMs 自我解释性研究

论文名称：Can Large Language Models Explain Themselves? A Study of LLM-Generated Self-Explanations

论文地址：https://arxiv.org/pdf/2310.11207.pdf

一、动机

像ChatGPT这样的大型语言模型（LLM）在各种自然语言处理（NLP）任务上表现出了卓越的性能，包括情感分析、数学推理和摘要。

此外，由于这些模型是根据人类对话调整的指令，以产生“有用”的反应，它们可以而且经常会随着反应产生解释，我们称之为自我解释。

例如，在分析电影评论的情绪时，该模型不仅可以输出情绪的积极性，还可以输出解释（例如，通过在评论中列出“奇妙”和“难忘”等充满情绪的词语）。

LLM在自我解释方面有多擅长？

二、论文介绍

文章评估了LLM自行生成特征归因解释的能力。这是与LLM的可解释性相关的一个重要话题。

对大型语言模型（LLMs）在自我生成特征归因解释方面的能力进行了严格评估

特征归因解释：模型解释其自身预测的能力，通过说明输入中每个单词的重要性

研究使用ChatGPT和SST数据集作为测试平台，构建了能可靠生成两种类型的LLM生成自我解释的提示
研究比较了这些解释与传统的解释技术（遮蔽显著性和LIME）在忠实度和一致性指标上的表现；

三、论文结论

根据忠实度评估，无论是自动生成的解释还是其他解释，都没有明显的优势。然而，根据一致性评估，它们之间存在很大的区别。这可能表明当前解释方法可能不是最优的，需要开发更好的方法来产生更好的自我解释；
模型预测值和单词归因值都非常全面，取值如0.25，0.67，0.75等。这表明当前的评估度量可能无法充分区分好解释和坏解释；

四、论文未来研究工作

需要开发更好的方式来引出自我解释；
需要重新思考评估实践，可能需要采用替代评估策略，例如人类主体研究，以更好地评估解释的优劣；
进一步评估其他类型的解释以及不同版本的LLMs，以深入了解这些模型如何理解自己；
研究也强调了确保这些解释不被用于有害目的的重要性，并提出了可能需要解决的问题，例如解释的操纵和模型公平性；

致谢

Can Large Language Models Explain Themselves? A Study of LLM-Generated Self-Explanations：https://arxiv.org/pdf/2310.11207.pdf
【LLM研究解读】LLM自我解释的研究 https://zhuanlan.zhihu.com/p/662109728

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

LLMs_explain_themselves

LLMs_explain_themselves

img

img

readme.md

readme.md

readme.md

LLMs 研究 —— LLMs 自我解释性研究

一、动机

二、论文介绍

三、论文结论

四、论文未来研究工作

致谢

Files

LLMs_explain_themselves

Directory actions

More options

Directory actions

More options

Latest commit

History

LLMs_explain_themselves

Folders and files

parent directory

img

img

readme.md

readme.md

readme.md

LLMs 研究 —— LLMs 自我解释性研究

一、动机

二、论文介绍

三、论文结论

四、论文未来研究工作

致谢