Document_QA

根据传入的文本文件，回答你的问题。

核心逻辑来自于chatPDF，自动化客服AI，以及：ChatWeb

由于原来的ChatWeb项目使用的是pqsql作为向量存储和计算工具，较为复杂，本项目修改成faiss，更简单快速。

基本原理

读取文件，并进行分割
对于每段文本，使用text-embedding-ada-002生成特征向量
将向量和文本对应关系存入本地pkl文件
对于用户输入，生成向量
使用向量数据库进行最近邻搜索，返回最相似的文本列表
使用gpt3.5的chatAPI，设计prompt，使其基于最相似的文本列表进行回答

就是先把大量文本中提取相关内容，再进行回答，最终可以达到类似突破token限制的效果
后续可以考虑将openai的文本向量改成自定义的向量生成工具

准备开始

项目依赖

主要依赖

faiss
numpy
openai

环境变量

设置OPENAI_API_KEY为你的openai的api key

export OPENAI_API_KEY="sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

运行

python Document_QA.py --input_file test.md --file_embeding test.pkl

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
Document_QA.py		Document_QA.py
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Document_QA.py

Document_QA.py

README.md

README.md

Repository files navigation

Document_QA

基本原理

准备开始

About

Releases

Packages

Languages

fierceX/Document_QA

Folders and files

Latest commit

History

Document_QA.py

Document_QA.py

README.md

README.md

Repository files navigation

Document_QA

基本原理

准备开始

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages