Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于数据格式 #228

Open
sanwei111 opened this issue May 16, 2023 · 6 comments
Open

关于数据格式 #228

sanwei111 opened this issue May 16, 2023 · 6 comments

Comments

@sanwei111
Copy link

data路径下,有两个py文件,其中一个是把alpaca转为qa:比如:{"id": 1, "paragraph": [{"q": "下面是一个指令,描述了一个任务。编写适当的输出完成请求。\n\n### 指令:\n给出三个保持健康的提示。\n\n### 响应:", "a": ["1.饮食要均衡,确保包括足够的水果和蔬菜。\n2.定期运动以保持身体活跃和强壮。\n3.保持充足的睡眠并保持一致的睡眠时间表。"]}]}

我想问,你给出的例子中是没有——下面是一个指令,描述了一个任务。编写适当的输出完成请求以及\n\n###这些符号,想问问要用哪个数据格式???

@ssbuild
Copy link
Owner

ssbuild commented May 16, 2023

两种数据最终都要转成 qa , 也就是两种数据内容形式都可以, 数据结构是qa 即可。

@sanwei111
Copy link
Author

格式1:{"id": 1, "paragraph": [{"q": "下面是一个指令,描述了一个任务。编写适当的输出完成请求。\n\n### 指令:\n给出三个保持健康的提示。\n\n### 响应:", "a": ["1.饮食要均衡,确保包括足够的水果和蔬菜。\n2.定期运动以保持身体活跃和强壮。\n3.保持充足的睡眠并保持一致的睡眠时间表。"]}]}

格式2:| |
| ------------------------------------------------------------ |
| {"id": 1, "paragraph": [{"q": "从南京到上海的路线", "a": ["你好,南京到上海的路线如下:", "1. 南京到上海,可以乘坐南京地铁1号线,在南京站乘坐轨道交通1号线。", "2. 南京到浦东机场,可以搭乘上海地铁1号,在陆家嘴站乘坐地铁1线,在浦东国际机场站乘坐机场快线,前往上海浦东国际机场。", "3. 上海到南京,可以换乘上海地铁2号线,从南京站换乘地铁2线,再从南京南站换乘地铁1路,然后到达上海站"]}]} |

意思是这两种都可?说白了区别就是多了一些提示词

@ssbuild
Copy link
Owner

ssbuild commented May 16, 2023

是的。

@sanwei111
Copy link
Author

不好意思,还是想问一下。我用alpaca2qa.py把alpaca的数据集转成所需格式。比如:{
"instruction": "给出三个保持健康的提示。",
"input": "",
"output": "1.饮食要均衡,确保包括足够的水果和蔬菜。\n2.定期运动以保持身体活跃和强壮。\n3.保持充足的睡眠并保持一致的睡眠时间表。"
},转成
{"id": 1, "paragraph": [{"q": "下面是一个指令,描述了一个任务。编写适当的输出完成请求。\n\n### 指令:\n给出三个保持健康的提示。\n\n### 响应:", "a": ["1.饮食要均衡,确保包括足够的水果和蔬菜。\n2.定期运动以保持身体活跃和强壮。\n3.保持充足的睡眠并保持一致的睡眠时间表。"]}]}

有两个问题:
1.你的readnme那里给出的语料例子长这个样子的: {"id": 1, "paragraph": [{"q": "从南京到上海的路线", "a": ["你好,南京到上海的路线如下:", "1. 南京到上海,可以乘坐南京地铁1号线,在南京站乘坐轨道交通1号线。", "2. 南京到浦东机场,可以搭乘上海地铁1号,在陆家嘴站乘坐地铁1线,在浦东国际机场站乘坐机场快线,前往上海浦东国际机场。", "3. 上海到南京,可以换乘上海地铁2号线,从南京站换乘地铁2线,再从南京南站换乘地铁1路,然后到达上海站"]}]} |——为什么没有诸如“下面是一个指令,描述了一个任务。编写适当的输出完成请求。\n\n### 指令:\n”这些?
2.如果我的问答是英文语料怎么办?转换之后是这样可以吗——{"id": 199, "paragraph": [{"q": "下面是一个指令,描述了一个任务,搭配一个输入,提供进一步的上下文。编写适当的输出完成请求。\n\n### 指令:\nCreate a list of pros and cons.\n\n### 请求:\nMaintaining a blog\n\n### 响应:", "a": ["Pros: \n- Improved visibility and branding \n- Opportunities to share information\n- Boosts creativity\n- Increased website traffic\n\nCons:\n- Time consuming\n- Requires consistency\n- Can be expensive to maintain"]}]}

@ssbuild
Copy link
Owner

ssbuild commented May 16, 2023

  1. 语料只是给了一个数据格式 , 也给了第三方数据链接。
  2. 英文可以参考 https://github.com/tatsu-lab/stanford_alpaca

@sanwei111
Copy link
Author

1.所以按着alpaca2qa.py文件转出来的中文语料是可以用的?:{"id": 1, "paragraph": [{"q": "下面是一个指令,描述了一个任务。编写适当的输出完成请求。\n\n### 指令:\n给出三个保持健康的提示。\n\n### 响应:", "a": ["1.饮食要均衡,确保包括足够的水果和蔬菜。\n2.定期运动以保持身体活跃和强壮。\n3.保持充足的睡眠并保持一致的睡眠时间表。"]}]}
2.好的呢!谢谢老哥

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants