alpaca_gpt4_data_zh.json那份数据，很多output部分是不完整的。 #29

lale314 · 2023-06-27T03:01:55Z

部分instruction如下：
写一篇《麦田里的守望者》的书摘。
写一个与技术进步相关的短故事。
在Instagram上为化妆品品牌创建一个有针对性的帖子。
写一段关于你选择的话题的说唱歌词。
用给定的主题创作一个原创故事。主题：老化。
创作一首关于你最喜欢的篮球队洛杉矶湖人的说唱歌曲。
创作一个故事，以这个句子为开头：天空是一片明亮的蓝色。
想出两个电视剧的点子。
比较Emma Lazarus的《新巨像》和William Shakespeare的《十九号十四行诗》中自由的主题。
写一段比较和对比《麦田里的守望者》和《杀死一只知更鸟》这两本书。
为一部关于大学生的电影创建提纲。电影标题为“大学生”。

sz128 · 2023-06-30T10:54:29Z

中文结果有问题，不完整。

sz128 · 2023-07-04T16:47:32Z

@lale314 可以用如下代码过滤出不完整的数据。

import sys
import json

with open(sys.argv[1]) as fin:
    for line in fin:
        line = line.strip()
        sample = json.loads(line)
        output = sample['output'].strip(" \n\"”")
        if output[-1] in set("?!.。？！})]`》）") or output.endswith("```") or '\n\n此致' in output[-20:]:
            print(line)
        else:
            if len(output) > 200:
                sample['id'] = sample['id'] + '__<|notstoptoken|>'
                print(json.dumps(sample, ensure_ascii=False))
            else:
                print(line)

stephen-nju mentioned this issue Mar 13, 2024

请作者重视，我多次实验发现，如果回答的内容比较长，就回出现截断情况。 hiyouga/LLaMA-Factory#2816

Closed

1 task

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

alpaca_gpt4_data_zh.json那份数据，很多output部分是不完整的。 #29

alpaca_gpt4_data_zh.json那份数据，很多output部分是不完整的。 #29

lale314 commented Jun 27, 2023

sz128 commented Jun 30, 2023

sz128 commented Jul 4, 2023

alpaca_gpt4_data_zh.json那份数据，很多output部分是不完整的。 #29

alpaca_gpt4_data_zh.json那份数据，很多output部分是不完整的。 #29

Comments

lale314 commented Jun 27, 2023

sz128 commented Jun 30, 2023

sz128 commented Jul 4, 2023