Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

查询系统中的关系数据来源 #71

Open
GaleHuang opened this issue Jan 10, 2020 · 1 comment
Open

查询系统中的关系数据来源 #71

GaleHuang opened this issue Jan 10, 2020 · 1 comment

Comments

@GaleHuang
Copy link

GaleHuang commented Jan 10, 2020

请问最终查询系统中的三元组数据,来自结构化数据(百科上爬取)的三元组和文本中抽取的三元组的比例大概是多少? 从文本中抽取三元组,首先需要对文本进行命名实体识别,然后从中依次选择一对对命名实体进行关系抽取。由于知识库中的实体可能存在重名/多义问题,并且NER得到的实体名可能是知识库中的实体名的缩写/别称等等,NER得到的实体需要用实体链接链接到知识库中的实体,这一环节的大概思路是什么样的? 另外目前关系抽取技术能得到的三元组的质量(准确度/F1)应该会远低于结构化数据中爬取的,如果将两种途径得到的三元组融合起来,如何确保最终系统的检索质量呢?

@GaleHuang GaleHuang changed the title 实体查询和关系查询中的关系数据来源 查询中的关系数据来源 Jan 10, 2020
@GaleHuang GaleHuang changed the title 查询中的关系数据来源 查询系统中的关系数据来源 Jan 10, 2020
@CrisJk
Copy link
Collaborator

CrisJk commented Jan 11, 2020

@GaleHuang

我们将已有的结构化数据与纯文本对齐,得到关系抽取的训练集。这一步只是做简单的字符串匹配,确实会存在噪音问题。实际上这也是远程监督的思想,远程监督必然会带来噪音。我们使用的关系提取算法可以在一定程度上可以缓解训练集噪音问题。由于数据的稀疏性,通过算法预测得到的三元组精度不如众包方式得到的结构化三元组,这也是目前关系抽取算法研究不断推陈出新的原因。因此,最后进入到图谱中的三元组还需要进行人工审核。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants