西湖大学对话评价-项目参考

项目概要

机器人对话，根据上文得到下文这么个东西。推测也是使用滑窗来做的，但具体不清楚了。

我的任务

给 pred 进行打分，评分规则如下：

打分区间都是0–3，0最差，3最好
“input”: 这个输入文本，有非常多的种类。
“gold”: 参考的解释，可以和 pred 比较得到分数。
- 注意：gold只是一个参考，pred可以跟gold不同意思。
“pred”: 预测出来的内容。
“hs_specificity”: 具体性，是否给出了具体的内容。
- 没有任何有价值的信息的给0，如I don’t know就可以给0。
- 有具体内容，但具体为虚的给1。
- 如果有表示具体事物的词给2。
- 2分档次特征出现次数大于2的都可以考虑给3。
- 注意：出现一些OOV可以看做是specificity的一种表现，比如 I paid $ <unk> dollars already。
“hs_fluency”: pred 本身的属性，字面义，是否流畅。
- 如果整体都很烂，尤其是有重复给0
- 如果有主要问题但整体上还算通顺给1。
- 基本流畅但有个别词的瑕疵一般给2。
- 完全流畅的给3，比如I don’t know就给3。
“hs_relatedness”: perd和input的相关性。
- 完全无关的给0。
- 稍微能扯上关系的给1。
- 比较接洽的给2 (想给3但是不确定的给2)。
- 非常好的给3。
“hs_consistency”: 一致性，pred的指向是否和input一致。
- 有明确的方向性错误的给0。
- 没有相反，但是比较冗余，指向性不明确给1。
- 没有相反且指向性清晰的给2 (想给3但是不确定的给2)。
- 非常恰题给3。
逻辑交叉部分
- 如果是 relatedness 很低 (答非所问) 那么 consistency 的表现也不会好，可以考虑 consistency 给1。consistency <= relatedness
- relatedness 和 consistency 的差别在一个是文字上的连接，一个是意思上的连接。(一个是躯壳，一个是灵魂)
- pred 和 input 可以完全不相干，这个时候 relatedness 给 1 或者 2，consistency 给 2。

就是说我们认为relatedness是一种软的consistency。

项目日志

2020-12-29 星期二

确定参与标注的任务，我的配额：

200组 train set
100组 test set
1月6日完成
看时间，如果1月4日之后时间充裕，可以考虑增加
每300组提交一次

2020-01-01 星期五

整理项目日志
整理我的任务，固定工作流程
测算单位时间，辅助计划制定 (进行中)

2020-01-04 星期一

完成200组 train set
因为 test set 已经标注完成，就不需要再标注了

2020-01-05 星期二

任务拆分, 分块解决
可以根据 specificity 和 fluency 拆分成不同的模块, 逐个击破
- 涉及全部的 relatedness
- 涉及部分情况的 consistency
完成55组 + 45个半组

2020-01-06 星期三

完成全部 300 组，好耶！
最后45个半组用时50分钟多一点
完美收官

小发现

relatedness 和 consistency 是有关系的，但是并不强，还是有很大的区别。
应该是个回答问题的 AI 模型，每一个 pred 都属于回应。
做这个文本标注已经不太像对于知识的检验了，像是在刨析自己，问自己对一个事情是怎样的看法。
有操作的呀，注意问题的拆分，这样可以针对性的进行流程优化。
- 这里我们就可以把四个部分分别进行判断解决
- 基础: 读完一遍的文本第二次读会更快, 理解也更深
- 基础: 优化的时间比多出来的阅读时间更加多
人在做一件事情的时候最耗费时间的不是事件/拆分后的小事情本身, 而是在不同的事件之间不停切换所需的思路调整
- 而且, 大事是由一件一件完美的小事组合而成的, 不能一次性做到大事的完美, 但只要每一件小事都完美了就没问题了