项目概要

机器人对话,根据上文得到下文这么个东西。推测也是使用滑窗来做的,但具体不清楚了。

我的任务

给 pred 进行打分,评分规则如下:

  1. 打分区间都是0–3,0最差,3最好

  2. “input”: 这个输入文本,有非常多的种类。

  3. “gold”: 参考的解释,可以和 pred 比较得到分数。

    • 注意:gold只是一个参考,pred可以跟gold不同意思。
  4. “pred”: 预测出来的内容。

  5. “hs_specificity”: 具体性,是否给出了具体的内容。

    • 没有任何有价值的信息的给0,如I don’t know就可以给0。
    • 有具体内容,但具体为虚的给1。
    • 如果有表示具体事物的词给2。
    • 2分档次特征出现次数大于2的都可以考虑给3。
    • 注意:出现一些OOV可以看做是specificity的一种表现,比如 I paid $ <unk> dollars already
  6. “hs_fluency”: pred 本身的属性,字面义,是否流畅。

    • 如果整体都很烂,尤其是有重复给0
    • 如果有主要问题但整体上还算通顺给1。
    • 基本流畅但有个别词的瑕疵一般给2。
    • 完全流畅的给3,比如I don’t know就给3。
  7. “hs_relatedness”: perd和input的相关性。

    • 完全无关的给0。
    • 稍微能扯上关系的给1。
    • 比较接洽的给2 (想给3但是不确定的给2)。
    • 非常好的给3。
  8. “hs_consistency”: 一致性,pred的指向是否和input一致。

    • 有明确的方向性错误的给0。
    • 没有相反,但是比较冗余,指向性不明确给1。
    • 没有相反且指向性清晰的给2 (想给3但是不确定的给2)。
    • 非常恰题给3。
  9. 逻辑交叉部分

    • 如果是 relatedness 很低 (答非所问) 那么 consistency 的表现也不会好,可以考虑 consistency 给1。consistency <= relatedness
    • relatedness 和 consistency 的差别在一个是文字上的连接,一个是意思上的连接。(一个是躯壳,一个是灵魂)
    • pred 和 input 可以完全不相干,这个时候 relatedness 给 1 或者 2,consistency 给 2。

就是说我们认为relatedness是一种软的consistency。

项目日志

2020-12-29 星期二

确定参与标注的任务,我的配额:

  • 200组 train set
  • 100组 test set
  • 1月6日完成
  • 看时间,如果1月4日之后时间充裕,可以考虑增加
  • 每300组提交一次

2020-01-01 星期五

  • 整理项目日志
  • 整理我的任务,固定工作流程
  • 测算单位时间,辅助计划制定 (进行中)

2020-01-04 星期一

  • 完成200组 train set
  • 因为 test set 已经标注完成,就不需要再标注了

2020-01-05 星期二

  • 任务拆分, 分块解决
  • 可以根据 specificity 和 fluency 拆分成不同的模块, 逐个击破
    • 涉及全部的 relatedness
    • 涉及部分情况的 consistency
  • 完成55组 + 45个半组

2020-01-06 星期三

  • 完成全部 300 组,好耶!
  • 最后45个半组用时50分钟多一点
  • 完美收官

小发现

  • relatedness 和 consistency 是有关系的,但是并不强,还是有很大的区别。
  • 应该是个回答问题的 AI 模型,每一个 pred 都属于回应。
  • 做这个文本标注已经不太像对于知识的检验了,像是在刨析自己,问自己对一个事情是怎样的看法。
  • 有操作的呀,注意问题的拆分,这样可以针对性的进行流程优化。
    • 这里我们就可以把四个部分分别进行判断解决
    • 基础: 读完一遍的文本第二次读会更快, 理解也更深
    • 基础: 优化的时间比多出来的阅读时间更加多
  • 人在做一件事情的时候最耗费时间的不是事件/拆分后的小事情本身, 而是在不同的事件之间不停切换所需的思路调整
    • 而且, 大事是由一件一件完美的小事组合而成的, 不能一次性做到大事的完美, 但只要每一件小事都完美了就没问题了