ICLR2024 Emergent Communication With Conversational Repair

1. Miscommunication Drives Abstraction

心理学层面的现象 (Psychology-level Phenomenon)

根据Healey等人的基于修复的解释，这种修复序列允许对话者识别与其对话伙伴在指称表达的语义上的潜在解释分歧，然后通过互动方式解决这些分歧。通过一系列迷宫任务实验(Healey, 2007; Healey and Mills, 2006; Mills, 2014; Healey, Mills, et al. 2018)的发现提供了修复驱动的收敛证据。在这一任务中，成对的参与者共同解决迷宫问题。这使得参与者需要反复指称空间位置(参见图1的示例迷宫配置)。一个一致的发现是，参与者最初使用视觉显著特征描述迷宫，例如“伸出的部分”（”the sticking out part”），或“在臂的末端”（”at the end of the arm”）。在实验过程中，参与者逐渐使用更抽象的描述，例如“最长的第5排”（”longest row 5th square”），而最协调的对描述更抽象的矩阵描述（如“A5”，“2,1”或“第3行第4列”（”row 3 column 4”））。

2. Conversational Repair

对话修复 (Conversational Repair)

自我发起 (Self-initiated) 与他人发起 (Other-initiated)。
需要引用吗？ (Requires referencing?)
在符号前沟通 (Pre-symbolic communication) 中，可以修复吗？
- 符号但不可组合的情况下如何？ (What about symbolic but not composable?)

对话修复使语言在语言上操作 (Conversational repair makes language operate on language)。

最小案例？ (Minimum case?)

探讨了对话修复在不同类型的沟通中的作用，特别是在非符号 (Non-symbolic) 和非可组合的符号 (Non-composable symbolic) 沟通中的可能性。对话修复被认为是语言处理的一部分，使得语言能够在语言层面进行操作。

3. Emergent Communication in Reinforcement Learning (RL) Experiment

RL实验中的新奇点 (Novelty in RL Experiment)

在Lewis信号游戏 (Lewis Signaling Game) 中进行的RL实验。
- Lewis信号游戏：沟通 (Communication) 和协作 (Collaboration)。
- 沟通出现 (Communication emerges)。
新奇点：
- 噪声通道 (Noisy Channel)。
- 允许接收者反馈 (Allows recipient to give feedback)。
- 研究出现的语言如何响应噪声通道和接收者反馈。

Lewis信号游戏 (Lewis Signaling Game)

玩家 (Players)：自然 (Nature, N)、发送者 (Sender)、接收者 (Receiver)。
自然的概率 ( q = 0.5 )。
发送者看到自然状态并发送A/B。
接收者行动X/Y。
如果接收者对自然的判断正确，发送者和接收者会获得报酬。

[1]的RL实验

游戏中，干扰物体 ( O = {o_1, o_2, …, o_{|O|}} )。
一个物体 ( o_j )： ( A \rightarrow V )。
- 属性 ( A = {a_1, a_2, …, a_{|A|}} )。
- 值 ( V = {v_1, v_2, …, v_{|V|}} )。
自然选择一个物体。维数为 ( |A| \cdot |V| )。
词汇 ( X = {x_1, x_2, …, x_{|X|}} )。
一个消息 ( M = [m_1, m_2, …, m_{|M|}] )，其中 ( m_t \in X )。
维数为 ( |X| \cdot |M| )。
接收者的损失函数 (Loss Function of Receiver)：
- ( L_{receiver}(\theta_R) = -\log(\pi_{\theta_R}(o_i|O, M)) )。
发送者的损失函数 (Loss Function of Sender)：
- ( L_{sender}(\theta_S) = - \sum_{t=0}^{|M|} r \cdot \log(\pi_{\theta_S}(m_t|o_i, m_{t-1})) )，其中 ( r = 1 ) 如果接收者从干扰物体集合中选择了正确的物体，( r = 0 ) 如果选择错误。
反馈机制 (Feedback Mechanism)：
- 我们设 ( |Y| = 2 )，即接收者仅产生二元反馈。接收者可以使用反馈通道发送确认或开放澄清请求。
- 带反馈的损失函数 (Loss Functions with Feedback)：
  - ( L_{receiver-fb}(\theta_R) = -\log(\pi_{\theta_R}(o_i|O, M’, N)) )。
  - ( L_{sender-fb}(\theta_S) = - \sum_{t=0}^{|M|} r \cdot \log(\pi_{\theta_S}(m_t|o_i, m_{t-1}, n_{t-1})) )。

使用强化学习的原因 (Reason for Using Reinforcement Learning)

由于接收者返回的信息是离散的，强化学习适用于处理这种离散的反馈信号。在这种情况下，传统的监督学习方法可能不太适用，因为反馈信号（即奖励或惩罚）不是连续的，而是离散的成功或失败指示。因此，强化学习提供了一种有效的方法来优化这种环境下的策略。

具体实现细节 (Implementation Details)

目标对象和干扰对象的选择 (Selection of Target and Distractor Objects)：在每一轮游戏中，自然选择一个目标对象，并生成若干干扰对象。每个对象具有一组属性和值，定义了对象的特征空间。
消息的生成和传递 (Generation and Transmission of Messages)：发送者根据目标对象生成一个消息，该消息通过噪声通道传递给接收者。接收者根据接收到的消息和干扰对象集合选择目标对象。
损失函数 (Loss Functions)：发送者和接收者的损失函数分别用于优化各自的策略。发送者的损失函数基于接收者是否正确选择目标对象的反馈信号进行优化，而接收者的损失函数则基于接收者的选择与目标对象的匹配度进行优化。
反馈机制 (Feedback Mechanism)：接收者在接收到消息后，可以通过反馈通道向发送者提供二元反馈（正确或错误）。这种反馈机制帮助发送者调整消息生成策略，以提高通信的有效性。

4. Quantifying Compositionality

如何量化组合性？ (How to Quantify Compositionality?)

使用拓扑相似性 (Topological Similarity)。
在[1]中，M-空间 (M-Space) 是自然的真实参数，( o_i ) 的 ( A \rightarrow V )。
从我们的角度来看：
- 对于目标语言 ( L ) (Target Language ( L ))，使用 ( L ) 相对于人类概念的可解释性 (Interpretability with Respect to Human Concepts) 作为 ( L ) 组合性的代理 (Proxy for ( L )‘s Compositionality)。

热图分析 (Heatmap Analysis)

Matthew’s相关系数 (Matthew’s Correlation Coefficient)：分析接收者消息与发送者消息中噪声的相关性。目的是了解反馈和噪声如何影响通信系统的效率。

实验结果 (Experimental Results)

通过实验结果展示了在不同噪声水平下，系统的测试准确度 (Test Accuracy) 和拓扑相似性 (Topological Similarity)。结果表明，反馈机制在高噪声环境下显著提高了系统的鲁棒性和通信效率。

5. Discussions

讨论 (Discussions)

允许发送者和接收者之间的双向信息流时，可能双方共同构建相互理解，从而创建上下文化的意义。因此，发送者的消息变得不太具有组合性而更加依赖上下文。

进一步讨论 (Further Discussions)

当发送者和接收者之间的信息流是双向时，双方可能共同构建相互理解，从而创建上下文化的意义。结果，发送者的消息变得不太具有组合性而更加依赖上下文。这表明，在复杂的沟通环境中，系统需要在组合性和上下文依赖之间进行平衡，以实现有效的沟通。

6. References

Nikolaus, M. (2023, October). Emergent Communication with Conversational Repair. In The Twelfth International Conference on Learning Representations.
Brighton, H., & Kirby, S. (2006). Understanding linguistic evolution by visualizing the emergence of topographic mappings. Artificial life, 12(2), 229-242.
Healey, P. G., Swoboda, N., Umata, I., & King, J. (2007). Graphical language games: Interactional constraints on representational form. Cognitive science, 31(2), 285-309.
Mills, G., & Redeker, G. (2022). Self-repair increases abstraction of referring expressions.
Lewis, D. (1969). Convention: A Philosophical Study. Harvard University Press, Harvard, Mass.
Lewis signaling game wiki. Lewis signaling game
OpenReview. Emergent Communication with Conversational Repair

🍀后记🍀
博客的关键词集中在编程、算法、机器人、人工智能、数学等等，持续高质量输出中。
🌸唠嗑QQ群：兔叽の魔术工房 (942848525)
⭐B站账号：白拾Official（活跃于知识区和动画区）
✨GitHub主页：YangSierCode000(工程文件)
⛳Discord社区：AIerLab（科研社区，欢迎来玩）