Add files via upload

nisha617 · web-flow · commit a156f7855859 · 2025-08-21T23:53:47.000+10:00
diff --git a/lectures/util_rand_resp.md b/lectures/util_rand_resp.md
@@ -23,11 +23,11 @@ import numpy as np
 
 ## 概述
 
-{doc}`这篇 QuantEcon 讲座 <rand_resp>` 描述了 Warner {cite}`warner1965randomized` 传统中的随机回答调查,这种调查旨在保护受访者的隐私。
+{doc}`这篇 QuantEcon 讲座 <rand_resp>` 描述了传统的 Warner {cite}`warner1965randomized` 随机回答调查，这种调查旨在保护受访者的隐私。
 
-Lars Ljungqvist {cite}`ljungqvist1993unified` 分析了受访者是否如实回答的决定如何取决于**期望效用**。
+Lars Ljungqvist {cite}`ljungqvist1993unified` 分析了受访者是否如实回答如何取决于**期望效用**。
 
-该讲座讲述了 Ljungqvist 如何使用他的框架来阐明其他研究者提出的替代性随机回答调查技术,例如 {cite}`lanke1975choice`、{cite}`lanke1976degree`、{cite}`leysieffer1976respondent`、{cite}`anderson1976estimation`、{cite}`fligner1977comparison`、{cite}`greenberg1977respondent`、{cite}`greenberg1969unrelated`。
+本讲座讲述了 Ljungqvist 如何使用他的框架来阐明其他研究者提出的替代性随机回答调查技术，例如 {cite}`lanke1975choice`、{cite}`lanke1976degree`、{cite}`leysieffer1976respondent`、{cite}`anderson1976estimation`、{cite}`fligner1977comparison`、{cite}`greenberg1977respondent`、{cite}`greenberg1969unrelated`。
 
 ## 隐私度量
 
@@ -54,12 +54,12 @@ $$ (eq:util-rand-one)
 
 ### Leysieffer 和 Warner(1976)
 
-如果响应$r$相对于$A$或$A^{'}$满足以下条件，则被视为具有危害性：
+如果回答 $r$ 相对于 $A$ 或 $A^{'}$ 满足以下条件，则被视为具有危害性：
 
 $$
 \begin{aligned}
 \text{Pr}(A|r)&>\pi_A\\
-\text{or}&\\
+\text{或}&\\
 \text{Pr}(A^{'}|r)&>1-\pi_A
 \end{aligned}
 $$ (eq:util-rand-two)
@@ -70,31 +70,31 @@ $$
 \frac{\text{Pr}(A|r)}{\text{Pr}(A^{'}|r)}\times \frac{(1-\pi_A)}{\pi_A} = \frac{\text{Pr}(r|A)}{\text{Pr}(r|A^{'})}
 $$ (eq:util-rand-three)
 
-如果这个表达式大于（小于）1，则表明$r$相对于$A$($A^{'}$)具有危害性。因此，危害性的自然度量将是：
+如果这个表达式大于（小于）$1$，则表明 $r$ 相对于 $A$ ($A^{'}$)具有危害性。因此，危害性的自然度量将是：
 
 $$
 \begin{aligned}
 g(r|A)&=\frac{\text{Pr}(r|A)}{\text{Pr}(r|A^{'})}\\
-&\text{and}\\
+&\text{和}\\
 g(r|A^{'})&=\frac{\text{Pr}(r|A^{'})}{\text{Pr}(r|A)}
 \end{aligned}
 $$ (eq:util-rand-four)
 
-假设在不失一般性的情况下，$\text{Pr}(\text{yes}|A)>\text{Pr}(\text{yes}|A^{'})$，则"是"（"否"）的回答相对于$A$($A^{'}$)具有危害性，即：
+不失一般性地假设 $\text{Pr}(\text{yes}|A)>\text{Pr}(\text{yes}|A^{'})$，则"是"（"否"）的回答相对于$A$ ($A^{'}$)具有危害性，即：
 
 $$
 \begin{aligned}
 g(\text{yes}|A)&>1\\
-\text{and}&\\
+\text{和}&\\
 g(\text{no}|A^{'})&>1
 \end{aligned}
 $$
 
 Leysieffer和Warner证明，估计的方差只能通过增加这两个危害性度量中的一个或两个来降低。
 
-因此，一个有效的随机化响应模型就是在与受访者合作一致的情况下，达到最大可接受危害性水平的任何模型。
+因此，一个有效的随机回应模型应在保证受访者配合的前提下，达到所能承受的最大风险水平。
 
-作为一个特例，Leysieffer和Warner考虑了"一个'否'的回答不具有危害性的问题"；也就是说，$g(\text{no}|A^{'})$可以是无限大的。
+作为一个特例，Leysieffer和Warner考虑了一个“否”的回答不具有危害性的问题；也就是说，$g(\text{no}|A^{'})$可以是无限大的。
 
 显然，最优设计必须满足
 
@@ -115,7 +115,7 @@ Lanke (1975) {cite}`lanke1975choice` 认为"人们可能想要隐藏的是属于
 因此，Lanke (1976) {cite}`lanke1976degree` 认为一个合适的保护度量是最小化
 
 $$
-\max \left\{ \text{Pr}(A|\text{yes}) , \text{Pr}(A|\text{no}) \right\}
+\max \left\{ \text{Pr}(A|\text{yes}), \text{Pr}(A|\text{no}) \right\}
 $$ (eq:util-rand-five-a)
 
 在保持这个度量不变的情况下，他解释了在什么条件下，使用无关问题模型或Warner (1965)的原始模型可以获得最小方差估计。
@@ -134,9 +134,7 @@ $$ (eq:util-rand-six)
 
 {cite}`greenberg1977respondent`
 
-Greenberg, Kuebler, Abernathy和Horvitz (1977)强调了检查不属于A组的受访者风险以及属于敏感群体的受访者风险的重要性。
-
-他们将A组个体的风险定义为被认为属于A组的概率：
+Greenberg, Kuebler, Abernathy和Horvitz (1977) 强调，不仅要考虑 $A$ 组成员的风险，还要考虑 $A'$ 组成员的风险。他们定义在 $A$ 组个体身上的风险为这一个体被认为属于A组的概率：
 
 $$
 
@@ -151,7 +149,7 @@ $$ (eq:util-rand-seven-b)
 
 Greenberg等人(1977)还考虑了另一个相关的风险度量，"这可能更接近受访者实际感受到的担忧。"
 
-对于在$A$和$A^{'}$中的个体，其"有限风险"分别为
+对于在 $A$ 和 $A^{'}$ 中的个体，其"有限风险"分别为
 
 $$
 \text{Pr}(\text{yes}|A)\times \text{Pr}(A|\text{yes})
@@ -169,53 +167,53 @@ $$ (eq:util-rand-eight-b)
 
 ### 真实边界
 
-用于估计属于$A$的人群比例的随机回答技术的关键假设是:
+用于估计属于 $A$ 的人群比例的随机回答技术的关键假设是:
 
 - **假设1**: 受访者对被认为属于$A$感到不适。
 
 - **假设2**: 只要代价不太高，受访者更倾向于如实回答问题而不是撒谎。这里的代价指的是假设1中的不适感。
 
-让$r_i$表示个体$i$对随机问题的回答。
+让 $r_i$ 表示个体 $i$ 对随机问题的回答。
 
-$r_i$只能取值"是"或"否"。
+$r_i$ 只能取值"是"或"否"。
 
-对于给定的随机回应访谈设计和关于属于集合$A$的人口比例的某个信念，受访者的回答与该个体属于$A$的条件概率$\text{Pr}(A|r_i)$相关联。
+对于给定的随机回答访谈设计和关于属于集合 $A$ 的人口比例的某个信念，受访者的回答与该个体属于 $A$ 的条件概率 $\text{Pr}(A|r_i)$ 相关联。
 
-在给定$r_i$和完全隐私的情况下，如果$r_i$代表真实答案而不是谎言，个体的效用会更高。
+在给定 $r_i$ 和完全隐私的情况下，如果 $r_i$ 代表真实答案而不是谎言，个体的效用会更高。
 
-就受访者的期望效用作为$\text{Pr}(A|r_i)$和$r_i$的函数而言：
+就受访者的期望效用作为 $\text{Pr}(A|r_i)$ 和 $r_i$ 的函数而言：
 
-- $\text{Pr}(A|r_i)$越高，个体$i$的期望效用越低。
+- $\text{Pr}(A|r_i)$ 越高，个体 $i$ 的期望效用越低。
 
-- 如果$r_i$代表真实答案而不是谎言，期望效用会更高。
+- 如果 $r_i$ 代表真实答案而不是谎言，期望效用会更高。
 
 定义：
 
-- $\phi_i \in \left\{\text{truth},\text{lie}\right\}$，一个二分变量，表示$r_i$是否为真实陈述。
+- $\phi_i \in \left\{\text{truth},\text{lie}\right\}$，一个二分变量，表示 $r_i$ 是否为真实陈述。
 
-- $U_i\left(\text{Pr}(A|r_i),\phi_i\right)$，一个对其第一个参数可微的效用函数，概括了个体$i$的期望效用。
+- $U_i\left(\text{Pr}(A|r_i),\phi_i\right)$，一个对其第一个参数可微的效用函数，概括了个体 $i$ 的期望效用。
 
-则存在一个$r_i$使得
+则存在一个 $r_i$ 使得
 
 $$
-\frac{\partial U_i\left(\text{Pr}(A|r_i),\phi_i\right) }{\partial \text{Pr}(A|r_i)} <0, \text{ for } \phi_i \in \left\{\text{truth},\text{lie}\right\}
+\frac{\partial U_i\left(\text{Pr}(A|r_i),\phi_i\right) }{\partial \text{Pr}(A|r_i)} <0, \quad \phi_i \in \left\{\text{truth},\text{lie}\right\}
 $$ (eq:util-rand-nine-a)
 
 且
 
 $$
-U_i\left(\text{Pr}(A|r_i),\text{truth}\right)>U_i\left(\text{Pr}(A|r_i),\text{lie}\right)  , \text{ for } \text{Pr}(A|r_i) \in [0,1]
+U_i\left(\text{Pr}(A|r_i),\text{truth}\right)>U_i\left(\text{Pr}(A|r_i),\text{lie}\right)  , \quad \text{Pr}(A|r_i) \in [0,1]
 $$ (eq:util-rand-nine-b)
 
-现在假设个体$i$的正确答案是"是"。
+现在假设个体$i$的真实答案是"是"。
 
-如果满足以下条件，个体$i$会选择如实回答：
+如果满足以下条件，个体 $i$ 会选择如实回答：
 
 $$
 U_i\left(\text{Pr}(A|\text{yes}),\text{truth}\right)\geq U_i\left(\text{Pr}(A|\text{no}),\text{lie}\right)
 $$ (eq:util-rand-ten-a)
 
-如果正确答案是"否"，个人$i$只有在以下情况下才会提供正确答案：
+如果真实答案是"否"，个体 $i$ 只有在以下情况下才会提供真实答案：
 
 $$
 U_i\left(\text{Pr}(A|\text{no}),\text{truth}\right)\geq U_i\left(\text{Pr}(A|\text{yes}),\text{lie}\right)
@@ -227,13 +225,13 @@ $$
 \text{Pr}(A|\text{yes})>\pi_A>\text{Pr}(A|\text{no})
 $$
 
-因此"是"的答案增加了个人属于$A$的概率。
+因此"是"的答案增加了个体属于 $A$ 的概率。
 
 约束{eq}`eq:util-rand-ten-b`必定成立。
 
-因此，约束{eq}`eq:util-rand-ten-a`成为个人$i$始终如实回答的唯一必要条件。
+因此，约束{eq}`eq:util-rand-ten-a`成为个体 $i$ 始终如实回答的唯一必要条件。
 
-在等式情况下，约束$(10.\text{a})$确定了当正确答案为"是"时，使个人在说真话和说谎之间无差异的条件概率：
+在等式情况下，约束 $(10.\text{a})$ 确定了当真实答案为"是"时，使个体在说真话和说谎之间无差异的条件概率：
 
 $$
 U_i\left(\text{Pr}(A|\text{yes}),\text{truth}\right)= U_i\left(\text{Pr}(A|\text{no}),\text{lie}\right)
@@ -249,13 +247,13 @@ $$ (eq:util-rand-twelve)
 
 正相关关系的来源是：
 
-- 只要说真话的效用（即{eq}`eq:util-rand-eleven`左侧）至少与说谎的效用（{eq}`eq:util-rand-eleven`右侧）一样高，个人就愿意主动说出真实的"是"。
+- 只要说真话的效用（即{eq}`eq:util-rand-eleven`左侧）至少与说谎的效用（{eq}`eq:util-rand-eleven`右侧）一样高，个体就愿意主动说出真实的"是"。
 
-- 假设现在$\text{Pr}(A|\text{yes})$增加。这会降低说真话的效用。为了保持说真话和说谎之间的无差异，$\text{Pr}(A|\text{no})$必须增加以降低说谎的效用。
+- 假设现在 $\text{Pr}(A|\text{yes})$ 增加。这会降低说真话的效用。为了保持说真话和说谎之间的无差异，$\text{Pr}(A|\text{no})$必须增加以降低说谎的效用。
 
 ### 绘制真实边界
 
-我们可以推断出关于真实边界的两点：
+我们可以推导出关于真实回答边界的两个结论：
 
 - 真实边界将条件概率空间分为两个子集："说真话"和"说谎"。因此，充分的隐私会引出真实答案，而不充分的隐私则会导致谎言。真实边界取决于受访者的效用函数。
 
@@ -299,7 +297,7 @@ $$
 U_i(\text{Pr}(A|r_i),\phi_i)=-\text{Pr}(A|r_i)+f(\phi_i)
 $$
 
-并在图1.2中绘制个体$i$的"说真话"和"说谎区域"：
+并在图1.2中绘制个体 $i$ 的"说真话"和"说谎区域"：
 
 ```{code-cell} ipython3
 x1 = np.arange(0, 1, 0.001)
@@ -332,7 +330,7 @@ plt.show()
 
 - 找到一个随机回答调查设计，使估计量的偏差和方差最小化。
 
-在一个确保所有受访者都会诚实回答的设计中，Anderson(1976, 定理1) {cite}`anderson1976estimation` 证明了在两响应模型中最小方差估计的方差为
+在一个确保所有受访者都会诚实回答的设计中，Anderson(1976, 定理1) {cite}`anderson1976estimation` 证明了在两种回答模型中最小方差估计的方差为
 
 $$
 \begin{aligned}
@@ -348,11 +346,11 @@ $$ (eq:util-rand-thirteen)
 以下不等式限制了等方差曲线的形状：
 
 $$
-\frac{d \text{ Pr}(A|\text{no})}{d\text{ Pr}(A|\text{yes})}\bigg|_{\text{constant variance}}=\frac{\pi_A-\text{Pr}(A|\text{no})}{\text{Pr}(A|\text{yes})-\pi_A}>0
+\frac{d \text{ Pr}(A|\text{no})}{d\text{ Pr}(A|\text{yes})}\bigg|_{\text{常方差}}=\frac{\pi_A-\text{Pr}(A|\text{no})}{\text{Pr}(A|\text{yes})-\pi_A}>0
 $$ (eq:util-rand-fourteen-a)
 
 $$
-\frac{d^2 \text{ Pr}(A|\text{no})}{d\text{ Pr}(A|\text{yes})^2}\bigg|_{\text{constant variance}}=- \frac{2 \left[\pi_A-\text{Pr}(A|\text{no})\right]}{\left[\text{Pr}(A|\text{yes})-\pi_A \right]^2}<0
+\frac{d^2 \text{ Pr}(A|\text{no})}{d\text{ Pr}(A|\text{yes})^2}\bigg|_{\text{常方差}}=- \frac{2 \left[\pi_A-\text{Pr}(A|\text{no})\right]}{\left[\text{Pr}(A|\text{yes})-\pi_A \right]^2}<0
 $$ (eq:util-rand-fourteen-b)
 
 从表达式 {eq}`eq:util-rand-thirteen`、{eq}`eq:util-rand-fourteen-a` 和 {eq}`eq:util-rand-fourteen-b` 我们可以看出：
@@ -410,19 +408,19 @@ class Iso_Variance:
         plt.show()
 ```
 
-iso-方差曲线的特性是：
+等方差曲线的特性是：
 
-- 同一条iso-方差曲线上的所有点具有相同的方差
+- 同一条等方差曲线上的所有点具有相同的方差
 
-- 从$V_1$到$V_9$，iso-方差曲线的方差单调增加，颜色也单调变亮
+- 从 $V_1$ 到 $V_9$，等方差曲线的方差单调增加，颜色也单调变亮
 
-假设iso-方差模型的参数遵循Ljungqvist {cite}`ljungqvist1993unified`中的设定，即：
+假设等方差模型的参数遵循Ljungqvist {cite}`ljungqvist1993unified`中的设定，即：
 
 - $\pi=0.3$
 
 - $n=100$
 
-那么我们可以在图2中绘制iso-方差曲线：
+那么我们可以在图2中绘制等方差曲线：
 
 ```{code-cell} ipython3
 var = Iso_Variance(pi=0.3, n=100)
@@ -455,7 +453,7 @@ var.plotting_iso_variance_curve()
 
 - 假设{eq}`eq:util-rand-nine-b`足以保证最优模型设计的存在。通过选择足够接近的$\text{ Pr}(A|\text{yes})$和$\text{ Pr}(A|\text{no})$，所有受访者都会发现如实回答是最优选择。这些概率越接近，估计量的方差就越大。
 
-- 如果受访者从说实话中获得的预期效用增加足够大，那么就不需要使用随机化回答模型。在$\text{ Pr}(A|\text{yes})=1$和$\text{ Pr}(A|\text{no})=0$时可以获得最小可能的估计方差；也就是说，当受访者对直接提问如实回答时。
+- 如果受访者从说实话中获得的预期效用增加足够大，那么就不需要使用随机化回答模型。在$\text{ Pr}(A|\text{yes})=1$和$\text{ Pr}(A|\text{no})=0$， 即当受访者对直接提问如实回答时，可以获得最小可能的估计方差。
 
 - 一个更普遍的设计问题是最小化估计量的方差和偏差的某种加权和。接受一些最"不情愿"的受访者的谎言可能是最优的。
 
@@ -517,7 +515,7 @@ plt.show()
 
 ### Leysieffer和Warner方法(1976)
 
-Leysieffer和Warner(1976)建议使用二维风险度量,当"否"答案不存在风险时可简化为一维,这意味着
+当"否"答案不存在风险时，Leysieffer和Warner(1976)建议使用的二维风险度量可简化为一维，这意味着
 
 $$
 \text{Pr}(\text{yes}|A)=1
@@ -529,19 +527,19 @@ $$
 \text{Pr}(A|\text{no})=0
 $$
 
-从功利主义的角度来看,这不是最优选择。
+从功利主义的角度来看，这不是最优选择。
 
 ### Chaudhuri和Mukerjee方法(1988)的分析
 
 {cite}`Chadhuri_Mukerjee_88`
 
-Chaudhuri和Mukerjee(1988)认为,由于"是"有时可能与敏感群体A相关,聪明的受访者可能会倾向于总是安全但虚假地回答"否"。在这种情况下,真实边界使得个人在真实答案为"是"时选择说谎,且
+Chaudhuri和Mukerjee(1988)认为，由于"是"有时可能与敏感群体 $A$ 相关，聪明的受访者可能会倾向于总是安全但虚假地回答"否"。在这种情况下，真实边界使得个体在真实答案为"是"时选择说谎，且
 
 $$
 \text{Pr}(A|\text{no})=0
 $$
 
-在这里,说谎带来的收益太高,以至于没有人愿意回答"是"。
+在这里，说谎带来的收益太高，以至于没有人愿意回答"是"。
 
 这意味着
 
@@ -551,11 +549,11 @@ $$
 
 在任何情况下都成立。
 
-因此,不存在可实现的模型设计。
+因此，不存在可实现的模型设计。
 
-然而,从功利主义的角度来看,应该存在其他与真实答案相一致的调查设计。
+然而，从功利主义的角度来看，应该存在其他与真实答案相一致的调查设计。
 
-特别是,如果消除了说谎带来的相对优势,受访者将选择如实回答。
+特别是，如果消除了说谎带来的相对优势，受访者将选择如实回答。
 
 我们可以用Python来展示最优模型设计对应图4中的Q点:
 
@@ -620,9 +618,9 @@ $$
 \text{Pr}(\text{yes}|A^{'})\times \text{Pr}(A|\text{yes})+\text{Pr}(\text{no}|A^{'}) \times \text{Pr}(A|\text{no})
 $$ (eq:util-rand-seven-bb)
 
-他们还考虑了另一个相关的风险度量,他们认为这个度量"可能更接近受访者实际感受到的担忧。"
+他们还考虑了另一个相关的风险度量，他们认为这个度量"可能更接近受访者实际感受到的担忧。"
 
-对于属于$A$和$A^{'}$的个体,他们的"有限风险"分别是:
+对于属于$A$和$A^{'}$的个体，他们的"有限风险"分别是:
 
 $$
 \text{Pr}(\text{yes}|A)\times \text{Pr}(A|\text{yes})
@@ -634,11 +632,11 @@ $$
 \text{Pr}(\text{yes}|A^{'})\times \text{Pr}(A|\text{yes})
 $$ (eq:util-rand-eight-bb)
 
-根据Greenberg等人(1977)的说法,受访者在随机选择要回答的问题**之前**,就已经承诺根据{eq}`eq:util-rand-seven-aa`或{eq}`eq:util-rand-eight-aa`中的概率如实回答。
+根据Greenberg等人(1977)的说法，受访者在随机选择要回答的问题**之前**，就已经承诺根据{eq}`eq:util-rand-seven-aa`或{eq}`eq:util-rand-eight-aa`中的概率如实回答。
 
 假设适当的隐私度量由{eq}`eq:util-rand-eight-aa`和{eq}`eq:util-rand-eight-bb`中的"有限风险"概念来表示。
 
-考虑一个无关问题模型,其中无关问题被替换为指令"说'不'"，这意味着
+考虑一个无关问题模型，其中无关问题被替换为指令"说'不'"，这意味着
 
 $$
 
@@ -649,9 +647,9 @@ $$
 
 - $A^{'}$中个体的风险为0。
 
-- 通过选择足够小的$\text{Pr}(\text{yes}|A)$，$A$中个体的风险也可以任意小。
+- 通过选择足够小的 $\text{Pr}(\text{yes}|A)$，$A$ 中个体的风险也可以任意小。
 
-尽管这个风险可以被设定为接近0，但$A$中的个体在如实回答敏感问题时会完全暴露其身份。
+尽管这个风险可以被设定为接近0，但 $A$ 中的个体在如实回答敏感问题时会完全暴露其身份。
 
 然而，在功利主义框架下，这显然是矛盾的。
 
@@ -674,8 +672,8 @@ $$
 在功利主义分析中：
 
 
-- 真实边界将感知属于敏感群体的条件概率空间$\text{Pr}(A|\text{yes})$和$\text{Pr}(A|\text{no})$划分为说真话区域和说谎区域。
+- 真实边界将感知属于敏感群体的条件概率空间 $\text{Pr}(A|\text{yes})$ 和 $\text{Pr}(A|\text{no})$ 划分为说真话区域和说谎区域。
 
 - 最优模型设计是在真实边界接触到最低可能的等方差曲线的点上获得的。
 
-{cite}`ljungqvist1993unified`分析的一个实际含义是，可以通过**选择足够接近的$\text{Pr}(A|\text{yes})$和$\text{Pr}(A|\text{no})$**来承认对受访者隐私需求的不确定性。
+{cite}`ljungqvist1993unified`分析的一个实际含义是，可以通过**选择足够接近的 $\text{Pr}(A|\text{yes})$ 和 $\text{Pr}(A|\text{no})$**来承认对受访者隐私需求的不确定性。