@@ -23,11 +23,11 @@ import numpy as np
2323
2424## 概述
2525
26- {doc}` 这篇 QuantEcon 讲座 <rand_resp> ` 描述了 Warner {cite}` warner1965randomized ` 传统中的随机回答调查, 这种调查旨在保护受访者的隐私。
26+ {doc}` 这篇 QuantEcon 讲座 <rand_resp> ` 描述了传统的 Warner {cite}` warner1965randomized ` 随机回答调查, 这种调查旨在保护受访者的隐私。
2727
28- Lars Ljungqvist {cite}` ljungqvist1993unified ` 分析了受访者是否如实回答的决定如何取决于 ** 期望效用** 。
28+ Lars Ljungqvist {cite}` ljungqvist1993unified ` 分析了受访者是否如实回答如何取决于 ** 期望效用** 。
2929
30- 该讲座讲述了 Ljungqvist 如何使用他的框架来阐明其他研究者提出的替代性随机回答调查技术, 例如 {cite}` lanke1975choice ` 、{cite}` lanke1976degree ` 、{cite}` leysieffer1976respondent ` 、{cite}` anderson1976estimation ` 、{cite}` fligner1977comparison ` 、{cite}` greenberg1977respondent ` 、{cite}` greenberg1969unrelated ` 。
30+ 本讲座讲述了 Ljungqvist 如何使用他的框架来阐明其他研究者提出的替代性随机回答调查技术, 例如 {cite}` lanke1975choice ` 、{cite}` lanke1976degree ` 、{cite}` leysieffer1976respondent ` 、{cite}` anderson1976estimation ` 、{cite}` fligner1977comparison ` 、{cite}` greenberg1977respondent ` 、{cite}` greenberg1969unrelated ` 。
3131
3232## 隐私度量
3333
@@ -54,12 +54,12 @@ $$ (eq:util-rand-one)
5454
5555### Leysieffer 和 Warner(1976)
5656
57- 如果响应 $r$相对于$A$或 $A^{'}$满足以下条件,则被视为具有危害性:
57+ 如果回答 $r$ 相对于 $A$ 或 $A^{'}$ 满足以下条件,则被视为具有危害性:
5858
5959$$
6060\begin{aligned}
6161\text{Pr}(A|r)&>\pi_A\\
62- \text{or }&\\
62+ \text{或 }&\\
6363\text{Pr}(A^{'}|r)&>1-\pi_A
6464\end{aligned}
6565$$ (eq:util-rand-two)
7070\frac{\text{Pr}(A|r)}{\text{Pr}(A^{'}|r)}\times \frac{(1-\pi_A)}{\pi_A} = \frac{\text{Pr}(r|A)}{\text{Pr}(r|A^{'})}
7171$$ (eq:util-rand-three)
7272
73- 如果这个表达式大于(小于)1 ,则表明$r$相对于$A$($A^{'}$)具有危害性。因此,危害性的自然度量将是:
73+ 如果这个表达式大于(小于)$1$ ,则表明 $r$ 相对于 $A$ ($A^{'}$)具有危害性。因此,危害性的自然度量将是:
7474
7575$$
7676\begin{aligned}
7777g(r|A)&=\frac{\text{Pr}(r|A)}{\text{Pr}(r|A^{'})}\\
78- &\text{and }\\
78+ &\text{和 }\\
7979g(r|A^{'})&=\frac{\text{Pr}(r|A^{'})}{\text{Pr}(r|A)}
8080\end{aligned}
8181$$ (eq:util-rand-four)
8282
83- 假设在不失一般性的情况下, $\text{Pr}(\text{yes}|A)>\text{Pr}(\text{yes}|A^{'})$,则"是"("否")的回答相对于$A$($A^{'}$)具有危害性,即:
83+ 不失一般性地假设 $\text{Pr}(\text{yes}|A)>\text{Pr}(\text{yes}|A^{'})$,则"是"("否")的回答相对于$A$ ($A^{'}$)具有危害性,即:
8484
8585$$
8686\begin{aligned}
8787g(\text{yes}|A)&>1\\
88- \text{and }&\\
88+ \text{和 }&\\
8989g(\text{no}|A^{'})&>1
9090\end{aligned}
9191$$
9292
9393Leysieffer和Warner证明,估计的方差只能通过增加这两个危害性度量中的一个或两个来降低。
9494
95- 因此,一个有效的随机化响应模型就是在与受访者合作一致的情况下,达到最大可接受危害性水平的任何模型 。
95+ 因此,一个有效的随机回应模型应在保证受访者配合的前提下,达到所能承受的最大风险水平 。
9696
97- 作为一个特例,Leysieffer和Warner考虑了"一个'否' 的回答不具有危害性的问题" ;也就是说,$g(\text{no}|A^{'})$可以是无限大的。
97+ 作为一个特例,Leysieffer和Warner考虑了一个“否” 的回答不具有危害性的问题;也就是说,$g(\text{no}|A^{'})$可以是无限大的。
9898
9999显然,最优设计必须满足
100100
@@ -115,7 +115,7 @@ Lanke (1975) {cite}`lanke1975choice` 认为"人们可能想要隐藏的是属于
115115因此,Lanke (1976) {cite}`lanke1976degree` 认为一个合适的保护度量是最小化
116116
117117$$
118- \max \left\{ \text{Pr}(A|\text{yes}) , \text{Pr}(A|\text{no}) \right\}
118+ \max \left\{ \text{Pr}(A|\text{yes}), \text{Pr}(A|\text{no}) \right\}
119119$$ (eq:util-rand-five-a)
120120
121121在保持这个度量不变的情况下,他解释了在什么条件下,使用无关问题模型或Warner (1965)的原始模型可以获得最小方差估计。
@@ -134,9 +134,7 @@ $$ (eq:util-rand-six)
134134
135135{cite}`greenberg1977respondent`
136136
137- Greenberg, Kuebler, Abernathy和Horvitz (1977)强调了检查不属于A组的受访者风险以及属于敏感群体的受访者风险的重要性。
138-
139- 他们将A组个体的风险定义为被认为属于A组的概率:
137+ Greenberg, Kuebler, Abernathy和Horvitz (1977) 强调,不仅要考虑 $A$ 组成员的风险,还要考虑 $A'$ 组成员的风险。他们定义在 $A$ 组个体身上的风险为这一个体被认为属于A组的概率:
140138
141139$$
142140
@@ -151,7 +149,7 @@ $$ (eq:util-rand-seven-b)
151149
152150Greenberg等人(1977)还考虑了另一个相关的风险度量,"这可能更接近受访者实际感受到的担忧。"
153151
154- 对于在$A$和 $A^{'}$中的个体,其"有限风险"分别为
152+ 对于在 $A$ 和 $A^{'}$ 中的个体,其"有限风险"分别为
155153
156154$$
157155\text{Pr}(\text{yes}|A)\times \text{Pr}(A|\text{yes})
@@ -169,53 +167,53 @@ $$ (eq:util-rand-eight-b)
169167
170168### 真实边界
171169
172- 用于估计属于$A$的人群比例的随机回答技术的关键假设是:
170+ 用于估计属于 $A$ 的人群比例的随机回答技术的关键假设是:
173171
174172- **假设1**: 受访者对被认为属于$A$感到不适。
175173
176174- **假设2**: 只要代价不太高,受访者更倾向于如实回答问题而不是撒谎。这里的代价指的是假设1中的不适感。
177175
178- 让$r_i$表示个体$i$对随机问题的回答。
176+ 让 $r_i$ 表示个体 $i$ 对随机问题的回答。
179177
180- $r_i$只能取值"是"或"否"。
178+ $r_i$ 只能取值"是"或"否"。
181179
182- 对于给定的随机回应访谈设计和关于属于集合 $A$的人口比例的某个信念,受访者的回答与该个体属于$A$的条件概率$\text{Pr}(A|r_i)$相关联。
180+ 对于给定的随机回答访谈设计和关于属于集合 $A$ 的人口比例的某个信念,受访者的回答与该个体属于 $A$ 的条件概率 $\text{Pr}(A|r_i)$ 相关联。
183181
184- 在给定$r_i$和完全隐私的情况下,如果$r_i$代表真实答案而不是谎言,个体的效用会更高。
182+ 在给定 $r_i$ 和完全隐私的情况下,如果 $r_i$ 代表真实答案而不是谎言,个体的效用会更高。
185183
186- 就受访者的期望效用作为$\text{Pr}(A|r_i)$和 $r_i$的函数而言:
184+ 就受访者的期望效用作为 $\text{Pr}(A|r_i)$ 和 $r_i$ 的函数而言:
187185
188- - $\text{Pr}(A|r_i)$越高,个体$i$的期望效用越低。
186+ - $\text{Pr}(A|r_i)$ 越高,个体 $i$ 的期望效用越低。
189187
190- - 如果$r_i$代表真实答案而不是谎言,期望效用会更高。
188+ - 如果 $r_i$ 代表真实答案而不是谎言,期望效用会更高。
191189
192190定义:
193191
194- - $\phi_i \in \left\{\text{truth},\text{lie}\right\}$,一个二分变量,表示$r_i$是否为真实陈述。
192+ - $\phi_i \in \left\{\text{truth},\text{lie}\right\}$,一个二分变量,表示 $r_i$ 是否为真实陈述。
195193
196- - $U_i\left(\text{Pr}(A|r_i),\phi_i\right)$,一个对其第一个参数可微的效用函数,概括了个体$i$的期望效用。
194+ - $U_i\left(\text{Pr}(A|r_i),\phi_i\right)$,一个对其第一个参数可微的效用函数,概括了个体 $i$ 的期望效用。
197195
198- 则存在一个$r_i$使得
196+ 则存在一个 $r_i$ 使得
199197
200198$$
201- \frac{\partial U_i\left(\text{Pr}(A|r_i),\phi_i\right) }{\partial \text{Pr}(A|r_i)} <0, \text{ for } \phi_i \in \left\{ \text{truth},\text{lie}\right\}
199+ \frac{\partial U_i\left(\text{Pr}(A|r_i),\phi_i\right) }{\partial \text{Pr}(A|r_i)} <0, \quad \phi_i \in \left\{ \text{truth},\text{lie}\right\}
202200$$ (eq:util-rand-nine-a)
203201
204202且
205203
206204$$
207- U_i\left(\text{Pr}(A|r_i),\text{truth}\right)>U_i\left(\text{Pr}(A|r_i),\text{lie}\right) , \text{ for } \text{Pr}(A|r_i) \in [ 0,1]
205+ U_i\left(\text{Pr}(A|r_i),\text{truth}\right)>U_i\left(\text{Pr}(A|r_i),\text{lie}\right) , \quad \text{Pr}(A|r_i) \in [ 0,1]
208206$$ (eq:util-rand-nine-b)
209207
210- 现在假设个体$i$的正确答案是 "是"。
208+ 现在假设个体$i$的真实答案是 "是"。
211209
212- 如果满足以下条件,个体$i$会选择如实回答:
210+ 如果满足以下条件,个体 $i$ 会选择如实回答:
213211
214212$$
215213U_i\left(\text{Pr}(A|\text{yes}),\text{truth}\right)\geq U_i\left(\text{Pr}(A|\text{no}),\text{lie}\right)
216214$$ (eq:util-rand-ten-a)
217215
218- 如果正确答案是 "否",个人 $i$只有在以下情况下才会提供正确答案 :
216+ 如果真实答案是 "否",个体 $i$ 只有在以下情况下才会提供真实答案 :
219217
220218$$
221219U_i\left(\text{Pr}(A|\text{no}),\text{truth}\right)\geq U_i\left(\text{Pr}(A|\text{yes}),\text{lie}\right)
227225\text{Pr}(A|\text{yes})>\pi_A>\text{Pr}(A|\text{no})
228226$$
229227
230- 因此"是"的答案增加了个人属于 $A$的概率。
228+ 因此"是"的答案增加了个体属于 $A$ 的概率。
231229
232230约束{eq}`eq:util-rand-ten-b`必定成立。
233231
234- 因此,约束{eq}`eq:util-rand-ten-a`成为个人 $i$始终如实回答的唯一必要条件。
232+ 因此,约束{eq}`eq:util-rand-ten-a`成为个体 $i$ 始终如实回答的唯一必要条件。
235233
236- 在等式情况下,约束$(10.\text{a})$确定了当正确答案为 "是"时,使个人在说真话和说谎之间无差异的条件概率 :
234+ 在等式情况下,约束 $(10.\text{a})$ 确定了当真实答案为 "是"时,使个体在说真话和说谎之间无差异的条件概率 :
237235
238236$$
239237U_i\left(\text{Pr}(A|\text{yes}),\text{truth}\right)= U_i\left(\text{Pr}(A|\text{no}),\text{lie}\right)
@@ -249,13 +247,13 @@ $$ (eq:util-rand-twelve)
249247
250248正相关关系的来源是:
251249
252- - 只要说真话的效用(即{eq}`eq:util-rand-eleven`左侧)至少与说谎的效用({eq}`eq:util-rand-eleven`右侧)一样高,个人就愿意主动说出真实的 "是"。
250+ - 只要说真话的效用(即{eq}`eq:util-rand-eleven`左侧)至少与说谎的效用({eq}`eq:util-rand-eleven`右侧)一样高,个体就愿意主动说出真实的 "是"。
253251
254- - 假设现在$\text{Pr}(A|\text{yes})$增加。这会降低说真话的效用。为了保持说真话和说谎之间的无差异,$\text{Pr}(A|\text{no})$必须增加以降低说谎的效用。
252+ - 假设现在 $\text{Pr}(A|\text{yes})$ 增加。这会降低说真话的效用。为了保持说真话和说谎之间的无差异,$\text{Pr}(A|\text{no})$必须增加以降低说谎的效用。
255253
256254### 绘制真实边界
257255
258- 我们可以推断出关于真实边界的两点 :
256+ 我们可以推导出关于真实回答边界的两个结论 :
259257
260258- 真实边界将条件概率空间分为两个子集:"说真话"和"说谎"。因此,充分的隐私会引出真实答案,而不充分的隐私则会导致谎言。真实边界取决于受访者的效用函数。
261259
299297U_i(\text{Pr}(A|r_i),\phi_i)=-\text{Pr}(A|r_i)+f(\phi_i)
300298$$
301299
302- 并在图1.2中绘制个体$i$的"说真话"和"说谎区域":
300+ 并在图1.2中绘制个体 $i$ 的"说真话"和"说谎区域":
303301
304302```{code-cell} ipython3
305303x1 = np.arange(0, 1, 0.001)
@@ -332,7 +330,7 @@ plt.show()
332330
333331- 找到一个随机回答调查设计,使估计量的偏差和方差最小化。
334332
335- 在一个确保所有受访者都会诚实回答的设计中,Anderson(1976, 定理1) {cite}`anderson1976estimation` 证明了在两响应模型中最小方差估计的方差为
333+ 在一个确保所有受访者都会诚实回答的设计中,Anderson(1976, 定理1) {cite}`anderson1976estimation` 证明了在两种回答模型中最小方差估计的方差为
336334
337335$$
338336\begin{aligned}
@@ -348,11 +346,11 @@ $$ (eq:util-rand-thirteen)
348346以下不等式限制了等方差曲线的形状:
349347
350348$$
351- \frac{d \text{ Pr}(A|\text{no})}{d\text{ Pr}(A|\text{yes})}\bigg|_ {\text{constant variance }}=\frac{\pi_A-\text{Pr}(A|\text{no})}{\text{Pr}(A|\text{yes})-\pi_A}>0
349+ \frac{d \text{ Pr}(A|\text{no})}{d\text{ Pr}(A|\text{yes})}\bigg|_ {\text{常方差 }}=\frac{\pi_A-\text{Pr}(A|\text{no})}{\text{Pr}(A|\text{yes})-\pi_A}>0
352350$$ (eq:util-rand-fourteen-a)
353351
354352$$
355- \frac{d^2 \text{ Pr}(A|\text{no})}{d\text{ Pr}(A|\text{yes})^2}\bigg|_ {\text{constant variance }}=- \frac{2 \left[ \pi_A-\text{Pr}(A|\text{no})\right] }{\left[ \text{Pr}(A|\text{yes})-\pi_A \right] ^2}<0
353+ \frac{d^2 \text{ Pr}(A|\text{no})}{d\text{ Pr}(A|\text{yes})^2}\bigg|_ {\text{常方差 }}=- \frac{2 \left[ \pi_A-\text{Pr}(A|\text{no})\right] }{\left[ \text{Pr}(A|\text{yes})-\pi_A \right] ^2}<0
356354$$ (eq:util-rand-fourteen-b)
357355
358356从表达式 {eq}`eq:util-rand-thirteen`、{eq}`eq:util-rand-fourteen-a` 和 {eq}`eq:util-rand-fourteen-b` 我们可以看出:
@@ -410,19 +408,19 @@ class Iso_Variance:
410408 plt.show()
411409```
412410
413- iso-方差曲线的特性是 :
411+ 等方差曲线的特性是 :
414412
415- - 同一条iso-方差曲线上的所有点具有相同的方差
413+ - 同一条等方差曲线上的所有点具有相同的方差
416414
417- - 从$V_1$到 $V_9$,iso-方差曲线的方差单调增加 ,颜色也单调变亮
415+ - 从 $V_1$ 到 $V_9$,等方差曲线的方差单调增加 ,颜色也单调变亮
418416
419- 假设iso-方差模型的参数遵循Ljungqvist {cite}`ljungqvist1993unified`中的设定,即:
417+ 假设等方差模型的参数遵循Ljungqvist {cite}`ljungqvist1993unified`中的设定,即:
420418
421419- $\pi=0.3$
422420
423421- $n=100$
424422
425- 那么我们可以在图2中绘制iso-方差曲线 :
423+ 那么我们可以在图2中绘制等方差曲线 :
426424
427425```{code-cell} ipython3
428426var = Iso_Variance(pi=0.3, n=100)
@@ -455,7 +453,7 @@ var.plotting_iso_variance_curve()
455453
456454- 假设{eq}`eq:util-rand-nine-b`足以保证最优模型设计的存在。通过选择足够接近的$\text{ Pr}(A|\text{yes})$和$\text{ Pr}(A|\text{no})$,所有受访者都会发现如实回答是最优选择。这些概率越接近,估计量的方差就越大。
457455
458- - 如果受访者从说实话中获得的预期效用增加足够大,那么就不需要使用随机化回答模型。在$\text{ Pr}(A|\text{yes})=1$和$\text{ Pr}(A|\text{no})=0$时可以获得最小可能的估计方差;也就是说,当受访者对直接提问如实回答时 。
456+ - 如果受访者从说实话中获得的预期效用增加足够大,那么就不需要使用随机化回答模型。在$\text{ Pr}(A|\text{yes})=1$和$\text{ Pr}(A|\text{no})=0$, 即当受访者对直接提问如实回答时,可以获得最小可能的估计方差 。
459457
460458- 一个更普遍的设计问题是最小化估计量的方差和偏差的某种加权和。接受一些最"不情愿"的受访者的谎言可能是最优的。
461459
@@ -517,7 +515,7 @@ plt.show()
517515
518516### Leysieffer和Warner方法(1976)
519517
520- Leysieffer和Warner(1976)建议使用二维风险度量, 当"否"答案不存在风险时可简化为一维, 这意味着
518+ 当"否"答案不存在风险时,Leysieffer和Warner(1976)建议使用的二维风险度量可简化为一维, 这意味着
521519
522520$$
523521\text{Pr}(\text{yes}|A)=1
529527\text{Pr}(A|\text{no})=0
530528$$
531529
532- 从功利主义的角度来看, 这不是最优选择。
530+ 从功利主义的角度来看, 这不是最优选择。
533531
534532### Chaudhuri和Mukerjee方法(1988)的分析
535533
536534{cite}`Chadhuri_Mukerjee_88`
537535
538- Chaudhuri和Mukerjee(1988)认为, 由于"是"有时可能与敏感群体A相关, 聪明的受访者可能会倾向于总是安全但虚假地回答"否"。在这种情况下,真实边界使得个人在真实答案为 "是"时选择说谎, 且
536+ Chaudhuri和Mukerjee(1988)认为, 由于"是"有时可能与敏感群体 $A$ 相关, 聪明的受访者可能会倾向于总是安全但虚假地回答"否"。在这种情况下,真实边界使得个体在真实答案为 "是"时选择说谎, 且
539537
540538$$
541539\text{Pr}(A|\text{no})=0
542540$$
543541
544- 在这里, 说谎带来的收益太高, 以至于没有人愿意回答"是"。
542+ 在这里, 说谎带来的收益太高, 以至于没有人愿意回答"是"。
545543
546544这意味着
547545
551549
552550在任何情况下都成立。
553551
554- 因此, 不存在可实现的模型设计。
552+ 因此, 不存在可实现的模型设计。
555553
556- 然而, 从功利主义的角度来看, 应该存在其他与真实答案相一致的调查设计。
554+ 然而, 从功利主义的角度来看, 应该存在其他与真实答案相一致的调查设计。
557555
558- 特别是, 如果消除了说谎带来的相对优势, 受访者将选择如实回答。
556+ 特别是, 如果消除了说谎带来的相对优势, 受访者将选择如实回答。
559557
560558我们可以用Python来展示最优模型设计对应图4中的Q点:
561559
620618\text{Pr}(\text{yes}|A^{'})\times \text{Pr}(A|\text{yes})+\text{Pr}(\text{no}|A^{'}) \times \text{Pr}(A|\text{no})
621619$$ (eq:util-rand-seven-bb)
622620
623- 他们还考虑了另一个相关的风险度量, 他们认为这个度量"可能更接近受访者实际感受到的担忧。"
621+ 他们还考虑了另一个相关的风险度量, 他们认为这个度量"可能更接近受访者实际感受到的担忧。"
624622
625- 对于属于$A$和$A^{'}$的个体, 他们的"有限风险"分别是:
623+ 对于属于$A$和$A^{'}$的个体, 他们的"有限风险"分别是:
626624
627625$$
628626\text{Pr}(\text{yes}|A)\times \text{Pr}(A|\text{yes})
634632\text{Pr}(\text{yes}|A^{'})\times \text{Pr}(A|\text{yes})
635633$$ (eq:util-rand-eight-bb)
636634
637- 根据Greenberg等人(1977)的说法, 受访者在随机选择要回答的问题**之前**, 就已经承诺根据{eq}`eq:util-rand-seven-aa`或{eq}`eq:util-rand-eight-aa`中的概率如实回答。
635+ 根据Greenberg等人(1977)的说法, 受访者在随机选择要回答的问题**之前**, 就已经承诺根据{eq}`eq:util-rand-seven-aa`或{eq}`eq:util-rand-eight-aa`中的概率如实回答。
638636
639637假设适当的隐私度量由{eq}`eq:util-rand-eight-aa`和{eq}`eq:util-rand-eight-bb`中的"有限风险"概念来表示。
640638
641- 考虑一个无关问题模型, 其中无关问题被替换为指令"说'不'",这意味着
639+ 考虑一个无关问题模型, 其中无关问题被替换为指令"说'不'",这意味着
642640
643641$$
644642
649647
650648- $A^{'}$中个体的风险为0。
651649
652- - 通过选择足够小的$\text{Pr}(\text{yes}|A)$,$A$中个体的风险也可以任意小。
650+ - 通过选择足够小的 $\text{Pr}(\text{yes}|A)$,$A$ 中个体的风险也可以任意小。
653651
654- 尽管这个风险可以被设定为接近0,但$A$中的个体在如实回答敏感问题时会完全暴露其身份。
652+ 尽管这个风险可以被设定为接近0,但 $A$ 中的个体在如实回答敏感问题时会完全暴露其身份。
655653
656654然而,在功利主义框架下,这显然是矛盾的。
657655
674672在功利主义分析中:
675673
676674
677- - 真实边界将感知属于敏感群体的条件概率空间$\text{Pr}(A|\text{yes})$和 $\text{Pr}(A|\text{no})$划分为说真话区域和说谎区域。
675+ - 真实边界将感知属于敏感群体的条件概率空间 $\text{Pr}(A|\text{yes})$ 和 $\text{Pr}(A|\text{no})$ 划分为说真话区域和说谎区域。
678676
679677- 最优模型设计是在真实边界接触到最低可能的等方差曲线的点上获得的。
680678
681- {cite}`ljungqvist1993unified`分析的一个实际含义是,可以通过**选择足够接近的$\text{Pr}(A|\text{yes})$和 $\text{Pr}(A|\text{no})$**来承认对受访者隐私需求的不确定性。
679+ {cite}`ljungqvist1993unified`分析的一个实际含义是,可以通过**选择足够接近的 $\text{Pr}(A|\text{yes})$ 和 $\text{Pr}(A|\text{no})$**来承认对受访者隐私需求的不确定性。
0 commit comments