@@ -15,7 +15,7 @@ kernelspec:
1515
1616社会污名可能会阻止人们承认潜在的令人尴尬的行为或观点。
1717
18- 当人们不愿意参与关于个人敏感问题的抽样调查时,他们可能会拒绝参与, 即使参与了,他们也可能会对敏感问题提供不正确的答案 。
18+ 当人们不愿意参与关于个人敏感问题的抽样调查时,他们可能会拒绝参与。 即使参与了,他们也可能会对敏感问题提供不真实的答案 。
1919
2020这些问题会导致** 选择** 偏差,给调查的解释和设计带来挑战。
2121
@@ -31,7 +31,7 @@ Warner的想法是在受访者的答案与调查制作者最终收到的**信号
3131
3232相关理念构成了现代** 差分隐私** 系统的基础。
3333
34- (参见 https://en.wikipedia.org/wiki/Differential_privacy )
34+ (参见 https://baike.baidu.com/item/%E5%B7%AE%E5%88%86%E9%9A%90%E7%A7%81/22415732 )
3535
3636
3737## Warner的策略
@@ -50,10 +50,9 @@ import pandas as pd
5050
5151Warner {cite}` warner1965randomized ` 提出并分析了以下程序:
5252
53- - 从人群中有放回地抽取 $n$ 个随机样本,并对每个人进行访谈。
5453- 从人群中有放回地抽取 $n$ 个随机样本,并对每个人进行访谈。
5554- 准备一个** 随机转盘** ,该转盘指向字母 A 的概率为 $p$,指向字母 B 的概率为 $(1-p)$。
56- - 每个受试者转动随机转盘,看到一个面试官 ** 看不到** 的结果(A 或 B)。
55+ - 每个受试者转动随机转盘,看到一个访谈者 ** 看不到** 的结果(A 或 B)。
5756- 受试者说明自己是否属于转盘所指向的组。
5857- 如果转盘指向受试者所属的组,受试者回答"是";否则回答"否"。
5958- 受试者如实回答问题。
8079\log(L)= n_1 \log \left[ \pi p + (1-\pi)(1-p)\right] + (n-n_ {1}) \log \left[ (1-\pi) p +\pi (1-p)\right]
8180$$ (eq:two)
8281
83- 关于$\pi$最大化对数似然函数的一阶必要条件是:
82+ 关于 $\pi$ 最大化对数似然函数的一阶必要条件是:
8483
8584$$
8685\frac{(n-n_1)(2p-1)}{(1-\pi) p +\pi (1-p)}=\frac{n_1 (2p-1)}{\pi p + (1-\pi)(1-p)}
9998\hat{\pi}=\frac{p-1}{2p-1}+\frac{n_1}{(2p-1)n}
10099$$ (eq:four)
101100
102- 我们计算MLE估计量 $\hat \pi$ 的均值和方差为:
101+ 我们计算最大似然估计量 $\hat \pi$ 的均值和方差为:
103102
104103$$
105104\begin{aligned}
@@ -151,7 +150,7 @@ $$ (eq:seven)
151150在我们的非随机化回答法中,我们假设:
152151
153152- A组成员以概率 $T_a$ 说真话,而B组成员以概率 $T_b$ 说真话
154- - $Y_i$ 为1或0,取决于样本中第i个成员的报告是否属于A组 。
153+ - $Y_i$ 为 $1$ 或 $0$,取决于样本中第 $i$ 个成员的报告是否属于A组 。
155154
156155那么我们可以估计 $\pi$ 为:
157156
@@ -269,9 +268,9 @@ df1_mc
269268
270269我们看到在许多情况下,特别是当偏差不小时,随机抽样方法的均方误差比非随机抽样方法要小。
271270
272- 随着$p$的增加,这些差异变得更大。
271+ 随着 $p$ 的增加,这些差异变得更大。
273272
274- 通过调整参数$\pi_A$和 $n$,我们可以研究不同情况下的结果。
273+ 通过调整参数 $\pi_A$ 和 $n$,我们可以研究不同情况下的结果。
275274
276275例如,对于Warner {cite}`warner1965randomized`描述的另一种情况:
277276
@@ -309,7 +308,7 @@ df3_mc = cp3.MCsimulation()
309308df3_mc
310309```
311310
312- 显然,随着$n$的增加,随机化回应法在更多情况下表现更好。
311+ 显然,随着 $n$ 的增加,随机化回应法在更多情况下表现更好。
313312
314313## 结束语
315314
0 commit comments