Skip to content

Commit 8a1a930

Browse files
authored
Add files via upload
1 parent 177f459 commit 8a1a930

File tree

1 file changed

+9
-10
lines changed

1 file changed

+9
-10
lines changed

lectures/rand_resp.md

Lines changed: 9 additions & 10 deletions
Original file line numberDiff line numberDiff line change
@@ -15,7 +15,7 @@ kernelspec:
1515

1616
社会污名可能会阻止人们承认潜在的令人尴尬的行为或观点。
1717

18-
当人们不愿意参与关于个人敏感问题的抽样调查时,他们可能会拒绝参与即使参与了,他们也可能会对敏感问题提供不正确的答案
18+
当人们不愿意参与关于个人敏感问题的抽样调查时,他们可能会拒绝参与即使参与了,他们也可能会对敏感问题提供不真实的答案
1919

2020
这些问题会导致**选择**偏差,给调查的解释和设计带来挑战。
2121

@@ -31,7 +31,7 @@ Warner的想法是在受访者的答案与调查制作者最终收到的**信号
3131

3232
相关理念构成了现代**差分隐私**系统的基础。
3333

34-
(参见 https://en.wikipedia.org/wiki/Differential_privacy)
34+
(参见 https://baike.baidu.com/item/%E5%B7%AE%E5%88%86%E9%9A%90%E7%A7%81/22415732)
3535

3636

3737
## Warner的策略
@@ -50,10 +50,9 @@ import pandas as pd
5050

5151
Warner {cite}`warner1965randomized` 提出并分析了以下程序:
5252

53-
- 从人群中有放回地抽取 $n$ 个随机样本,并对每个人进行访谈。
5453
- 从人群中有放回地抽取 $n$ 个随机样本,并对每个人进行访谈。
5554
- 准备一个**随机转盘**,该转盘指向字母 A 的概率为 $p$,指向字母 B 的概率为 $(1-p)$。
56-
- 每个受试者转动随机转盘,看到一个面试官**看不到**的结果(A 或 B)。
55+
- 每个受试者转动随机转盘,看到一个访谈者**看不到**的结果(A 或 B)。
5756
- 受试者说明自己是否属于转盘所指向的组。
5857
- 如果转盘指向受试者所属的组,受试者回答"是";否则回答"否"。
5958
- 受试者如实回答问题。
@@ -80,7 +79,7 @@ $$
8079
\log(L)= n_1 \log \left[\pi p + (1-\pi)(1-p)\right] + (n-n_{1}) \log \left[(1-\pi) p +\pi (1-p)\right]
8180
$$ (eq:two)
8281
83-
关于$\pi$最大化对数似然函数的一阶必要条件是:
82+
关于 $\pi$ 最大化对数似然函数的一阶必要条件是:
8483
8584
$$
8685
\frac{(n-n_1)(2p-1)}{(1-\pi) p +\pi (1-p)}=\frac{n_1 (2p-1)}{\pi p + (1-\pi)(1-p)}
@@ -99,7 +98,7 @@ $$
9998
\hat{\pi}=\frac{p-1}{2p-1}+\frac{n_1}{(2p-1)n}
10099
$$ (eq:four)
101100
102-
我们计算MLE估计量 $\hat \pi$ 的均值和方差为:
101+
我们计算最大似然估计量 $\hat \pi$ 的均值和方差为:
103102
104103
$$
105104
\begin{aligned}
@@ -151,7 +150,7 @@ $$ (eq:seven)
151150
在我们的非随机化回答法中,我们假设:
152151
153152
- A组成员以概率 $T_a$ 说真话,而B组成员以概率 $T_b$ 说真话
154-
- $Y_i$ 为1或0,取决于样本中第i个成员的报告是否属于A组
153+
- $Y_i$ 为 $1$ 或 $0$,取决于样本中第 $i$ 个成员的报告是否属于A组
155154
156155
那么我们可以估计 $\pi$ 为:
157156
@@ -269,9 +268,9 @@ df1_mc
269268
270269
我们看到在许多情况下,特别是当偏差不小时,随机抽样方法的均方误差比非随机抽样方法要小。
271270
272-
随着$p$的增加,这些差异变得更大。
271+
随着 $p$ 的增加,这些差异变得更大。
273272
274-
通过调整参数$\pi_A$$n$,我们可以研究不同情况下的结果。
273+
通过调整参数 $\pi_A$$n$,我们可以研究不同情况下的结果。
275274
276275
例如,对于Warner {cite}`warner1965randomized`描述的另一种情况:
277276
@@ -309,7 +308,7 @@ df3_mc = cp3.MCsimulation()
309308
df3_mc
310309
```
311310
312-
显然,随着$n$的增加,随机化回应法在更多情况下表现更好。
311+
显然,随着 $n$ 的增加,随机化回应法在更多情况下表现更好。
313312
314313
## 结束语
315314

0 commit comments

Comments
 (0)