Skip to content

Commit 61903d4

Browse files
orange13github-actions[bot]
authored andcommitted
BACKPORT-CONFLICT
1 parent d0b310f commit 61903d4

File tree

3 files changed

+369
-0
lines changed

3 files changed

+369
-0
lines changed
Lines changed: 36 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,36 @@
1+
# Работа с медленно меняющимися измерениями
2+
3+
В текущем разделе собраны практические руководства по реализации [медленно меняющихся измерений](https://ru.wikipedia.org/wiki/Медленно_меняющееся_измерение) (Slowly Changing Dimensions, SCD) — популярного подхода к управлению историческими данными в аналитических хранилищах.
4+
5+
В разделе описываются варианты SCD1 и SCD2:
6+
7+
* [SCD Type 1](#scd1): Cтарые значения атрибутов заменяются новыми, сохраняя только актуальное состояние данных.
8+
* [SCD Type 2](#scd2): Cохраняется полная история изменений путем добавления новых записей для каждой новой версии атрибута.
9+
10+
## Особенности SCD1 {#scd1}
11+
12+
[Медленно меняющиеся измерения (тип 1) или SCD1 (Type 1)](https://ru.wikipedia.org/wiki/Медленно_меняющееся_измерение#Тип_1) — это подход, при котором при изменении атрибута измерения старое значение заменяется новым. Хранится только текущее состояние данных. Этот подход используется, когда:
13+
14+
- историческая информация не требуется;
15+
- важно иметь только актуальные данные;
16+
- необходимо минимизировать размер хранилища данных;
17+
- требуется простая структура данных для аналитики.
18+
19+
## Особенности SCD2 и подход append-only {#scd2}
20+
21+
[Медленно меняющиеся измерения (тип 2) или SCD2 (Type 2)](https://ru.wikipedia.org/wiki/Медленно_меняющееся_измерение#Тип_2) — это подход, при котором при изменении атрибута измерения создаётся новая запись, а старая помечается как неактуальная. Таким образом, сохраняется история изменений. Этот подход используется, когда:
22+
23+
- требуется отслеживать историю изменений данных;
24+
- необходимо выполнять анализ данных с учётом временных периодов;
25+
- важно сохранять аудиторский след изменений;
26+
- требуется возможность восстановления состояния данных на определённый момент времени.
27+
28+
## Доступные руководства
29+
30+
В разделе рассматриваются различные технические способы реализации этих механизмов:
31+
32+
* С использованием связки [Change Data Capture (CDC)](../../../concepts/cdc.md) и [Transfer](../../../concepts/transfer.md) для автоматической потоковой репликации изменений из таблиц-источников.
33+
* [{#T}](scd1-transfer.md)
34+
* [{#T}](scd2-transfer.md)
35+
* С помощью периодических YQL-запросов, которые обрабатывают пакеты изменений из промежуточной таблицы и подмерживают их в основную SCD-таблицу.
36+
* [{#T}](scd2-merge.md)

0 commit comments

Comments
 (0)