Tantor: Настройка производительности PostgreSQL

Оглавление

Tantor: Настройка производительности PostgreSQL 16	страница
Практика к главе 1
Часть 1. Стандартный тест pgbench	5
Часть 2. Использование pgbench с собственным скриптом	8
Часть 3. Использование утилиты sysbench	14
Часть 4. Использование приложения HammerDB	15
Часть 5. Использование приложения Go-TPC	22
Практика к главе 2
Часть 1. Запуск экземпляра с огромными страницами	27
Часть 2. Изменение значения oom_score	29
Часть 3. Выгрузка длинных строк утилитой pg_dump	31
Часть 4. Нехватка памяти	32
Часть 5. Включение подкачки (swap)	37
Часть 6. Страничный кэш	39
Практика к главе 3
Часть 1. Стандартный тест pgbench	42
Часть 2. Привязка процессов к ядру процессора	43
Часть 3. Переключения контекстов выполнения	44
Часть 4. Мониторинг нагрузки на процессор	46
Часть 5. Сбор статистик в файл и его просмотр утилитой atop	50
Часть 6. Источник времени linux	51
Часть 7. Сетевые соединения	54
Часть 8. Замена политики планирования и проверка работы планировщика	55
Практика к главе 4
Часть 1. Параметры дисковой подсистемы	58
Часть 2. Установка пакетов в Astralinux	61
Часть 3. Работа с SSD и тестирование производительности диска утилитой fio	64
Часть 4. Тестирование журнала быстрой фиксации ext4	67
Часть 5. Снятие ограничения на число открытых файлов	73
Часть 6. Пример командных файлов для тестирования	75
Часть 7. Пример создания программ для тестирования	79
Практика к главе 5
Часть 1. Блокировки объектов	82
Часть 2. Наблюдение за памятью серверного процесса	84
Часть 3. Временные таблицы и файлы	91
Часть 4. Влияние параметров конфигурации на разделяемую память	96
Часть 5. Параметр max_connections и производительность	99
Часть 6. Размер кэша буферов и освобождение буферов	103
Практика к главе 6
Часть 1. Карта свободного пространства	106
Часть 2. Изменение порядка следования столбцов	110
Часть 3. Содержимое блоков таблицы	119
Часть 4. Выравнивание полей в строках таблиц	121
Часть 5. Выравнивание строк в блоках таблиц	123
Часть 6. Хранение пустых (NULL) значений в строках таблиц	126
Часть 7. Число строк в блоке таблицы	128
Практика к главе 7
Часть 1. Методы доступа	133
Часть 2. Использование индексов ограничениями целостности	138
Часть 3. Характеристики btree индексов	141
Часть 4. Навигация по структуре btree индексов	145
Часть 5. Дедупликация в btree индексах	149
Часть 6. Индексы в убывающем порядке	152
Часть 7. Покрывающие индексы и Index Only Scan	154
Часть 8. Частичные (partial) индексы	155
Часть 9. Изучение структуры индекса типа btree	156
Часть 10. Очистка блоков индекса при его сканировании	168
Часть 11. Медленное выполнение запросов на реплике из-за отсутствия очистки блоков индекса	173
Часть 12. Определение числа удаленных строк	177
Часть 13. Поиск по структуре индекса btree	179
Практика к главе 8
Часть 1. TOAST	183
Часть 2. Структура таблиц TOAST	189
Часть 3. Эффективность UPDATE в сравнении с INSERT	194
Часть 4. HOT cleanup	197
Часть 5. Мониторинг HOT cleanup	204
Часть 6. Типы данных небольшого размера	207
Часть 7. Хранение типов данных переменной длинны	210
Часть 8. Тип данных для столбца первичного ключа	215
Часть 9. Типы данных для хранения дат и времени	217
Часть 10. Типы данных float и real	219
Практика к главе 9
Часть 1. Запуск экземпляра в контейнере docker	223
Часть 2. Разделяемая память экземпляра	232
Часть 3. Локальная память серверного процесса	238
Часть 4. Логирование памяти процесса в диагностический журнал	245
Часть 5. Взаимоблокировки при проведении тестов	246
Часть 6. Мультитранзакции	248
Часть 7. Пример теста	252
Практика к главе 10
Часть 1. Расширение pg_buffercache	256
Часть 2. Буферные кольца	259
Часть 3. Расширение pg_prewarm	263
Часть 4. Процесс фоновой записи bgwriter	265
Практика к главе 11
Часть 1. Настройка частоты контрольных точек	270
Часть 2. Задержка при запуске экземпляра. Параметр recovery_init_sync_method	276
Часть 3. Длительность контрольной точки	283
Часть 4. Длительность финальной контрольной при остановке экземпляра	287
Часть 5. Длительность контрольной точки после падения экземпляра	288
Часть 6. Контрольная точка по запросу	290
Практика к главе 12
Часть 1. Параметры команды vacuum	296
Часть 2. Наблюдение за вакуумом	299
Часть 3. Расширение для просмотра карты видимости и заморозки pg_visibility	302
Часть 4. Интервал между циклами автовакуума, параметр autovacuum_naptime	304
Часть 5. Сравнение вакуума 17 версии с предыдущими версиями	306
Часть 6. Число сканирований индексов при вакуумировании	311
Часть 7. Логирование автовакуума	316
Часть 8. Расширение pgststtuple	319
Часть 9: Условие обработки индексов: 2% строк	320
Практика к главе 13
Часть 1. Чтение сообщений вакуума и автовакуума	324
Часть 2. Чтение сообщений о контрольной точке	325
Часть 3. Чтение сообщений о контрольной точке pg_waldump	329
Часть 4. Размер директории PGDATA/pg_wal	332
Практика к главе 14
Часть 1. Статистика ввода-вывода в представлении pg_stat_io	339
Часть 2. Выполнение fsyncs при остановленном checkpointer	344
Часть 3. Тестирование производительности ввода-вывода	350
Часть 4. Выбор размера temp_buffers при работе с временными таблицами с помощью pg_stat_io	354
Часть 5. Пример анализа статистик работы команды vacuum с кольцом	358
Часть 6. Работа bgwriter и сопоставление статистик в представлениях pg_stat_bgwriter и pg_stat_io	362
Часть 7. Работа bgwriter на буферном кэше 128Мб и 1Гб	366
Часть 8. Использование расширения pg_walinspect	371
Часть 9. Наблюдение за блокировками	376
Практика к главе 15
Часть 1. Установка расширения pg_stat_kcache	380
Часть 2. Использование расширения pg_stat_kcache	384
Часть 3. Производительность при использовании direct i/o	390
Практика к главе 16
Использование расширения pg_wait_sampling	392

Практика к главе 1

Часть 1. Стандартный тест pgbench

Образ виртуальной машины к курсу: https://disk.yandex.ru/d/APErrktFq-Gamg

1) При выполнении практик будет много раз перезапускаться экземпляр. Создайте файл с коротким именем для того, чтобы удобно перезапускать экземпляр:

astra@tantor:~$ su -

Password: root

root@tantor:~# echo "systemctl restart tantor-se-server-16" > /usr/local/bin/restart

root@tantor:~# chmod 755 /usr/local/bin/restart

root@tantor:~# <ctrl+d>

logout

astra@tantor:~$ sudo restart

astra@tantor:~$

Вы создали командный файл и перезапустили с его помощью экземпляр.

2) Переключитесь в пользователя операционной системы postgres:

astra@tantor:~$ su - postgres

Password: postgres

postgres@tantor:~$

3) Утилита pgbench поставляется с постгрес и использует таблицы для встроенных тестов.

Создайте таблицы для тестов pgbench:

postgres@tantor:~$ pgbench -i

dropping old tables...

NOTICE: table "pgbench_accounts" does not exist, skipping

NOTICE: table "pgbench_branches" does not exist, skipping

NOTICE: table "pgbench_history" does not exist, skipping

NOTICE: table "pgbench_tellers" does not exist, skipping

creating tables...

generating data (client-side)...

100000 of 100000 tuples (100%) done (elapsed 0.10 s, remaining 0.00 s)

vacuuming...

creating primary keys...

done in 0.43 s (drop tables 0.00 s, create tables 0.02 s, client-side generate 0.28 s, vacuum 0.07 s, primary keys 0.07 s).

Было создано четыре таблицы. В таблице pgbench_accounts 100тыс. строк, в остальных таблицах 1, 0 и 10 строк.

4) Запустите тест по умолчанию длительностью 30 секунд с выводом промежуточных результатов с интервалом в 5 секунд:

postgres@tantor:~$ pgbench -T 30 -P 5

starting vacuum...end.

progress: 5.0 s, 547.2 tps, lat 1.818 ms stddev 0.475, 0 failed

progress: 10.0 s, 551.6 tps, lat 1.805 ms stddev 0.230, 0 failed

progress: 15.0 s, 545.8 tps, lat 1.824 ms stddev 0.255, 0 failed

progress: 20.0 s, 554.2 tps, lat 1.797 ms stddev 0.204, 0 failed

progress: 25.0 s, 532.6 tps, lat 1.870 ms stddev 0.298, 0 failed

progress: 30.0 s, 502.6 tps, lat 1.982 ms stddev 2.024, 0 failed

transaction type: <builtin: TPC-B (sort of)>

scaling factor: 1

query mode: simple

number of clients: 1

number of threads: 1

maximum number of tries: 1

duration: 30 s

number of transactions actually processed: 16171

number of failed transactions: 0 (0.000%)

latency average = 1.847 ms

latency stddev = 0.849 ms

initial connection time = 3.973 ms

tps = 539.088500 (without initial connection time)

В примере получен результат: 539 транзакций в секунду (transactions per second, tps)

5) Проверьте, как влияет удержание горизонта базы данных на TPS стандартного теста. Запустите тест, указав большой интервал времени:

postgres@tantor:~$ pgbench -T 10000 -P 15

6) Запустите второй терминал. В терминале запустите psl и начните транзакцию:

astra@tantor:~$ psql

postgres=# begin;

BEGIN

postgres=*#

7) В окне с запущенным тестом обратите внимание на показатель tps:

progress: 15.0 s, 541.5 tps, lat 1.838 ms stddev 0.242, 0 failed

progress: 30.0 s, 554.7 tps, lat 1.795 ms stddev 0.255, 0 failed

progress: 45.0 s, 545.9 tps, lat 1.824 ms stddev 0.279, 0 failed

8) Откройте транзакцию вызвав функцию, выдающую номер транзакции:

postgres=*# select pg_current_xact_id();

pg_current_xact_id

--------------------

974640

(1 row)

postgres=*#

9) Проверьте, что в окне с тестом tps постепенно начнет снижаться:

progress: 60.0 s, 484.6 tps, lat 2.055 ms stddev 0.603, 0 failed

progress: 75.0 s, 395.7 tps, lat 2.517 ms stddev 0.751, 0 failed

progress: 90.0 s, 349.1 tps, lat 2.853 ms stddev 0.793, 0 failed

progress: 105.0 s, 319.5 tps, lat 3.118 ms stddev 0.912, 0 failed

progress: 120.0 s, 308.1 tps, lat 3.237 ms stddev 0.942, 0 failed

progress: 135.0 s, 339.8 tps, lat 2.935 ms stddev 0.507, 0 failed

progress: 150.0 s, 306.3 tps, lat 3.257 ms stddev 0.478, 0 failed

progress: 165.0 s, 277.6 tps, lat 3.595 ms stddev 0.706, 0 failed

progress: 180.0 s, 264.2 tps, lat 3.777 ms stddev 0.673, 0 failed

За три минуты tps снизится в 1.5-2 раза. За час tps снизится в 100 раз. Мы не будем ждать час, часовой тест можно запустить в обеденное время.

10) Выполните запрос, показывающий PID активных процессов и длительность их транзакций:

select age(backend_xmin), extract(epoch from (clock_timestamp()-xact_start)) secs, pid, datname database, state from pg_stat_activity where backend_xmin IS NOT NULL OR backend_xid IS NOT NULL order by greatest(age(backend_xmin), age(backend_xid)) desc;

age | secs | pid | database | state

--------+-------------+--------+----------+---------------------

175455 | 1425.651346 | 255554 | postgres | idle in transaction

1 | 0.001878 | 255547 | postgres | active

1 | 0.001213 | 255626 | postgres | active

Это запрос, который позволяет наблюдать за горизонтом баз данных. Запрос выдаёт число транзакций, прошедших с момента запуска транзакции серверным процессом, к которому относится строка; длительность транзакции, в первой строке самая долгая транзакция и время удержания горизонта; pid процесса, название базы данных, в которой работает транзакция; состояние транзакции. Если состояние транзакции "idle in transaction" это означает, что транзакция простаивает и ждёт команды от клиента. Простаивающая открытая транзакция нежелательна и таких транзакций в хорошо написанном приложении не должно быть.

В примере прошло 1425 секунд и за это время время tps в окне с тестом снизился в 7 раз:

progress: 1425.0 s, 71.6 tps, lat 13.964 ms stddev 1.215, 0 failed

11) Завершите транзакцию, удерживающую горизонт во втором окне терминала:

postgres=*# rollback;

ROLLBACK

postgres=#

12) повторите запрос в третьем окне терминала:

postgres=# select age(backend_xmin), extract(epoch from (clock_timestamp()-xact_start)) secs, pid, datname database, state from pg_stat_activity where backend_xmin IS NOT NULL OR backend_xid IS NOT NULL order by greatest(age(backend_xmin), age(backend_xid)) desc;

age | secs | pid | database | state

-----+----------+--------+----------+--------

1 | 0.001050 | 255547 | postgres | active

1 | 0.001280 | 255626 | postgres | active

Две транзакции это транзакции теста pgbench. Их "возраст" в числе транзакций 1. Они не удерживают горизонт.

13) Посмотрите в первом окне терминала с тестом, что tps достаточно быстро вернутся к исходным:

progress: 1905.0 s, 61.3 tps, lat 16.302 ms stddev 1.201, 0 failed

progress: 1920.0 s, 60.4 tps, lat 16.549 ms stddev 1.762, 0 failed

progress: 1935.0 s, 159.5 tps, lat 6.266 ms stddev 6.035, 0 failed

progress: 1950.0 s, 389.1 tps, lat 2.561 ms stddev 0.586, 0 failed

progress: 1965.0 s, 535.5 tps, lat 1.860 ms stddev 0.347, 0 failed

progress: 1980.0 s, 522.1 tps, lat 1.908 ms stddev 0.327, 0 failed

Вы наблюдали, что удержание горизонта в базе данных существенно снижает число транзакций, которые может обслужить СУБД. Одиночный запрос удерживает горизонт на время своей работы. Долгие запросы стоит переносить на реплики.

На уровне изоляции транзакций по умолчанию (READ COMMITED) транзакция начинает удерживать горизонт, как только ей будет назначен реальный номер транзакции (xid). Для получения реального номера использовалась функция pg_current_xact_id(). Реальный номер будет назначен при выполнении любой команды, меняющей данные. Например: INSERT, UPDATE, DELETE, CREATE, ALTER, DROP. Транзакции на уровне изоляции repeatable read удерживают горизонт с момента выполнения любой команды, в том числе SELECT и удерживают горизонт до завершения транзакции:

postgres=# begin transaction isolation level repeatable read;

BEGIN

postgres=*# select 1;

?column?

----------

(1 row)

Часть 2. Использование pgbench с собственным скриптом

1) Создайте таблицу для теста выполнив команды в psql:

postgres=# drop table if exists t;

create table t(pk bigserial, c1 text default 'aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa');

insert into t select *, 'a' from generate_series(1, 100000);

alter table t add constraint pk primary key (pk);

DROP TABLE

CREATE TABLE

INSERT 0 100000

ALTER TABLE

2) Создайте три скрипта (командных файла):

postgres=# \q

postgres@tantor:~$ echo "select count(*) from t;" > count1.sql

echo "select count(1) from t;" > count2.sql

echo "select count(pk) from t;" > count3.sql

postgres@tantor:~$

3) Запустите по очереди три теста с созданными скриптами:

postgres@tantor:~$ pgbench -T 30 -P 5 -f count1.sql

pgbench (16.2)

starting vacuum...end.

progress: 5.0 s, 75.8 tps, lat 13.144 ms stddev 1.410, 0 failed

progress: 10.0 s, 74.2 tps, lat 13.495 ms stddev 1.454, 0 failed

progress: 15.0 s, 75.0 tps, lat 13.304 ms stddev 1.047, 0 failed

progress: 20.0 s, 75.2 tps, lat 13.313 ms stddev 1.267, 0 failed

progress: 25.0 s, 75.6 tps, lat 13.205 ms stddev 1.030, 0 failed

progress: 30.0 s, 76.2 tps, lat 13.125 ms stddev 0.896, 0 failed

transaction type: count1.sql

scaling factor: 1

query mode: simple

number of clients: 1

number of threads: 1

maximum number of tries: 1

duration: 30 s

number of transactions actually processed: 2261

number of failed transactions: 0 (0.000%)

latency average = 13.263 ms

latency stddev = 1.207 ms

initial connection time = 3.788 ms

tps = 75.339419 (without initial connection time)

postgres@tantor:~$ pgbench -T 30 -P 5 -f count2.sql

pgbench (16.2)

starting vacuum...end.

progress: 5.0 s, 69.4 tps, lat 14.386 ms stddev 0.891, 0 failed

progress: 10.0 s, 67.8 tps, lat 14.707 ms stddev 1.009, 0 failed

progress: 15.0 s, 68.4 tps, lat 14.633 ms stddev 1.208, 0 failed

progress: 20.0 s, 68.4 tps, lat 14.615 ms stddev 0.909, 0 failed

progress: 25.0 s, 68.4 tps, lat 14.596 ms stddev 1.010, 0 failed

progress: 30.0 s, 67.0 tps, lat 14.940 ms stddev 0.720, 0 failed

transaction type: count2.sql

scaling factor: 1

query mode: simple

number of clients: 1

number of threads: 1

maximum number of tries: 1

duration: 30 s

number of transactions actually processed: 2048

number of failed transactions: 0 (0.000%)

latency average = 14.645 ms

latency stddev = 0.983 ms

initial connection time = 4.314 ms

tps = 68.242454 (without initial connection time)

postgres@tantor:~$ pgbench -T 30 -P 5 -f count3.sql

pgbench (16.2)

starting vacuum...end.

progress: 5.0 s, 56.2 tps, lat 17.758 ms stddev 0.983, 0 failed

progress: 10.0 s, 55.2 tps, lat 18.095 ms stddev 0.698, 0 failed

progress: 15.0 s, 55.6 tps, lat 17.968 ms stddev 0.768, 0 failed

progress: 20.0 s, 55.4 tps, lat 18.016 ms stddev 0.765, 0 failed

progress: 25.0 s, 55.8 tps, lat 17.954 ms stddev 0.930, 0 failed

progress: 30.0 s, 55.0 tps, lat 18.125 ms stddev 1.161, 0 failed

transaction type: count3.sql

scaling factor: 1

query mode: simple

number of clients: 1

number of threads: 1

maximum number of tries: 1

duration: 30 s

number of transactions actually processed: 1667

number of failed transactions: 0 (0.000%)

latency average = 17.985 ms

latency stddev = 0.906 ms

initial connection time = 4.129 ms

tps = 55.572129 (without initial connection time)

postgres@tantor:~$

4) Проанализируйте результат теста: определите какая команда работает быстрее

5) Выполните команды в psql:

postgres=# \timing

Timing is on.

postgres=# select count(pk) from t;

count

--------

100000

(1 row)

Time: 18.249 ms

postgres=# select count(1) from t;

count

--------

100000

(1 row)

Time: 15.223 ms

postgres=# select count(*) from t;

count

--------

100000

(1 row)

Time: 14.535 ms

Соответствует ли время выполнения команд результатам pgbench? Да, соответствует.

Соответствует ли время выполнения команд значению latency? Да, соответствует.

latency average измерено тестом pgbench с точностью, соответствующей latency stddev.

6) отключите измерение времени:

postgres=# \timing

Timing is off.

7) Выполните команды:

postgres=# explain analyze select count(pk) from t;

QUERY PLAN

---------------------------------------------------------------------------------------------

Aggregate (cost=1791.00..1791.01 rows=1 width=8) (actual time=817.468..817.485 rows=1 loops=1)

-> Seq Scan on t (cost=0.00..1541.00 rows=100000 width=8) (actual time=0.013..403.349 rows=100000 loops=>

Planning Time: 0.047 ms

Execution Time: 817.602 ms

(4 rows)

postgres=# explain analyze select count(1) from t;

QUERY PLAN

---------------------------------------------------------------------------------------------

Aggregate (cost=1791.00..1791.01 rows=1 width=8) (actual time=800.453..800.470 rows=1 loops=1)

-> Seq Scan on t (cost=0.00..1541.00 rows=100000 width=0) (actual time=0.015..399.821 rows=100000 loops=>

Planning Time: 0.053 ms

Execution Time: 800.589 ms

(4 rows)

postgres=# explain analyze select count(*) from t;

QUERY PLAN

---------------------------------------------------------------------------------------------

Aggregate (cost=1791.00..1791.01 rows=1 width=8) (actual time=804.634..804.650 rows=1 loops=1)

-> Seq Scan on t (cost=0.00..1541.00 rows=100000 width=0) (actual time=0.013..401.192 rows=100000 loops=>

Planning Time: 0.047 ms

Execution Time: 804.767 ms

(4 rows)

postgres=# explain analyze select count(*) from t;

QUERY PLAN

--------------------------------------------------------------------------------------------

Aggregate (cost=1791.00..1791.01 rows=1 width=8) (actual time=813.472..813.489 rows=1 loops=1)

-> Seq Scan on t (cost=0.00..1541.00 rows=100000 width=0) (actual time=0.015..410.861 rows=100000 loops=>

Planning Time: 0.054 ms

Execution Time: 813.610 ms

(4 rows)

Соответствует ли время выполнения команд explain analyze времени выполнения команд без explain analyze? Нет, не соответствует. Время выполнения команд ~15ms, время выполнения команд с explain analyze в этом примере ~800ms или меньше ~300ms (зависит от типа источника времени).

explain analyze с опциями по умолчанию показало время выполнения count(*) дольше, чем count(1), что расходится с предыдущими тестами. Накладные расходы на замеры времени существенно превышают время выполнения команд.

Два последних результата одной и той же команды 804.767 ms и 813.610 ms различаются из-за задержек в доступе к буферам в буферном кэше 401.192 и 410.861.

Время выполнения узла Aggregate также расходится с результатами pgbench и выполнения команд без explain analyze:

817.485-403.349=414.136

800.470-399.821=400.649

804.650-401.192=403.458

813.489-410.861=402.628

Расхождение результатов в том, что count(*) медленнее, чем count(1).

8) Выполните команды, отключив в команде explain измерение времени:

postgres=# explain (analyze, buffers, timing off) select count(pk) from t;

QUERY PLAN

------------------------------------------------------------------------

Aggregate (cost=1791.00..1791.01 rows=1 width=8) (actual rows=1 loops=1)

Buffers: shared hit=541

-> Seq Scan on t (cost=0.00..1541.00 rows=100000 width=8) (actual rows=100000 loops=1)

Buffers: shared hit=541

Planning:

Buffers: shared hit=65

Planning Time: 0.431 ms

Execution Time: 21.388 ms

(8 rows)

postgres=# explain (analyze, buffers, timing off) select count(1) from t;

QUERY PLAN

---------------------------------------------------------------------------

Aggregate (cost=1791.00..1791.01 rows=1 width=8) (actual rows=1 loops=1)

Buffers: shared hit=541

-> Seq Scan on t (cost=0.00..1541.00 rows=100000 width=0) (actual rows=100000 loops=1)

Buffers: shared hit=541

Planning Time: 0.059 ms

Execution Time: 18.952 ms

(6 rows)

postgres=# explain (analyze, buffers, timing off) select count(*) from t;

QUERY PLAN

-------------------------------------------------------------------------

Aggregate (cost=1791.00..1791.01 rows=1 width=8) (actual rows=1 loops=1)

Buffers: shared hit=541

-> Seq Scan on t (cost=0.00..1541.00 rows=100000 width=0) (actual rows=100000 loops=1)

Buffers: shared hit=541

Planning:

Buffers: shared hit=3

Planning Time: 0.058 ms

Execution Time: 16.357 ms

(8 rows)

С опцией timing off результаты команды explain соответствуют результатам тестов pgbench и выполнению запросов без explain.

Параметр buffers на результат не влияет, он иллюстрирует то, что все блоки таблицы находились в буферном кэше (shared hit=541) при выполнении всех трёх команд.

У команды explain есть опция settings, которая выдаст строку со значениями параметров, которые:

a) влияют на планировщик

b) имеют значения, отличные от значений по умолчанию.

Если такие параметры отсутствуют, то параметр settings не влияет на вывод команды explain.

Особенности измерения времени, настройки источника времени, измерения его скорости будут рассмотрены в следующих главах курса.

Какие параметры “влияют на планировщик”? Это декларируется при добавлении параметра конфигурации разработчиками PostgreSQL или создателями библиотек расширений. Пример:

postgres=# select pg_settings_get_flags('work_mem');

pg_settings_get_flags

-----------------------

{EXPLAIN}

(1 row)

Если в результатах есть , то это означает, что параметр конфигурации задекларирован как “влияющий на планировщик”. Таких параметров около 60.

У параметров конфигурации могут быть следующие флаги:

EXPLAIN (примерно 60 параметров) параметры с этим флагом включаются в команды EXPLAIN (SETTINGS);

NO_SHOW_ALL (параметров с таким флагом нет) исключаются из команд SHOW ALL;

NO_RESET (3 параметра) не поддерживают команды RESET;

NO_RESET_ALL (3 параметра) исключаются из команд RESET ALL;

NOT_IN_SAMPLE (50 параметров) автоматически не включаются в файл postgresql.conf.sample, на основе которого утилитой initdb создаётся файл параметров кластера

RUNTIME_COMPUTED (5 параметров) значения параметра не устанавливаются, а вычисляются при запуске экземпляра.

Список параметров с флагами можно получить командой:

postgres=# select name, pg_settings_get_flags(name) from pg_settings where array_length(pg_settings_get_flags(name),1)>0;

Список вычисляемых параметров:

postgres=# select name, context, pg_settings_get_flags(name) from pg_settings where pg_settings_get_flags(name)::text like '%RUNTIME%';

name | context | pg_settings_get_flags

----------------------------------+----------+--------------------------------

data_checksums | internal | {NOT_IN_SAMPLE,RUNTIME_COMPUTED}

data_directory_mode | internal | {NOT_IN_SAMPLE,RUNTIME_COMPUTED}

shared_memory_size | internal | {NOT_IN_SAMPLE,RUNTIME_COMPUTED}

shared_memory_size_in_huge_pages | internal | {NOT_IN_SAMPLE,RUNTIME_COMPUTED}

wal_segment_size | internal | {NOT_IN_SAMPLE,RUNTIME_COMPUTED}

(5 rows)

Список параметров, не сбрасывающихся в исходное значение:

postgres=# select name, context, pg_settings_get_flags(name) from pg_settings where pg_settings_get_flags(name)::text like '%RESET%';

name | context | pg_settings_get_flags

------------------------+---------+---------------------------------------

transaction_deferrable | user | {NO_RESET,NO_RESET_ALL,NOT_IN_SAMPLE}

transaction_isolation | user | {NO_RESET,NO_RESET_ALL,NOT_IN_SAMPLE}

transaction_read_only | user | {NO_RESET,NO_RESET_ALL,NOT_IN_SAMPLE}

(3 rows)

9) Выполните команду, созданную на основе теста на языке plpgsql: https://gist.github.com/lukaseder/2611212b23ba40d5f828c69b79214a0e/

используемого в статье https://blog.jooq.org/whats-faster-count-or-count1/ :

DO $$

DECLARE

v_ts TIMESTAMP;

v_repeat CONSTANT INT := 100;

rec RECORD;

run INT[];

stmt INT[];

elapsed DECIMAL[];

min_elapsed DECIMAL;

i INT := 1;

BEGIN

FOR r IN 1..5 LOOP

v_ts := clock_timestamp();

FOR i IN 1..v_repeat LOOP

FOR rec IN (

select count(*) from t

) LOOP

NULL;

END LOOP;

run[i] := r;

stmt[i] := 1;

elapsed[i] := (EXTRACT(EPOCH FROM CAST(clock_timestamp() AS TIMESTAMP)) - EXTRACT(EPOCH FROM v_ts));

i := i + 1;

v_ts := clock_timestamp();

FOR i IN 1..v_repeat LOOP

FOR rec IN (

select count(1) from t

) LOOP

NULL;

END LOOP;

run[i] := r;

stmt[i] := 2;

elapsed[i] := (EXTRACT(EPOCH FROM CAST(clock_timestamp() AS TIMESTAMP)) - EXTRACT(EPOCH FROM v_ts));

i := i + 1;

v_ts := clock_timestamp();

FOR i IN 1..v_repeat LOOP

FOR rec IN (

select count(pk) from t

) LOOP

NULL;

END LOOP;

run[i] := r;

stmt[i] := 3;

elapsed[i] := (EXTRACT(EPOCH FROM CAST(clock_timestamp() AS TIMESTAMP)) - EXTRACT(EPOCH FROM v_ts));

i := i + 1;

END LOOP;

SELECT min(t.elapsed)

INTO min_elapsed

FROM unnest(elapsed) AS t(elapsed);

FOR i IN 1..array_length(run, 1) LOOP

RAISE INFO 'RUN %, Statement %: %', run[i], stmt[i], CAST(elapsed[i] / min_elapsed AS DECIMAL(10, 5));

END LOOP;

END$$;

INFO: RUN 1, Statement 1: 1.00764

INFO: RUN 1, Statement 2: 1.12819

INFO: RUN 1, Statement 3: 1.38278

INFO: RUN 2, Statement 1: 1.01305

INFO: RUN 2, Statement 2: 1.12725

INFO: RUN 2, Statement 3: 1.37496

INFO: RUN 3, Statement 1: 1.00552

INFO: RUN 3, Statement 2: 1.13360

INFO: RUN 3, Statement 3: 1.38406

INFO: RUN 4, Statement 1: 1.00269

INFO: RUN 4, Statement 2: 1.13924

INFO: RUN 4, Statement 3: 1.38148

INFO: RUN 5, Statement 1: 1.00000

INFO: RUN 5, Statement 2: 1.14320

INFO: RUN 5, Statement 3: 1.41113

Результат соответствует результатам теста pgbench.

Это был пример использования программы на языке plpgsql для тестирования времени выполнения трёх команд. Использование pgbench более просто и даёт больше информации: времени выполнения команд (latency) и стандартного отклонения времени выполнения.

Часть 3. Использование утилиты sysbench

1) Создайте таблицы, которые использует sysbench выполнив команду:

postgres@tantor:~$ sysbench --db-driver=pgsql --pgsql-port=5432 --pgsql-db=postgres --pgsql-user=postgres --pgsql-password=postgres --tables=1 --table_size=100000 /usr/share/sysbench/oltp_read_only.lua prepare

sysbench 1.0.20 (using system LuaJIT 2.1.0-beta3)

Creating table 'sbtest1'...

Inserting 100000 records into 'sbtest1'

Creating a secondary index on 'sbtest1'...

Создана одна таблица sbtest1 со 100тыс. строк.

2) Файлы тестов sysbench пишутся на языке lua. В директории /usr/share/sysbench/ находятся стандартные тесты. Запустите тест только для чтения с названием oltp_read_only.lua:

postgres@tantor:~$ sysbench --db-driver=pgsql --pgsql-port=5432 --pgsql-db=postgres --pgsql-user=postgres --pgsql-password=postgres --threads=10 --time=15 --report-interval=5 /usr/share/sysbench/oltp_read_only.lua run

sysbench 1.0.20 (using system LuaJIT 2.1.0-beta3)

Running the test with following options:

Number of threads: 10

Report intermediate results every 5 second(s)

Initializing random number generator from current time

Initializing worker threads...

Threads started!

[ 5s ] thds: 10 tps: 584.03 qps: 9364.62 (r/w/o: 8194.56/0.00/1170.05) lat (ms,95%): 28.67 err/s: 0.00 reconn/s: 0.00

[ 10s ] thds: 10 tps: 592.77 qps: 9480.12 (r/w/o: 8294.58/0.00/1185.54) lat (ms,95%): 28.16 err/s: 0.00 reconn/s: 0.00

[ 15s ] thds: 10 tps: 477.21 qps: 7632.70 (r/w/o: 6678.48/0.00/954.21) lat (ms,95%): 51.02 err/s: 0.00 reconn/s: 0.00

SQL statistics:

queries performed:

write: 0

other: 16562

total: 132496

transactions: 8281 (550.22 per sec.)

queries: 132496 (8803.46 per sec.)

ignored errors: 0 (0.00 per sec.)

reconnects: 0 (0.00 per sec.)

General statistics:

total time: 15.0492s

total number of events: 8281

Latency (ms):

min: 3.70

avg: 18.12

max: 178.98

95th percentile: 30.81

sum: 150092.73

Threads fairness:

events (avg/stddev): 828.1000/63.26

execution time (avg/stddev): 15.0093/0.01

Число транзакций в секунду 550.22.

Остальные показатели не удобны. Число транзакций 8281 и events: зависят от длительности теста. Другие показатели с трудом поддаются анализу. Например, Latency 95th percentile более точно соответствует реальности, чем avg, который вряд ли имеет смысл, так как измерения сильно отклоняющиеся от среднего (178.98) стоило исключить из расчёта. Задержки могут быть связаны с планировщиком или активностью операционной системы. В примере использовалось 10 потоков, в виртуальной машине меньше ядер и задержки связаны с планировщиком операционной системы. Измерения, выполненные сразу после запуска утилиты, авторам утилиты стоило исключать из подсчета.

Часть 4. Использование HammerDB

1) Запустите терминал под пользователем astra и установите HammerDB:

astra@tantor:~$ wget https://github.com/TPC-Council/HammerDB/releases/download/v4.12/HammerDB-4.12-Linux-x64-installer.run

- ‘HammerDB-4.12-Linux-x64-installer.run’ saved [12665959/12665959]

astra@tantor:~$ chmod +x HammerDB-4.12-Linux-x64-installer.run

astra@tantor:~$ ./HammerDB-4.12-Linux-x64-installer.run

Установите в директорию по умолчанию /home/astra/HammerDB-4.12

После инсталляции утилита запустится. Утилиту можно запустить повторно командой:

astra@tantor:~$ cd /home/astra/HammerDB-4.12

astra@tantor:~/HammerDB-4.12$ ./hammerdb &

2) После запуска утилиты в её окне кликните на PostgreSQL. В появившемся окне "Benchmark Options" оставьте значения PostgreSQL и TPROC-C. Нажмите в окне кнопку OK. В окне подтверждения также нажмите кнопку OK.

3) Раскрыв меню PostgreSQL->TPROC-C->Schema и кликнув на Options перейдите в закладку Settings и установите Number of warehouses (число складов) = 2. По умолчанию установлено значение 1. Для 10 складов потребуется 1Гб. Установите число Virtual Users to build schema в двойное число ядер процессоров минус один, например 7 при числе ядер 4. Нажмите OK, настройка сохранится. При реальном тестировании потребуется значительно большее число складов. Однако, небольшое число складов позволит симулировать конкуренцию за блокировки между сессиями.

4) Кликните в меню PostgreSQL->TPROC-C->Schema на Build. Появится окно с предупреждением, что будет создана база данных tpcc и в ней таблицы с данными для теста TPC-C.

Время на создание несколько минут. Можно посмотреть нагрузку на процессора пока идёт создание таблиц командой top. Чтобы показывалась нагрузка по ядрам нужно нажать 1. Для выхода из утилиты top нужно нажать клавишу q.

astra@tantor:~/HammerDB-4.12$ top

В окне утилиты top видно, что нагрузка на четыре ядра близка к 100%. Пропорция USR/SYS: %Cpu0 89.9us + 7.7 sy.

На то, что таблицы созданы укажет сообщение TPCC SCHEMA COMPLETE в окне Virtual User 1.

5) Нажмите на красный квадрат на toolbar утилиты. Выберите в меню PostgreSQL->TPROC-C-> Driver Script -> Options. В открывшемся окне перейдите в закладку Settings и укажите Minutes of Rampup Time 0. Это время "разогрева", то есть постепенного увеличения нагрузки на СУБД. Мы установили небольшое число клиентов, которые не нагрузят СУБД и задержка не нужна. Minutes of Test Duration 5, это длительность теста, если тест не будет остановлен раньше.

Hammer6.pg.jpg

6) В окне PostgreSQL->TPROC-C-> Virtual User -> Options установите User Delay(ms)=0, Repeat Delay(ms)=0. При реальном тестировании рекомендуют устанавливать число пользователей в 10 раз меньше, чем число складов.

7) Перед запуском теста для наблюдения за tpm нужно запустить Transaction Counter. Для этого кликните в меню на PostgreSQL->TPROC-C-> Transactions -> Counter. Запустится счетчик транзакций.

7) Кликните на PostgreSQL->TPROC-C-> Virtual User -> Create и затем на PostgreSQL->TPROC-C-> Virtual User -> Run

Кликните на закладку Transaction Counter. Появится окно с метрикой теста, называющейся tpm.

В примере tpm=113604. График метрики tpm колеблется, это не неточности, а следствие динамической нагрузки, соответствующей правилам теста. Уменьшение tpm на десятки процентов возникает из-за удержания горизонта базы данных автоанализом. Через несколько минут после запуска теста tpm может снизиться на треть. Это происходит из-за запуска автоанализа по таблице order_line и продолжающегося до двух минут. На снижение tpm также влияет выполнение контрольной точки.

Это пример, когда периодический сбор статистики не то, что бесполезен, а вреден. Если данные статистики после пересборов не меняются, статистику бессмысленно "актуализировать".

postgres=# \c tpcc

You are now connected to database "tpcc" as user "postgres".

tpcc=# select extract(epoch from (clock_timestamp()-xact_start)) secs, pid, datname database, state, query from pg_stat_activity where backend_xmin IS NOT NULL OR backend_xid IS NOT NULL order by greatest(age(backend_xmin), age(backend_xid)) desc limit 1 \gx

-[ RECORD 1 ]------------------------------------------

secs | 118.896428

pid | 296618

database | tpcc

state | active

query | autovacuum: VACUUM ANALYZE public.order_line

В отсутствие нагрузки анализ таблицы длится (на СУБД с параметрами конфигурации по умолчанию) 27 секунд:

tpcc=# VACUUM (ANALYZE, verbose) public.order_line;

INFO: vacuuming "tpcc.public.order_line"

INFO: finished vacuuming "tpcc.public.order_line": index scans: 1

pages: 0 removed, 186118 remain, 166506 scanned (89.46% of total)

tuples: 446332 removed, 15377120 remain, 0 are dead but not yet removable, oldest xmin: 10827114

removable cutoff: 10827114, which was 0 XIDs old when operation ended

frozen: 79603 pages from table (42.77% of total) had 1825159 tuples frozen

index scan needed: 51544 pages from table (27.69% of total) had 597993 dead item identifiers removed

index "order_line_i1": pages: 81640 in total, 0 newly deleted, 0 currently deleted, 0 reusable

avg read rate: 83.907 MB/s, avg write rate: 48.399 MB/s

buffer usage: 170193 hits, 296131 misses, 170812 dirtied

WAL usage: 384641 records, 164101 full page images, 1262224255 bytes

system usage: CPU: user: 6.17 s, system: 4.05 s, elapsed: 27.57 s

INFO: analyzing "public.order_line"

INFO: "order_line": scanned 30000 of 186118 pages, containing 2492677 live rows and 0 dead rows; 30000 rows in sample, 15464402 estimated total rows

VACUUM

tpm снизился от 101000 до 63588 из-за того, что автоанализ удерживал горизонт базы данных.

8) Ждать остановки теста по времени не нужно. Остановите тест, нажав на левый красный квадрат (Destroy Virtual users) на toolbar. На правый красный квадрат (Stop Transaction Counter) нажимать не нужно, иначе остановится счётчик транзакций. В окне PostgreSQL->TPROC-C-> Virtual User -> Options установите User Delay(ms)=500, Repeat Delay(ms)=500. Эти параметры не сильно влияют на tpm, они влияют на колебания графика tpm. На tpm влияет число клиентов (сессий с СУБД), называемых Virtual Users.

Меняя параметры в Virtual User -> Options, нажав на Virtual User -> Run и перейдя в закладку Transaction Counter можно наблюдать как изменится tpm. Максимальный tpm достигается при числе клиентов равному числу ядер процессоров.

9) После завершения тестирования закройте окно HammerDB и удалите базу данных tpcc, которая после недолгого тестирования разрастётся в несколько раз. В таблицы тест выставляет строки и они увеличиваются.

По завершении теста в окне Virtual User 1 будет показан результат теста:

В примере результат tpms (PostgreSQL TPM)=72606 и NOPM (New Orders per minute)=31648.

Со временем tpcm при повторных тестах будут уменьшаться. Из-за этого тест не подходит для использования при проверке того как повлияют изменения конфигурации кластера на производительность, так как tpm не только не стабилен, но и уменьшается со временем. Для стабильности результата придется удалять базу данных tpcc и создавать заново. Тест может использоваться для долговременного однократного тестирования в целях сравнения с другими СУБД того же или другого типа. При тестировании все параметры должны быть одинаковы, особенно размер базы данных (число складов), длительность теста, число клиентов.

Тест TPC-С удобен тем, что при его выполнении можно проводить анализ работы экземпляра доступными инструментами (расширениями, обращаясь к представлениям со статистиками) и выявляя наиболее эффективные инструменты и метрики. Это следствие более сложных команд, чем у простых нагрузочных тестов pgbench TPC-B.

Графическое приложение HammerDB удобно для таких целей.

postgres=# \c tpcc

You are now connected to database "tpcc" as user "postgres".

tpcc=# select pg_size_pretty(pg_database_size('tpcc'));

pg_size_pretty

----------------

2682 MB

(1 row)

После создания таблиц база данных занимала 1Гб.

tpcc=# vacuum full;

VACUUM

tpcc=# select pg_size_pretty(pg_database_size('tpcc'));

pg_size_pretty

----------------

2331 MB

(1 row)

postgres=# drop database tpcc;

DROP DATABASE

postgres=#

Часть 5. Использование приложения Go-TPC

1) Установите go-tpc:

postgres@tantor:~$ mkdir gotpc

mkdir: cannot create directory ‘gotpc’: File exists

postgres@tantor:~$ cd gotpc

postgres@tantor:~/gotpc$ wget https://raw.githubusercontent.com/pingcap/go-tpc/master/install.sh

- ‘install.sh’ saved [2020/2020]

postgres@tantor:~/gotpc$ chmod +x install.sh

postgres@tantor:~/gotpc$ ./install.sh

% Total % Received % Xferd Average Speed Time Time Time Current

Dload Upload Total Spent Left Speed

0 0 0 0 0 0 0 0 --:--:-- --:--:-- --:--:-- 0

100 4984k 100 4984k 0 0 4370k 0 0:00:01 0:00:01 --:--:-- 23.2M

Detected shell: bash

Shell profile: /var/lib/postgresql/.bash_profile

/var/lib/postgresql/.bash_profile has been modified to to add go-tpc to PATH

open a new terminal or source /var/lib/postgresql/.bash_profile to use it

Installed path: /var/lib/postgresql/.go-tpc/bin/go-tpc

===============================================

Have a try: go-tpc tpcc

===============================================

postgres@tantor:~/gotpc$

2) Перейдите в директорию утилиты и запустите утилиту с опцией tpcc prepare, которая создаст базу данных gotpcc и создаст в этой базе данных объекты для теста типа TPC-C:

postgres@tantor:~/gotpc$ cd $HOME/.go-tpc/bin

postgres@tantor:~/.go-tpc/bin$ ./go-tpc tpcc prepare -d postgres -U postgres -p 'postgres' -D gotpcc -H 127.0.0.1 -P 5432 --conn-params sslmode=disable

maxprocs: Leaving GOMAXPROCS=4: CPU quota undefined

creating table warehouse

creating table district

creating table customer

creating index idx_customer

creating table history

creating index idx_h_w_id

creating index idx_h_c_w_id

creating table new_order

creating table orders

creating index idx_order

creating table order_line

creating table stock

creating table item

load to item

load to warehouse in warehouse 1

load to stock in warehouse 1

load to district in warehouse 1

load to warehouse in warehouse 2

load to stock in warehouse 2

load to district in warehouse 2

load to warehouse in warehouse 3

load to stock in warehouse 3

load to district in warehouse 3

load to warehouse in warehouse 4

load to stock in warehouse 4

load to district in warehouse 4

load to warehouse in warehouse 5

load to stock in warehouse 5

load to district in warehouse 5

load to warehouse in warehouse 6

load to stock in warehouse 6

load to district in warehouse 6

load to warehouse in warehouse 7

load to stock in warehouse 7

load to district in warehouse 7

load to warehouse in warehouse 8

load to stock in warehouse 8

load to district in warehouse 8

load to warehouse in warehouse 9

load to stock in warehouse 9

load to district in warehouse 9

load to warehouse in warehouse 10

load to stock in warehouse 10

load to district in warehouse 10

load to customer in warehouse 1 district 1

load to history in warehouse 1 district 1

Для каждого типа теста этой утилиты лучше создавать таблицы в отдельной базе данных, так как у части таблиц названия пересекаются. В драйвере утилиты нет локальных подсоединений, подсоединение должно быть через сетевой интерфейс, поэтому указываются все параметры соединения.

По умолчанию утилита создаёт 10 warehouses. Они создаются в течение 4 минут. Число складов можно поменять, указав параметр --warehouses 4.

3) Примерно через 3-4 минуты вы увидите в логе утилиты строки "begin to check warehouse 1 at condition 3.3.2.4". Утилита начала проверять данные после загрузки. Проверка идёт долго и не имеет смысла. Она нужна для тех СУБД, которые теряют данные, PostgreSQL не теряет данные. Нажмите на клавиатуре <ctrl+c>, чтобы прервать проверку:

load to new_order in warehouse 10 district 10

load to order_line in warehouse 10 district 10

begin to check warehouse 1 at condition 3.3.2.4

begin to check warehouse 1 at condition 3.3.2.5

begin to check warehouse 1 at condition 3.3.2.6

begin to check warehouse 1 at condition 3.3.2.7

begin to check warehouse 1 at condition 3.3.2.8

begin to check warehouse 1 at condition 3.3.2.9

begin to check warehouse 1 at condition 3.3.2.10

Got signal [interrupt] to exit.

check prepare failed, err check warehouse 1 at condition 3.3.2.10 failed exec SELECT count(*)

FROM ( SELECT c.c_id, c.c_d_id, c.c_w_id, c.c_balance c1,

(SELECT sum(ol_amount) FROM orders, order_line

WHERE OL_W_ID=O_W_ID

AND OL_D_ID = O_D_ID

AND OL_O_ID = O_ID

AND OL_DELIVERY_D IS NOT NULL

AND O_W_ID=?

AND O_D_ID=c.C_D_ID

AND O_C_ID=c.C_ID) sm, (SELECT sum(h_amount) from history

WHERE H_C_W_ID=?

AND H_C_D_ID=c.C_D_ID

AND H_C_ID=c.C_ID) smh

FROM customer c

WHERE c.c_w_id = ? ) t

WHERE c1<>sm-smh failed pq: canceling statement due to user request

Finished

Размер базы данных, которую создала утилита 1Гб:

postgres=# select pg_size_pretty(pg_database_size('gotpcc'));

pg_size_pretty

----------------

1028 MB

(1 row)

4) Запустите тест tpcc:

postgres@tantor:~/.go-tpc/bin$ ./go-tpc tpcc run -d postgres -U postgres -p 'postgres' -D gotpcc -H 127.0.0.1 -P 5432 --conn-params sslmode=disable
maxprocs: Leaving GOMAXPROCS=4: CPU quota undefined
[Current] DELIVERY - Takes(s): 9.9, Count: 61, TPM: 369.4, Sum(ms): 879.3, Avg(ms): 14.4, 50th(ms): 14.2, 90th(ms): 16.8, 95th(ms): 17.8, 99th(ms): 21.0,
99.9th(ms): 27.3, Max(ms): 27.3
[Current] NEW_ORDER - Takes(s): 9.9, Count: 714, TPM: 4310.5, Sum(ms): 5931.1, Avg(ms): 8.3, 50th(ms): 8.4, 90th(ms): 11.0, 95th(ms): 12.6, 99th(ms): 17.8
, 99.9th(ms): 26.2, Max(ms): 29.4
[Current] ORDER_STATUS - Takes(s): 9.9, Count: 61, TPM: 369.7, Sum(ms): 104.9, Avg(ms): 1.7, 50th(ms): 2.1, 90th(ms): 2.1, 95th(ms): 2.6, 99th(ms): 3.1, 9
9.9th(ms): 5.2, Max(ms): 5.2
[Current] PAYMENT - Takes(s): 10.0, Count: 697, TPM: 4197.6, Sum(ms): 2448.8, Avg(ms): 3.5, 50th(ms): 3.7, 90th(ms): 4.2, 95th(ms): 4.7, 99th(ms): 7.9, 99
.9th(ms): 8.4, Max(ms): 13.1
[Current] STOCK_LEVEL - Takes(s): 9.9, Count: 65, TPM: 395.9, Sum(ms): 277.1, Avg(ms): 4.3, 50th(ms): 3.7, 90th(ms): 4.7, 95th(ms): 5.8, 99th(ms): 24.1, 9
9.9th(ms): 41.9, Max(ms): 41.9

На консоль будет выводиться текущая статистика TPM.

5) Примерно через минуту нажмите на клавиатуре <ctrl+c>, чтобы прервать тест. Утилита выдаст статистику с результатом tpmC:

Got signal [interrupt] to exit.

Finished

[Summary] DELIVERY - Takes(s): 182.8, Count: 1329, TPM: 436.3, Sum(ms): 17163.3, Avg(ms): 12.9, 50th(ms): 12.6, 90th(ms): 14.7, 95th(ms): 16.8, 99th(ms): 22.0, 99.9th(ms): 29.4, Max(ms): 30.4

[Summary] NEW_ORDER - Takes(s): 182.8, Count: 14194, TPM: 4659.0, Sum(ms): 106451.6, Avg(ms): 7.5, 50th(ms): 7.3, 90th(ms): 9.4, 95th(ms): 10.5, 99th(ms): 15.7, 99.9th(ms): 22.0, Max(ms): 41.9

[Summary] ORDER_STATUS - Takes(s): 182.8, Count: 1288, TPM: 422.9, Sum(ms): 2306.0, Avg(ms): 1.8, 50th(ms): 2.1, 90th(ms): 2.6, 95th(ms): 2.6, 99th(ms): 4.2, 99.9th(ms): 8.9, Max(ms): 10.0

[Summary] PAYMENT - Takes(s): 182.8, Count: 13431, TPM: 4407.9, Sum(ms): 46553.2, Avg(ms): 3.5, 50th(ms): 3.7, 90th(ms): 4.2, 95th(ms): 4.7, 99th(ms): 7.9, 99.9th(ms): 14.2, Max(ms): 19.9

[Summary] STOCK_LEVEL - Takes(s): 182.7, Count: 1262, TPM: 414.4, Sum(ms): 3707.7, Avg(ms): 2.9, 50th(ms): 3.1, 90th(ms): 3.7, 95th(ms): 4.2, 99th(ms): 8.9, 99.9th(ms): 24.1, Max(ms): 41.9

tpmC: 4659.0, tpmTotal: 10340.5, efficiency: 3622.8%

6) Удалите базу данных, созданную утилитой:

postgres@tantor:~/.go-tpc/bin$ psql -с "drop database gotpcc;"

DROP DATABASE

7) В отличие от HammerDB утилита go-tpc работает не на полной скорости, а выполняет правила теста TPC-C, работая с задержками и постепенно увеличивая нагрузку. В утилите есть ещё два теста: TPC-H и собственный тест утилиты tpc-ch (CH-benCHmark смешанная нагрузка из тестов TPC-C и TPC-H). Тест подходит для СУБД, которые используются в общих целях со смешанной нагрузкой. PostgreSQL редко используется со смешанной нагрузкой, так как для долгих(аналитических) запросов используют физические реплики.

Тест TPC-H для хранилищ данных и состоит только из читающих команд. Результат теста TPC-H более стабилен, позволяет проводить сравнение. Недостаток в том, что размер баз для официальных тестов довольно большой.

Создание базы данных занимает примерно 10 минут. Размер базы данных 1660Мб.

Выполнять следующие пункты этой практики не обязательно. Команды и их результаты приведены для ознакомления. Вы можете использовать эти команды как справочник или если хотите закрепить навыки использования утилиты.

postgres@tantor:~/.go-tpc/bin$ ./go-tpc tpch prepare -d postgres -U postgres -p 'postgres' -D gotpch -H 127.0.0.1 -P 5432 --conn-params sslmode=disable

maxprocs: Leaving GOMAXPROCS=4: CPU quota undefined

creating nation

creating region

creating part

creating supplier

creating partsupp

creating customer

creating orders

creating lineitem

generating nation table

generate nation table done

generating region table

generate region table done

generating customers table

generate customers table done

generating suppliers table

generate suppliers table done

generating part/partsupplier tables

generate part/partsupplier tables done

generating orders/lineitem tables

generate orders/lineitem tables done

Finished

Запуск теста TPC-H:

postgres@tantor:~/.go-tpc/bin$ ./go-tpc tpch run -d postgres -U postgres -p 'postgres' -D gotpch -H 127.0.0.1 -P 5432 --conn-params sslmode=disable

maxprocs: Leaving GOMAXPROCS=4: CPU quota undefined

[Current] Q1: 6.21s

[Current] Q2: 0.91s

[Current] Q3: 1.31s

[Current] Q4: 0.44s

[Current] Q5: 0.44s

[Current] Q10: 1.24s

[Current] Q11: 0.30s

[Current] Q12: 1.17s

[Current] Q13: 1.04s

[Current] Q14: 1.17s

[Current] Q6: 0.77s

[Current] Q7: 0.64s

[Current] Q8: 0.97s

[Current] Q9: 3.05s

[Current] Q15: 0.84s

[Current] Q16: 0.57s

[Current] Q17: 1199.91s

[Current] Q18: 5.27s

[Current] Q19: 1.04s

Запрос Q17 в тесте долгий, он выполняется 3 часа(11999.91s). Утилита показывает максимальное значение 1199.91s для длинных запросов, в утилите программная ошибка.

Пример мониторинга запроса Q17:

postgres=# select extract(epoch from (clock_timestamp()-xact_start)) secs, pid, datname database, state, query from pg_stat_activity where backend_xmin IS NOT NULL OR backend_xid IS NOT NULL order by greatest(age(backend_xmin), age(backend_xid)) desc limit 1 \gx

-[ RECORD 1 ]----------------------------------------------

secs | 6434.701066

pid | 316066

database | gotpch

state | active

query | +

| /*PLACEHOLDER*/ select +

| sum(l_extendedprice) / 7.0 as avg_yearly+

| from +

| lineitem, +

| part +

| where +

| p_partkey = l_partkey +

| and p_brand = 'Brand#43' +

| and p_container = 'LG PACK' +

| and l_quantity < ( +

| select +

| 0.2 * avg(l_quantity) +

| from +

| lineitem +

| where +

| l_partkey = p_partkey +

| ); +

В запросе есть коррелированный подзапрос. Коррелированные подзапросы тяжелы для всех СУБД. Например, на специализированной под OLAP СУБД clickhouse запросы теста TPC-H Q17 и Q20 не работают "As of October 2024, the query does not work out-of-the box due to correlated subqueries. Corresponding issue: https://github.com/ClickHouse/ClickHouse/issues/6697" (https://clickhouse.com/docs/en/getting-started/example-datasets/tpch).

Запрос Q20 работает на PostgreSQL с параметрами по умолчанию 7,6 часов, запрос Q17 работет около 4 часов. Долгие запросы интересны для оптимизации выполнения запросов: выяснения причин долгого выполнения. К оптимизации запросов стоит переходить после настройки работы экземпляра PostgreSQL. План выполнения этого запроса:

postgres=# \c gotpch

You are now connected to database "gotpch" as user "postgres".

gotpch=# explain select sum(l_extendedprice) / 7.0 as avg_yearly from lineitem, part where p_partkey = l_partkey and p_brand = 'Brand#43' and p_container = 'LG PACK' and l_quantity < ( select 0.2 * avg(l_quantity) from lineitem where l_partkey = p_partkey);

QUERY PLAN

-------------------------------------------------------------------------------------

Aggregate (cost=2204613.84..2204613.86 rows=1 width=32)

-> Hash Join (cost=6625.16..2204608.92 rows=1970 width=8)

Hash Cond: (lineitem.l_partkey = part.p_partkey)

Join Filter: (lineitem.l_quantity < (SubPlan 1))

-> Seq Scan on lineitem (cost=0.00..184745.33 rows=6001233 width=21)

-> Hash (cost=6622.70..6622.70 rows=197 width=8)

-> Gather (cost=1000.00..6622.70 rows=197 width=8)

Workers Planned: 2

-> Parallel Seq Scan on part (cost=0.00..5603.00 rows=82 width=8)

Filter:((p_brand = 'Brand#43'::bpchar) AND (p_container = 'LG PACK'::bpchar))

SubPlan 1

-> Aggregate (cost=199748.49..199748.51 rows=1 width=32)

-> Seq Scan on lineitem lineitem_1 (cost=0.00..199748.41 rows=31 width=5)

Filter: (l_partkey = part.p_partkey)

JIT:

Functions: 24

Options: Inlining true, Optimization true, Expressions true, Deforming true

(17 rows)

В таблицах 6млн. и 200т. строк, что не так много:

gotpch=# select count(*) from lineitem;

count

---------

6001215

(1 row)

gotpch=# select count(*) from part;

count

--------

200000

(1 row)

Долгий запрос нужно прервать, набрав на клавиатуре <ctrl+c> и затем удалить базу данных gotpch:

postgres@tantor:~/.go-tpc/bin$ psql -с "drop database gotpch;"

В составе приложения go-tpc есть три теста. Для создания базы данных для третьего теста (смешанного) используются параметр "ch", вместо "tpcc" и "tpch":

go-tpc ch prepare -d postgres -U postgres -p 'postgres' -D gotpcch -H 127.0.0.1 -P 5432 --conn-params sslmode=disable

Практика к главе 2

Часть 1. Запуск экземпляра с огромными страницами

1) Найдите список экземпляров PostgreSQL:

postgres@tantor:~$ ps -ef | grep /postgres

postgres 1423 1 0 Nov27 ? 00:00:06 /opt/tantor/db/16/bin/postgres -D /var/lib/postgresql/tantor-se-16/data

postgres 1432 1 0 Nov27 ? 00:00:03 /usr/lib/postgresql/15/bin/postgres -D /var/lib/postgresql/15/main -c config_file=/etc/postgresql/15/main/postgresql.conf

В примере два экземпляра: СУБД Тантор и PostgreSQL Astralinux.

2) Посмотрите, сколько памяти использует экземпляр PostgreSQL и какой размер у огромных страниц:

postgres@tantor:~$ cat /proc/1432/status | grep VmPeak

VmPeak: 222268 kB

postgres@tantor:~$ cat /proc/meminfo | grep Huge

AnonHugePages: 2048 kB

ShmemHugePages: 0 kB

FileHugePages: 0 kB

HugePages_Total: 0

HugePages_Free: 0

HugePages_Rsvd: 0

HugePages_Surp: 0

Hugepagesize: 2048 kB

Hugetlb: 0 kB

Максимальное потребление памяти экземпляром: 222268 kB / 2048 kB=109 страниц по 2Мб (2048). Огромные страницы могут использоваться разделяемым пулом (параметр shared_buffers) и параллельными процессами (параметр min_dynamic_shared_memory). Форки могут использовать и под другие структуры памяти. Пиковое потребление памяти на загруженном экземпляре показывает использование памяти всеми структурами.

Значение в строке AnonHugePages: отличное от нуля укажет на то, что какой-то процесс явно запросил использование THP системным вызовом madvise(). PostgreSQL не использует такой системный вызов.

Выполните команду free:

postgres@tantor:~$ free

total used free shared buff/cache available

Mem: 4020796 1137792 764984 158692 2556828 2883004

Swap: 0 0 0

3) Остановите экземпляр и проверьте сколько огромных страниц он может максимально выделить в соответсвии с его параметрами конфигурации:

postgres@tantor:~$ sudo systemctl stop postgresql

postgres@tantor:~$ /usr/lib/postgresql/15/bin/postgres -c config_file=/etc/postgresql/15/main/postgresql.conf -D /var/lib/postgresql/15/main -C shared_memory_size_in_huge_pages

4) Выделите память под 100 страниц и проверьте, что они выделены:

postgres@tantor:~$ sudo sysctl -w vm.nr_hugepages=100

vm.nr_hugepages = 100

postgres@tantor:~$ cat /proc/meminfo | grep Huge

AnonHugePages: 0 kB

ShmemHugePages: 0 kB

FileHugePages: 0 kB

HugePages_Total: 100

HugePages_Free: 27

HugePages_Rsvd: 1

HugePages_Surp: 0

Hugepagesize: 2048 kB

Hugetlb: 204800 kB

Значение HugePages_Free: = 27 указывает, что свободных страниц недостаточно под разделяемый пул размера 128Мб. Если у вас страниц больше 70, то такого количества достаточно. Если их меньше 80, то выделите память под 300 страниц и проверьте что свободных страниц больше 80:

postgres@tantor:~$ sudo sysctl -w vm.nr_hugepages=300

vm.nr_hugepages = 300

postgres@tantor:~$ cat /proc/meminfo | grep Huge

AnonHugePages: 0 kB

ShmemHugePages: 0 kB

FileHugePages: 0 kB

HugePages_Total: 218

HugePages_Free: 145

HugePages_Rsvd: 1

HugePages_Surp: 0

Hugepagesize: 2048 kB

Hugetlb: 446464 kB

5) Выполните команду free:

postgres@tantor:~$ free

total used free shared buff/cache available

Mem: 4020796 1331220 571396 158696 2556992 2689576

Swap: 0 0 0

В выводе команды free показатели: used увеличился на 193428 байт, free уменьшился на 193 588 байт, available уменьшился на 193 428 байт.

6) Перезапустите службу postgresql:

postgres@tantor:~$ sudo systemctl restart postgresql

postgres@tantor:~$ cat /proc/meminfo | grep Huge

AnonHugePages: 0 kB

ShmemHugePages: 0 kB

FileHugePages: 0 kB

HugePages_Total: 218

HugePages_Free: 126

HugePages_Rsvd: 73

HugePages_Surp: 0

Hugepagesize: 2048 kB

Hugetlb: 446464 kB

7) Получите список процессов, которые используют огромные страницы размером 2Мб:

postgres@tantor:~$ sudo grep "KernelPageSize: 2048 kB" /proc/[[:digit:]]*/smaps | awk {'print $1'} | cut -d "/" -f3 | sort | uniq

112647

112649

112650

112652

112653

112654

8) Сравните с номерами (PID) процессов экземпляра Astralinux PostgresSQL:

postgres@tantor:~$ ps -ef | grep 15/

postgres 112647 1 0 17:55 ? 00:00:00 /usr/lib/postgresql/15/bin/postgres -D /var/lib/postgresql/15/main -c config_file=/etc/postgresql/15/main/postgresql.conf

postgres 112648 112647 0 17:55 ? 00:00:00 postgres: 15/main: logger

postgres 112649 112647 0 17:55 ? 00:00:00 postgres: 15/main: checkpointer

postgres 112650 112647 0 17:55 ? 00:00:00 postgres: 15/main: background writer

postgres 112652 112647 0 17:55 ? 00:00:00 postgres: 15/main: walwriter

postgres 112653 112647 0 17:55 ? 00:00:00 postgres: 15/main: autovacuum launcher

postgres 112654 112647 0 17:55 ? 00:00:00 postgres: 15/main: logical replication launcher

Номера процессов совпадают. Экземпляр использует огромные страницы.

На то, что экземпляр стал использовать огромные страницы также укажет увеличение значения HugePages_Rsvd или уменьшение HugePages_Free. Из-за неудобства проверки по этим метрикам операционной системы то ли страницы зарезервированы экземпляром, то ли уже используются и экземпляром ли или другими процессами операционной системы, в 17 версии PostgreSQL добавили параметр huge_pages_status, который показывает, используются ли огромные страницы экземпляром или не используются.

Если хочется быть уверенным что экземпляр использует огромные страницы, можно установить значение параметра huge_pages=on. При таком значении параметра экземпляр не запустится, если не выделит огромные страницы.

Огромные страницы под использование параллельными процессами резервируются только при запуске экземпляра и только параметром min_dynamic_shared_memory. Если огромные страницы не зарезервированы или их будет недостаточно, то параллельные процессы станут выделять и использовать обычные страницы.

9) Посмотрите размер и тип огромных страниц, которые использует процесс postgres:

postgres@tantor:~$ cat /proc/112647/smaps_rollup | grep tlb

Shared_Hugetlb: 12288 kB

Private_Hugetlb: 0 kB

Процесс postgres использует разделяемые огромные страницы.

Часть 2. Изменение значения oom_score

1) Выполните команду:

postgres@tantor:~$ for PID in $(pgrep "postgres"); do awk '/Pss/ {PSS+=$2} END { getline cmd < "/proc/'$PID'/cmdline"; sub("\0", " ", cmd); getline oom < "/proc/'$PID'/oom_score"; printf "%.0f -%s-> %s (PID %s) \n", PSS, oom, cmd, '$PID'}' /proc/$PID/smaps; done|sort -n -r

28579 -0-> /opt/tantor/db/16/bin/postgres -D/var/lib/postgresql/tantor-se-16/data (PID 112360)

5629 -668-> postgres: walwriter (PID 112364)

5166 -70-> /usr/lib/postgresql/15/bin/postgres -D/var/lib/postgresql/15/main-cconfig_file=/etc/postgresql/15/main/postgresql.conf (PID 112647)

3207 -668-> postgres: autovacuum launcher (PID 112365)

2945 -668-> postgres: 15/main: autovacuum launcher (PID 112653)

2933 -668-> postgres: autoprewarm leader (PID 112366)

2685 -668-> postgres: 15/main: logical replication launcher (PID 112654)

2644 -668-> postgres: checkpointer (PID 112361)

2618 -668-> postgres: logical replication launcher (PID 112368)

2366 -668-> postgres: pg_wait_sampling collector (PID 112367)

2157 -668-> postgres: background writer (PID 112362)

1497 -667-> postgres: 15/main: logger (PID 112648)

1479 -667-> postgres: 15/main: checkpointer (PID 112649)

1468 -667-> postgres: 15/main: walwriter (PID 112652)

1438 -667-> postgres: 15/main: background writer (PID 112650)

Команда показывает значение oom_score процессов экземпляров PostgreSQL.

У основного процесса экземпляра СУБД Тантор oom_score=0. У экземпляра Astralinux PostgreSQL oom_score=70.

Уменьшение oom_score было выполнено путем редактирования файла службы. Посмотрите содержимое файла:

postgres@tantor:~$ cat /usr/lib/systemd/system/tantor-se-server-16.service

[Unit]

Description=Tantor Special Edition database server 16

Documentation=https://www.postgresql.org/docs/16/static/

After=syslog.target

After=network.target

[Service]

Type=forking

User=postgres

Group=postgres

LimitNOFILE=infinity

LimitNOFILESoft=infinity

# Where to send early-startup messages from the server (before the logging options of postgresql.conf take effect)

# This is normally controlled by the global default set by systemd

# StandardOutput=syslog

# Disable OOM kill on the postmaster

OOMScoreAdjust=-1000

# ... but allow it still to be effective for child processes

# (note that these settings are ignored by Postgres releases before 9.5)

Environment=PG_OOM_ADJUST_FILE=/proc/self/oom_score_adj

Environment=PG_OOM_ADJUST_VALUE=0

# Maximum number of seconds pg_ctl will wait for postgres to start. Note that PGSTARTTIMEOUT should be less than

# TimeoutSec value.

Environment=PGSTARTTIMEOUT=270

Environment=PGDATA=/var/lib/postgresql/tantor-se-16/data

ExecStartPre=/opt/tantor/db/16/bin/postgresql-check-db-dir ${PGDATA}

ExecStart=/opt/tantor/db/16/bin/pg_ctl start -D ${PGDATA} -s -w -t ${PGSTARTTIMEOUT}

ExecStop=/opt/tantor/db/16/bin/pg_ctl stop -D ${PGDATA} -s -m fast

ExecReload=/opt/tantor/db/16/bin/pg_ctl reload -D ${PGDATA} -s

# Give a reasonable amount of time for the server to start up/shut down. Ideally, the timeout for starting

# PostgreSQL server should be handled more nicely by pg_ctl in ExecStart, so keep its timeout smaller than this

# value.

TimeoutSec=300

[Install]

WantedBy=multi-user.target

В файле написано, что OOM kill запрещается для процесса postmaster, но работает для остальных процессов экземпляра. Если нужно уменьшить значение oom_score, то можно изменить в этом файле значение параметра PG_OOM_ADJUST_VALUE.

3) Пункт опционален, его можно не выполнять. Понизьте oom_score на 200. Для этого отредактируйте файл службы и установите значение PG_OOM_ADJUST_VALUE=-300:

postgres@tantor:~$ su -

Password: root

root@tantor:~# cd /usr/lib/systemd/system/

root@tantor:~# mcedit tantor-se-server-16.service

отредактируйте и затем сохраните файл клавишей F2 ENTER закройте редактор клавишей F10

root@tantor:/usr/lib/systemd/system# cat tantor-se-server-16.service | grep OOM

# Disable OOM kill on the postmaster

OOMScoreAdjust=-1000

Environment=PG_OOM_ADJUST_FILE=/proc/self/oom_score_adj

Environment=PG_OOM_ADJUST_VALUE=-300

root@tantor:/usr/lib/systemd/system# systemctl daemon-reload

root@tantor:/usr/lib/systemd/system# restart

root@tantor:/usr/lib/systemd/system# for PID in $(pgrep "postgres"); do awk '/Pss/ {PSS+=$2} END { getline cmd < "/proc/'$PID'/cmdline"; sub("\0", " ", cmd); getline oom < "/proc/'$PID'/oom_score"; printf "%.0f -%s-> %s (PID %s) \n", PSS, oom, cmd, '$PID'}' /proc/$PID/smaps; done|sort -n -r

33392 -0-> /opt/tantor/db/16/bin/postgres -D/var/lib/postgresql/tantor-se-16/data (PID 119419)

4993 -70-> /usr/lib/postgresql/15/bin/postgres -D/var/lib/postgresql/15/main-cconfig_file=/etc/postgresql/15/main/postgresql.conf (PID 112647)

3232 -468-> postgres: autovacuum launcher (PID 119424)

2865 -668-> postgres: 15/main: autovacuum launcher (PID 112653)

2770 -468-> postgres: logical replication launcher (PID 119427)

2648 -668-> postgres: 15/main: logical replication launcher (PID 112654)

2533 -468-> postgres: background writer (PID 119421)

2523 -468-> postgres: pg_wait_sampling collector (PID 119426)

2019 -667-> postgres: 15/main: checkpointer (PID 112649)

1777 -468-> postgres: autoprewarm leader (PID 119425)

1562 -468-> postgres: checkpointer (PID 119420)

1517 -667-> postgres: 15/main: walwriter (PID 112652)

1480 -667-> postgres: 15/main: background writer (PID 112650)

1475 -667-> postgres: 15/main: logger (PID 112648)

1463 -468-> postgres: walwriter (PID 119423)

У всех процессов экземпляра tantor oom_score уменьшился на 200. После редактирования файла службы перечитали конфигурацию командой systemctl daemon-reload и рестартовали экземпляр.

4) Проверьте, что ksm отключён:

postgres@tantor:~$ cat /proc/vmstat | grep ksm

ksm_swpin_copy 0

cow_ksm 0

postgres@tantor:~$ cat /sys/kernel/mm/ksm/run

postgres@tantor:~$ cat /sys/kernel/mm/ksm/pages_scanned

Эту проверку делают на всякий случай. ksm полезен и может быть включён, если в операционной системе запускаются виртуальные машины из одного файла образа виртуальной машины.

5) Проверьте значения параметров, влияющих на выделение памяти большего размера, чем есть:

postgres@tantor:~$ sudo sysctl -a | grep vm.over

vm.overcommit_kbytes = 0

vm.overcommit_memory = 0

vm.overcommit_ratio = 50

postgres@tantor:~$ sudo sysctl -a | grep vm.swap

vm.swappiness = 60

Так как в виртуальной машине отключён раздел подкачки, то vm.overcommit_memory должен быть равен нулю. Так как подкачка отключена, то значение параметра vm.swappiness не играет роли.

Часть 3. Выгрузка длинных строк утилитой pg_dump

1) Создайте базу данных с названием ela и таблицу следующими командами:

postgres@tantor:~$ psql

postgres=# create database ela;

CREATE DATABASE

postgres=# \c ela

You are now connected to database "ela" as user "postgres".NOTICE: table "t2" does not exist, skipping

postgres=# drop table if exists t2;

create table t2 (c1 text, c2 text);

insert into t2 (c1) VALUES (repeat('a', 1024*1024*512));

update t2 set c2 = c1;

DROP TABLE

CREATE TABLE

INSERT 0 1

UPDATE 1

2) Остановите экземпляр postgresql

postgres@tantor:~$ sudo systemctl stop postgresql

3) Установите в 0 число огромных страниц:

postgres@tantor:~$ sudo sysctl -w vm.nr_hugepages=0

vm.nr_hugepages = 0

4) Попробуйте выгрузить базу данных ela утилитой pg_dump:

postgres@tantor:~$ pg_dump -c -C -d ela -f ela.sql

pg_dump: error: Dumping the contents of table "t2" failed: PQgetResult() failed.

pg_dump: detail: Error message from server: ERROR: out of memory

DETAIL: Cannot enlarge string buffer containing 536870913 bytes by 536870912 more bytes.

pg_dump: detail: Command was: COPY public.t2 (c1, c2) TO stdout;

Возникла ошибка невозможности выгрузить содержимое таблицы из-за превышения размера памяти под string buffer. Максимальный размер буфера 1Гб.

5) Начиная с версии 16.2 в СУБД Тантор есть параметр enable_large_allocations, который увеличивает размер строкового буфера до 2Гб. Параметр можно установить и в сессиях утилиты pg_dump, используя параметр утилиты. Выгрузите базу данных ela, используя этот параметр:

postgres@tantor:~$ time pg_dump -c -d ela -f ela.sql --enable-large-allocations

real 0m12.556s

user 0m1.614s

sys 0m0.699s

выгрузка базы данных ela заняла 12.556 секунд.

6) Был создан файл размером 1Гб:

postgres@tantor:~$ ls -al ela.sql

-rw-r--r-- 1 postgres postgres 1073742755 ela.sql

Часть 4. Нехватка памяти

1) В окне терминала проверьте сколько памяти свободно:

postgres@tantor:~$ free

total used free shared buff/cache available

Mem: 4020792 993520 2888632 185788 546988 3027272

Swap: 0 0 0

Свободно 2.8Гб, доступно 3Гб

2) Запустите утилиту psql:

postgres@tantor:~$ psql -d ela

Type "help" for help.

ela=# \c ela

3) В другом терминале посмотрите список процессов экземпляров PostgreSQL:

root@tantor:~$ for PID in $(pgrep "postgres"); do awk '/Pss/ {PSS+=$2} END { getline cmd < "/proc/'$PID'/cmdline"; sub("\0", " ", cmd); getline oom < "/proc/'$PID'/oom_score"; printf "%.0f -%s-> %s (PID %s) \n", PSS, oom, cmd, '$PID'}' /proc/$PID/smaps; done|sort -n -r

3039132 -922-> postgres: postgres ela [local] COPY (PID 12518)

28619 -0-> /opt/tantor/db/16/bin/postgres -D /var/lib/postgresql/tantor-se-16/data (PID 12499)

5502 -668-> postgres: walwriter (PID 12503)

3031 -668-> postgres: autovacuum launcher (PID 12504)

2753 -668-> postgres: checkpointer (PID 12500)

2507 -668-> postgres: logical replication launcher (PID 12507)

2499 -668-> postgres: pg_wait_sampling collector (PID 12506)

2069 -668-> postgres: background writer (PID 12501)

1697 -668-> postgres: autoprewarm leader (PID 12505)

В первой строке номер серверного процесса, подсоединенного к базе данных ela.

3) В окне psql выполните скрипт, полученный утилитой pg_dump:

ela=# \i ela.sql

SET

CREATE TABLE

ALTER TABLE

psql:ela.sql:44: server closed the connection unexpectedly

This probably means the server terminated abnormally

before or while processing the request.

psql:ela.sql:44: error: connection to server was lost

Соединение было потеряно.

4) Посмотрите последние сообщения ядра linux:

postgres@tantor:~$ sudo dmesg | tail -n 120

[16387.760734] Mem-Info:

[16387.760737] active_anon:342614 inactive_anon:609810 isolated_anon:0

active_file:22 inactive_file:71 isolated_file:0

unevictable:0 dirty:8 writeback:0

slab_reclaimable:5664 slab_unreclaimable:13043

mapped:15337 shmem:46435 pagetables:5001

sec_pagetables:0 bounce:0

kernel_misc_reclaimable:0

free:20934 free_pcp:1 free_cma:0

[16387.760743] Node 0 active_anon:1370456kB inactive_anon:2439240kB active_file:88kB inactive_file:284kB unevictable:0kB isolated(anon):0kB isolated(file):0kB mapped:61348kB dirty:32kB writeback:0kB shmem:185740kB shmem_thp:0kB shmem_pmdmapped:0kB anon_thp:0kB writeback_tmp:0kB kernel_stack:5696kB pagetables:20004kB sec_pagetables:0kB all_unreclaimable? no

[16387.760749] Node 0 DMA free:14848kB boost:0kB min:260kB low:324kB high:388kB reserved_highatomic:0KB active_anon:0kB inactive_anon:0kB active_file:0kB inactive_file:0kB unevictable:0kB writepending:0kB present:15992kB managed:15360kB mlocked:0kB bounce:0kB free_pcp:0kB local_pcp:0kB free_cma:0kB

[16387.760756] lowmem_reserve[]: 0 3385 3825 3825 3825

[16387.760770] Node 0 DMA32 free:61272kB boost:0kB min:59580kB low:74472kB high:89364kB reserved_highatomic:0KB active_anon:1077032kB inactive_anon:2365224kB active_file:0kB inactive_file:0kB unevictable:0kB writepending:32kB present:3653568kB managed:3555048kB mlocked:0kB bounce:0kB free_pcp:4kB local_pcp:0kB free_cma:0kB

[16387.760778] lowmem_reserve[]: 0 0 439 439 439

[16387.760791] Node 0 Normal free:7616kB boost:0kB min:7736kB low:9668kB high:11600kB reserved_highatomic:0KB active_anon:105944kB inactive_anon:261496kB active_file:416kB inactive_file:0kB unevictable:0kB writepending:0kB present:524288kB managed:450384kB mlocked:0kB bounce:0kB free_pcp:0kB local_pcp:0kB free_cma:0kB

[16387.760798] lowmem_reserve[]: 0 0 0 0 0

[16387.760811] Node 0 DMA: 0*4kB 0*8kB 0*16kB 0*32kB 0*64kB 0*128kB 0*256kB 1*512kB (U) 0*1024kB 1*2048kB (M) 3*4096kB (M) = 14848kB

[16387.760846] Node 0 DMA32: 849*4kB (UME) 615*8kB (UME) 229*16kB (UME) 278*32kB (UME) 177*64kB (UE) 67*128kB (UME) 34*256kB (UME) 15*512kB (UME) 1*1024kB (U) 0*2048kB 1*4096kB (M) = 62284kB

[16387.760893] Node 0 Normal: 230*4kB (UME) 153*8kB (UME) 107*16kB (UME) 71*32kB (UME) 25*64kB (UME) 5*128kB (M) 0*256kB 0*512kB 0*1024kB 0*2048kB 0*4096kB = 8368kB

[16387.760934] Node 0 hugepages_total=0 hugepages_free=0 hugepages_surp=0 hugepages_size=2048kB

[16387.760937] 46530 total pagecache pages

[16387.760939] 0 pages in swap cache

[16387.760941] Free swap = 0kB

[16387.760943] Total swap = 0kB

[16387.760946] 1048462 pages RAM

[16387.760948] 0 pages HighMem/MovableOnly

[16387.760950] 43264 pages reserved

[16387.760952] 0 pages hwpoisoned

[16387.760954] Tasks state (memory values in pages):

[16387.760956] [ pid ] uid tgid total_vm rss pgtables_bytes swapents oom_score_adj name

[16387.760961] [ 270] 0 270 13053 288 118784 0 -250 systemd-journal

[16387.760966] [ 299] 0 299 8116 608 86016 0 -1000 systemd-udevd

[16387.760971] [ 426] 0 426 3359 66 49152 0 -1000 auditd

[16387.760975] [ 451] 0 451 59920 269 102400 0 0 accounts-daemon

[16387.760978] [ 452] 0 452 658 32 45056 0 0 acpid

[16387.760982] [ 455] 109 455 2246 96 61440 0 0 avahi-daemon

[16387.760986] [ 456] 0 456 1814 64 53248 0 0 cron

[16387.760989] [ 457] 100 457 2605 448 61440 0 -900 dbus-daemon

[16387.760993] [ 461] 109 461 2202 98 57344 0 0 avahi-daemon

[16387.760996] [ 467] 995 467 60688 895 110592 0 0 polkitd

[16387.761000] [ 473] 0 473 6953 256 81920 0 0 systemd-logind

[16387.761003] [ 562] 0 562 67078 832 163840 0 0 NetworkManager

[16387.761007] [ 578] 0 578 4923 256 77824 0 0 wpa_supplicant

[16387.761010] [ 585] 0 585 80121 589 122880 0 0 ModemManager

[16387.761013] [ 703] 114 703 423624 1552 208896 0 0 docker-registry

[16387.761017] [ 721] 0 721 340017 3498 299008 0 -999 containerd

[16387.761020] [ 786] 0 786 4954 448 81920 0 -1000 sshd

[16387.761024] [ 865] 0 865 620 96 45056 0 0 fly-getexe

[16387.761027] [ 891] 0 891 1630 64 49152 0 0 agetty

[16387.761031] [ 1744] 0 1744 9731 4013 118784 0 0 astra-event-dia

[16387.761034] [ 1768] 0 1768 384560 7030 425984 0 -500 dockerd

[16387.761038] [ 1774] 0 1774 345665 5100 466944 0 0 syslog-ng

[16387.761041] [ 5571] 0 5571 3670 192 73728 0 0 fly-dm

[16387.761044] [ 5578] 102 5578 100486 24100 581632 0 0 Xorg

[16387.761047] [ 5587] 0 5587 106865 136 106496 0 0 VBoxService

[16387.761051] [ 5642] 102 5642 5567 512 81920 0 100 systemd

[16387.761054] [ 5645] 102 5645 28019 1385 102400 0 100 (sd-pam)

[16387.761058] [ 5670] 0 5670 6821 400 102400 0 0 fly-dm

[16387.761061] [ 5682] 1000 5682 5610 576 81920 0 100 systemd

[16387.761064] [ 5683] 1000 5683 28019 1385 102400 0 100 (sd-pam)

[16387.761068] [ 5698] 1000 5698 13047 4141 147456 0 0 fly-wm

[16387.761071] [ 5758] 1000 5758 2317 256 57344 0 200 dbus-daemon

[16387.761074] [ 5791] 1000 5791 60058 832 192512 0 200 kglobalaccel5

[16387.761078] [ 5798] 1000 5798 4628 98 57344 0 0 VBoxClient

[16387.761081] [ 5799] 1000 5799 37695 130 69632 0 0 VBoxClient

[16387.761085] [ 5811] 1000 5811 4628 130 61440 0 0 VBoxClient

[16387.761088] [ 5812] 1000 5812 37687 98 73728 0 0 VBoxClient

[16387.761091] [ 5817] 1000 5817 4628 130 57344 0 0 VBoxClient

[16387.761095] [ 5819] 1000 5819 37816 66 69632 0 0 VBoxClient

[16387.761098] [ 5822] 1000 5822 4628 98 57344 0 0 VBoxClient

[16387.761101] [ 5823] 1000 5823 37748 194 73728 0 0 VBoxClient

[16387.761104] [ 5837] 0 5837 58952 256 98304 0 0 upowerd

[16387.761108] [ 5844] 1000 5844 2867 202 49152 0 0 ssh-agent

[16387.761111] [ 5870] 1000 5870 103544 1216 258048 0 0 polkit-kde-auth

[16387.761115] [ 5871] 1000 5871 125625 1600 290816 0 0 org_kde_powerde

[16387.761118] [ 5873] 1000 5873 67186318 736 196608 0 0 baloo_file

[16387.761121] [ 5876] 1000 5876 188404 3439 364544 0 0 fly-notificatio

[16387.761124] [ 5877] 1000 5877 39425 576 163840 0 0 astra-event-wat

[16387.761128] [ 5880] 1000 5880 36132 384 139264 0 0 fly-cups-watch

[16387.761131] [ 5881] 1000 5881 63043 1056 208896 0 0 kscreend

[16387.761135] [ 5882] 1000 5882 67439028 7809 712704 0 0 fly-start-menu

[16387.761138] [ 5883] 1000 5883 67294 1184 241664 0 0 fly-shutdown-sc

[16387.761142] [ 5886] 1000 5886 69346 1391 262144 0 0 fly-touchpadd

[16387.761145] [ 5892] 1000 5892 77765 288 102400 0 0 at-spi-bus-laun

[16387.761148] [ 5896] 1000 5896 58767 160 94208 0 0 agent

[16387.761152] [ 5900] 1000 5900 90195 1472 282624 0 0 fly-notify-osd-

[16387.761155] [ 5911] 1000 5911 393645 8394 720896 0 0 fly-sound-apple

[16387.761158] [ 5916] 1000 5916 87538 1600 266240 0 0 fly-reflex-serv

[16387.761171] [ 5921] 1000 5921 2208 160 61440 0 0 dbus-daemon

[16387.761176] [ 5922] 1000 5922 14788 3917 163840 0 0 applet.py

[16387.761179] [ 5929] 1000 5929 4633 256 73728 0 0 compton

[16387.761182] [ 5944] 1000 5944 123154 1376 278528 0 200 kactivitymanage

[16387.761186] [ 5974] 1000 5974 106825 418 106496 0 0 pulseaudio

[16387.761190] [ 5976] 0 5976 99686 565 139264 0 0 udisksd

[16387.761193] [ 5985] 1000 5985 60389 384 106496 0 0 gsettings-helpe

[16387.761196] [ 6002] 1000 6002 41071 224 86016 0 0 at-spi2-registr

[16387.761200] [ 6003] 1000 6003 161984 4706 495616 0 0 nm-applet

[16387.761203] [ 6017] 1000 6017 59383 832 188416 0 200 kscreen_backend

[16387.761207] [ 6067] 1000 6067 59604 224 102400 0 200 gvfsd

[16387.761211] [ 6450] 1000 6450 154277 5493 385024 0 0 fly-term

[16387.761214] [ 6459] 1000 6459 2225 416 57344 0 0 bash

[16387.761218] [ 6835] 1000 6835 5043 320 81920 0 0 su

[16387.761221] [ 6836] 113 6836 2322 448 53248 0 0 bash

[16387.761225] [ 8280] 0 8280 8723 1216 102400 0 0 cupsd

[16387.761229] [ 10858] 1000 10858 154156 5320 376832 0 0 fly-term

[16387.761232] [ 10865] 1000 10865 2225 384 57344 0 0 bash

[16387.761236] [ 12288] 113 12288 66375 8928 229376 0 -900 postgres

[16387.761239] [ 12289] 113 12289 19967 637 122880 0 0 postgres

[16387.761243] [ 12290] 113 12290 66442 1313 155648 0 0 postgres

[16387.761246] [ 12291] 113 12291 66409 1185 151552 0 0 postgres

[16387.761249] [ 12295] 113 12295 66375 1729 143360 0 0 postgres

[16387.761252] [ 12296] 113 12296 66878 993 172032 0 0 postgres

[16387.761256] [ 12297] 113 12297 66854 865 159744 0 0 postgres

[16387.761260] [ 12499] 113 12499 57491 4352 184320 0 -1000 postgres

[16387.761263] [ 12500] 113 12500 57528 1104 151552 0 0 postgres

[16387.761267] [ 12501] 113 12501 57524 1008 147456 0 0 postgres

[16387.761271] [ 12503] 113 12503 57524 1744 143360 0 0 postgres

[16387.761274] [ 12504] 113 12504 57923 1008 163840 0 0 postgres

[16387.761277] [ 12505] 113 12505 57524 742 147456 0 0 postgres

[16387.761280] [ 12506] 113 12506 57635 880 143360 0 0 postgres

[16387.761283] [ 12507] 113 12507 57891 912 151552 0 0 postgres

[16387.761287] [ 12517] 113 12517 6495 448 94208 0 0 psql

[16387.761290] [ 12518] 113 12518 1630962 789553 6533120 0 0 postgres

[16387.761293] [ 12540] 1000 12540 5043 256 86016 0 0 su

[16387.761297] [ 12541] 113 12541 2221 384 57344 0 0 bash

[16387.761300] oom-kill:constraint=CONSTRAINT_NONE,nodemask=(null), cpuset=tantor-se-server-16.service,mems_allowed=0,global_oom, task_memcg=/system.slice/tantor-se-server-16.service,task=postgres,pid=12518, uid=113

[16387.761329] Out of memory: Killed process 12518 (postgres) total-vm:6523848kB, anon-rss:3151300kB, file-rss:0kB, shmem-rss:6912kB, UID:113 pgtables:6380kB oom_score_adj:0

Процесс OOM kill остановил серверный процесс, который выполнял скрипт.

При срабатывании OOM-kill значение oom_score_adj никакой роли не сыграло, так как в операционной системе не было потребителей памяти, кроме процессов PostgreSQL.

Процесс OOM kill показывает размер виртуальной памяти total-vm:6523848kB. 6523848kB/4kB (размер страницы)=1630962 (в страницах) это размер памяти серверного процесса на момент его остановки.

Распределение памяти в диагностических сообщениях отображается в страницах размером 4Кб, кроме столбца pgtables_bytes:

[16387.760954] Tasks state (memory values in pages):

[16387.760956] [ pid ] uid tgid total_vm rss pgtables_bytes swapents oom_score_adj name

[16387.761290] [ 12518] 113 12518 1630962 789553 6533120 0 0 postgres

===== ==== примечание ==========

Серверный процесс читал файл в свою локальную память размером 3Гб.

В виртуальной машине 4Гб и нет подкачки. По данным утилиты free доступной памяти (available) было 3027272kibi. При этом операционная система выделила 6523848kB виртуальной памяти. Если бы значение vm.overcommit_memory=2 при vm.overcommit_ratio=50, то процесс смог бы выделить только 1,5Гб памяти и получил бы отказ на попытку выделения большего количества, несмотря на то, что доступной памяти было 3Гб. При этом бы процесс OOM-kill себя бы не проявлял. Пример:

postgres=# \i ela.sql

SET

CREATE TABLE

ALTER TABLE

psql:ela.sql:44: ERROR: out of memory

DETAIL: Failed on request of size 2147483646 in memory context "COPY".

CONTEXT: COPY t2, line 1

Не пытайтесь установить на виртуальной машине vm.overcommit_memory=2 без включенного swap, либо увеличения:

root@tantor:~# sysctl -w vm.overcommit_ratio=100

иначе вы не сможете дать ни одной команды:

root@tantor:~# free

total used free shared buff/cache available

Mem: 4020796 948788 1958532 188700 1533332 3072008

Swap: 0 0 0

root@tantor:~# sysctl -w vm.overcommit_memory=2

vm.overcommit_memory = 2

root@tantor:~# free

-bash: fork: Cannot allocate memory

root@tantor:~# reboot

-bash: fork: Cannot allocate memory

После включения swap в следующей части практики можно будет проверить, что при vm.overcommit_memory=2 OOM kill не срабатывает, вместо срабатывания процессу, выделяющему память, выдаётся ошибка.

=====================

5) Посмотрите список процессов PostgreSQL:

Список пуст, либо работают только процессы экземпляра Astralinux PostgreSQL. После того как OOM kill остановил серверный процесс, экземпляр был перезапущен в соответствии со значением параметра конфигурации restart_after_crash:

postgres=# select name, setting, context, max_val, min_val from pg_settings where name ~ 'restart';

name | setting | context | max_val | min_val

---------------------+---------+---------+---------+---------

restart_after_crash | on | sighup | |

(1 row)

По умолчанию параметр включён и после сбоя серверного процесса процесс postgres аварийно остановит все дочерние процессы (эквивалент остановки в режиме immediate без контрольной точки) и запустит процессы заново (эквивалент "crash recovery" - запуска экземпляра после сбоя). Если отключить параметр, то все процессы экземпляра будут принудительно остановлены, в том числе процесс postgres. Состояние кластера после остановки будет таким же как после принудительной остановки командой pg_ctl stop -m immediate:

postgres@tantor:~$ pg_controldata | grep state

Database cluster state: in production

6) Запустите экземпляр tantor:

postgres@tantor:~$ sudo systemctl start tantor-se-server-16

Если экземпляр не запускается, можно подождать пока он остановится или дать команду pg_ctl stop -m immediate и повторить команду sudo systemctl start tantor-se-server-16

7) Этот пункт можно не выполнять. Вызвать нехватку памяти и остановку psql может простой запрос:

postgres@tantor:~$ psql

postgres=# select repeat('a', 100000000) from generate_series(1, 100);

Killed

postgres@tantor:~$ sudo dmesg | tail -5

[ 1002.311864] [ 6421] 113 6421 747298 718592 5861376 0 0 psql

[ 1002.311867] [ 6422] 113 6422 139618 75066 770048 0 0 postgres

[ 1002.311870] oom-kill:constraint=CONSTRAINT_NONE,nodemask=(null), cpuset=containerd.service,mems_allowed=0,global_oom,task_memcg=/user.slice/user-1000.slice/session-3.scope, task=psql,pid=6421,uid=113

[ 1002.311894] Out of memory: Killed process 6421 (psql) total-vm:2989192kB, anon-rss:2874368kB, file-rss:0kB, shmem-rss:0kB, UID:113 pgtables:5724kB oom_score_adj:0

В случае, если vm.overcommit_memory=2 то результат будет:

postgres=# select repeat('a', 100000000) from generate_series(1, 100);

out of memory for query result

Установить vm.overcommit_memory=2 можно только после установки vm.overcommit_ratio=100 или включения swap, иначе в виртуальной машине сразу возникнет нехватка памяти и вы не сможете дать ни одной команды.

Обычно OOM kill останавливает процесс psql, но может остановить и процессы экземпляра, что приведёт к аварийной остановке экземпляра:

postgres=# select repeat('a', 1000000000) from generate_series(1, 1000);

server closed the connection unexpectedly

This probably means the server terminated abnormally

before or while processing the request.

The connection to the server was lost. Attempting reset: Failed.

!?>

[1211447.321264] [ pid ] uid tgid total_vm rss pgtables_bytes swapents oom_score_adj name

[1211447.321658] [ 524388] 113 524388 756951 205344 4251648 313792 0 psql

[1211447.321661] [ 524389] 113 524389 808432 716332 6062080 17383 0 postgres

[1211447.321664] oom-kill:constraint=CONSTRAINT_NONE,nodemask=(null),cpuset=user.slice,mems_allowed=0, global_oom,task_memcg=/system.slice/tantor-se-server-16.service,task=postgres,pid=524389,uid=113

[1211447.321735] Out of memory: Killed process 524389 (postgres) total-vm:3233728kB, anon-rss:2863536kB, file-rss:1664kB, shmem-rss:128kB, UID:113 pgtables:5920kB oom_score_adj:0

При этом экземпяр может не запуститься и его надо будет запускать командой:

sudo systemctl start tantor-se-server-16

Часть 5. Включение подкачки (swap)

1) Добавьте файл для swap размером 2Гб и включите swap:

root@tantor:~# dd if=/dev/zero of=/swap_file bs=1M count=2048

2048+0 records in

2048+0 records out

2147483648 bytes (2.1 GB, 2.0 GiB) copied, 22.3827 s, 95.9 MB/s

root@tantor:~# chmod 600 /swap_file

root@tantor:~# mkswap /swap_file

Setting up swapspace version 1, size = 2 GiB (2147479552 bytes)

no label, UUID=4b56ea3b-ac66-46ef-801b-2aa473f27ef6

root@tantor:~# swapon /swap_file

root@tantor:~# free -m

total used free shared buff/cache available

Mem: 3926 881 672 19 2680 3044

Swap: 2047 0 2047

При перезагрузке виртуальной машины подкачка не будет включена автоматически.

2) Выполните скрипт дампа:

postgres=# \timing

Timing is on.

ela=# \i ela.sql

...

SET

CREATE TABLE

ALTER TABLE

COPY 1

Time: 18979.619 ms (00:18.980)

Команда COPY загружала строку 18 секунд.

3) В том же окне psql, в котором выполнялся скрипт загрузки посмотрите значение параметра enable_large_allocations:

ela=# show enable_large_allocations;

enable_large_allocations

--------------------------

(1 row)

Параметр был включён при выполнении файла ela.sql командой:

SET enable_large_allocations TO on; из этого файла.

По умолчанию параметр выключен.

4) В другом окне терминала посмотрите начало файла ela.sql:

postgres@tantor:~$ head -n 20 ela.sql

-- PostgreSQL database dump

SET statement_timeout = 0;

SET lock_timeout = 0;

SET idle_in_transaction_session_timeout = 0;

SET transaction_timeout = 0;

SET client_encoding = 'UTF8';

SET standard_conforming_strings = on;

SELECT pg_catalog.set_config('search_path', '', false);

SET check_function_bodies = false;

SET xmloption = content;

SET client_min_messages = warning;

SET row_security = off;

SET enable_large_allocations TO on;

Значение параметра enable_large_allocations было выгружено утилитой pg_dump.

5) посмотрите характеристики параметра enable_large_allocations:

ela=# select * from pg_settings where name like '%large%' \gx

-[ RECORD 1 ]---+--------------------------------------------

name | enable_large_allocations

setting | on

unit |

category | Resource Usage / Memory

short_desc | Sets whether to use large memory buffers - greater than 1 Gb, up to 2 Gb

extra_desc |

context | superuser

vartype | bool

source | session

min_val |

max_val |

enumvals |

boot_val | off

reset_val | off

sourcefile |

sourceline |

pending_restart | f

Параметр может устанавливаться на разных уровнях, в том числе на уровне сессии.

Параметр увеличивает размер строкового буфера с 1Гб до 2Гб. Могут выгружаться строки размером до 2Гб. Строки больше 2Гб выгружаться не будут.

Часть 6. Страничный кэш

1) Откройте или переключитесь в терминал с правами root:

postgres@tantor:~$ su -

Password: root

2) Выполните команды:

root@tantor:~# cat /proc/meminfo | grep Cached

Cached: 1367440 kB

SwapCached: 49328 kB

root@tantor:~# free

total used free shared buff/cache available

Mem: 4020792 605576 2250740 36796 1452148 3415216

Swap: 2097148 508696 1588452

По умолчанию команда free показывает значения в kibibytes (число байт поделенных на 1024 1024). Для вывода в килобайтах нужно использовать параметр --kylo или --si (число байт поделенных на 1000). Разница заметная, во втором разряде слева (36820 37703):

root@tantor:~# free

total used free shared buff/cache available

Mem: 4020792 575192 3493796 36820 215152 3445600

Swap: 2097148 507160 1589988

root@tantor:~# free --si

total used free shared buff/cache available

Mem: 4117291 589750 3576889 37703 220323 3527540

Swap: 2147479 519331 1628147

root@tantor:~# free --bytes

total used free shared buff/cache available

Mem: 4117291008 588890112 3577745408 37703680 220340224 3528400896

Swap: 2147479552 519331840 1628147712

Cached входит в buff/cache , разница (с учётом разных единиц измерения) это значение buff.

3) Сделайте чистые блоки страничного кэша свободными:

root@tantor:~# echo 1 > /proc/sys/vm/drop_caches

root@tantor:~# cat /proc/meminfo | grep Cached

Cached: 156684 kB

SwapCached: 49332 kB

root@tantor:~# free

total used free shared buff/cache available

Mem: 4020792 536520 3530520 36800 184272 3484272

Swap: 2097148 508696 1588452

Значения Cached и buff/cache уменьшились на 1,2Гб. Значение free увеличилось.

4) Посмотрите число страниц разного размера:

root@tantor:~# cat /proc/buddyinfo

Node 0, zone DMA 0 0 0 0 0 0 0 1 0 1 3

Node 0, zone DMA32 1670 1466 868 707 734 503 294 166 111 111 648

Node 0, zone Normal 444 283 262 98 31 10 3 39 32 2 1

Node 0 - номер физического процессора. Зоны:

zone DMA - виртуальная память со смещением от нуля до 16Мб

zone DMA32 - от 16Мб до 4Гб

zone Normal - от 4Гб и до 2^48 (2 в степени 48)

Каждая зона делится на части адресного пространства памяти размером (4096 байт *2^n):

4Кб 8Кб 16Кб 32Кб 64Кб 128Кб 256Кб 512Кб 1Мб 2Мб 4Мб

5) Посмотрите индекс фрагментации наборов страниц:

root@tantor:~# cat /sys/kernel/debug/extfrag/extfrag_index

Node 0, zone DMA -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000

Node 0, zone DMA32 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000

Node 0, zone Normal -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 0.964 0.982 0.991 0.996

Дефрагментация запустится автоматически при уменьшении свободной памяти ниже vm.min_free_kbytes=67584 или значения vm.watermark_scale_factor. Значение по умолчанию vm.watermark_scale_factor=10, что означает 0.1% от размера свободной физической памяти. Эти значения слишком малы и дефрагментация запускается в крайнем случае. Рекомендации по установке значений даны в теоретической части главы.

6) Запустите дефрагментацию вручную:

root@tantor:~# echo 1 > /proc/sys/vm/compact_memory

7) Проверьте результат дефрагментации (как изменился индекс фрагментации):

root@tantor:~# cat /sys/kernel/debug/extfrag/extfrag_index

Node 0, zone DMA -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000

Node 0, zone DMA32 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000

Node 0, zone Normal -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 0.991

8) Посмотрите сколько грязных 4-килобайтных страниц в страничном кэше linux:

root@tantor:~# cat /proc/vmstat | grep dirty

nr_dirty 126

nr_dirty_threshold 176446

nr_dirty_background_threshold 88115

9) Выполните команду sync, которая сбрасывает грязные страницы на диск:

root@tantor:~# sync

root@tantor:~# cat /proc/vmstat | grep dirty

nr_dirty 0

nr_dirty_threshold 174962

nr_dirty_background_threshold 87374

root@tantor:~# cat /proc/vmstat | grep dirty

nr_dirty 2

nr_dirty_threshold 175071

nr_dirty_background_threshold 87428

По команде sync сбрасываются все грязные страницы и nr_dirty в какой-то момент становится равен 0, но при работе процессов станицы постоянно грязнятся и значение почти сразу увеличивается.

10) Посмотрите значения параметров, относящихся к работе с грязными страницами:

root@tantor:~# sysctl -a | grep dirty

vm.dirty_background_bytes = 0

vm.dirty_background_ratio = 10

vm.dirty_bytes = 0

vm.dirty_expire_centisecs = 3000

vm.dirty_ratio = 20

vm.dirty_writeback_centisecs = 500

vm.dirtytime_expire_seconds = 43200

Длительность удержания страницы с момента изменения определяется параметром:

vm.dirty_expire_centisecs - сколько буфер может быть грязным, прежде чем будет помечен для записи, по умолчанию 3000 (30 секунд), можно поменять на 500 (5 секунд).

Также на удержание влияет параметр: vm.dirty_writeback_centisecs - период ожидания между записями на диск, по умолчанию 500 (5 секунд), можно уменьшить до 250 (2,5 секунды). Рекомендуемые значения остальных параметров:

vm.dirty_ratio = 10

vm.dirty_background_ratio = 3

Эти параметры можно не менять, так как страницы кэша linux на запись посылают процессы экземпляра вызовом fdatasync по WAL, fsync по файлам табличных пространств в конце контрольной точки и делают это для отказоустойчивости (защиты от пропадания питания). Этими параметрами можно сгладить пиковую нагрузку, которая возникает в конце выполнения контрольной точки. Но даже для сглаживания нагрузки имеются параметры PostgreSQL checkpoint_flush_after и bgwriter_flush_after, которые также установлены в оптимальные для обычной нагрузки и обычного оборудования (HDD и SSD) значений.

11) Посмотрите параметры конфигурации PostgreSQL, влияющие на удержание грязных страниц страничного кэша:

postgres=# \dconfig *flush*

List of configuration parameters

Parameter | Value

------------------------+-------

backend_flush_after | 0

bgwriter_flush_after | 512kB

checkpoint_flush_after | 256kB

wal_writer_flush_after | 1MB

(4 rows)

Эти параметры ограничивают объём грязных страниц в страничном кэше linux и уменьшает вероятность затормаживания при выполнении fsync в конце контрольной точки или когда linux сбрасывает грязные страницы на диск в соответствии с параметрами из предыдущего пункта. Если параметры предыдущего пункта допускают накопление большого количества грязных страниц, могут возникать относительно длительные задержки, что делает работу экземпляра менее "гладкой".

12) Выполните команду:

postgres=# alter system set shared_preload_libraries = pg_stat_statements, pg_wait_sampling, pg_stat_kcache, pg_qualstats, pg_store_plans, pg_prewarm;

13) перегрузите экземпляр, так как изменение параметра применится только после перезапуска экземпляра:

root@tantor:~# systemctl restart tantor-se-server-16

Эта команда загрузит при запуске экземпляра разделяемые библиотеки в память процессов. Загруженная библиотека pg_wait_sampling понадобится в следующей практике.

Практика к главе 3

Часть 1. Стандартный тест pgbench

1) В обсуждении https://www.postgresql.org/message-id/flat/53FD5D6C.40105%40catalyst.net.nz приводился пример теста pgbench с включенным HyperThread и выключенным на 4-ядерном процессоре. Посмотрим на каком числе клиентов достигается максимальный tps на вашей виртуальной машине. Создайте тестовые таблицы со scale factor 300 как в тесте по ссылке:

postgres@tantor:~$ pgbench -i -s 300

dropping old tables...

creating tables...

generating data (client-side)...

30000000 of 30000000 tuples (100%) done (elapsed 50.12 s, remaining 0.00 s)

vacuuming...

creating primary keys...

done in 78.79 s (drop tables 0.02 s, create tables 0.01 s, client-side generate 50.79 s, vacuum 2.46 s, primary keys 25.52 s).

Таблицы создавались 78 секунд.

2) Выполните 15-секундные тесты с разным числом соединений:

postgres@tantor:~$ pgbench -c 64 -T 15 2> /dev/null | grep tps

tps = 1773.570100 (without initial connection time)

postgres@tantor:~$ pgbench -c 100 -T 15 2> /dev/null | grep tps

tps = 1646.101354 (without initial connection time)

postgres@tantor:~$ pgbench -c 32 -T 15 2> /dev/null | grep tps

tps = 1685.528291 (without initial connection time)

postgres@tantor:~$ pgbench -c 16 -T 15 2> /dev/null | grep tps

tps = 1550.934797 (without initial connection time)

Максимальный tps достигается при 64 соединениях.

3) Повторите тест:

postgres@tantor:~$ pgbench -c 64 -T 15 2> /dev/null | grep tps

tps = 1676.523228 (without initial connection time)

postgres@tantor:~$ pgbench -c 100 -T 15 2> /dev/null | grep tps

tps = 1572.848543 (without initial connection time)

postgres@tantor:~$ pgbench -c 32 -T 15 2> /dev/null | grep tps

tps = 1694.453483 (without initial connection time)

postgres@tantor:~$ pgbench -c 16 -T 15 2> /dev/null | grep tps

tps = 1477.982431 (without initial connection time)

Значения tps немного понизились во всех тестах. Тест по умолчанию вносит изменения в строки таблиц и индексные записи. Повторные запуски тестов дают стабильно худшие результаты. Тест с изменением таблиц нельзя использовать без пересоздания таблиц.

В обсуждении, на которое была приведена ссылка, в зависимости от процессора максимальный tps достигался на 256, 96, 48 соединениях на процессорах с разным числом ядер. Точность до ближайшей степени двойки: приведено значение 256, а реальный максимум может быть в диапазоне от 140 до 350.

4) Можно использовать select-only тест, который не меняет данные. Этот тест зависит от заполнения кэша буферов и первые выполнения теста имеют меньший tps, чем последующие. Максимальный tps стал достигаться на 16 соединениях.

postgres@tantor:~$ pgbench -b select-only -c 64 -T 15 2> /dev/null | grep tps

tps = 8687.455945 (without initial connection time)

postgres@tantor:~$ pgbench -b select-only -c 32 -T 15 2> /dev/null | grep tps

tps = 9112.963307 (without initial connection time)

postgres@tantor:~$ pgbench -b select-only -c 16 -T 15 2> /dev/null | grep tps

tps = 9611.093353 (without initial connection time)

postgres@tantor:~$ pgbench -b select-only -c 8 -T 15 2> /dev/null | grep tps

tps = 9548.481330 (without initial connection time)

postgres@tantor:~$ pgbench -b select-only -c 4 -T 15 2> /dev/null | grep tps

tps = 7841.653129 (without initial connection time)

postgres@tantor:~$ pgbench -b select-only -c 100 -T 15 2> /dev/null | grep tps

tps = 8780.049265 (without initial connection time)

postgres@tantor:~$ pgbench -b select-only -c 64 -T 15 2> /dev/null | grep tps

tps = 9200.191422 (without initial connection time)

postgres@tantor:~$ pgbench -b select-only -c 32 -T 15 2> /dev/null | grep tps

tps = 9499.272270 (without initial connection time)

postgres@tantor:~$ pgbench -b select-only -c 16 -T 15 2> /dev/null | grep tps

tps = 9820.530795 (without initial connection time)

postgres@tantor:~$ pgbench -b select-only -c 8 -T 15 2> /dev/null | grep tps

tps = 9637.473378 (without initial connection time)

postgres@tantor:~$ pgbench -b select-only -c 4 -T 15 2> /dev/null | grep tps

tps = 7825.917563 (without initial connection time)

Часть 2. Привязка процессов к ядру процессора

Если на хосте один процессор, то привязка процессов экземпляра PostgreSQL вряд ли даст преимущества. При этом операционная система выполняет привязку своих потоков к ядрам. Те потоки, которые работают с теми же структурами памяти, назначаются на то же ядро. При привязке процессов экземпляра стоит учесть на какие ядра назначены потоки операционной системы, чтобы эти ядра не были узким местом.

1) Посмотрите число ядер процессоров:

postgres@tantor:~$ nproc

2) Выполните команду, чтобы посмотреть привязку потоков ядра linux. У демона потоков ядра kthreadd идентификатор процесса pid=2:

for tid in $(pgrep -w 2 | tr '\n' ' '); do

ps --no-headers -q "${tid}" -o pid -o user -o psr -o cmd;

taskset -cp "${tid}";

done

26 root 2 [cpuhp/2]

pid 26's current affinity list: 2

27 root 2 [idle_inject/2]

pid 27's current affinity list: 2

28 root 2 [migration/2]

pid 28's current affinity list: 2

29 root 2 [ksoftirqd/2]

pid 29's current affinity list: 2

73 root 3 [scsi_eh_2]

pid 73's current affinity list: 0-3

137 root 2 [kworker/2:1H-kblockd]

...

Часть потоков ядра linux привязана к каждому из ядер cpu. kernel threads используются linux для выполнения фоновых операций.

3) Выполните команду, чтобы посмотреть привязку процессов с именем postgres:

for tid in $(pgrep postgres | tr '\n' ' '); do

ps --no-headers -q "${tid}" -o pid -o user -o psr -o cmd;

taskset -cp "${tid}";

done

126673 postgres 1 /opt/tantor/db/16/bin/postgres -D /var/lib/postgresql/tantor-se-16/data

pid 126673's current affinity list: 0-3

126674 postgres 1 postgres: checkpointer

pid 126674's current affinity list: 0-3

126675 postgres 3 postgres: background writer

pid 126675's current affinity list: 0-3

126677 postgres 0 postgres: walwriter

pid 126677's current affinity list: 0-3

126678 postgres 1 postgres: autovacuum launcher

pid 126678's current affinity list: 0-3

126679 postgres 3 postgres: autoprewarm leader

pid 126679's current affinity list: 0-3

126680 postgres 0 postgres: pg_wait_sampling collector

pid 126680's current affinity list: 0-3

126681 postgres 3 postgres: logical replication launcher

pid 126681's current affinity list: 0-3

...

По умолчанию у процессов postgres привязки к cpu нет. В примере процессы могут быть назначены на любое доступное ядро: 0,1,2,3.

4) Привяжите процесс checkpointer к ядру 1:

postgres@tantor:~$ taskset -p 12290

pid 12290's current affinity list: 0-3

pid 12290's new affinity list: 1

5) Уберите привязку процесса checkpointer к ядру 1:

postgres@tantor:~$ taskset -p -c 0-999 12290

pid 12290's current affinity list: 1

pid 12290's new affinity list: 0-3

Опции убрать привязку нет, можно только указать новую привязку, в которой перечислить все ядра. Самое простое - указать диапазон начиная с 0 до максимального числа ядер или выше.

Часть 3. Переключения контекстов выполнения ("VCX/ICX")

1) Посмотрите частоту переключений контекстов выполнения процессов postgres:

postgres@tantor:~$ pidstat -w -l -C postgres

Linux 6.6.28-1-generic (tantor) _x86_64_ (4 CPU)

02:25:37 PM UID PID cswch/s nvcswch/s Command

02:25:37 PM 113 1405 0.10 0.02 /opt/tantor/db/16/bin/postgres -D /var/lib/postgresql/tantor-se-16/data

02:25:37 PM 113 1485 0.07 0.01 /usr/lib/postgresql/15/bin/postgres -D /var/lib/postgresql/15/main -c config_file=/etc/postgresql/15/main/postgresql.conf

02:25:37 PM 113 1586 0.01 0.00 postgres: checkpointer

02:25:37 PM 113 1587 0.39 0.00 postgres: background writer

02:25:37 PM 113 1620 0.02 0.00 postgres: 15/main: logger

02:25:37 PM 113 1693 0.26 0.00 postgres: walwriter

02:25:37 PM 113 1694 0.10 0.01 postgres: autovacuum launcher

02:25:37 PM 113 1695 0.02 0.04 postgres: autoprewarm leader

02:25:37 PM 113 1696 94.35 0.11 postgres: pg_wait_sampling collector

02:25:37 PM 113 1698 0.01 0.00 postgres: logical replication launcher

02:25:37 PM 113 1751 0.01 0.00 postgres: 15/main: checkpointer

02:25:37 PM 113 1752 0.39 0.00 postgres: 15/main: background writer

02:25:37 PM 113 1817 0.26 0.00 postgres: 15/main: walwriter

02:25:37 PM 113 1818 0.05 0.01 postgres: 15/main: autovacuum launcher

02:25:37 PM 113 1819 0.01 0.00 postgres: 15/main: logical replication launcher

02:25:37 PM 0 7653 0.00 0.00 pidstat -w -l -C postgres

Если экземпляр работал больше часа или операционная система перегружалась, то pidstat покажет, что у процесса pg_wait_sampling collector контексты переключаются с частотой ~100 (в примере 94.46) в секунду. Этот процесс занимается сбором статистики, опрашивая процессы экземпляра. Большинство циклов опроса завершается быстро, процесс освобождает ядро и статистика cswch увеличивается. Jiffy - единица времени, которая представляет количество прерываний таймера от загрузки linux. При каждом прерывании таймера количество Jiffy увеличивается на единицу. Связь между Jiffy и секундами определяется константой HZ в ядре linux. Это значение определяет количество Jiffies в секунду. В linux до версии 2.4 частота тика между Jifies была 10 мс. Начиная с linux 2.4 тик стал 1мс. Начиная с версии ядра 3.10 частота тика варьируется и может быть замедлена, если при компиляции ядра установить CONFIG_NO_HZ_FULL=y. В этом случае прерывания таймера отключаются не только для простаивающих процессоров, но при исполнении кода, если на ядре нет задач в очереди на исполнение.

2) Посмотрите текущее число переключений контекста выполнения для процесса pg_wait_sampling collector. С интервалом в ~секунду выполните команду:

postgres@tantor:~$ grep ctxt /proc/1696/status

voluntary_ctxt_switches: 304222

nonvoluntary_ctxt_switches: 334

postgres@tantor:~$ grep ctxt /proc/1696/status

voluntary_ctxt_switches: 304343

nonvoluntary_ctxt_switches: 335

Число произвольных переключений контекста по этой кумулятивной статистике около 100 в секунду. Непроизвольные переключения тоже присутствуют. Данные совпадают с результатом pidstat. Процесс pg_wait_sampling collector опрашивает состояние всех процессов экземпляра с частотой, заданной параметром

pg_wait_sampling.history_period или pg_wait_sampling.profile_period. Значения этих параметров по умолчанию 10 миллисекунд, что соответствует частоте 100 раз в секунду.

3) Если рестартовать экземпляр, то после перезапуска значения cswch/s будут постепенно увеличиваться. Выполните в терминале root:

root@tantor:~# systemctl restart tantor-se-server-16

root@tantor:~# pidstat -w -l -C postgres | grep sampling

02:36:31 PM 113 7728 4.25 0.00 postgres: pg_wait_sampling collector

Период усреднения - с момента запуска операционной системы, что делает использование утилиты pidstat бессмысленным.

Для получения осмысленного результата стоит пользоваться кумулятивными статистиками. До 10 в секунду при реальной частоте 100 в секунду значение дойдёт примерно через 7 минут. При этом кумулятивная статистика частоту показывает корректно 100 раз в секунду. Выполните два раза команду с интервалом примерно в секунду:

root@tantor:~# grep ctxt /proc/7728/status

voluntary_ctxt_switches: 13433

nonvoluntary_ctxt_switches: 10

root@tantor:~# grep ctxt /proc/7728/status

voluntary_ctxt_switches: 13551

nonvoluntary_ctxt_switches: 11

4) Для мониторинга переключений контекстов по всей операционной системе можно использовать утилиту perf:

root@tantor:~# perf stat -a

Performance counter stats for 'system wide':

68,010.80 msec cpu-clock # 2.000 CPUs utilized

9,885 context-switches # 145.345 /sec

250 cpu-migrations # 3.676 /sec

2,774 page-faults # 40.788 /sec

<not supported> cycles

<not supported> instructions

<not supported> branches

<not supported> branch-misses

34.005359735 seconds time elapsed

Утилита с такими параметрами работает до ее остановки комбинацией клавиш <ctrl+c>.

Утилита выдаёт правильные значения: 145 переключений контекстов в секунду. Недостаток: не выдаёт число involuntary context switches.

Для сбора такой же статистики по отдельному процессу используется команда:

perf stat -p номер_процесса

Часть 4. Мониторинг нагрузки на процессор

1) Установите, если не установлены, утилиты atop и htop в терминале под пользователем root:

root@tantor:~# apt update

Hit:1 cdrom://OS Astra Linux 1.8.1.6 DVD 1.8_x86-64 InRelease

Hit:2 https://download.astralinux.ru/astra/stable/1.8_x86-64/repository-extended 1.8_x86-64 InRelease

Ign:3 https://download.astralinux.ru/astra/stable/1.8_x86-64/repository-devel 1.8_x86-64 InRelease

Hit:4 https://download.astralinux.ru/astra/stable/1.8_x86-64/repository-main 1.8_x86-64 InRelease

Err:5 https://download.astralinux.ru/astra/stable/1.8_x86-64/repository-devel 1.8_x86-64 Release

404 Not Found [IP: 130.193.50.59 443]

Reading package lists... Done

E: The repository 'https://download.astralinux.ru/astra/stable/1.8_x86-64/repository-devel 1.8_x86-64 Release' does not have a Release file.

N: Updating from such a repository can't be done securely, and is therefore disabled by default.

N: See apt-secure(8) manpage for repository creation and user configuration details.

root@tantor:~# apt install htop -y

Reading package lists... Done

Building dependency tree... Done

Reading state information... Done

htop is already the newest version (3.2.2-2+b1).

0 upgraded, 0 newly installed, 0 to remove and 603 not upgraded.

root@tantor:~# apt install atop -y

Reading package lists... Done

Building dependency tree... Done

Reading state information... Done

atop is already the newest version (2.8.1-1+b1).

0 upgraded, 0 newly installed, 0 to remove and 603 not upgraded.

2) Удалите директорию, если она есть и запустите в терминале пользователя postgres утилиту pg_basebackup с замедлением резервирования до 50 килобайт в секунду:

postgres@tantor:~$ rm -rf /var/lib/postgresql/backup/1

postgres@tantor:~$ time pg_basebackup -c fast -D $HOME/backup/1 -P -r 50k

Утилита начнет резервирование. Окно терминала с работающей утилитой не нужно закрывать.

3) В другом терминале, под пользователем root, выполните команду top:

root@tantor:~# ps -e -o pcpu,vsz,rss,pss,cls,psr,rops,wops,s,cmd --sort -pcpu | head -2

%CPU VSZ RSS PSS CLS PSR ROPS WOPS S CMD

99.9 24608 8576 1486 TS 1 43 8385 R pg_basebackup -c fast -D /var/lib/postgresql/backup/1 -P -r 1M

Какая проблема видна в выводе команды?

Загрузка процессора 99.9%

Дальше последовательно посмотрите результат вывода утилит top, atop, htop, чтобы понять какой утилитой удобнее выявлять проблему нагрузки на процессор.

4) Запустите утилиту top:

root@tantor:~# top

Какую нагрузку на процессор показывает утилита?

В столбце %CPU утилита показывает 100.0.

В поле %Cpu(s): 25.5 us, 0.5 sy.

5) Нажмите на клавиатуре клавишу 1. Вывод утилиты изменится, она покажет нагрузку отдельно по ядрам процессора:

Нагрузка на 3 ядре: %Cpu3: 100.0 us, 0.0 sy и это реальная нагрузка.

Это означает что третье ядро полностью нагружено, причем отношение USER/SYS 100:0.

Посмотрите справа вверху на метрику load average: 1.01, 1.00, 0.87

Метрика также присутствует в файле /proc/loadavg и выводе команды uptime:

root@tantor:~# uptime

09:39:07 up 18:01, 3 users, load average: 0.19, 0.20, 0.18

Это метрика показывает число активных (работающих или желающих работать) процессов, усредненная на интервалах 1, 5, 15 минут. В метрике учитываются процессы, потребляющие процессорное время и ожидающие получения результата от дисковой подсистемы. Процессы, ожидающие поступления данных с сетевых интерфейсов в метрике не учитываются.

Если число активных процессов меньше числа ядер, то если все процессы активны, они не будут испытывать недостатка в вычислительных ресурсах. Но число процессов обычно больше, чем число ядер. Если появляется большое число активных процессов, то доступ к ядрам делится между активными процессами. При работе СУБД процессор обычно не является узким местом (дефицитным ресурсом) и метрика не указывает на какие-либо проблемы. Метрика может быть полезна тем, что сравнив три числа можно оценить, является ли текущая нагрузка пиковой или постоянной. Если создать большое число активных процессов, например, запустив в отдельном терминале утилиту pgbench с числом сессий 90:

postgres@tantor:~$ pgbench -c 90 -j 90 -T 10000 -P 5

pgbench (16.2)

starting vacuum...end.

progress: 5.0 s, 892.4 tps, lat 105.630 ms stddev 87.005, 0 failed

progress: 10.0 s, 413.0 tps, lat 237.783 ms stddev 257.410, 0 failed

...

По умолчанию параметр конфигурации max_connections=100, поэтому число сессий выбрано 90.

Дальше можно посмотреть вывод утилиты top суммарно по всем процессорам и по отдельности и можно будет увидеть, что если load превышает число ядер, то суммарная нагрузка на процессора становится полезной. Если суммарная нагрузка %Cpu(s) больше 90%, то процессор является узким местом. При долговременной нагрузке граница 90% (с целью определения дефицитности ресурса) может варьироваться от 85% до 95% в зависимости от доли ожидания дискового ввода-вывода.

Пример суммарной нагрузки - присутствует метрика %Cpu(s):

Средняя загрузка по всем ядрам: 100-28.6=71.4% процессор не является узким местом.

Однако, если снизить число серверных процессов с 90 до ~50 для четырех ядер в данном примере, то будут достигнуты максимальные tps. При большой загрузке процессоров переключения контекстов, а под сильно большой ожидания получения таймслотов на ядре процессора добавляют задержку. Накладные расходы на переключения контекстов (замена содержимого кэшей ядра) напрямую измерить нельзя.

Пример нагрузки по процессорам - метрики %Cpu0 ... %Cpu3 :

Нагрузка по процессорам полезна при load меньшим, чем число ядер и для определения нет ли процессов, которые загружают ядро на 100% и именно для этого процесса (потока который не может распаралеллиться и обслуживаться несколькими ядрами) процессор является узким местом.

Закройте утилиту top, нажав на клавиатуре клавишу q.

Если работает pgbench, то его можно остановить комбинацией клавиш <ctrl+c>.

6) Запустите утилиту mpstat:

root@tantor:~# mpstat -n

Linux 6.6.28-1-generic (tantor) _x86_64_ (4 CPU)

08:40:00 PM NODE %usr %nice %sys %iowait %irq %soft %steal %guest %gnice %idle

08:40:00 PM all 5.71 0.05 0.39 0.42 0.00 0.46 0.00 0.00 0.00 92.97

Посмотрите удобно ли наблюдать этой утилитой нагрузку одного ядра на 100% и отношение USER/SYS?

7) Запустите утилиту atop:

root@tantor:~# atop

Зная реальную нагрузку найдите в окне утилиты atop нагрузку на процессор, которую даёт утилита pg_basebackup.

Через 10 секунд окно поменяется и выдаст другие цифры:

Отображаемые данные обновляются по умолчанию раз в 10 секунд.

Отметьте для себя: удобно ли просматривать нагрузку и видно ли отношение USER/SYS.

Закройте утилиту, нажав на клавиатуре клавишу q.

8) Запустите утилиту htop:

root@tantor:~# htop

Отметьте для себя: удобно ли просматривать нагрузку и видно ли отношение USER/SYS в утилите htop.

Нагрузка на ядра процессоров выдаются символами псевдографики.

Закройте утилиту, нажав на клавиатуре клавишу q.

Цель этой части практики выбрать утилиту, с помощью которой удобнее просматривать нагрузку на ядра процессоров.

Часть 5. Сбор статистик в файл и его просмотр утилитой atop

1) Утилита atop позволяет собирать и записывать статистики в бинарный файл. Файл можно "проигрывать" на другом хосте и это удобно для анализа. Минимальная частота сбора статистик 1 раз в секунду, по умолчанию раз в 10 секунд. Объем собираемых данных большой, но можно параметрами настроить какие статистики собирать для уменьшения размера файла.

2) Запустите сбор статистик с интервалом в 1 секунду в файл /atop.record :

root@tantor:~# atop -w /atop.record 1

Терминал не вернёт промпт, это нормально. Если файл существовал, то утилита не сотрёт собранные данные, а начнет дописывать данные в конец файла.

3) В отдельном терминале пользователя root запустите утилиту atop в режиме просмотра бинарного файла:

astra@tantor:~$ atop -r /atop.record

Используйте клавиши на клавиатуре 't' и 'T' (<Shift+t>) для перехода к следующему и возврату к предыдущему интервалу. В первой строке, выдаваемой утилитой показывается время на которое были собраны статистики. Для выхода из утилиты нажмите клавишу 'q'.

4) В терминале, где запущена утилита нажмите <ctrl+c>:

root@tantor:~# atop -w /atop.record 1

root@tantor:~#

Утилита остановится. Файл можно повторно просматривать утилитой atop. Можно скопировать файл на другой хост и просматривать файл на другом хосте.

5) Удалите файл /atop.record:

root@tantor:~# rm -f /atop.record

6) Если утилита pg_basebackup не закончила резервирование, прервите работу утилиты, нажав на клавиатуре комбинацию клавиш <ctrl+c>:

postgres@tantor:~$ time pg_basebackup -c fast -D $HOME/backup/1 -P -r 50k

^C3781/902114 kB (68%), 0/1 tablespace

real 19m57.486s

user 19m53.055s

sys 0m3.413s

Обратите внимание, что утилита time выдала корректные значения USER/SYS.

7) Удалите директорию c бэкапом:

postgres@tantor:~$ rm -rf /var/lib/postgresql/backup/1

Часть 6. Источник времени linux

1) Посмотрите список источников, которые linux счел возможными к использованию:

postgres@tantor:~$ cat /sys/devices/system/clocksource/clocksource0/available_clocksource

tsc acpi_pm

2) Посмотрите, какой источник времени используется:

postgres@tantor:~$ cat /sys/devices/system/clocksource/clocksource0/current_clocksource

tsc

3) Создайте текстовый файл с названием clock_timing.c и содержимым:

#include <time.h>

int main()

{

int rc;

long i;

struct timespec ts;

for(i=0; i<10000000; i++) rc = clock_gettime(CLOCK_MONOTONIC, &ts);

return 0;

}

4) Скомпилируйте файл:

postgres@tantor:~$ gcc clock_timing.c -o clock_timing -lrt

5) Программа 10 миллионов раз считывает показатель времени. Измерьте время выполнения программы:

postgres@tantor:~$ time ./clock_timing

real 0m13,967s

user 0m13,938s

sys 0m0,008s

Утилита time удобна для получения времени выполнения программ. Она возвращает реальные USER/SYS и общее время выполнения программы.

6) Выполните команду pg_test_timing:

postgres@tantor:~$ pg_test_timing

Testing timing overhead for 3 seconds.

Per loop time including overhead: 3931.22 ns

Histogram of timing durations:

< us % of total count

1 0.02475 497

2 60.52305 1215427

4 39.20322 787281

8 0.02480 498

16 0.08869 1781

32 0.06384 1282

64 0.05348 1074

128 0.01215 244

256 0.00388 78

512 0.00065 13

1024 0.00060 12

2048 0.00030 6

4096 0.00035 7

8192 0.00020 4

16384 0.00005 1

Программа pg_test_timing стандартно поставляется с PostgreSQL, используется для измерения скорости источника времени, выдаёт распределение выдаваемых источником времени значений.

Максимум распределения на ~2.5 миллисекундах.

Символами "us" обозначаются миллисекунды (µs). Колебания выдачи времени в приведённом выводе утилиты не меньше 1 миллисекунды. Это значит, что числа менее 1 миллисекунды являются случайными.

Программа pg_test_timing даёт более детальную информацию, чем clock_timing.c. Программа clock_timing.c приведена для иллюстрации простоты создания собственных тестов на языке С. На языке C написан код PostgreSQL.

7) Создайте таблицу для теста, выполнив команды в psql:

postgres=# drop table if exists t;

create table t(pk bigserial, c1 text default 'aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa');

insert into t select *, 'a' from generate_series(1, 100000);

DROP TABLE

CREATE TABLE

INSERT 0 100000

8) Выполните команду:

postgres=# explain analyze select count(pk) from t;

QUERY PLAN

----------------------------------------------------------------------------------------------

Aggregate (cost=1352.50..1352.51 rows=1 width=8) (actual time=307.270..307.276 rows=1 loops=1)

-> Seq Scan on t (cost=0.00..1190.20 rows=64920 width=8) (actual time=0.017..152.937 rows=100000 loops=1)

Planning Time: 0.038 ms

Execution Time: 307.383 ms

(4 rows)

Время выполнения команды 307 миллисекунд.

9) Замените источник времени tsc на acpi_pm. В консоли root выполните команду:

root@tantor:~# echo acpi_pm>/sys/devices/system/clocksource/clocksource0/current_clocksource

Команду можно выполнить, не переключаясь в консоль root:

postgres@tantor:~$

sudo sh -c 'echo acpi_pm>/sys/devices/system/clocksource/clocksource0/current_clocksource'

10) Выполните команду:

postgres=# explain analyze select count(pk) from t;

QUERY PLAN

-----------------------------------------------------------------------------

Aggregate (cost=1352.50..1352.51 rows=1 width=8) (actual time=805.557..805.573 rows=1 loops=1)

-> Seq Scan on t (cost=0.00..1190.20 rows=64920 width=8) (actual time=0.015..399.513 rows=100000 loops=1)

Planning Time: 0.148 ms

Execution Time: 805.792 ms

(4 rows)

Время выполнения команды увеличилось с 0.3 до 0.8 секунд.

На время выполнения простой команды explain analyze заметно повлияло изменение источника времени.

11) Измерьте время выполнения программы:

postgres@tantor:~$ time ./clock_timing

real 0m38.669s

user 0m16.329s

sys 0m22.331s

Время выполнения заметно увеличилось - почти в 3 раза. Пропорция USER/SYS изменилась с 1:1 на 8:11. Можно убедиться, что пропорция USER/SYS может использоваться для выявления неэффективного кода. Перекос пропорции в сторону SYS (отклонение от пропорции 60:40) указывает на то, что код ядра, выдающий время, неэффективен.

12) Выполните команду pg_test_timing:

postgres@tantor:~$ pg_test_timing

Testing timing overhead for 3 seconds.

Per loop time including overhead: 3889.59 ns

Histogram of timing durations:

< us % of total count

1 0.00389 30

2 0.00052 4

4 25.33700 195422

8 74.23528 572570

16 0.21470 1656

32 0.08376 646

64 0.10411 803

128 0.01776 137

256 0.00117 9

512 0.00013 1

1024 0.00052 4

2048 0.00052 4

4096 0.00039 3

8192 0.00000 0

16384 0.00026 2

Максимум распределения скорости выдачи временной метки с источником времени acpi_pm стал ~7 миллисекунд, а с источником времени tsc был ~ 2.5 миллисекунды.

13) Верните источник времени tsc:

root@tantor:~# echo tsc>/sys/devices/system/clocksource/clocksource0/current_clocksource

или

postgres@tantor:~$

sudo sh -c 'echo tsc>/sys/devices/system/clocksource/clocksource0/current_clocksource'

По умолчанию, источник времени каждый раз выбирается linux при загрузке. Есть вероятность, что будет произвольно выбран медленный источник времени. Такое может произойти и после обновления ядра linux. Вероятность увеличивают: неотключение энергосбережения в BIOS, включение Hyper Threading в BIOS, любая активность оборудования в процессе тестирования источника времени, например, активность Intel ME. Вероятность произвольной замены источника времени высока на виртуальных машинах, так как при загрузке виртуальной машины нагрузка на аппаратуру неравномерна. Рекомендуется проверять, какой источник времени используется или фиксировать желаемый источник времени в параметрах загрузке ядра linux. Пример изменения /boot/grub/grub.cfg приведён в теоретической части курса. Наиболее быстрый источник времени tsc.

Часть 7. Сетевые соединения

1) Откройте терминал пользователя root или переключитесь в консоль root:

postgres@tantor:~$ su -

Password: root

2) Посмотрите включён ли алгоритм медленного старта после простоя:

root@tantor:~# sysctl -a | grep net.ipv4.tcp_slow_start_after_idle

net.ipv4.tcp_slow_start_after_idle = 1

Алгоритм медленного старта после простоя включён. Если сессия простаивала и сетевого трафика не было, то в сетях с заметной сетевой задержкой (network latency) скорость передачи данных будет нарастать постепенно, а не сразу использовать полосу пропускания сети. Первые три пакета TCP передаются без задержки. Этого обычно достаточно для передачи команд и небольших результатов. Большая часть OLTP систем не испытывают замедления, так как запрос и результат вписывается в три сетевых пакета.

3) Посмотрите какой алгоритм управления нагрузкой на сетевой канал передачи данных используется:

root@tantor:~# sysctl -a | grep net.ipv4.tcp_congestion_control

net.ipv4.tcp_congestion_control = cubic

Используется алгоритм cubic. Это алгоритм, который устанавливает объем передаваемых данных измеряя потери пакетов TCP, что нежелательно и приводит к повторной передаче пакетов. Вероятность передачи больших объемов данных, использования сети с большой сетевой задержкой мала, поэтому на выбор алгоритма редко обращают внимание и сеть не является узким местом для СУБД и их клиентов. Однако, если по сетевому каналу передаются большие объемы данных, а это поточная репликация и резервирование, то их эффективность может быть меньше, чем могла бы быть.

4) Посмотрите параметры, определяющие поддержание сокета открытым:

root@tantor:~# sysctl -a | grep keepalive

net.ipv4.tcp_keepalive_intvl = 75

net.ipv4.tcp_keepalive_probes = 9

net.ipv4.tcp_keepalive_time = 7200

Это значения по умолчанию и их можно уменьшить.

Кроме этих параметров меняют значения параметра net.ipv4.tcp_retries2 и упомянутого ранее net.ipv4.tcp_slow_start_after_idle.

Часть 8. Замена политики планирования и проверка работы планировщика

1) Создайте файл для тестирования нагрузки на процессор:

astra@tantor:~$ mcedit i.sh

#!/bin/sh

while true; do echo 1 > /dev/null ; done;

2) Проверьте, что содержимое файла успешно сохранилось:

astra@tantor:~$ cat i.sh

#!/bin/sh

while true; do echo 1 > /dev/null ; done;

3) Запустите процессы равное числу ядер процессоров виртуальной машины. Приведён пример для четырёх ядер:

astra@tantor:~$ nproc

astra@tantor:~$ taskset./i.sh &

[2] 212239

astra@tantor:~$ taskset./i.sh &

[3] 212242

astra@tantor:~$ taskset./i.sh &

[4] 212243

astra@tantor:~$ taskset./i.sh &

[5] 212244

4) Два процесса нагружают оба ядра на 100%. Это можно проверить утилитой top.

Убедитесь, что утилита pidstat вводит в заблуждение, показывает небольшую нагрузку:

root@tantor:~# pidstat -w | grep i.sh

06:58:52 AM 1000 212239 0.00 0.02 i.sh

06:58:52 AM 1000 212242 0.00 0.02 i.sh

06:58:52 AM 1000 212243 0.00 0.02 i.sh

06:58:52 AM 1000 212244 0.00 0.02 i.sh

5) Посмотрите, что показывает утилита vmstat:

root@tantor:~# vmstat

procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----

r b swpd free buff cache si so bi bo in cs us sy id wa st

7 0 0 179276 271824 720548 0 0 2 3 75 78 2 0 98 0 0

Утилита vmstat показывает отсутствие нагрузки и небольшое число переключений контекстов.

При том, что число переключений довольно большое.

Выполните команду с интервалом примерно в секунду:

astra@tantor:~$ grep ctxt /proc/22242/status

voluntary_ctxt_switches: 0

nonvoluntary_ctxt_switches: 3841

astra@tantor:~$ grep ctxt /proc/22242/status

voluntary_ctxt_switches: 0

nonvoluntary_ctxt_switches: 3945

Контексты переключаются с частотой 100 раз в секунду.

6) Установите для процессов политику планировщика SCED_RR (Round Robin Scheduler) - timeslice выделенный процессам одинаков и равен значению параметра kernel.sched_rr_timeslice_ms:

astra@tantor:~# sudo chrt -r -p 10 212242

astra@tantor:~# sudo chrt -r -p 10 212239

astra@tantor:~# sudo chrt -r -p 10 212243

astra@tantor:~# sudo chrt -r -p 10 212244

Процессы с политикой SCHED_DEADLINE могут вытеснять процессы с SCHED_FIFO и SCHED_RR, то есть являются наиболее приоритетными.

7) Проверьте результат выполнения команды:

astra@tantor:~$ chrt -p 212242

pid 212242's current scheduling policy: SCHED_RR

pid 212242's current scheduling priority: 10

8) Выполните команду с интервалом примерно в секунду:

root@tantor:~# grep ctxt /proc/212233/status

voluntary_ctxt_switches: 0

nonvoluntary_ctxt_switches: 27518

root@tantor:~# grep ctxt /proc/212233/status

voluntary_ctxt_switches: 0

nonvoluntary_ctxt_switches: 27523

Контексты стали переключаться с частотой 10 раз в секунду

9) Посмотрите timeslice планировщика RR:

astra@tantor:~$ sudo sysctl -a | grep kernel.sched_rr_timeslice_ms

kernel.sched_rr_timeslice_ms = 100

timeslice 100 миллисекунд = 1/10 секунды, что соответствует переключению 10 раз в секунду.

10) Установите timeslice в одну секунду:

astra@tantor:~# sudo sysctl kernel.sched_rr_timeslice_ms=1000

kernel.sched_rr_timeslice_ms = 1000

Частота переключений контекста не будет чаще 100 раз в секунду независимо от настроек. Это правильно, так как позволяет не производить большие накладные расходы на работу планировщика по переключению контекстов.

11) Проверьте, что контексты процессов c RR политикой стали переключаться раз в секунду. Выполните команды с интервалом раз в секунду и посмотрите насколько поменяются значения счетчика принудительных переключений контекста:

root@tantor:~# grep ctxt /proc/212233/status

voluntary_ctxt_switches: 0

nonvoluntary_ctxt_switches: 62348

root@tantor:~# grep ctxt /proc/212233/status

voluntary_ctxt_switches: 0

nonvoluntary_ctxt_switches: 62349

Значения будут увеличиваться на единицу с частотой раз в секунду.

12) Запустите команду и примерно через 20 секунд прервите её выполнение набрав <ctrl+c>:

root@tantor:~# perf stat -p 212233

Performance counter stats for process id '22381':

9,340.10 msec task-clock:u # 0.477 CPUs utilized

0 context-switches:u # 0.000 /sec

0 cpu-migrations:u # 0.000 /sec

0 page-faults:u # 0.000 /sec

<not supported> cycles:u

<not supported> instructions:u

<not supported> branches:u

<not supported> branch-misses:u

19.595645993 seconds time elapsed

Утилита perf выдает верные данные ноль произвольных переключений контекстов в секунду. Число принудительных переключений, которые более ценны для диагностики не показывает, чем вводит в заблуждение.

Утилита top при этом показывает правильные данные с достаточной точностью для частоты переключений контекстов в 1 секунду: загрузка ядер процессоров доходит до 100%. Суммарная загрузка всех ядрер %CPU по ~50% у каждого процесса i.sh

13) Остановите процессы:

astra@tantor:~$ killall i.sh

[1]- Terminated taskset./i.sh

[2]+ Terminated taskset./i.sh

В этой части практики вы изучили как можно протестировать результат изменений параметров планировщика. По приведённому примеру можно протестировать работу планировщиков SCHED_OTHER, SCHED_FIFO, SCHED_DEADLINE.

Политика SCHED_OTHER (и её производные SCHED_BATCH, SСHED_IDLE) не являются политиками реального времени. К политикам реального времени (для интерактивных задач, где важна отзывчивость - получать timeslice с какой-то частотой) относятся: SCHED_FIFO - вытесняется только процессами с более высоким приоритетом или политикой SCHED_DEADLINE. Установка процессу политики SCHED_FIFO приводит к тому, что процесс может надолго занять ядро.

Практика к главе 4

Часть 1. Параметры дисковой подсистемы

1) Блочные устройства располагаются в директории /dev смонтированной на виртуальной файловой системе devtmpfs. Посмотрите какие устройства из /dev смонтированы:

root@tantor:~# mount | grep /dev

udev on /dev type devtmpfs (rw,nosuid,relatime,size=1966296k,nr_inodes=491574,mode=755,inode64)

devpts on /dev/pts type devpts (rw,nosuid,noexec,relatime,gid=5,mode=620,ptmxmode=000)

/dev/sda1 on / type ext4 (rw,relatime)

tmpfs on /dev/shm type tmpfs (rw,nosuid,nodev,inode64)

hugetlbfs on /dev/hugepages type hugetlbfs (rw,relatime,pagesize=2M)

mqueue on /dev/mqueue type mqueue (rw,nosuid,nodev,noexec,relatime)

В /dev находятся файлы только тех устройств, которые в настоящий момент доступны (подключены). Если устройство отключается, то файл удаляется из /dev.

В виртуальной машине смонтирован первый раздел /dev/sda.

2) Посмотрите список блочных устройств:

root@tantor:~# ls -l /dev | grep br

brw-rw---- 1 root disk 7, 0 loop0

brw-rw---- 1 root disk 7, 1 loop1

brw-rw---- 1 root disk 7, 2 loop2

brw-rw---- 1 root disk 7, 3 loop3

brw-rw---- 1 root disk 7, 4 loop4

brw-rw---- 1 root disk 7, 5 loop5

brw-rw---- 1 root disk 7, 6 loop6

brw-rw---- 1 root disk 7, 7 loop7

brw-rw---- 1 root disk 259, 0 nvme0n1

brw-rw---- 1 root disk 8, 0 sda

brw-rw---- 1 root disk 8, 1 sda1

brw-rw----+ 1 root cdrom 11, 0 sr0

В виртуальной машине подключен виртуальный диск /dev/sda с одним разделом /dev/sda1.

Первая буква b обозначает block device. Вместо размера файла выдаются два числа: тип и порядковый номер (или режим работы) устройства.

3) Посмотрите содержимое директории /sys/dev/block:

root@tantor:~# ls -al /sys/dev/block

total 0

drwxr-xr-x 2 root root 0 .

drwxr-xr-x 4 root root 0 ..

lrwxrwxrwx 1 root root 0 11:0 -> ../../devices/pci0000:00/0000:00:01.1/ata2/host1/target1:0:0/1:0:0:0/block/sr0

lrwxrwxrwx 1 root root 0 259:0 -> ../../devices/pci0000:00/0000:00:0e.0/nvme/nvme0/nvme0n1

lrwxrwxrwx 1 root root 0 7:0 -> ../../devices/virtual/block/loop0

lrwxrwxrwx 1 root root 0 7:1 -> ../../devices/virtual/block/loop1

lrwxrwxrwx 1 root root 0 7:2 -> ../../devices/virtual/block/loop2

lrwxrwxrwx 1 root root 0 7:3 -> ../../devices/virtual/block/loop3

lrwxrwxrwx 1 root root 0 7:4 -> ../../devices/virtual/block/loop4

lrwxrwxrwx 1 root root 0 7:5 -> ../../devices/virtual/block/loop5

lrwxrwxrwx 1 root root 0 7:6 -> ../../devices/virtual/block/loop6

lrwxrwxrwx 1 root root 0 7:7 -> ../../devices/virtual/block/loop7

lrwxrwxrwx 1 root root 0 8:0 -> ../../devices/pci0000:00/0000:00:0d.0/ata1/host0/target0:0:0/0:0:0:0/block/sda

lrwxrwxrwx 1 root root 0 8:1 -> ../../devices/pci0000:00/0000:00:0d.0/ata1/host0/target0:0:0/0:0:0:0/block/sda/sda1

Директория содержит символические ссылки на блочные устройства. Устройство sda подключено к шине PCI через интерфейс ATA.

4) Посмотрите какой используется планировщик ввода-вывода с устройством sda:

root@tantor:~# cat /sys/block/sda/queue/scheduler

[none] mq-deadline

root@tantor:~# cat /sys/dev/block/8:0/queue/scheduler

[none] mq-deadline

С устройством sda используется планировщик с названием none.

5) Выполните следующие команды:

root@tantor:~# echo kyber > /sys/block/sda/queue/scheduler

root@tantor:~# cat /sys/dev/block/8:0/queue/scheduler

none mq-deadline [kyber]

root@tantor:~# echo bfq > /sys/block/sda/queue/scheduler

root@tantor:~# cat /sys/block/sda/queue/scheduler

none mq-deadline kyber [bfq]

root@tantor:~# echo abc > /sys/block/sda/queue/scheduler

-bash: echo: write error: Invalid argument

root@tantor:~# echo none > /sys/block/sda/queue/scheduler

root@tantor:~# cat /sys/block/sda/queue/scheduler

[none] mq-deadline kyber bfq

Команды меняют планировщик. Несуществующий планировщик abc указать нельзя. Изначально показывались не все доступные планировщики, сейчас показываются.

6) Посмотрите содержимое файла /etc/udev/rules.d/70-schedulerset.rules, в котором устанавливаются параметры выбора планировщика ввода-вывода:

root@tantor:~# cat /etc/udev/rules.d/70-schedulerset.rules

ACTION=="add|change", KERNEL=="sd[a-z]", ATTR{queue/rotational}=="0", ATTR{queue/scheduler}="none"

Для всех устройств с названиями sda..sdz указан планировщик none.

7) Посмотрите размер физического сектора устройства:

root@tantor:~# lsblk -td

NAME ALIGNMENT MIN-IO OPT-IO PHY-SEC LOG-SEC ROTA SCHED RQ-SIZE RA WSAME

sda 0 512 0 512 512 0 none 32 128 0B

sr0 0 512 0 512 512 1 mq-deadline 2 128 0B

Linux считает, что размер сектора устройства sda 512 байт.

8) Посмотрите параметры, с которыми была смонтирована файловая система на разделе /dev/sda1:

root@tantor:~# tune2fs -l /dev/sda1 | grep opt

Default mount options: user_xattr acl

root@tantor:~# mount | grep ext4

/dev/sda1 on / type ext4 (rw,relatime)

root@tantor:~# cat /etc/fstab | grep ext4

UUID=aca1a090-eba2-49ba-a8fc-ba12e9e2bf26 / ext4 defaults 1 1

Файловая система смонтирована с параметрами по умолчанию. Параметры, которые определяют функционал файловой системы могут храниться в самом разделе (в "суперблоке").

9) Посмотрите полный список параметров:

root@tantor:~# cat /proc/fs/ext4/sda1/options

bsddf

nogrpid

block_validity

dioread_nolock

nodiscard

delalloc

nowarn_on_error

journal_checksum

barrier

auto_da_alloc

user_xattr

acl

noquota

resuid=0

resgid=0

errors=continue

commit=5

min_batch_time=0

max_batch_time=15000

stripe=0

data=ordered

inode_readahead_blks=32

init_itable=10

max_dir_size_kb=0

10) Установите свойство discard в суперблоке файловой системы и проверьте, что оно установлено:

root@tantor:~# tune2fs -o +discard /dev/sda1

tune2fs 1.47.0 (5-Feb-2023)

root@tantor:~# tune2fs -l /dev/sda1 | grep opt

Default mount options: user_xattr acl discard

К опциям, которые были добавилось свойство discard.

Опция discard может устанавливаться:

в суперблоке файловой системы как опция монтирования по умолчанию

в файле параметров монтирования файловой системы — /etc/fstab

в конфигурации cryptsetup — /etc/crypttab

в конфигурации LVM — /etc/lvm/lvm.conf

в конфигурации загрузчика — /boot/grub/grub.cfg

11) Проверьте, посылались ли команды discard операционной системой в контроллер sda:

root@tantor:~# fstrim -v /

fstrim: /: the discard operation is not supported

root@tantor:~# lsblk --discard

NAME DISC-ALN DISC-GRAN DISC-MAX DISC-ZERO

sda 0 0B 0B 0

└─sda1 0 0B 0B 0

sr0 0 0B 0B 0

Нули в DISC-GRAN и DISC-MAX означают, что discard не использовался.

Команды discard не посылались.

В виртуальной машине, на которой выполняются практики, разделы являются файлами. Файлы занимают место в файловой системе хоста, поэтому discard не используется.

12) Посмотрите как называется пакет, в котором устанавливалась утилита fstrim:

root@tantor:~# dpkg -S fstrim

util-linux: /sbin/fstrim

util-linux: /usr/share/man/man8/fstrim.8.gz

util-linux: /lib/systemd/system/fstrim.service

util-linux: /lib/systemd/system/fstrim.timer

util-linux: /usr/share/bash-completion/completions/fstrim

Пакет называется util-linux

Часть 2. Установка пакетов в Astralinux

1) Запустите новый терминал. В терминале пользователя astra запустите утилиту synaptic-pkexec:

astra@tantor:~$ synaptic-pkexec

В окне ввода пароля введите astra и нажмите кнопку OK

Synaptic это графический пакетный менеджер в Astralinux.

2) В меню Settings -> Repositories проверьте, что установлены две галочки на основном и расширенном репозиториях. Нажмите кнопку OK.

3) В меню Edit -> Search наберите fio. В поле Look in выберите Name. Нажмите кнопку Search:

4) В высветившимся списке пакетов выберите пакет fio. Если утилита установлена (есть зеленый кружок перед названием утилиты), то пропустите этот пункт. Также можно установить пакет uuid-runtime, если пакет uuid-runtime не установлен.

Если утилита fio не установлена, то в выпадающем меню выберите "Mark for installation". Если окно не закрылось нажмите Mark. На toolbar (три кнопки под меню) нажмите кнопку Apply. В появившемся окне нажмите кнопку Apply. Если появится окно с вопросом про Kernel update нажмите Next.

5) Закройте окно Synaptic нажав крестик справа вверху окна приложения Synaptic.

6) В окне терминала пользователя astra наберите команду:

astra@tantor:~$ sudo apt install fio -y

Reading package lists... Done

Building dependency tree... Done

Reading state information... Done

fio is already the newest version (3.33-3+b1).

0 upgraded, 0 newly installed, 0 to remove and 636 not upgraded.

В примере команда показывает, что пакет fio установлен.

Закройте терминал пользователя astra набрав в нем комбинацию клавиш <ctrl+d>

7) Установите пакеты nvme-cli и uuid-runtime:

root@tantor:~# apt install nvme-cli uuid-runtime -y

Если откроется окно с псевдографикой синего цвета, нажмите OK в первом окне:

Окно уведомляет о том, что нужно обновить все пакеты для которых вышли обновления.

Убрать уведомления можно деинсталлировав пакет apt -y remove needrestart

Активный элемент окон псевдографики подсвечивается красным цветом. Для перехода между визуальными элементами окна используется клавиша <TAB>, клавиши стрелок на клавиатуре или мышь.

Откроется следующее окно. Нажмите клавишу <TAB>, в окне подсветится визуальный элемент <OK>.

Служба uuidd будет запущена без перезагрузки linux и предлагается перезагрузить службы, которые зависят от того, что было выполнено при установке пакета. Набор служб менять не нужно. Если подсвечен красным цветом элемент окна <OK>, то нажмите на клавиатуре клавишу <ENTER> или кликните мышкой на элемент окна <OK.

Сообщение о желательности перелогиниться можно игнорировать и закрыть:

Была установлена утилита командной строки nvme и служба uuidd.

Утилита nvme, устанавливаемая в пакете nvme-cli используется для чтения характеристик и метрик устройств NVMe. Утилита используется для определения состояния чипов памяти, отслеживания срока службы, обновления прошивки, стирания содержимого, переинициализации, чтения журналов с ошибками.

Пакет uuidd обеспечивает уникальность генерируемых uuid на хостах с несколькими процессорами. Он устанавливается потому, что требуется для установки nvme-cli.

Утилита nvme используется для получения информации об устройствах NVMe.

Вы научились устанавливать пакеты в Astralinux.

Часть 3. Работа с SSD и тестирование производительности диска утилитой fio

1) Выполните несколько команд с помощью утилиты nvme:

root@tantor:~# nvme list

Nod Generic SN Model Namespace Usage Format FW Rev

------------ ---------- ------------ -------------------- --------- ----- ----------------------- --------

/dev/nvme0n1 /dev/ng0n1 VB1234-56789 ORCL-VBOX-NVME-VER12 1 8.59GB/8.59GB 512B + 0B 1.0

root@tantor:~# nvme list-subsys

nvme-subsys0 - NQN=nqn.2014.08.org.nvmexpress:80ee80eeVB1234-56789 ORCL-VBOX-NVME-VER12

+- nvme0 pcie 0000:00:0e.0 live

root@tantor:~# nvme id-ctrl /dev/nvme0n1 | head -6

NVME Identify Controller:

vid : 0x80ee

ssvid : 0x80ee

sn : VB1234-56789

mn : ORCL-VBOX-NVME-VER12

fr : 1.0

2) Посмотрите список устройств nvme:

root@tantor:~# ls /dev/nvm*

/dev/nvme0 /dev/nvme0n1 /dev/nvme-fabrics

Имеется одно устройство NVMe.

3) Создайте файловую систему на устройстве NVMe:

root@tantor:~# mkfs -E discard /dev/nvme0n1

mke2fs 1.47.0 (5-Feb-2023)

Creating filesystem with 2097152 4k blocks and 524288 inodes

Filesystem UUID: 0c0f68b7-d1d9-47ff-908c-9831503837f3

Superblock backups stored on blocks: 32768, 98304, 163840, 229376, 294912, 819200, 884736, 1605632

Allocating group tables: done

Writing inode tables: done

Writing superblocks and filesystem accounting information: done

Опция используется по умолчанию. Приведена для того, чтобы подчеркнуть важность очистки содержимого SSD. В описании команды ( man mkfs.ext4 ) указано, что опция discard посылает на контроллер устройства команду очистки содержимого:

Attempt to discard blocks at mkfs time (discarding blocks initially is useful on solid state devices and sparse / thin-provisioned storage). When the device advertises that discard also zeroes data (any subsequent read after the discard and before write returns zero), then mark all not-yet-zeroed inode tables as zeroed. This significantly speeds up file system initialization. This is set as default.

Обратите внимание, что журнал не был создан, отсутствует строка:

Creating journal (16384 blocks): done

4) Измените суперблок файловой системы, включив опцию discard:

root@tantor:~# tune2fs -o +discard /dev/nvme0n1

tune2fs 1.47.0 (5-Feb-2023)

5) Создайте директорию /u01, смонтируйте в неё созданную файловую систему, посмотрите какой размер у смонтированного раздела:

root@tantor:~# mkdir /u01

root@tantor:~# mount /dev/nvme0n1 /u01

root@tantor:/# df -Th | grep "^/dev"

/dev/sda1 ext4 47G 16G 29G 36% /

/dev/nvme0n1 ext2 7.9G 24K 7.5G 1% /u01

Раздел смонтирован в /u01, его размер 8Гб, файловая система ext2.

6) В терминале пользователя root выполните команду:

root@tantor:~# fio --ioengine=psync --filename=/tmp/test --size=1G --time_based --name=fio --group_reporting --runtime=10 --direct=1 --sync=1 --iodepth=1 --rw=read --bs=8k --numjobs=1

fio: (g=0): rw=read, bs=(R) 8192B-8192B, (W) 8192B-8192B, (T) 8192B-8192B, ioengine=psync, iodepth=1

fio-3.33

Starting 1 process

fio: Laying out IO file (1 file / 1024MiB)

Jobs: 1 (f=1): [R(1)][100.0%][r=36.4MiB/s][r=4664 IOPS][eta 00m:00s]

fio: (groupid=0, jobs=1): err= 0: pid=7432: Mon Dec 9 00:07:59 2024

read: IOPS=4682, BW=36.6MiB/s (38.4MB/s)(366MiB/10001msec)

clat (usec): min=92, max=8607, avg=207.12, stdev=306.94

lat (usec): min=93, max=8608, avg=208.56, stdev=306.95

clat percentiles (usec):

| 1.00th=[ 143], 5.00th=[ 149], 10.00th=[ 151], 20.00th=[ 155],

| 30.00th=[ 157], 40.00th=[ 159], 50.00th=[ 159], 60.00th=[ 161],

| 70.00th=[ 165], 80.00th=[ 172], 90.00th=[ 237], 95.00th=[ 253],

| 99.00th=[ 2245], 99.50th=[ 2900], 99.90th=[ 3490], 99.95th=[ 3654],

| 99.99th=[ 3982]

bw ( KiB/s): min=33213, max=40688, per=100.00%, avg=37505.37, stdev=1932.35, samples=19

iops : min= 4151, max= 5086, avg=4687.95, stdev=241.58, samples=19

lat (usec) : 100=0.01%, 250=94.32%, 500=3.66%, 750=0.61%, 1000=0.03%

lat (msec) : 2=0.15%, 4=1.22%, 10=0.01%

cpu : usr=12.33%, sys=11.35%, ctx=46830, majf=0, minf=14

IO depths : 1=100.0%, 2=0.0%, 4=0.0%, 8=0.0%, 16=0.0%, 32=0.0%, >=64=0.0%

submit : 0=0.0%, 4=100.0%, 8=0.0%, 16=0.0%, 32=0.0%, 64=0.0%, >=64=0.0%

complete : 0=0.0%, 4=100.0%, 8=0.0%, 16=0.0%, 32=0.0%, 64=0.0%, >=64=0.0%

issued rwts: total=46827,0,0,0 short=0,0,0,0 dropped=0,0,0,0

latency : target=0, window=0, percentile=100.00%, depth=1

Run status group 0 (all jobs):

READ: bw=36.6MiB/s (38.4MB/s), 36.6MiB/s-36.6MiB/s (38.4MB/s-38.4MB/s), io=366MiB (384MB), run=10001-10001msec

Disk stats (read/write):

sda: ios=45651/4, merge=0/1, ticks=8268/7, in_queue=8282, util=97.89%

Красным выделены результаты теста. Остальной многословный вывод не требует внимания и используется в редких случаях.

Параметры теста:

Работа PostgreSQL с файловой системой соответствует --ioengine=psync

размер блока PostgreSQL --bs=8k

Размер очереди (iodepth) выбран 1, так как выбран direct=1

Тест выполнял только чтение из файла. Результат теста: максимальное число операций ввода-вывода IOPS=4682, средняя скорость 38.4MB/s.

7) Протестируйте раздел NVMe:

root@tantor:~# fio --ioengine=psync --filename=/u01/test --size=1G --time_based --name=fio --group_reporting --runtime=10 --direct=1 --sync=1 --iodepth=1 --rw=read --bs=8k --numjobs=1

fio: (g=0): rw=read, bs=(R) 8192B-8192B, (W) 8192B-8192B, (T) 8192B-8192B, ioengine=psync, iodepth=1

fio-3.33

Starting 1 process

fio: Laying out IO file (1 file / 1024MiB)

Jobs: 1 (f=1): [R(1)][100.0%][r=43.1MiB/s][r=5520 IOPS][eta 00m:00s]

fio: (groupid=0, jobs=1): err= 0: pid=7441: Mon Dec 9 00:08:59 2024

read: IOPS=5312, BW=41.5MiB/s (43.5MB/s)(415MiB/10001msec)

clat (usec): min=77, max=11930, avg=181.67, stdev=300.00

lat (usec): min=78, max=11932, avg=183.12, stdev=300.04

clat percentiles (usec):

| 1.00th=[ 128], 5.00th=[ 133], 10.00th=[ 137], 20.00th=[ 139],

| 30.00th=[ 141], 40.00th=[ 143], 50.00th=[ 145], 60.00th=[ 147],

| 70.00th=[ 149], 80.00th=[ 151], 90.00th=[ 167], 95.00th=[ 229],

| 99.00th=[ 2147], 99.50th=[ 2835], 99.90th=[ 3523], 99.95th=[ 3752],

| 99.99th=[ 5932]

bw ( KiB/s): min=38848, max=43936, per=99.80%, avg=42413.47, stdev=1514.01, samples=19

iops : min= 4856, max= 5492, avg=5301.68, stdev=189.25, samples=19

lat (usec) : 100=0.11%, 250=97.55%, 500=0.99%, 750=0.12%, 1000=0.08%

lat (msec) : 2=0.08%, 4=1.04%, 10=0.02%, 20=0.01%

cpu : usr=12.13%, sys=12.54%, ctx=53130, majf=0, minf=15

IO depths : 1=100.0%, 2=0.0%, 4=0.0%, 8=0.0%, 16=0.0%, 32=0.0%, >=64=0.0%

submit : 0=0.0%, 4=100.0%, 8=0.0%, 16=0.0%, 32=0.0%, 64=0.0%, >=64=0.0%

complete : 0=0.0%, 4=100.0%, 8=0.0%, 16=0.0%, 32=0.0%, 64=0.0%, >=64=0.0%

issued rwts: total=53128,0,0,0 short=0,0,0,0 dropped=0,0,0,0

latency : target=0, window=0, percentile=100.00%, depth=1

Run status group 0 (all jobs):

READ: bw=41.5MiB/s (43.5MB/s), 41.5MiB/s-41.5MiB/s (43.5MB/s-43.5MB/s), io=415MiB (435MB), run=10001-10001msec

Disk stats (read/write):

nvme0n1: ios=52790/2, merge=0/1, ticks=8283/5, in_queue=8289, util=98.93%

Физически виртуальная машина хранит /dev/sda и /dev/nvme0 в соседних файлах VMDK в файловой системе хоста. Используются разные типы шин ввода-вывода: SATA и NVMe. Заметная разница в производительности ~10%. Практический результат в том, что использование NVMe в VirtualBox имеет преимущество по сравнению с SATA AHCI.

8) Были созданы временные файлы /tmp/test и /u01/test размером 1Гб каждый. Удалите эти файлы:

root@tantor:~# rm -f /tmp/test

root@tantor:~# rm -f /u01/test

9) Размонтируйте /u01:

root@tantor:~# umount /u01

10) Этот пункт выполнять необязательно.

Пример тестирования записи в пределах раздела. Раздел должен быть отмонтирован и после теста пересоздан, так как содержимое раздела будет затёрто:

root@tantor:/# fio --filename=/dev/nvme0n1 --name=a --blocksize=4k --rw=randwrite --iodepth=32 --runtime=10 --fsync=1 | grep BW=

write: IOPS=583, BW=2335KiB/s (2391kB/s)(22.8MiB/10002msec); 0 zone resets

root@tantor:/# fio --filename=/dev/nvme0n1 --name=a --blocksize=8k --rw=randwrite --iodepth=32 --runtime=10 --fsync=1 | grep BW=

write: IOPS=561, BW=4491KiB/s (4599kB/s)(43.9MiB/10002msec); 0 zone resets

root@tantor:/# fio --filename=/dev/nvme0n1 --name=a --blocksize=16k --rw=randwrite --iodepth=32 --runtime=10 --fsync=1 | grep BW=

write: IOPS=504, BW=8066KiB/s (8260kB/s)(78.8MiB/10001msec); 0 zone resets

root@tantor:/# fio --filename=/dev/nvme0n1 --name=a --blocksize=32k --rw=randwrite --iodepth=32 --runtime=10 --fsync=1 | grep BW=

write: IOPS=411, BW=12.9MiB/s (13.5MB/s)(129MiB/10002msec); 0 zone resets

root@tantor:/# fio --filename=/dev/nvme0n1 --name=a --blocksize=64k --rw=randwrite --iodepth=32 --runtime=10 --fsync=1 | grep BW=

write: IOPS=321, BW=20.1MiB/s (21.1MB/s)(201MiB/10002msec); 0 zone resets

root@tantor:/# fio --filename=/dev/nvme0n1 --name=a --blocksize=128k --rw=randwrite --iodepth=32 --runtime=10 --fsync=1 | grep BW=

write: IOPS=276, BW=34.5MiB/s (36.2MB/s)(346MiB/10004msec); 0 zone resets

root@tantor:/# fio --filename=/dev/nvme0n1 --name=a --blocksize=4k --rw=randwrite --iodepth=32 --runtime=10 --fsync=0 | grep BW=

write: IOPS=26.6k, BW=104MiB/s (109MB/s)(1038MiB/10002msec); 0 zone resets

root@tantor:/# fio --filename=/dev/nvme0n1 --name=a --blocksize=8k --rw=randwrite --iodepth=32 --runtime=10 --fsync=0 | grep BW=

write: IOPS=16.6k, BW=130MiB/s (136MB/s)(1296MiB/10007msec); 0 zone resets

root@tantor:/# fio --filename=/dev/nvme0n1 --name=a --blocksize=16k --rw=randwrite --iodepth=32 --runtime=10 --fsync=0 | grep BW=

write: IOPS=9845, BW=154MiB/s (161MB/s)(1539MiB/10006msec); 0 zone resets

root@tantor:/# fio --filename=/dev/nvme0n1 --name=a --blocksize=32k --rw=randwrite --iodepth=32 --runtime=10 --fsync=0 | grep BW=

write: IOPS=8015, BW=250MiB/s (263MB/s)(2508MiB/10015msec); 0 zone resets

root@tantor:/# fio --filename=/dev/nvme0n1 --name=a --blocksize=64k --rw=randwrite --iodepth=32 --runtime=10 --fsync=0 | grep BW=

write: IOPS=4582, BW=286MiB/s (300MB/s)(2864MiB/10001msec); 0 zone resets

В примерах тестировалась параллельная произвольная запись блоков разного размера с fsync и без fsync. Опция fsync передаёт пожелание контроллеру устройства произвести запись, очистив внутренние кэши устройства хранения. Гарантия записи определяется контроллером устройства. Утилита fio может читать и писать как в файлы, так и напрямую работать с разделами дисков и с устройствами. Это позволяет измерять работу физических интерфейсов и устройств без задействования страничного кэша linux.

Часть 4. Тестирование журнала быстрой фиксации ext4

1) Создайте журналируемую файловую систему ext4 на разделе /dev/nvme0n1:

root@tantor:~# mkfs.ext4 /dev/nvme0n1

mke2fs 1.47.0 (5-Feb-2023)

/dev/nvme0n1 contains a ext2 file system

Proceed anyway? (y,N) y

Creating filesystem with 2097152 4k blocks and 524288 inodes

Filesystem UUID: 9c8c5140-2744-4f2f-acc6-baeab282efd6

Superblock backups stored on blocks:

32768, 98304, 163840, 229376, 294912, 819200, 884736, 1605632

Allocating group tables: done

Writing inode tables: done

Creating journal (16384 blocks): done

Writing superblocks and filesystem accounting information: done

Примечание: добавление журнала возможно без форматирования командой:

tune2fs -O +has_journal /dev/nvme0n1

Данные в файловой системе сохраняются.

2) Посмотрите характеристики созданной файловой системы:

root@tantor:/# dumpe2fs /dev/nvme0n1 | head -55

dumpe2fs 1.47.0 (5-Feb-2023)

Filesystem volume name: <none>

Last mounted on: <not available>

Filesystem UUID: d38ab2fb-3ba2-4593-9ce4-e5ce9ed6c06c

Filesystem magic number: 0xEF53

Filesystem revision #: 1 (dynamic)

Filesystem features: has_journal ext_attr resize_inode dir_index filetype extent 64bit flex_bg sparse_super large_file huge_file dir_nlink extra_isize metadata_csum

Filesystem flags: signed_directory_hash

Default mount options: user_xattr acl

Filesystem state: clean

Errors behavior: Continue

Filesystem OS type: Linux

Inode count: 524288

Block count: 2097152

Reserved block count: 104857

Overhead clusters: 58505

Free blocks: 2038641

Free inodes: 524277

First block: 0

Block size: 4096

Fragment size: 4096

Group descriptor size: 64

Reserved GDT blocks: 1023

Blocks per group: 32768

Fragments per group: 32768

Inodes per group: 8192

Inode blocks per group: 512

Flex block group size: 16

Filesystem created: Sun Dec 8 01:14:49 2035

Last mount time: n/a

Last write time: Sun Dec 8 01:14:49 2035

Mount count: 0

Maximum mount count: -1

Last checked: Sun Dec 8 01:14:49 2035

Check interval: 0 (<none>)

Lifetime writes: 4129 kB

Reserved blocks uid: 0 (user root)

Reserved blocks gid: 0 (group root)

First inode: 11

Inode size: 256

Required extra isize: 32

Desired extra isize: 32

Journal inode: 8

Default directory hash: half_md4

Directory Hash Seed: 3e913b49-f24d-4c17-a94d-b66abf6f0e9e

Journal backup: inode blocks

Checksum type: crc32c

Checksum: 0x37fd9c6b

Journal features: (none)

Total journal size: 64M

Total journal blocks: 16384

Max transaction length: 16384

Fast commit length: 0

Journal sequence: 0x00000001

Journal start: 0

3) Смонтируйте созданную файловую систему в /u01:

root@tantor:/# mount /dev/nvme0n1 /u01

4) Перейдите в корень смонтированной файловой системы, создайте директорию. перейдите в неё и запустите тест скорости записи в WAL-файлы:

root@tantor:/# cd /u01

root@tantor:/u01# mkdir a1

root@tantor:/u01# cd a1

root@tantor:/u01/a1# pg_test_fsync

5 seconds per test

O_DIRECT supported on this platform for open_datasync and open_sync.

Compare file sync methods using one 8kB write:

(in wal_sync_method preference order, except fdatasync is Linux's default)

open_datasync 566.595 ops/sec 1765 usecs/op

fdatasync 567.752 ops/sec 1761 usecs/op

fsync 194.505 ops/sec 5141 usecs/op

fsync_writethrough n/a

open_sync 202.077 ops/sec 4949 usecs/op

Compare file sync methods using two 8kB writes:

(in wal_sync_method preference order, except fdatasync is Linux's default)

open_datasync 287.440 ops/sec 3479 usecs/op

fdatasync 506.992 ops/sec 1972 usecs/op

fsync 189.935 ops/sec 5265 usecs/op

fsync_writethrough n/a

open_sync 97.948 ops/sec 10209 usecs/op

Compare open_sync with different write sizes:

(This is designed to compare the cost of writing 16kB in different write

open_sync sizes.)

1 * 16kB open_sync write 185.468 ops/sec 5392 usecs/op

2 * 8kB open_sync writes 100.674 ops/sec 9933 usecs/op

4 * 4kB open_sync writes 48.484 ops/sec 20625 usecs/op

8 * 2kB open_sync writes 25.928 ops/sec 38569 usecs/op

16 * 1kB open_sync writes 12.982 ops/sec 77033 usecs/op

Test if fsync on non-write file descriptor is honored:

(If the times are similar, fsync() can sync data written on a different

descriptor.)

write, fsync, close 192.591 ops/sec 5192 usecs/op

write, close, fsync 195.865 ops/sec 5106 usecs/op

Non-sync'ed 8kB writes:

write 450551.547 ops/sec 2 usecs/op

Утилита pg_test_fsync тестирует скорость записи различными способами в файлы в той директории из которой запущена. Она была запущена в директории /u01/a1

Создание поддиректории не влияет на результат теста.

Если вы получили значения на порядок больше: вместо 567 получили ~8000, то у вас в операционной системе хоста, в котором работает виртуальная машина, включено кэширование записи. Пример, если операционная система хоста (в котором работает виртуальная машина) Windows:

Если повторить тест несколько раз, то скорее всего повторяемость результатов будет низкой: разброс значений будет ~10%. Для выполнения практик это нормально, единственно нельзя сравнивать полученные тестами значения. Раздел nvme0 лежит в файле операционной системы хоста.

5) Посмотрите статистику обычного (jbd2) журнала:

root@tantor:/u01/a1# cat /proc/fs/jbd2/nvme0n1-8/info

10438 transactions (10436 requested), each up to 4096 blocks

average:

0ms waiting for transaction

0ms request delay

4ms running transaction

0ms transaction was being locked

0ms flushing data (in ordered mode)

0ms logging transaction

5040us average transaction commit time

1 handles per transaction

1 blocks per transaction

3 logged blocks per transaction

3 блока на транзакцию, 10438 транзакций. Число транзакций зависит от того сколько операций успела выполнить утилита pg_test_fsync за отведённое ей время.

6) Посмотрите статистику журнала fast commit ("fc"):

root@tantor:/u01/a1# cat /proc/fs/ext4/nvme0n1/fc_info

fc stats:

0 commits

0 ineligible

0 numblks

0us avg_commit_time

Ineligible reasons:

"Extended attributes changed": 0

"Cross rename": 0

"Journal flag changed": 0

"Insufficient memory": 0

"Swap boot": 0

"Resize": 0

"Dir renamed": 0

"Falloc range op": 0

"Data journalling": 0

"Encrypted filename": 0

Журнал быстрой фиксации отсутствует, поэтому статистика пустая.

7) Пересоздайте файловую систему на /dev/nvme0n1:

root@tantor:/u01# cd /

root@tantor:/# umount /u01

root@tantor:/# mkfs.ext4 /dev/nvme0n1

mke2fs 1.47.0 (5-Feb-2023)

/dev/nvme0n1 contains a ext4 file system

Proceed anyway? (y,N) y

Creating filesystem with 2097152 4k blocks and 524288 inodes

Filesystem UUID: 102365ba-9b22-4ac6-95f9-9f35c146e2ae

Superblock backups stored on blocks:

32768, 98304, 163840, 229376, 294912, 819200, 884736, 1605632

Allocating group tables: done

Writing inode tables: done

Creating journal (16384 blocks): done

Writing superblocks and filesystem accounting information: done

8) Включите журнал быстрой фиксации и смонтируйте файловую систему:

root@tantor:/# tune2fs -O +fast_commit /dev/nvme0n1

tune2fs 1.47.0 (5-Feb-2023)

root@tantor:/# dumpe2fs /dev/nvme0n1 | grep commit

dumpe2fs 1.47.0 (5-Feb-2023)

Filesystem features: has_journal ext_attr resize_inode dir_index fast_commit filetype extent 64bit flex_bg sparse_super large_file huge_file dir_nlink extra_isize metadata_csum

Fast commit length: 256

9) Cмонтируйте файловую систему:

root@tantor:/# mount /dev/nvme0n1 /u01

10) Повторите тест:

root@tantor:/# cd /u01

root@tantor:/u01# mkdir a1

root@tantor:/u01# cd a1

root@tantor:/u01/a1# pg_test_fsync

5 seconds per test

O_DIRECT supported on this platform for open_datasync and open_sync.

Compare file sync methods using one 8kB write:

(in wal_sync_method preference order, except fdatasync is Linux's default)

open_datasync 509.642 ops/sec 1962 usecs/op

fdatasync 554.320 ops/sec 1804 usecs/op

fsync 290.867 ops/sec 3438 usecs/op

fsync_writethrough n/a

open_sync 294.644 ops/sec 3394 usecs/op

Compare file sync methods using two 8kB writes:

(in wal_sync_method preference order, except fdatasync is Linux's default)

open_datasync 285.667 ops/sec 3501 usecs/op

fdatasync 505.847 ops/sec 1977 usecs/op

fsync 273.459 ops/sec 3657 usecs/op

fsync_writethrough n/a

open_sync 143.576 ops/sec 6965 usecs/op

Compare open_sync with different write sizes:

(This is designed to compare the cost of writing 16kB in different write

open_sync sizes.)

1 * 16kB open_sync write 273.442 ops/sec 3657 usecs/op

2 * 8kB open_sync writes 144.108 ops/sec 6939 usecs/op

4 * 4kB open_sync writes 74.927 ops/sec 13346 usecs/op

8 * 2kB open_sync writes 37.400 ops/sec 26738 usecs/op

16 * 1kB open_sync writes 19.074 ops/sec 52429 usecs/op

Test if fsync on non-write file descriptor is honored:

(If the times are similar, fsync() can sync data written on a different

descriptor.)

write, fsync, close 288.831 ops/sec 3462 usecs/op

write, close, fsync 292.142 ops/sec 3423 usecs/op

Non-sync'ed 8kB writes:

write 440343.998 ops/sec 2 usecs/op

11) Посмотрите статистику записи в журналы файловой системы:

root@tantor:/u01# cat /proc/fs/jbd2/nvme0n1-8/info

69 transactions (67 requested), each up to 4032 blocks

average:

0ms waiting for transaction

0ms request delay

1376ms running transaction

0ms transaction was being locked

0ms flushing data (in ordered mode)

0ms logging transaction

5194us average transaction commit time

278 handles per transaction

1 blocks per transaction

3 logged blocks per transaction

root@tantor:/u01# cat /proc/fs/ext4/nvme0n1/fc_info

fc stats:

16175 commits

62 ineligible

16175 numblks

1607us avg_commit_time

Ineligible reasons:

"Extended attributes changed": 0

"Cross rename": 0

"Journal flag changed": 0

"Insufficient memory": 0

"Swap boot": 0

"Resize": 0

"Dir renamed": 0

"Falloc range op": 0

"Data journalling": 0

"Encrypted filename": 0

3 блока на транзакцию, 69*3=207 блоков в журнале jbd2. Но в дополнение к этому журналу было записано 16175 блока в журнал быстрой фиксации. Запись в журнал не требовал отдельных операций fsync, запись выполнялась поблочно с признаком немедленной записи Force Unit Access (FUA). FUA применяется только для одного блока и не вызывает скидывание всего кэша контроллера устройства хранения.

В предыдущем тесте в журнал jbd2 было записано 10438*3=31314 блока за 10438 операций.

Что лучше {16382 и 31314 блока} или {16244 и 10438 операции записи}? SSD выполняют запись в чипы NAND блоками размера 16Кб (или больше), что равно 4 блокам (по 4Кб) журнала. Поэтому для SSD важнее число операций. Поэтому результаты проведённого теста примерно одинаковы: 567 и 554 ops/sec. У HDD размер блока 512 байт или 4Кб, но последовательная запись трёх блоков быстрее, чем одного из-за того, что во втором случае придётся ждать оборот диска. Для объединения дисков HDD с энергонезависимой памятью предсказать результат ещё сложнее.

Поэтому критерием истины будет ли давать преимущество журнал быстрой фиксации или не будет является тестирование. В данном примере для тестирования использовалась утилита pg_test_fsync, которая предназначена для тестирования работы с WAL-файлами.

Журнал быстрой фиксации раскрывает свои преимущества на файловых системах, где часто меняются метаданные, то есть часто создаются, удаляются файлы и меняется их размер. Такое может происходить, например, в директории табличного пространства PostgreSQL где часто создаются и удаляются временные файлы. В директории, где находятся WAL файлы создаются нечасто. Для директорий, например, PGDATA или директории табличного пространства для временных файлов нужны другие тесты, а не pg_test_fsync.

Скорее всего, с такими директориями журнал быстрой фиксации даст преимущества с тем же уровнем отказоустойчивости.

У журнала JBD2 всегда записывается не меньше трёх блоков, поэтому FUA не может использоваться. Инициирование записи в журнал JBD2 вызывает опустошение всего кэша контроллера. Если в кэше контроллера успело накопиться больше 16Кб, запись теоретически может быть медленнее. Практически же скорость записи в чипы NAND сравнима со скоростью работы памяти, запись контроллером SSD может выполняться асинхронно.

12) Этот и следующие пункты до конца этой части практики опциональны.

До этого тестировали файловую систему ext4. Можно протестировать скорость работы без журнала (функционал ext2). Отключите журнал на /dev/nvme0n1:

root@tantor:/u01# cd /

root@tantor:/# umount /u01

root@tantor:/# tune2fs -O ^has_journal /dev/nvme0n1

root@tantor:/# dumpe2fs /dev/nvme0n1 | grep commit

dumpe2fs 1.47.0 (5-Feb-2023)

Filesystem features: ext_attr resize_inode dir_index filetype extent 64bit flex_bg sparse_super large_file huge_file dir_nlink extra_isize metadata_csum

Fast commit length: 0

В выводе команды отсутствуют свойства has_journal и fast_commit. Это означает, что файловая система без журнала.

13) Смонтируйте файловую систему:

root@tantor:/# mount /dev/nvme0n1 /u01

14) Повторите тест:

root@tantor:/# cd /u01

root@tantor:/u01# mkdir a1

root@tantor:/u01# cd a1

root@tantor:/u01/a1# pg_test_fsync

5 seconds per test

O_DIRECT supported on this platform for open_datasync and open_sync.

Compare file sync methods using one 8kB write:

(in wal_sync_method preference order, except fdatasync is Linux's default)

open_datasync 561.778 ops/sec 1780 usecs/op

fdatasync 567.933 ops/sec 1761 usecs/op

fsync 323.302 ops/sec 3093 usecs/op

fsync_writethrough n/a

open_sync 343.145 ops/sec 2914 usecs/op

Compare file sync methods using two 8kB writes:

(in wal_sync_method preference order, except fdatasync is Linux's default)

open_datasync 284.528 ops/sec 3515 usecs/op

fdatasync 505.311 ops/sec 1979 usecs/op

fsync 311.811 ops/sec 3207 usecs/op

fsync_writethrough n/a

open_sync 163.685 ops/sec 6109 usecs/op

Compare open_sync with different write sizes:

(This is designed to compare the cost of writing 16kB in different write

open_sync sizes.)

1 * 16kB open_sync write 301.329 ops/sec 3319 usecs/op

2 * 8kB open_sync writes 166.580 ops/sec 6003 usecs/op

4 * 4kB open_sync writes 85.399 ops/sec 11710 usecs/op

8 * 2kB open_sync writes 44.381 ops/sec 22532 usecs/op

16 * 1kB open_sync writes 22.332 ops/sec 44779 usecs/op

Test if fsync on non-write file descriptor is honored:

(If the times are similar, fsync() can sync data written on a different

descriptor.)

write, fsync, close 321.995 ops/sec 3106 usecs/op

write, close, fsync 344.132 ops/sec 2906 usecs/op

Non-sync'ed 8kB writes:

write 348190.711 ops/sec 3 usecs/op

Для fdatasync значения такие же, как с журналом.

Часть 5. Снятие ограничения на число открытых файлов

1) По умолчанию, максимальное число соединений 100. Установите максимальное число соединений в 10000:

postgres@tantor:~$ psql -c "alter system set max_connections=1100;"

ALTER SYSTEM

2) Попробуйте выполнить тест pgbench, указав 1100 соединений:

postgres@tantor:~$ pgbench -c 1100 -T 10 -P 5

pgbench: error: need at least 1103 open files, but system limit is 1024

pgbench: hint: Reduce number of clients, or use limit/ulimit to increase the system limit.

Выдана ошибка о том, что утилита pgbench хочет открыть 1103 файла, а операционная система ограничивает процессы пользователя postgres 1024 файлами.

3) Проверьте реальные ограничения уже запущенных процессов с именем postgres:

postgres@tantor:~$ for PID in $(pgrep "postgres"); do cat /proc/$PID/limits | grep files; done | uniq

Max open files 1024 524288 files

Мягкое ограничение 1024 файла, жесткое 524288 файлов.

4) Посмотрите ограничение для новых процессов для пользователей postgres, root, astra:

postgres@tantor:~$ sudo -u postgres bash -c 'ulimit -n'

1024

postgres@tantor:~$ sudo -u root bash -c 'ulimit -n'

1024

postgres@tantor:~$ sudo -u astra bash -c 'ulimit -n'

1024

У процессов всех пользователей ограничение 1024. Такое ограничение подходит для десктопного использования, но не для сервера. Хотя это мягкое ограничение, но приложения и утилиты могут не обрабатывать предупреждения и отказываться работать, как утилита pgbench.

Влияет ли это ограничение на процессы экземпляра? По умолчанию параметр конфигурации max_files_per_process=1000, поэтому не влияет. Однако, перед увеличением значения max_files_per_process нужно снять ограничения на уровне операционной системы.

5) Чтобы поменять лимиты для экземпляров, запускаемых вручную утилитой pg_ctl, в файле /etc/security/limits.conf нужно добавить или поменять строки:

* hard nofile infinity

root hard nofile infinity

* soft nofile infinity

root soft nofile infinity

postgres@tantor:~$ sudo mcedit /etc/security/limits.conf

6) Проверьте, что изменения подействовали:

postgres@tantor:~$ sudo -u postgres bash -c 'ulimit -n'

1048576

postgres@tantor:~$ sudo -u astra bash -c 'ulimit -n'

1048576

postgres@tantor:~$ sudo -u root bash -c 'ulimit -n'

1048576

postgres@tantor:~$ sudo -u postgres bash -c 'ulimit -Ht'

unlimited

postgres@tantor:~$ sudo -u astra bash -c 'ulimit -Ht'

unlimited

postgres@tantor:~$ sudo -u root bash -c 'ulimit -Ht'

unlimited

7) На запускаемые через systemd экземпляры это не подействует.

Отредактируйте файл /usr/lib/systemd/system/tantor-se-server-16.service, добавив после [Service]

LimitNOFILE=infinity

LimitNOFILESoft=infinity

postgres@tantor:~$ sudo mcedit /usr/lib/systemd/system/tantor-se-server-16.service

8) Обновите конфигурацию systemd и перезапустите экземпляр:

postgres@tantor:~$ sudo systemctl daemon-reload

postgres@tantor:~$ sudo systemctl restart tantor-se-server-16

9) Проверьте реальные ограничения уже запущенных процессов с именем postgres:

postgres@tantor:~$ for PID in $(pgrep "postgres"); do cat /proc/$PID/limits | grep files; done | uniq

Max open files 1024 524288 files

Max open files 1048576 1048576 files

Есть процессы с ограничением 1024 - это экземпляр Astralinux PostgreSQL, его файл службы не редактировали. У процессов экземпляра tantor ограничения поменялись.

10) Запустите тест pgbench, указав 1100 соединений:

postgres@tantor:~$ pgbench -c 1100 -T 10 -P 5

starting vacuum...end.

progress: 7.9 s, 0.0 tps, lat 0.000 ms stddev 0.000, 0 failed

progress: 10.0 s, 0.0 tps, lat 0.000 ms stddev 0.000, 0 failed

progress: 15.0 s, 55.4 tps, lat 4859.114 ms stddev 1268.481, 0 failed

progress: 20.0 s, 67.8 tps, lat 9833.140 ms stddev 1435.181, 0 failed

transaction type: <builtin: TPC-B (sort of)>

scaling factor: 1

query mode: simple

number of clients: 1100

number of threads: 1

maximum number of tries: 1

duration: 10 s

number of transactions actually processed: 1100

number of failed transactions: 0 (0.000%)

latency average = 10740.735 ms

latency stddev = 4219.216 ms

initial connection time = 7798.795 ms

tps = 65.627380 (without initial connection time)

Тест выполнился.

Часть 6. Пример создания plpgsql кода для тестирования

1) Создайте файл init.sql:

postgres@tantor:~$ mcedit init.sql

create schema test;

select format('create table test.film_summary%s (film_id int, title varchar, release_year smallint) with (autovacuum_enabled=off);', g.id) from generate_series(1, 10000) as g(id)

\gexec

Команда создаёт 10000 пустых таблиц, 10000 TOAST таблиц и 10000 TOAST-индексов. Автовакуум отключён, чтобы при внесении изменений в строки таблиц внезапно не срабатывал и тем самым не создавал колебания метрик в результатах тестов. Схема используется для удобства, чтобы таблицы не были видны в пути поиска и чтобы можно было их удалять путем удаления схемы.

2) Выполните скрипт:

postgres@tantor:~$ time psql -f init.sql > /dev/null

real 2m29.225s

user 0m1.687s

sys 0m0.999s

Скрипт за 2,5 минуты создал схему test и 10000 таблиц в схеме.

3) Попробуйте удалить таблицы и схему:

postgres=# \timing

Timing is on.

postgres=# DO

begin

for i in 1..10000 loop

execute concat('drop table if exists test.film_summary',i);

end loop;

execute 'drop schema if exists test cascade';

end;

LANGUAGE plpgsql;

ERROR: out of shared memory

HINT: You might need to increase max_locks_per_transaction.

CONTEXT: SQL statement "drop table if exists test.film_summary2571"

PL/pgSQL function inline_code_block line 4 at EXECUTE

Time: 936.719 ms

Использование plpgsql привело к проблеме превышения числа блокировок: команды выполнялись одной транзакцией. Именно поэтому таблицы создавались скриптом, а не блоком plpgsql.

Через 0,9 секунд на удалении 2571 таблицы возникло превышение числа блокировок. Было установлено 2571 блокировок. Число блокировок зависит от параметров max_locks_per_transaction*max_connextions=64*100=6400. Как соотносятся числа 2571 и 6400? Для каждой таблицы установлено 3 блокировки: сама таблица, её TOAST-таблица и TOAST индекс. 2571*3=7713 что больше 6400. Больше из-за того, что память под структуру блокировки и любые структуры памяти выделяется с округлением.

4) Добавьте команду commit и выполните блок:

postgres=# DO

begin

for i in 1..10000 loop

execute concat('drop table if exists test.film_summary',i);

commit;

end loop;

execute 'drop schema if exists test cascade';

end;

LANGUAGE plpgsql;

Time: 46568.714 ms (00:46.569)

Блок успешно выполнится и удалил 30000 объектов за 46 секунд. Это долго.

5) Создайте таблицы заново:

postgres@tantor:~$ time psql -f init.sql > /dev/null

real 3m12.168s

user 0m0.404s

sys 0m0.223s

6) Создайте более эффективный plpgsql код с промежуточной фиксацией транзакций:

postgres=# \timing on \\

begin

for i in 1..10000 by 100 loop

for j in 0..99 loop

execute concat('drop table if exists test.film_summary',i+j);

end loop;

commit;

end loop;

execute 'drop schema if exists test cascade';

end;

LANGUAGE plpgsql;

Time: 6597.938 ms (00:06.598)

то время выполнения будет 6,5 секунд. Промежуточная фиксация транзакций удерживает горизонт немного дольше, но создает меньше нагрузку на легковесные блокировки структур WAL и выполняется быстрее.

Это был пример того, что при написании скриптов тестирования важно обращать внимание на то, какие транзакции явно или неявно формируются для выполнения команд.

Если увеличить число max_connections до 1000, перезапустить экземпляр, создать таблицы, и выполнить блок который без commit, то таблицы удалятся за 6 секунд:

Time: 6030.153 ms (00:06.030)

Проверять это не нужно, чтобы не тратить время (по 3 минуты на создание таблиц).

Если увеличить число max_connections до 1000, перезапустить экземпляр, создать таблицы и удалить командой:

postgres=# \timing

Timing is on.

postgres=# drop schema test cascade;

NOTICE: drop cascades to 10000 other objects

DETAIL: drop cascades to table test.film_summary1

drop cascades to table test.film_summary2

drop cascades to table test.film_summary3

...

drop cascades to table test.film_summary99

drop cascades to table test.film_summary100

and 9900 other objects (see server log for list)

DROP SCHEMA

Time: 7526.961 ms (00:07.527)

то время удаления будет 7,5 секунд.

7) Файл init.sql этой части практики полезен и может использоваться для создания большого числа объектов в целях тестирования.

Если нужно наполнить таблицы строками, можно использовать команду:

select format('insert into test.film_summary%1$s select i, %2$s || i, i from generate_series(0, 153) as i;', g.id, E'\'text number \'') from generate_series(1, 10000) as g(id)

\gexec

Команда создаёт 154 строки в каждой таблице в одном блоке, почти полностью заполняя блок. Большинство блоков в реальных таблицах почти полностью заполнены и таблицы будут этому соответствовать. Максимальное число строк в блоке 156, место под пару строк нужно, чтобы при обновлении строки в блоке сработал HOT cleanup.

Скрипт с этой командой выполнится за 46 секунд.

Если нужно прочесть блоки, чтобы обновить признак фиксации вставки, то можно выполнить команду:

select format('select * from test.film_summary%s where film_id = 0;', g.id) from generate_series(1, 10000) as g(id)

\gexec

Скрипт с этой командой выполнится за 3,5 секунды.

Также можно использовать команду, которая собирает статистику и замораживает строки, чтобы они в будущем внезапно не грязнились:

select format('vacuum (freeze, analyze) test.film_summary%s;', g.id) from generate_series(1, 10000) as g(id)

\gexec

Однако, скрипт с этой командой будет выполнятся 1 минуту 45 секунды, что долго.

8) Таблицы можно использовать для нагрузочного тестирования.

Для этого создать функцию:

create or replace function inittest1(clientid anyelement) returns void

as $$

begin

for i in 1..15 loop

execute concat('update test.film_summary', i ,' set title=title ', 'where film_id = ', clientid);

end loop;

end;

LANGUAGE plpgsql;

Функция обновляет в 15 таблицах (16 - максимальное число fastpath блокировок) строку со значением, передаваемым в параметре функции.

Скрипт теста для pgbench:

echo "select inittest1( :client_id);" > inittest1.sql

client_id - номер сессии pgbench, устанавливается в параметре, который доступен в скриптах тестов.

Запуск теста:

pgbench -n -c 36 -T 10 -P 3 -f inittest1.sql

progress: 3.0 s, 1358.0 tps, lat 25.905 ms stddev 10.597, 0 failed

progress: 6.0 s, 1203.0 tps, lat 29.948 ms stddev 10.698, 0 failed

progress: 9.0 s, 1141.7 tps, lat 31.510 ms stddev 11.303, 0 failed

number of transactions actually processed: 12406

latency average = 28.895 ms

latency stddev = 11.061 ms

tps = 1242.842959 (without initial connection time)

Оптимальное число сессий на 4 ядрах при настройках по умолчанию начиная с ~36 сессий. При числе сессий больше 1 HOT cleanup не сможет часто работать и число блоков в таблицах увеличится.По мере увеличения числа блоков tps уменьшается.

Часть 7. Пример создания программ для тестирования

1) Рассмотренные утилиты pgbench, pg_test_fsync, fio отлично подходят для тестирования.

Для тестирования могут использоваться простые тесты, написанные на языках программирования c, java, python. Пример самописного теста и задачи, которую он решает

https://www.percona.com/blog/fsync-performance-storage-devices/

Создайте файл fsync.py:

postgres@tantor:~$ mcedit fsync.py

#!/usr/bin/python

import os, sys, mmap

# Open a file

#fd = os.open( "testfile", os.O_RDWR|os.O_CREAT|os.O_DSYNC )

fd = os.open( "testfile", os.O_RDWR|os.O_CREAT )

fd2 = os.open( "testfile2", os.O_RDWR|os.O_CREAT )

m = mmap.mmap(-1, 8192)

for i in range (1,5000):

os.lseek(fd,os.SEEK_SET,0)

m[1] = 1

os.write(fd, m)

os.lseek(fd2,os.SEEK_SET,0)

os.write(fd2, m)

os.fsync(fd)

os.fsync(fd2)

# Close opened file

os.close( fd )

os.close( fd2 )

2) Запустите тест:

postgres@tantor:~$ time python3 ./fsync.py

real 0m5.379s

user 0m0.276s

sys 0m0.727s

Можно менять параметры открытия файла в функции os.open и проверять время выполнения программы.

3) Создайте файл gen.py:

postgres@tantor:~$ mcedit gen.py

def main():

for count in [5000, 10000, 25000]:

with open(f'workload1c_{count}.sql', 'w') as f:

f.write('BEGIN;\n')

for i in range(1, count):

f.write(f"""create temporary table ttt{i} (

_C_1RRef bytea,

_C_2RRef bytea,

_C_3RRef bytea,

_C_4 varchar(150),

_C_5 numeric(9,0),

_C_6RRef bytea,

_C_7RRef bytea,

_C_8RRef bytea,

_C_9RRef bytea,

_C_10 boolean,

_C_11 numeric(5,0),

_C_12 numeric(10,0),

_C_13 varchar(430),

_C_14 numeric(5,0),

_C_15RRef bytea,

_C_16RRef bytea,

_C_17RRef bytea,

_C_18RRef bytea,

_C_19_TYPE bytea,

_C_19_S varchar(150),

_C_19_RTRef bytea,

_C_19_RRRef bytea,

_C_20 varchar,

_C_21 varchar,

_C_22 numeric(9,0),

_TTC_1 bytea,

_TTC_2 numeric(9,0),

SDBL_IDENTITY int

);

""")

f.write('ROLLBACK;\n')

if __name__ == "__main__":

main()

4) Выполните команды в терминале postgres@tantor:~$ :

python3 ./gen.py

psql -c "vacuum full pg_class;"

psql -c "select pg_table_size('pg_class');"

time psql -f workload1c_5000.sql > /dev/null

psql -c "select pg_table_size('pg_class');"

time psql -f workload1c_10000.sql > /dev/null

psql -c "select pg_table_size('pg_class');"

time psql -f workload1c_25000.sql > /dev/null

psql -c "select pg_table_size('pg_class');"

Команды выдадут результат:

VACUUM

pg_table_size

---------------

98304

(1 row)

real 0m10.947s

user 0m0.920s

sys 0m0.137s

pg_table_size

---------------

3932160

(1 row)

real 0m30.293s

user 0m2.695s

sys 0m0.384s

pg_table_size

---------------

10960896

(1 row)

real 1m27.637s

user 0m8.314s

sys 0m2.146s

pg_table_size

---------------

22822912

(1 row)

После вакуумирования таблица системного каталога занимает 98304 байта.

Программа gen.py создала три командных файла: workload1c_25000.sql workload1c_10000.sql workload1c_5000.sql. В этих скриптах в одной транзакции создаётся 5000, 10000, 25000 временных таблиц с 25 столбцами, после чего транзакция откатывается.

После запуска этих скриптов измеряется размер таблицы pg_class.

Для 25000 объектов размер таблицы pg_class становится 22Мб.

5) Выполните команду:

postgres@tantor:~$ psql -c "select pg_table_size('pg_class');"

pg_table_size

---------------

131072

Размер таблицы pg_class уменьшился до 131Кб. В результате чего уменьшилась таблица? В результате автовакуума. Если бы после создания таблиц в другой сессии были созданы постоянные таблицы, смогла ли таблица pg_class уменьшиться в размере? Вряд ли.

Практика к главе 5

Часть 1. Блокировки объектов

1) Число блокировок объектов и рекомендательных блокировок (advisory locks, которые автоматически не используются, их использование требует программирования) на экземпляре определяется произведением max_locks_per_transaction * max_connections (предполагается, что max_prepared_transactions=0 и менять его не нужно).

По умолчанию параметр max_locks_per_transaction=64, а max_connections=100:

postgres=# show max_locks_per_transaction;

max_locks_per_transaction

---------------------------

(1 row)

postgres=# show max_connections;

max_connections

-----------------

100

(1 row)

2) Чтобы опечатки в командах внутри транзакции не переводили транзакцию в состояние сбоя, установите параметр:

postgres=# \set ON_ERROR_ROLLBACK INTERACTIVE

По умолчанию любая опечатка в команде переводит транзакцию в состояние сбоя и в транзакции нельзя продолжить работать, только откатить. Команда ON_ERROR_ROLLBACK INTERACTIVE указывает неявно устанавливать после каждой команды в транзакции точку сохранения и откатываться к последней точке сохранения, если команда в транзакции не смогла выполниться (достаточно опечатки). Опция INTERACTIVE устанавливает это правило для интерактивного ввода команд и не устанавливает точки сохранения при выполнении скриптов. Поэтому эта настройка и удобна и безопасна.

3) Посмотрите сколько памяти выделено серверному процессу:

postgres=# select sum(total_bytes), sum(used_bytes), sum(free_bytes) from pg_backend_memory_contexts;

sum | sum | sum

---------+--------+--------

1329320 | 947688 | 381632

(1 row)

1-2Мб это не так много. Если выдаётся больше 2Мб, переподсоединитесь.

4) Включите вывод времени выполнения команд, чтобы знать длительность выполнения:

postgres=# \timing on

Timing is on.

Измерение времени удобно для того, чтобы представлять себе длительность выполнения команд.

5) Создайте секционированную таблицу:

postgres=# create table parttab(n numeric,k numeric, v varchar(100)) partition by range (n);

CREATE TABLE

Time: 0.976 ms

6) Начните транзакцию:

postgres=# begin transaction;

BEGIN

Time: 0.150 ms

7) Выполните анонимный plpgsql блок:

postgres=*# do

declare

cnt integer;

v varchar(200);

begin

for i in 0..4000 loop

v:= concat('create table parttab_',i,' partition of parttab for values from (',i*10,') to (',(i+1)*10,')');

execute v;

end loop;

end;

;

Time: 67764.380 ms (01:07.764)

Блок выполнялся 67 секунд.

8) Посмотрите сколько памяти выделено серверному процессу:

postgres=*# select sum(total_bytes), sum(used_bytes), sum(free_bytes) from pg_backend_memory_contexts;

sum | sum | sum

----------+----------+---------

57673256 | 47280560 | 10392696

(1 row)

Выделено 57Мб, что довольно много.

9) Посмотрите содержимое таблицы блокировок:

postgres=*# select locktype, relation, relation::regclass name, mode, granted, fastpath from pg_locks order by relation limit 9;

locktype | relation | name | mode | granted

----------+----------+---------------------------------+---------------------+---------

relation | 12073 | pg_locks | AccessShareLock | t

relation | 12138 | pg_backend_memory_contexts | AccessShareLock | t

relation | 2943194 | parttab | AccessExclusiveLock | t

relation | 2943197 | parttab_0 | AccessExclusiveLock | t

relation | 2943200 | pg_toast.pg_toast_2943197 | ShareLock | t

relation | 2943201 | pg_toast.pg_toast_2943197_index | AccessExclusiveLock | t

relation | 2943202 | parttab_1 | AccessExclusiveLock | t

relation | 2943205 | pg_toast.pg_toast_2943202 | ShareLock | t

relation | 2943206 | pg_toast.pg_toast_2943202_index | AccessExclusiveLock | t

(9 rows)

Time: 27.150 ms

Установлены блокировки типов AccessShare, AccessExclusive, Share.

10) Посмотрите число блокировок:

postgres=# select count(*) from pg_locks;

select count(distinct relation) from pg_locks;

count

-------

12009

(1 row)

Time: 11.052 ms

count

-------

12006

(1 row)

Установлено по одной блокировке на каждый relation.

postgres=# select locktype, relation, mode, granted, fastpath from pg_locks where fastpath=true;

locktype | relation | mode | granted | fastpath

---------------+----------+-----------------+---------+----------

virtualxid | | ExclusiveLock | t | t

(1 row)

Всего одна блокировка получена по быстрому пути (fastpath). Блокировки, полученные по быстрому пути не занимают место в общей структуре блокировок.

postgres=# select mode, count(mode) from pg_locks group by mode;

mode | count

---------------------+-------

ShareLock | 4001

AccessExclusiveLock | 8003

ExclusiveLock | 2

AccessShareLock | 3

(4 rows)

Число блокировок в общей структуре блокировок 12008 и существенно превышает max_locks_per_transaction * max_connections = 64*100 = 6400. Память выделяется по степеням двойки. Также блокировки fastpath не входят в ограничение.

11) Откатите транзакцию:

postgres=*# rollback;

ROLLBACK

Time: 588.883 ms

12) Проверьте, что блокировки были сняты:

postgres=# select locktype, relation::regclass relation, virtualxid, virtualtransaction, mode, fastpath from pg_locks;

------------+----------+------------+--------------------+-----------------+----------

virtualxid | | 3/11 | 3/11 | ExclusiveLock | t

(2 rows)

Часть 2. Наблюдение за памятью серверного процесса

1) Начните транзакцию:

postgres=# begin transaction;

BEGIN

Time: 0.150 ms

postgres=*# do

declare

cnt integer;

v varchar(200);

begin

for i in 0..4291 loop

v:= concat('create table parttab_',i,' partition of parttab for values from (',i*10,') to (',(i+1)*10,')');

execute v;

end loop;

end;

;

ERROR: out of shared memory

HINT: You might need to increase max_locks_per_transaction.

CONTEXT: SQL statement "create table parttab_4290 partition of parttab for values from (42900) to (42910)"

PL/pgSQL function inline_code_block line 8 at EXECUTE

Time: 72606.127 ms (01:12.606)

Анонимный блок не смог добавить 4290 секцию а таблицу parttab из-за того, что в общей структуре памяти для блокировок не хватило места.

2) Откатите транзакцию:

postgres=!# rollback;

ROLLBACK

Time: 588.883 ms

Откат транзакции освобождает контексты локальной памяти процесса, выделенные в контексте транзакции.

3) postgres=# \d parttab

Partitioned table "public.parttab"

Column | Type | Collation | Nullable | Default

--------+------------------------+-----------+----------+---------

n | numeric | | |

k | numeric | | |

v | character varying(100) | | |

Partition key: RANGE (n)

Number of partitions: 0

Секции не были добавлены.

4) Начните транзакцию:

postgres=# begin transaction;

BEGIN

Time: 0.150 ms

5) Уменьшите число секций до 2600 и выполните блок:

postgres=*# do

declare

cnt integer;

v varchar(200);

begin

for i in 0..2600 loop

v:= concat('create table parttab_',i,' partition of parttab for values from (',i*10,') to (',(i+1)*10,')');

execute v;

end loop;

end;

;

CREATE TABLE

Time: 35644.365 ms (00:35.644)

postgres=# \d parttab

Partitioned table "public.parttab"

Column | Type | Collation | Nullable | Default

--------+------------------------+-----------+----------+---------

n | numeric | | |

k | numeric | | |

v | character varying(100) | | |

Partition key: RANGE (n)

Number of partitions: 2601 (Use \d+ to list them.)

Была создана 2601 секция.

6) Попробуйте удалить таблицу:

postgres=*# drop table if exists parttab;

ERROR: out of shared memory

HINT: You might need to increase max_locks_per_transaction.

Time: 222.310 ms

Удалить таблицу нельзя - команда пытается установить много блокировок. Если бы транзакция была зафиксирована, то пришлось бы увеличивать параметр max_connections или max_locks_per_transaction. Увеличение любого из этих параметров требует предварительно увеличения на репликах и рестарта экземпляра.

7) При этом можно работать с таблицей. Выполните команды:

postgres=*# insert into parttab select generate_series(1, 10000-1),10000-generate_series(1, 10000-1),'Initial value '||generate_series(1,

10000-1);

INSERT 0 9999

Time: 119.122 ms

8) Посмотрите сколько памяти выделено процессу:

postgres=*# select sum(total_bytes), sum(used_bytes), sum(free_bytes) from pg_backend_memory_contexts;

sum | sum | sum

----------+----------+---------

57576184 | 36993936 | 20582248

(1 row)

Размер памяти, выделенной процессу увеличился незначительно - менее, чем на 1Мб с 57673256 до 57576184.

9) Выполните команды:

postgres=*# prepare prepstmt1 (int) as select v from parttab where n=$1;

PREPARE

Time: 0.700 ms

postgres=*# execute prepstmt1(1);

-----------------

Initial value 1

(1 row)

Time: 0.441 ms

10) Посмотрите сколько памяти выделено процессу:

postgres=*# select sum(total_bytes), sum(used_bytes), sum(free_bytes) from pg_backend_memory_contexts;

sum | sum | sum

----------+----------+---------

57598712 | 37014832 | 20583880

(1 row)

Time: 2.493 ms

Размер памяти процесса увеличился незначительно.

11) Создайте индекс на таблицу и проверьте как поменялся объем выделенной процессу памяти:

postgres=*# create unique index parttabn on parttab(n);

select sum(total_bytes), sum(used_bytes), sum(free_bytes) from pg_backend_memory_contexts;

CREATE INDEX

Time: 28621.034 ms (00:28.621)

sum | sum | sum

----------+----------+----------

61139752 | 47002536 | 14137216

(1 row)

Time: 5.722 ms

Размер памяти процесса увеличился на ~4Мб c 57598712 до 61139752.

12) Выполните команду, которая нужна для того, чтобы планировщик считал, что строк в таблице больше чем есть:

update pg_class set reltuples=reltuples*100 where relname like 'parttab%';

UPDATE 5204

Time: 245.317 ms

13) Дальше выполните 6 раз подготовленную команду с замером выделенной процессу памяти:

postgres=*# select sum(total_bytes), sum(used_bytes), sum(free_bytes) from pg_backend_memory_contexts;

execute prepstmt1(1000);

select sum(total_bytes), sum(used_bytes), sum(free_bytes) from pg_backend_memory_contexts;

execute prepstmt1(5000);

select sum(total_bytes), sum(used_bytes), sum(free_bytes) from pg_backend_memory_contexts;

execute prepstmt1(10000);

select sum(total_bytes), sum(used_bytes), sum(free_bytes) from pg_backend_memory_contexts;

execute prepstmt1(100);

select sum(total_bytes), sum(used_bytes), sum(free_bytes) from pg_backend_memory_contexts;

execute prepstmt1(300);

select sum(total_bytes), sum(used_bytes), sum(free_bytes) from pg_backend_memory_contexts;

execute prepstmt1(2000);

select sum(total_bytes), sum(used_bytes), sum(free_bytes) from pg_backend_memory_contexts;

sum | sum | sum

----------+----------+----------

61314488 | 47147896 | 14166592

(1 row)

Time: 5.532 ms

--------------------

Initial value 1000

(1 row)

Time: 28.541 ms

sum | sum | sum

----------+----------+----------

61470504 | 49987992 | 11482512

(1 row)

Time: 5.344 ms

--------------------

Initial value 5000

(1 row)

Time: 0.433 ms

sum | sum | sum

----------+----------+----------

61471528 | 49988816 | 11482712

(1 row)

Time: 5.606 ms

---

(0 rows)

Time: 0.370 ms

sum | sum | sum

----------+----------+----------

61471528 | 49989528 | 11482000

(1 row)

Time: 5.772 ms

-------------------

Initial value 100

(1 row)

Time: 0.388 ms

sum | sum | sum

----------+----------+----------

61472552 | 49990352 | 11482200

(1 row)

Time: 5.190 ms

-------------------

Initial value 300

(1 row)

Time: 208.855 ms

sum | sum | sum

----------+----------+----------

72232560 | 58599344 | 13633216

(1 row)

Time: 5.309 ms

--------------------

Initial value 2000

(1 row)

Time: 0.315 ms

sum | sum | sum

----------+----------+----------

72232560 | 58599344 | 13633216

(1 row)

Time: 5.009 ms

На шестом (после подготовки) выполнении подготовленного запроса серверный процесс переключился на общий (generic) план выполнения. Размер плана 10Мб, что больше, чем любой из частных планов, так как включает в себя все секции таблицы. Размер памяти процесса увеличился с 61472552 до 72232560 байт.

14) Посмотрите какие контексты памяти есть и их размер:

postgres=*# with recursive dep as (select name, total_bytes as total, left(ident,10) ident, 1 as level, left(name,38) as path from pg_backend_memory_contexts where parent is null

union all

select c.name, c.total_bytes, left(c.ident,10), p.level+1, left(p.path||'->'||c.name,38)

from dep p, pg_backend_memory_contexts c

where c.parent = p.name)

select * from dep limit 40;

name | total | ident | level | path

--------------------------+----------+------------+-------+----------------------------------------

TopMemoryContext | 4259200 | | 1 | TopMemoryContext

Btree proof lookup cache | 8192 | | 2 | TopMemoryContext->Btree proof lookup c

Prepared Queries | 16384 | | 2 | TopMemoryContext->Prepared Queries

TopTransactionContext | 6394000 | | 2 | TopMemoryContext->TopTransactionContex

TableSpace cache | 8192 | | 2 | TopMemoryContext->TableSpace cache

RegexpCacheMemoryContext | 1024 | | 2 | TopMemoryContext->RegexpCacheMemoryCon

Type information cache | 24368 | | 2 | TopMemoryContext->Type information cac

Operator lookup cache | 24576 | | 2 | TopMemoryContext->Operator lookup cach

PLpgSQL cast expressions | 8192 | | 2 | TopMemoryContext->PLpgSQL cast express

CFuncHash | 8192 | | 2 | TopMemoryContext->CFuncHash

Rendezvous variable hash | 8192 | | 2 | TopMemoryContext->Rendezvous variable

PLpgSQL function hash | 8192 | | 2 | TopMemoryContext->PLpgSQL function has

Record information cache | 8192 | | 2 | TopMemoryContext->Record information c

RowDescriptionContext | 8192 | | 2 | TopMemoryContext->RowDescriptionContex

MessageContext | 131072 | | 2 | TopMemoryContext->MessageContext

Operator class cache | 8192 | | 2 | TopMemoryContext->Operator class cache

PgStat Shared Ref Hash | 394288 | | 2 | TopMemoryContext->PgStat Shared Ref Ha

PgStat Shared Ref | 573440 | | 2 | TopMemoryContext->PgStat Shared Ref

PgStat Pending | 2146304 | | 2 | TopMemoryContext->PgStat Pending

smgr relation table | 2097152 | | 2 | TopMemoryContext->smgr relation table

TransactionAbortContext | 32768 | | 2 | TopMemoryContext->TransactionAbortCont

Portal hash | 8192 | | 2 | TopMemoryContext->Portal hash

TopPortalContext | 8192 | | 2 | TopMemoryContext->TopPortalContext

Relcache by OID | 1048576 | | 2 | TopMemoryContext->Relcache by OID

CacheMemoryContext | 34046240 | | 2 | TopMemoryContext->CacheMemoryContext

WAL record construction | 50200 | | 2 | TopMemoryContext->WAL record construct

PrivateRefCount | 8192 | | 2 | TopMemoryContext->PrivateRefCount

MdSmgr | 131072 | | 2 | TopMemoryContext->MdSmgr

LOCALLOCK hash | 2097152 | | 2 | TopMemoryContext->LOCALLOCK hash

GUCMemoryContext | 24576 | | 2 | TopMemoryContext->GUCMemoryContext

Timezones | 104112 | | 2 | TopMemoryContext->Timezones

ErrorContext | 8192 | | 2 | TopMemoryContext->ErrorContext

CurTransactionContext | 8192 | | 3 | TopMemoryContext->TopTransactionContex

Combo CIDs | 524288 | | 3 | TopMemoryContext->TopTransactionContex

RegexpMemoryContext | 13360 | ^(parttab) | 3 | TopMemoryContext->RegexpCacheMemoryCon

PortalContext | 1024 | <unnamed> | 3 | TopMemoryContext->TopPortalContext->Po

CachedPlan | 8551240 | prepare pr | 3 | TopMemoryContext->CacheMemoryContext->

partition descriptor | 153968 | parttab | 3 | TopMemoryContext->CacheMemoryContext->

partition key | 1024 | parttab | 3 | TopMemoryContext->CacheMemoryContext->

index info | 1024 | parttab_26 | 3 | TopMemoryContext->CacheMemoryContext->

(40 rows)

15) Во другом терминале запустите psql:

astra@tantor:~$ psql

psql

Type "help" for help.

postgres=#

16) В третьем терминале посмотрите сколько памяти занято в операционной системе:

postgres@tantor:~$ ps -e -o vsz,rss,pss,psr,rops,wops,pid,cmd --sort -vsz | grep postgres:

336508 191924 143715 3 2662 10224 101373 postgres: postgres postgres [local] idle in transaction

235100 94116 51708 3 24 22597 101196 postgres: checkpointer

230112 16804 3926 3 54 1 102783 postgres: postgres postgres [local] idle

229580 11812 2216 0 204 1 101200 postgres: autovacuum launcher

227480 10660 1879 1 10 1 101201 postgres: logical replication launcher

226296 14628 2800 0 29 1 101197 postgres: background writer

225908 31104 11337 0 28807 45318 101195 /opt/tantor/db/16/bin/postgres -D /var/lib/postgresql/tantor-se-16/data

225908 11940 2232 0 71 1554 101199 postgres: walwriter

В операционной системе серверному процессу выделено 336508Кб виртуального адресного пространства. Из них: резидентный размер (вместе с исполняемым кодом)- объем памяти, выделенный процессу и в находящихся в физической памяти RSS=191924Кб, пропорциональный набор (доля исполняемого кода разделяемых библиотек) PSS=144852Кб.

Второму серверному процессу, в котором не выполнялась ни одна команда выделено 230112Кб виртуального адресного пространства. Из них: резидентный размер в физической памяти RSS=16804Кб, пропорциональный размер PSS=3926Кб.

В представлении pg_backend_memory_contexts указано, что процесс использует 72232560 байт.

17) Откатите транзакцию открытую в первом терминале:

postgres=*# rollback;

ROLLBACK

Time: 488.252 ms

18) Удалите таблицу:

postgres=# drop table if exists parttab;

DROP TABLE

19) Посмотрите, освободилась ли память:

postgres=# select sum(total_bytes), sum(used_bytes), sum(free_bytes) from pg_backend_memory_contexts;

sum | sum | sum

----------+----------+----------

56052848 | 12087192 | 43965656

(1 row)

Часть памяти освободилась и вернулась к размеру измеренному в 8 пункте 1 части практики.

20) Посмотрите сколько памяти выделено по данным операционной системы:

postgres@tantor:~$ ps -e -o vsz,rss,pss,psr,rops,wops,pid,cmd --sort -vsz | grep postgres

332408 189380 140903 2 2664 10224 101373 postgres: postgres postgres [local] idle

235100 94244 51706 3 29 22597 101196 postgres: checkpointer

230112 16804 3922 1 61 1 102783 postgres: postgres postgres [local] idle

229580 11812 2216 0 229 1 101200 postgres: autovacuum launcher

227480 10788 1903 1 12 1 101201 postgres: logical replication launcher

226296 14628 2777 1 30 1 101197 postgres: background writer

225908 31104 11337 0 28807 45318 101195 /opt/tantor/db/16/bin/postgres -D /var/lib/postgresql/tantor-se-16/data

225908 11940 2231 2 78 1566 101199 postgres: walwriter

Оценочно можно сказать, что освободилось примерно 95Мб (332408-235100=97308Кб).

20) Посмотрите сколько памяти свободно и занято:

postgres@tantor:~$ free

total used free shared buff/cache available

Mem: 4020796 1245216 1527140 135824 1675284 2775580

Swap: 0 0 0

21) Закройтеутилиту psql, в котором создавали секционированную таблицу, чтобы разорвать сессию и серверный процесс завершился и освободил локальную память, которую по его данным он занимает 56052848 и выполните команду free:

postgres=# exit

postgres@tantor:~$ free

total used free shared buff/cache available

Mem: 4020796 1134344 1638008 135824 1675288 2886452

Swap: 0 0 0

Освободилось 110Мб.

22) Посмотрите сколько памяти показывает утилита ps:

postgres@tantor:~$ ps -e -o vsz,rss,pss,psr,rops,wops,pid,cmd --sort -vsz | grep postgres

235100 94244 82711 3 29 22897 101196 postgres: checkpointer

230112 16804 4995 1 61 1 102783 postgres: postgres postgres [local] idle

229580 11812 2611 0 233 1 101200 postgres: autovacuum launcher

227480 10788 2146 1 12 1 101201 postgres: logical replication launcher

226296 14628 3345 2 30 1 101197 postgres: background writer

225908 31104 11337 0 28807 45318 101195 /opt/tantor/db/16/bin/postgres -D /var/lib/postgresql/tantor-se-16/data

225908 11940 2787 0 78 1566 101199 postgres: walwriter

6980 2304 414 2 13 0 103846 grep postgres:

Локальная память остановленного серверного процесса не учитывалась в памяти других процессов. В памяти других процессов не учитывается локальная память, только общая память, к которой имеет доступ процесс. У остановленного серверного процесса показывалась память 332408. Из них локальной памяти по данным операционной системы было 110Мб, по данным процесса 56052848 байт. При выделении памяти linux использует выделение кусками (buddy allocation).

Часть 3. Временные таблицы и файлы

1) Посмотрите какие есть параметры для временных файлов и их значения:

postgres=# \dconfig temp*

List of configuration parameters

Parameter | Value

------------------+-------

temp_buffers | 8MB

temp_file_limit | -1

temp_tablespaces |

(3 rows)

По умолчанию размер локального кэша буферов 8Мб. Ограничений на размер временных файлов нет и табличные пространства для временных файлов не установлены.

2) Создайте временную таблицу:

postgres=# create temp table temp1 (id integer);

CREATE TABLE

3) Посмотрите путь к первому файлу основного слоя временной таблицы:

postgres=# select pg_relation_filepath('temp1');

pg_relation_filepath

----------------------

base/5/t3_456929

(1 row)

Файл лежит в директории табличного пространства pg_default.

4) Вставьте 10000 строк во временную таблицу temp1:

postgres=# insert into temp1 select * from generate_series(1, 10000);

INSERT 0 10000

5) Посмотрите размер файлов таблицы temp1:

postgres=# \! ls -al $PGDATA/base/5/t*

-rw------- 1 postgres postgres 368640 /var/lib/postgresql/tantor-se-16/data/base/5/t3_456932

-rw------- 1 postgres postgres 24576 /var/lib/postgresql/tantor-se-16/data/base/5/t3_456932_fsm

Строки размещаются в файле, состоящем из 45 блоков по 8Кб: 368640/8192=45. Карта свободного пространства состоит из 3 блоков.

6) Посмотрите сколько строк находится в блоке временной таблицы:

postgres=# select count(*) from temp1 where ctid::text like '(43,%)';

count

-------

226

(1 row)

ctid - это служебный столбец, присутствующий у обычных таблиц (heap table). ctid является адресом строки. Первое число это номер блока, второе число номер строки в блоке. Нумерация блоков начинается с нуля. Во всех блоках кроме последнего находится по 226 строки. В последнем блоке находится 56 строк. 226 - максимальное число непустых строк, которое может поместиться в блок обычной таблицы СУБД Tantor SE.

7) Выполните команду:

postgres=# explain (analyze, buffers) select * from temp1;

QUERY PLAN

---------------------------------------------------------------------

Seq Scan on temp1 (cost=0.00..159.75 rows=11475 width=4) (actual time=0.013..44.184 rows=10000 loops=1)

Buffers: local hit=45

Planning Time: 0.028 ms

Execution Time: 85.129 ms

(4 rows)

Чтение из локального буферного кэша (hit), чтение с диска или страничного кэша linux (read), запись (write) отображается в плане выполнения команды словом local. Для разделяемого буферного кэша словом shared.

45 блоков временной таблицы поместились в локальный буферный кэш, размер которого по умолчанию 8Мб/8192=1024 буфера. Один буфер хранит содержимое одного блока.

Логика работы с локальным буфером аналогична логике работы с разделяемым кэшем буферов. Нет такого, что строки сначала находятся в памяти (temp_buffers), а файлы не создаются.

8) Установите ограничение на максимальный размер временных файлов на уровне сессии:

postgres=# set temp_file_limit = '1MB';

SET

9) Попробуйте вставить 1млн. строк:

postgres=# insert into temp1 select * from generate_series(1, 1000000);

ERROR: temporary file size exceeds temp_file_limit (1024kB)

10) Верните значение к умолчанию (не ограничено):

postgres=# reset temp_file_limit;

RESET

11) Вставьте 1млн. строк во временную таблицу temp1:

postgres=# insert into temp1 select * from generate_series(1, 1000000);

INSERT 0 1000000

12) Выполните команду несколько раз:

postgres=# explain (analyze, buffers) select * from temp1;

QUERY PLAN

--------------------------------------------------

Seq Scan on temp1 (cost=0.00..15868.50 rows=1139850 width=4) (actual time=0.044..4123.828 rows=1010000 loops=1)

Buffers: local read=4470 dirtied=4426 written=4424

Planning Time: 0.028 ms

Execution Time: 8117.431 ms

(4 rows)

postgres=# explain (analyze, buffers) select * from temp1;

QUERY PLAN

--------------------------------------------------

Seq Scan on temp1 (cost=0.00..15868.50 rows=1139850 width=4) (actual time=0.046..4077.274 rows=1010000 loops=1)

Buffers: local read=4470 written=1024

Planning Time: 0.028 ms

Execution Time: 8069.024 ms

(4 rows)

postgres=# explain (analyze, buffers) select * from temp1;

QUERY PLAN

--------------------------------------------------

Seq Scan on temp1 (cost=0.00..15868.50 rows=1139850 width=4) (actual time=0.022..4077.606 rows=1010000 loops=1)

Buffers: local read=4470

Planning Time: 0.027 ms

Execution Time: 8064.546 ms

(4 rows)

13) Посмотрите размер памяти, используемой серверным процессом:

postgres=# select sum(total_bytes), sum(used_bytes), sum(free_bytes) from pg_backend_memory_contexts;

sum | sum | sum

---------+---------+--------

9919784 | 9563824 | 355960

(1 row)

Размер используемой памяти 9,3Мб.

postgres=# with recursive dep as

(select name, total_bytes as total, left(ident,10) ident, 1 as level, left(name,38) as path from pg_backend_memory_contexts where parent is null

union all

select c.name, c.total_bytes, left(c.ident,10), p.level+1, left(p.path||'->'||c.name,38)

from dep p, pg_backend_memory_contexts c

where c.parent = p.name)

select * from dep order by total desc limit 3;

name | total | ident | level | path

--------------------+---------+-------+-------+--------------------------------------

LocalBufferContext | 8425808 | | 2 | TopMemoryContext->LocalBufferContext

CacheMemoryContext | 524288 | | 2 | TopMemoryContext->CacheMemoryContext

MessageContext | 262144 | | 2 | TopMemoryContext->MessageContext

(3 rows)

Локальный кэш буферов имеет название контекста LocalBufferContext занимает 8Мб. Этот контекст занимает большую часть локальной памяти серверного процесса.

Можно в другом терминале посмотреть как выглядит занятая память с точки зрения утилит операционной системы:

postgres@tantor:~ $ ps -e -o vsz,rss,pss,psr,rops,wops,pid,cmd --sort -vsz | grep postgres

VSZ RSS PSS PSR ROPS WOPS PID CMD

238624 28316 15916 2 15040 14988 118376 postgres: postgres postgres [local] idle

235100 95140 82302 2 29 25157 101196 postgres: checkpointer

229580 11812 2593 1 1664 1 101200 postgres: autovacuum launcher

227480 10788 2107 1 12 1 101201 postgres: logical replication launcher

226296 14628 3374 2 39 1 101197 postgres: background writer

225908 31104 9787 0 91480 62149 101195 /opt/tantor/db/16/bin/postgres -D /var/lib/postgresql/tantor-se-16/data

225908 11940 2639 3 106 1607 101199 postgres: walwriter

79868 6332 937 1 486 538 116927 postgres: 15/main: logger

Зная, что серверному процессу выделено 9919784 байт, можно посмотреть какой из показателей может быть полезен, если наблюдать за памятью утилитами операционной системы. Возможно, 238624-225908=12716, возможно PSS=15916. Ни один из показателей точно не отражает выделенную процессу локальную память. VSZ (размер виртуальной памяти) показывает ту память, к которой имеет доступ процесс. Почти у всех процессов экземпляра есть доступ к разделяемому пулу размером 128Мб и другим структурам разделяемой памяти общим размером около ~200Мб. Использовать значение столбца VSZ для оценки памяти выделенной процессу неинформативно. Если же из значения столбца вычесть общую память разделяемых структур, то можно получить оценку размера локальной памяти процесса. Какой процесс взять за основу? Возможно postmaster: 225908.

В примере вывода у фонового процесса logger VSZ (VmSize)=79868, а значит в настоящее время процесс не работает с разделяемыми структурами памяти экземпляра. При этом у процесса logger VmPeak=264500.

Можно использовать более детальные показатели использования процессом памяти:

postgres@tantor:~$ cat /proc/101195/status | head -33 | tail -16

VmPeak: 225908 kB

VmSize: 225908 kB

VmLck: 0 kB

VmPin: 0 kB

VmHWM: 31104 kB

VmRSS: 31104 kB

RssAnon: 2560 kB

RssFile: 17408 kB

RssShmem: 11136 kB

VmData: 1748 kB

VmStk: 132 kB

VmExe: 5240 kB

VmLib: 19096 kB

VmPTE: 180 kB

VmSwap: 0 kB

HugetlbPages: 0 kB

14) Посмотрите размер файлов таблицы temp1:

postgres=# \! ls -al $PGDATA/base/5/t*

-rw------- 1 postgres postgres 36618240 /var/lib/postgresql/tantor-se-16/data/base/5/t3_456983

-rw------- 1 postgres postgres 32768 /var/lib/postgresql/tantor-se-16/data/base/5/t3_456983_fsm

15) Закройте утилиту psql, чтобы завершить сессию с базой данных:

postgres=# \q

16) Посмотрите размер файлов таблицы temp1:

postgres@tantor:~$ ls -al $PGDATA/base/5/t*

ls: cannot access '/var/lib/postgresql/tantor-se-16/data/base/5/t*': No such file or directory

Файлы были удалены. Временные файлы удаляются автоматически.

17) Пошлите на выполнение команду, которая породит 5Гб временных файлов в процессе выполнения:

postgres=# explain (analyze, buffers)

with recursive t as (

select 0 i, '' s

union all

select i + 1, repeat('a', i + 1) from t where i < 1e5 -- 100000

)

table t order by s desc limit 1;

18) в другом терминале запустите psql и выполните команду с интервалом в 1-2 минуты:

postgres=# select * from pg_ls_tmpdir();

name | size | modification

-------------------+------------+------------------------

pgsql_tmp119544.1 | 1073741824 | 2035-12-12 15:12:59+03

pgsql_tmp119544.2 | 22331392 | 2035-12-12 15:13:00+03

(2 rows)

postgres=# select * from pg_ls_tmpdir();

name | size | modification

-------------------+------------+------------------------

pgsql_tmp119544.1 | 1073741824 | 2035-12-12 15:12:59+03

pgsql_tmp119544.2 | 1073741824 | 2035-12-12 15:14:29+03

pgsql_tmp119544.3 | 1073741824 | 2035-12-12 15:15:08+03

pgsql_tmp119544.4 | 1073741824 | 2035-12-12 15:16:17+03

pgsql_tmp119544.5 | 375881728 | 2035-12-12 15:16:45+03

(5 rows)

В директории для временных файлов табличного пространства по умолчанию появляются временные файлы размером до 1Гб.

19) После того как команда завершит свою работу через 300 секунд или будет прервана комбинацией клавиш <ctrl+c> файлы удалятся:

QUERY PLAN

-----------------------------------------------------------------------------------------

Limit (cost=3.82..3.82 rows=1 width=36) (actual time=296625.350..296625.398 rows=1 loops=1)

Buffers: temp written=610577

CTE t

-> Recursive Union (cost=0.00..3.04 rows=31 width=36) (actual time=0.011..66081.120 rows=100001 loops=1)

-> Result (cost=0.00..0.01 rows=1 width=36) (actual time=0.004..0.011 rows=1 loops=1)

-> WorkTable Scan on t t_1 (cost=0.00..0.27 rows=3 width=36) (actual time=0.636..0.641 rows=1 loops=100001)

Filter: ((i)::numeric < '100000'::numeric)

Rows Removed by Filter: 0

-> Sort (cost=0.78..0.85 rows=31 width=36) (actual time=296625.343..296625.355 rows=1 loops=1)

Sort Key: t.s DESC

Sort Method: top-N heapsort Memory: 122kB

Buffers: temp written=610577

-> CTE Scan on t (cost=0.00..0.62 rows=31 width=36) (actual time=0.018..212744.403 rows=100001 loops=1)

Buffers: temp written=610577

Planning Time: 0.061 ms

Execution Time: 299594.624 ms

(16 rows)

Запрос выполнялся 299 секунд. Было записано 610577 блоков = ~5Гб.

postgres=# SELECT * FROM pg_ls_tmpdir();

name | size | modification

------+------+--------------

(0 rows)

20) Проверьте, что на временные файлы действует ограничение. Установите ограничение на максимальный размер временных файлов на уровне сессии:

postgres=# set temp_file_limit = '1MB';

SET

21) Повторите команду:

postgres=# explain (analyze, buffers)

with recursive t as (

select 0 i, '' s

union all

select i + 1, repeat('a', i + 1) from t where i < 1e5 -- 100000

)

table t order by s desc limit 1;

ERROR: temporary file size exceeds temp_file_limit (1024kB)

Ограничение действует.

Часть 4. Влияние параметров конфигурации на разделяемую память

1) Посмотрите размер структур разделяемой памяти экземпляра с названиями <anonymous> и пустым именем (NULL):

postgres=# SELECT name, allocated_size, pg_size_pretty(allocated_size) FROM pg_shmem_allocations ORDER BY size DESC limit 4;

name | allocated_size | pg_size_pretty

---------------+----------------+----------------

Buffer Blocks | 134221824 | 128 MB

<anonymous> | 4946048 | 4830 kB

XLOG Ctl | 4208256 | 4110 kB

| 1924224 | 1879 kB

(4 rows)

2) Выполните запрос, чтобы позже можно было сравнить как поменяются размеры структур разделяемой памяти экземпляра при изменении параметров конфигурации:

postgres=# SELECT name, allocated_size, pg_size_pretty(allocated_size) FROM pg_shmem_allocations where name like '%LOCK%' or name like '%roc%';

name | allocated_size | pg_size_pretty

--------------------------+----------------+----------------

PROCLOCK hash | 2944 | 2944 bytes

Proc Header | 256 | 256 bytes

PREDICATELOCKTARGET hash | 2944 | 2944 bytes

ProcSignal | 11392 | 11 kB

Proc Array | 640 | 640 bytes

PREDICATELOCK hash | 2944 | 2944 bytes

LOCK hash | 2944 | 2944 bytes

(7 rows)

Размеры несерьёзные. На экземпляре может работать max_connections = 100 серверных процессов. 256 bytes/100=2,56 байта и даже 640 bytes/100=6,4 байта вряд ли могут сохранить что-то полезное о процессе.

3) Выполните команду, чтобы посмотреть реальные размеры структур памяти:

postgres=# select * from (select *, lead(off) over(order by off) - off as true_size from pg_shmem_allocations) as a where name like '%LOCK%' or name like '%roc%';

name | off | size | allocated_size | true_size

--------------------------+-----------+-------+----------------+-----------

LOCK hash | 142667776 | 2896 | 2944 | 695168

PROCLOCK hash | 143362944 | 2896 | 2944 | 695168

PREDICATELOCKTARGET hash | 144062336 | 2896 | 2944 | 445312

PREDICATELOCK hash | 144507648 | 2896 | 2944 | 1260416

Proc Header | 146621568 | 136 | 256 | 152192

Proc Array | 146773760 | 544 | 640 | 640

ProcSignal | 147177984 | 11272 | 11392 | 11392

(7 rows)

4) Проверим как повлияет на размер структур разделяемой памяти увеличение значения параметра max_locks_per_transaction с 64 до 10000.

Увеличьте значение параметра и перегрузите экземпляр:

postgres=# alter system set max_locks_per_transaction = 10000;

ALTER SYSTEM

postgres=# \q

astra@tantor:~$ sudo restart

astra@tantor:~$ psql

5) Посмотрите как изменился размер структур памяти:

postgres=# SELECT name, allocated_size, pg_size_pretty(allocated_size) FROM pg_shmem_allocations ORDER BY size DESC limit 4;

name | allocated_size | pg_size_pretty

---------------+----------------+----------------

| 270582272 | 258 MB

<anonymous> | 228811520 | 218 MB

Buffer Blocks | 134221824 | 128 MB

XLOG Ctl | 4208256 | 4110 kB

(4 rows)

Размер структур памяти с названием <anonymous> увеличился с 4830 kB до 218 MB.

<anonymous> это один из типов выделения памяти. Анонимная память выделяется в оперативной памяти, не имеет отображения в файлы и устройства.

Про память с пустым названием (NULL) пишут, что "не используется".

6) Посмотрите размер структур LOCK и Proc:

postgres=# select * from (select *, lead(off) over(order by off) - off as true_size from pg_shmem_allocations) as a where name like '%LOCK%' or name like '%roc%';

name | off | size | allocated_size | true_size

--------------------------+-----------+--------+----------------+-----------

LOCK hash | 142667776 | 66384 | 66432 | 110935552

PROCLOCK hash | 253603328 | 131920 | 131968 | 114512768

PREDICATELOCKTARGET hash | 368120320 | 2896 | 2944 | 445312

PREDICATELOCK hash | 368565632 | 2896 | 2944 | 1260416

Proc Header | 370679552 | 136 | 256 | 152192

Proc Array | 370831744 | 544 | 640 | 640

ProcSignal | 371235968 | 11272 | 11392 | 11392

(7 rows)

Размер структур PROCLOCK hash и LOCK hash увеличился. Увеличение структур памяти типа хэш обычно не критичен. Эти структуры используются как вспомогательные: для быстрого поиска указателей на другие структуры. Способов поиска много. Напимер, списки, b-tree, radix-tree. Хэш-структуры примечательны тем, что для поиска по ним используется меньше всего циклов процессора. Основной недостаток - хэш структуры занимают намного больше памяти, чем другие виды структур для поиска. Поэтому если разработчики используют хэш-структуру, то это означает, что размер не имеет значения с точки зрения производительности.

Размер структуры Proc Header при увеличении не изменился. Эта структура часто опрашивается процессами и скорее всего она займёт кэши процессора или будет активно за них "конкурировать". Помимо размера важен состав структуры: выравнивание полей в записях структуры.

7) Верните значение max_locks_per_transaction в значение по умолчанию и увеличьте max_connections до 10000:

postgres=# alter system reset max_locks_per_transaction;

ALTER SYSTEM

postgres=# alter system set max_connections = 10000;

ALTER SYSTEM

postgres=# \q

astra@tantor:~$ sudo restart

astra@tantor:~$ psql

8) Посмотрите как изменился размер структур памяти:

postgres=# SELECT name, allocated_size, pg_size_pretty(allocated_size) FROM pg_shmem_allocations ORDER BY size DESC limit 4;

name | allocated_size | pg_size_pretty

-------------------------+----------------+----------------

<anonymous> | 328024448 | 313 MB

| 156285824 | 149 MB

Buffer Blocks | 134221824 | 128 MB

Backend Activity Buffer | 10268672 | 10028 kB

(4 rows)

Размер структур памяти с названием <anonymous> увеличился с 4830 kB до 313 MB.

Можно проверить, что увеличение max_connections без увеличения числа сессий (серверных процессов) на TPS не влияет.

9) Посмотрите размер структур LOCK и Proc:

postgres=# select * from (select *, lead(off) over(order by off) - off as true_size from pg_shmem_allocations) as a where name like '%LOCK%' or name like '%roc%';

name | off | size | allocated_size | true_size

--------------------------+-----------+--------+----------------+-----------

LOCK hash | 144093440 | 33616 | 33664 | 58106752

PROCLOCK hash | 202200192 | 66384 | 66432 | 59769728

PREDICATELOCKTARGET hash | 261974144 | 33616 | 33664 | 39211904

PREDICATELOCK hash | 301186048 | 66384 | 66432 | 109208448

Proc Header | 458218240 | 136 | 256 | 11982848

Proc Array | 470201088 | 40144 | 40192 | 40192

ProcSignal | 496702080 | 882472 | 882560 | 882560

(7 rows)

После увеличения max_connections структуры разделяемой памяти Proc увеличились в размерах.

Часть 5. Параметр max_connections и производительность

1) Проверим как повлияет увеличение числа простаивающих серверных процессов на TPS.

Создайте тестовый скрипт:

postgres@tantor:~$ echo "select * from pg_sleep(1);" > test1.sql

2) Подготовьте кластера к тестам:

postgres@tantor:~$

psql -p 5435 -c "alter system set max_connections=100"

psql -p 5435 -c "alter system set max_locks_per_transaction = 64"

psql -c "alter system set max_connections=100"

psql -c "alter system set max_locks_per_transaction = 64"

pgbench -i 2> /dev/null

pgbench -i -p 5435 2> /dev/null

sudo systemctl restart postgresql

sudo systemctl restart tantor-se-server-16

ALTER SYSTEM

3) Получите базовые показатели:

postgres@tantor:~$ pgbench -b select-only -T 30 -p 5435 2> /dev/null | grep tps

tps = 6709.693060 (without initial connection time)

postgres@tantor:~$ pgbench -b select-only -T 30 2> /dev/null | grep tps

tps = 7119.172960 (without initial connection time)

У СУБД Tantor SE tps = 7119.

У СУБД PostgreSQL, стандартно поставляемой с Astralinux tps = 6709.

Будет использоваться тест только с SELECT, так как тесты с изменениями в таблицах снизят точность при повторных запусках. Поскольку в виртуальной машине немного памяти (4Гб), влияние размеров структур памяти начинается примерно тогда же, когда Huge Pages начинают давать эффект (~100Гб), то различия ожидаются минимальными. Интервалы тестирования выбраны небольшими (30 секунд), так как нет смысла тратить время курса на ожидания.

Практика полезна не абсолютными значениями, а процедурой измерений.

4) Сейчас максимальное число сессий 100. Создайте 90 сессий с помощью pgbench:

postgres@tantor:~$ pgbench -T 10000 -P 5 -c 90 -f test1.sql

pgbench (16.2)

starting vacuum...end.

progress: 5.0 s, 72.1 tps, lat 1002.351 ms stddev 1.874, 0 failed

progress: 10.0 s, 90.0 tps, lat 1001.731 ms stddev 0.528, 0 failed

progress: 15.0 s, 90.0 tps, lat 1001.525 ms stddev 0.493, 0 failed

Если не нужны соединения с базой данных, то тест можно прервать комбинацией клавиш <ctrl+c>

tps в тесте должны показываться как одинаковые целые числа, равное числу сессий при секундной задержке. Если они показываются не целыми числами это означает, что есть конкуренция за ядра процессоров и точность тестов будет ниже.

5) Во втором окне запустите тест, который выполняет только SELECT:

postgres@tantor:~$ pgbench -b select-only -T 30 2> /dev/null | grep tps

tps = 6940.512696 (without initial connection time)

6) Остановите нагрузку и запустите её с другой базой данных:

<ctrl+c>

postgres@tantor:~$ pgbench -T 10000 -P 5 -c 90 -f test1.sql -p 5435

pgbench (16.2, server 15.6 (Debian 15.6-astra.se2))

starting vacuum...end.

progress: 5.0 s, 71.9 tps, lat 1002.589 ms stddev 2.201, 0 failed

progress: 10.0 s, 90.1 tps, lat 1002.279 ms stddev 1.216, 0 failed

progress: 15.0 s, 90.0 tps, lat 1002.023 ms stddev 1.286, 0 failed

7) Во втором окне запустите тест:

postgres@tantor:~$ pgbench -b select-only -T 30 -p 5435 2> /dev/null | grep tps

tps = 6649.501401 (without initial connection time)

Произошло некоторое снижение tps. Можно предположить, что замедление вносит проверка статуса 90 процессов при выполнении каждого select из теста с частотой равной tps. Для проверки статуса нужна разделяемая блокировка на структуру памяти. При этом каждую секунду серверный процесс получает блокировку, чтобы поменять свой статус (номер транзакции, если он установлен).

8) Поменяем команду для нагрузки, чтобы у нагрузочных сессий в течение 1 секунды транзакция была открыта:

postgres@tantor:~$ echo "select *, pg_sleep(1) from pg_current_xact_id();" > test1.sql

Дальше повторим тесты. При реальном тестировании стоит перезапустить экземпляры, чтобы очистить структуры памяти.

9) Запустите нагрузку из 90 сессий:

postgres@tantor:~$ pgbench -T 10000 -P 5 -c 90 -f test1.sql

pgbench (16.2)

starting vacuum...end.

progress: 5.0 s, 71.7 tps, lat 1003.276 ms stddev 2.201, 0 failed

progress: 10.0 s, 90.2 tps, lat 1020.448 ms stddev 36.319, 0 failed

progress: 15.0 s, 90.1 tps, lat 1002.278 ms stddev 1.112, 0 failed

progress: 20.0 s, 90.0 tps, lat 1001.755 ms stddev 0.542, 0 failed

10) Запустите тест:

postgres@tantor:~$ pgbench -b select-only -T 30 2> /dev/null | grep tps

tps = 6854.086439 (without initial connection time)

11) Остановите нагрузку и запустите её с другой базой данных:

<ctrl+c>

postgres@tantor:~$ pgbench -T 10000 -P 5 -c 90 -f test1.sql -p 5435

pgbench (16.2, server 15.6 (Debian 15.6-astra.se2))

starting vacuum...end.

progress: 5.0 s, 72.0 tps, lat 1005.050 ms stddev 5.612, 0 failed

progress: 10.0 s, 89.9 tps, lat 1002.030 ms stddev 0.824, 0 failed

progress: 15.0 s, 90.0 tps, lat 1002.266 ms stddev 1.887, 0 failed

12) Запустите тест:

postgres@tantor:~$ pgbench -b select-only -T 30 -p 5435 2> /dev/null | grep tps

tps = 6763.148130 (without initial connection time)

postgres@tantor:~$ pgbench -b select-only -T 30 -p 5435 2> /dev/null | grep tps

tps = 6573.925660 (without initial connection time)

postgres@tantor:~$ pgbench -b select-only -T 30 -p 5435 2> /dev/null | grep tps

tps = 6649.730773 (without initial connection time)

Разброс значений у PostgreSQL увеличился. Можно провести несколько измерений.

В целом, tps уменьшился.

13) Остановите нагрузку и запустите её с другой базой данных:

<ctrl+c>

14) Увеличьте max_connections до 2000 и задержку до 10 секунд:

postgres@tantor:~$

echo "select *, pg_sleep(10) from pg_current_xact_id();" > test1.sql

psql -p 5435 -c "alter system set max_connections=2000"

psql -c "alter system set max_connections=2000"

ALTER SYSTEM

Задержка увеличена, чтобы пробуждение процессов было редким и не оказывало влияние на результат теста. Таймслоты планировщика 10 миллисекунд. 4 процессора. Без ожидания обслуживания может пробуждаться 400 процессов в секунду, 4000 процессов раз в 10 секунд. 4000 больше, чем 2000 процессов, которые возможно запустить со значением параметра max_connections=2000. Удержание горизонта не играет роли, так как в тесте нет команд, которые меняют содержимое таблиц.

15) Остановите экземпляры. Размер памяти экземпляров увеличился на сотни мегабайт. Чтобы не было нехватки памяти, экземпляры будут запускаться по одному.

sudo systemctl stop postgresql

sudo systemctl stop tantor-se-server-16

sudo systemctl start tantor-se-server-16

16) Запустите нагрузку из 990 сессий:

pgbench -T 10000 -P 20 -c 990 -f test1.sql

pgbench (16.2)

starting vacuum...end.

progress: 20.0 s, 49.5 tps, lat 10096.327 ms stddev 27.359, 0 failed

progress: 40.0 s, 99.0 tps, lat 10013.549 ms stddev 6.854, 0 failed

progress: 60.0 s, 99.0 tps, lat 10010.448 ms stddev 3.005, 0 failed

17) Запустите тест:

postgres@tantor:~$ pgbench -b select-only -T 30 2> /dev/null | grep tps

tps = 6844.133619 (without initial connection time)

18) Остановите нагрузку и запустите её с другой базой данных:

<ctrl+c>

sudo systemctl stop tantor-se-server-16

sudo systemctl start postgresql

pgbench -T 10000 -P 20 -c 990 -f test1.sql -p 5435

19) Запустите тест:

postgres@tantor:~$ pgbench -b select-only -T 30 -p 5435 2> /dev/null | grep tps

tps = 6632.468942 (without initial connection time)

Изменения при увеличении числа сессий с 90 до 990 незаметны или отсутствуют. PostgreSQL оптимизирован для работы и с 4000 сессиями.

Более интересны 10000 сессий, но для них нужно около 20Гб памяти.

Пример проведения теста с 10000 сессий:

echo "select *, pg_sleep(100) from pg_current_xact_id();" > test1.sql

psql -p 5435 -c "alter system set max_connections=10240"

psql -c "alter system set max_connections=10240"

sudo systemctl stop postgresql

sudo systemctl stop tantor-se-server-16

sudo systemctl start tantor-se-server-16

postgres@tantor:~$ free

total used free shared buff/cache available

Mem: 24020472 1280012 22022956 373344 1421396 22740460

Swap: 0 0 0

postgres@tantor:~$ pgbench -T 10000 -P 30 -c 10000 -f test1.sql

pgbench (16.2)

starting vacuum...end.

progress: 81.6 s, 0.0 tps, lat 0.000 ms stddev 0.000, 0 failed

progress: 90.0 s, 0.0 tps, lat 0.000 ms stddev 0.000, 0 failed

progress: 120.0 s, 0.0 tps, lat 0.000 ms stddev 0.000, 0 failed

progress: 150.1 s, 0.0 tps, lat 0.000 ms stddev 0.000, 0 failed

total used free shared buff/cache available

Mem: 24020472 17913240 5365736 384800 1479104 6107232

Swap: 0 0 0

postgres@tantor:~$ pgbench -b select-only -T 30 2> /dev/null | grep tps

tps = 6409.405397 (without initial connection time)

С 10000 неактивными сессиями tps уменьшился до 6409.

Для PostgreSQL нестабильность результата осталась прежней:

postgres@tantor:~$ pgbench -b select-only -T 30 -p 5435 2> /dev/null | grep tps

tps = 6692.845789 (without initial connection time)

postgres@tantor:~$ pgbench -b select-only -T 30 -p 5435 2> /dev/null | grep tps

tps = 6436.574882 (without initial connection time)

postgres@tantor:~$ pgbench -b select-only -T 30 -p 5435 2> /dev/null | grep tps

tps = 6547.961317 (without initial connection time)

Часть 6. Размер кэша буферов и освобождение буферов

1) Автоматизируем тестирование работы экземпляра на примере изменения размера буферного кэша. Изменения части параметров конфигурации требует рестарта экземпляра. В предыдущей части практики вы неоднократно рестартовали экземпляр и это трудоёмко и приводит к ошибкам.

Создайте файл скрипта для теста. Будем тестировать скорость выполнения команд, создающих и удаляющих таблицы.

postgres@tantor:~$ mcedit run.sql

CREATE TABLE x(id int);

INSERT INTO x VALUES (1);

DROP TABLE x;

2) Создайте файл теста:

postgres@tantor:~$ mcedit x.sh

#/bin/sh

pg_ctl stop

for x in '128MB' '1GB' '2GB' '4GB' '8GB' '16GB' '18GB'

pg_ctl -l /dev/null -o '--shared_buffers='$x'' start

sleep 1

echo tps for $x

psql -c 'select * from (select *, lead(off) over(order by off) - off as true from pg_shmem_allocations) as a where a.true<>a.allocated_size order by 1;'

pgbench --file=run.sql -j 1-T 10 2> /dev/null | grep tps

pg_ctl stop

sleep 1

done

Уберите значения '4GB' '8GB' '16GB' '18GB', так как памяти в виртуальной машине немного.

3) Поменяйте разрешения на исполнения файла скрипта:

postgres@tantor:~$ chmod +x x.sh

4) Выполните файл теста:

postgres@tantor:~$ ./x.sh

waiting for server to start.... done

server started

tps for 128MB

name | off | size | allocated_size | true

----------------------------+-----------+-------+----------------+-----------

LOCK hash | 144128000 | 33616 | 33664 | 59396992

PREDICATELOCK hash | 304476928 | 66384 | 66432 | 111420288

PREDICATELOCKTARGET hash | 264527744 | 33616 | 33664 | 39949184

PredXactList | 415897216 | 88 | 128 | 19703168

Proc Header | 464834560 | 136 | 256 | 12269696

PROCLOCK hash | 203524992 | 66384 | 66432 | 60998528

RWConflictPool | 439937792 | 24 | 128 | 24628992

SERIALIZABLEXID hash | 435600384 | 4944 | 4992 | 4337408

Shared Buffer Lookup Table | 143166464 | 2896 | 2944 | 961408

(9 rows)

tps = 79.221247 (without initial connection time)

waiting for server to shut down..... done

server stopped

waiting for server to start.... done

server started

tps for 1GB

name | off | size | allocated_size | true

----------------------------+------------+-------+----------------+-----------

LOCK hash | 1121593088 | 33616 | 33664 | 59396992

PREDICATELOCK hash | 1281942016 | 66384 | 66432 | 111420288

PREDICATELOCKTARGET hash | 1241992832 | 33616 | 33664 | 39949184

PredXactList | 1393362304 | 88 | 128 | 19703168

Proc Header | 1442299648 | 136 | 256 | 12269696

PROCLOCK hash | 1180990080 | 66384 | 66432 | 60998528

RWConflictPool | 1417402880 | 24 | 128 | 24628992

SERIALIZABLEXID hash | 1413065472 | 4944 | 4992 | 4337408

Shared Buffer Lookup Table | 1114202880 | 9040 | 9088 | 7390080

(9 rows)

tps = 74.513412 (without initial connection time)

waiting for server to shut down..... done

server stopped

waiting for server to start.... done

server started

tps for 2GB

name | off | size | allocated_size | true

----------------------------+------------+-------+----------------+-----------

LOCK hash | 2224302592 | 33616 | 33664 | 59396992

PREDICATELOCK hash | 2384651520 | 66384 | 66432 | 111420288

PREDICATELOCKTARGET hash | 2344702336 | 33616 | 33664 | 39949184

PredXactList | 2496071808 | 88 | 128 | 19703168

Proc Header | 2545009152 | 136 | 256 | 12269696

PROCLOCK hash | 2283699584 | 66384 | 66432 | 60998528

RWConflictPool | 2520112384 | 24 | 128 | 24628992

SERIALIZABLEXID hash | 2515774976 | 4944 | 4992 | 4337408

Shared Buffer Lookup Table | 2209564160 | 17232 | 17280 | 14738304

(9 rows)

tps = 71.288637 (without initial connection time)

waiting for server to shut down..... done

server stopped

waiting for server to start.... done

server started

tps for 4GB

name | off | size | allocated_size | true

----------------------------+------------+-------+----------------+-----------

LOCK hash | 4429721984 | 33616 | 33664 | 59396992

PREDICATELOCK hash | 4590070912 | 66384 | 66432 | 111420288

PREDICATELOCKTARGET hash | 4550121728 | 33616 | 33664 | 39949184

PredXactList | 4701491200 | 88 | 128 | 19703168

Proc Header | 4750428544 | 136 | 256 | 12269696

PROCLOCK hash | 4489118976 | 66384 | 66432 | 60998528

RWConflictPool | 4725531776 | 24 | 128 | 24628992

SERIALIZABLEXID hash | 4721194368 | 4944 | 4992 | 4337408

Shared Buffer Lookup Table | 4400287104 | 33616 | 33664 | 29434752

(9 rows)

tps = 66.595864 (without initial connection time)

waiting for server to shut down..... done

server stopped

waiting for server to start.... done

server started

tps for 8GB

name | off | size | allocated_size | true

----------------------------+------------+-------+----------------+-----------

LOCK hash | 8806510976 | 33616 | 33664 | 59396992

PREDICATELOCK hash | 8966859904 | 66384 | 66432 | 111420288

PREDICATELOCKTARGET hash | 8926910720 | 33616 | 33664 | 39949184

PredXactList | 9078280192 | 88 | 128 | 19703168

Proc Header | 9127217536 | 136 | 256 | 12269696

PROCLOCK hash | 8865907968 | 66384 | 66432 | 60998528

RWConflictPool | 9102320768 | 24 | 128 | 24628992

SERIALIZABLEXID hash | 9097983360 | 4944 | 4992 | 4337408

Shared Buffer Lookup Table | 8747683200 | 66384 | 66432 | 58827648

(9 rows)

tps = 59.421421 (without initial connection time)

waiting for server to shut down..... done

server stopped

waiting for server to start.... done

server started

tps for 16GB

name | off | size | allocated_size | true

----------------------------+-------------+--------+----------------+-----------

LOCK hash | 17560088960 | 33616 | 33664 | 59396992

PREDICATELOCK hash | 17720437888 | 66384 | 66432 | 111420288

PREDICATELOCKTARGET hash | 17680488704 | 33616 | 33664 | 39949184

PredXactList | 17831858176 | 88 | 128 | 19703168

Proc Header | 17880795520 | 136 | 256 | 12269696

PROCLOCK hash | 17619485952 | 66384 | 66432 | 60998528

RWConflictPool | 17855898752 | 24 | 128 | 24628992

SERIALIZABLEXID hash | 17851561344 | 4944 | 4992 | 4337408

Shared Buffer Lookup Table | 17442475392 | 131920 | 131968 | 117613440

(9 rows)

tps = 48.098817 (without initial connection time)

waiting for server to shut down..... done

server stopped

waiting for server to start.... done

server started

tps for 18GB

name | off | size | allocated_size | true

----------------------------+-------------+--------+----------------+-----------

LOCK hash | 19744272768 | 33616 | 33664 | 59396992

PREDICATELOCK hash | 19904621696 | 66384 | 66432 | 111420288

PREDICATELOCKTARGET hash | 19864672512 | 33616 | 33664 | 39949184

PredXactList | 20016041984 | 88 | 128 | 19703168

Proc Header | 20064979328 | 136 | 256 | 12269696

PROCLOCK hash | 19803669760 | 66384 | 66432 | 60998528

RWConflictPool | 20040082560 | 24 | 128 | 24628992

SERIALIZABLEXID hash | 20035745152 | 4944 | 4992 | 4337408

Shared Buffer Lookup Table | 19616173440 | 131920 | 131968 | 128099200

(9 rows)

tps = 46.381753 (without initial connection time)

waiting for server to shut down..... done

server stopped

Была протестирована скорость удаления таблиц в зависимости от размера кэша буферов.

Скорость удаления таблиц достоверно уменьшается при увеличении размера буферного кэша даже при пустом буферном кэше.

Такое происходит после удаления объекта, когда буфера, содержащие его блоки инвалидируются или при удалении отдельного файла или усечении файла (в том числе вакуумом) или при удалении базы данных.

5) Верните параметры к значениям по умолчанию и перезапустите экземпляр:

postgres@tantor:~$

sudo systemctl start tantor-se-server-16

sudo systemctl start postgresql

psql -p 5435 -c "alter system reset max_locks_per_transaction"

psql -p 5435 -c "alter system reset max_connections"

psql -c "alter system reset max_connections"

sudo systemctl restart tantor-se-server-16

Практика к главе 6

Часть 1. Карта свободного пространства

1) Установите расширение pageinspect:

postgres=# create extension if not exists pageinspect;

CREATE EXTENSION

2) Создайте две таблицы с разным порядком следования столбцов и вставьте строки:

postgres=#

begin;

drop table if exists t1;

drop table if exists t2;

create table t1 (c1 varchar(1), c2 bigserial , c3 date, c4 timestamp);

create table t2 (c1 bigserial , c2 timestamp, c3 date, c4 varchar(1));

insert into t1 values('A', 1, now(), current_timestamp);

insert into t2 values(1, current_timestamp, now(), 'A');

commit;

BEGIN

CREATE TABLE

INSERT 0 1

COMMIT

3) Посмотрите используя функции расширения pageinspect содержимое вставленных в таблицы строк:

postgres=# select t_data, lp_len, t_hoff from heap_page_items(get_raw_page('t1','main',0));

t_data | lp_len | t_hoff

--------------------------------------------------------------------+--------+--------

\x054100000000000001000000000000009a230000000000009e7a078838cc0200 | 56 | 24

(1 row)

postgres=# select t_data, lp_len, t_hoff from heap_page_items(get_raw_page('t2','main',0));

t_data | lp_len | t_hoff

------------------------------------------------+--------+--------

\x01000000000000009e7a078838cc02009a2300000541 | 46 | 24

(1 row)

В таблице t1 строка занимает больше места, чем в таблице t2. Значения в полях строк в обеих таблицах одинаковы, только порядок столбцов разный.

4) Посмотрите содержимое первых четырёх блоков карты свободного пространства таблицы pg_class. В этой таблице много блоков данных и строк в них:

postgres=#

SELECT * from fsm_page_contents(get_raw_page('pg_class', 'fsm', 0));

SELECT * from fsm_page_contents(get_raw_page('pg_class', 'fsm', 1));

SELECT * from fsm_page_contents(get_raw_page('pg_class', 'fsm', 2));

SELECT * from fsm_page_contents(get_raw_page('pg_class', 'fsm', 3));

fsm_page_contents

-------------------

0: 236 +

1: 236 +

3: 236 +

7: 236 +

15: 236 +

31: 236 +

63: 236 +

127: 236 +

255: 236 +

511: 236 +

1023: 236 +

2047: 236 +

4095: 236 +

fp_next_slot: 0 +

(1 row)

...

4095: 189 +

4096: 115 +

4097: 2 +

4098: 2 +

4099: 2 +

4100: 2 +

4101: 154 +

4102: 236 +

4103: 12 +

4104: 3 +

4105: 6 +

4106: 10 +

4107: 8 +

4108: 11 +

4109: 189 +

fp_next_slot: 1 +

(1 row)

ERROR: block number 3 is out of range for relation "pg_class"

Четвертого блока нет.

Для каждого блока данных в карте хранится 1 байт. Байт показывает свободное пространство, деленное на 32 с округлением в меньшую сторону. Для быстрого поиска свободного блока карта представляет собой не просто список, а имеет древовидную структуру над списком. Дерево хранится на каждой странице FSM как массив и оно не идеально. Практического смысла читать значения чисел в блоках FSM нет.

Алгоритм работы с картой предусматривает, чтобы разным серверным процессам выдавались разные блоки, чтобы снизить конкуренцию за доступ к блокам данных. Разные серверные процессы будут вставлять строки (или версии строк) в разные блоки. Алгоритм учитывает, чтобы по возможности блоки данных заполнялись последовательно, так как это позволяет использовать предварительную выборку блоков (prefetching).

5) Полностью вакуумируйте таблицу системного каталога pg_class и посмотрите карту свободного места FSM и видимости VM:

postgres=# vacuum full pg_class;

VACUUM

postgres=# SELECT * from fsm_page_contents(get_raw_page('pg_class', 'fsm', 0));

ERROR: could not open file "base/5/535511_fsm": No such file or directory

postgres=# SELECT * from page_header(get_raw_page('pg_class', 'vm', 0));

ERROR: could not open file "base/5/535511_vm": No such file or directory

Полный вакуум не создал FSM и VM слои, это нормально.

6) Выполните обычное вакуумирование:

postgres=# vacuum pg_class;

VACUUM

7) Посмотрите карту FSM и VM:

postgres=# SELECT * from fsm_page_contents(get_raw_page('pg_class', 'fsm', 0));

fsm_page_contents

-------------------

0: 159 +

1: 159 +

3: 159 +

7: 159 +

15: 159 +

31: 159 +

63: 159 +

127: 159 +

255: 159 +

511: 159 +

1023: 159 +

2047: 159 +

4095: 159 +

fp_next_slot: 0 +

(1 row)

postgres=# SELECT * from page_header(get_raw_page('pg_class', 'vm', 0));

-----------+----------+-------+-------+-------+---------+----------+---------+----------

0/8BEFFDB0 | 0 | 0 | 24 | 8192 | 8192 | 8192 | 5 | 0

(1 row)

Обычное вакуумирование создало слои (файлы) FSM и VM.

Изменения в блоках FSM явно не журналируются, так как в алгоритме есть процедуры самокоррекции. Увеличение размера файла FSM не журналируется и расхождение в размерах не вызывает ошибки.

При обнаружении повреждений процесс, который обнаружил несостыковки в дереве, пытается скорректировать ошибки и перестроить часть дерева.

Обычные вакуум и автовакуум обновляет листовые страницы дерева FSM и пересоздает FSM и VM, если файлы FSM отсутствуют.

8) Проверим может ли создать серверный процесс FSM и когда.

Посмотрите есть ли карта свободного пространства у таблицы t1:

postgres=# SELECT * from fsm_page_contents(get_raw_page('t1', 'fsm', 0));

ERROR: could not open file "base/5/535438_fsm": No such file or directory

Файла карты свободного пространства нет. Как только блок заполнится и серверный процесс захочет внести изменение в карту свободного пространства, он ее создаст.

9) Выполните анонимный блок для вставки 100 строк в таблицу t1:

postgres=#

DO $$

DECLARE

BEGIN

FOR r IN 1..100 LOOP

insert into t1 values('A', 1, clock_timestamp(), current_timestamp);

END LOOP;

END$$;

10) Проверьте создалась ли карта:

postgres=# SELECT * from fsm_page_contents(get_raw_page('t1', 'fsm', 0));

ERROR: could not open file "base/5/535438_fsm": No such file or directory

Карта FSM не создалась серверным процессом.

11) Почему не создалась карта? Проверьте сколько блоков в таблице. Выполните запрос:

postgres=# select max(ctid) from t1;

max

---------

(0,100)

(1 row)

Один блок и в нём 100 строк.

12) Вставьте ещё 100 строк и проверьте сколько блоков в основном слое (файлах данных):

postgres=#

DO $$

DECLARE

BEGIN

FOR r IN 1..100 LOOP

insert into t1 values('A', 1, clock_timestamp(), current_timestamp);

END LOOP;

END$$;

postgres=# select max(ctid) from t1;

max

--------

(1,65)

(1 row)

Два блока. Во втором блоке 65 строк.

13) Проверьте, что файл FSM создан:

postgres=# SELECT * from fsm_page_contents(get_raw_page('t1', 'fsm', 0));

fsm_page_contents

-------------------

fp_next_slot: 0 +

(1 row)

14) Проверьте, что содержимое первого лока действительно пусто:

postgres=# SELECT * from page_header(get_raw_page('t1', 'fsm', 0));

-----+----------+-------+-------+-------+---------+----------+---------+-----------

0/0 | 0 | 0 | 24 | 8192 | 8192 | 8192 | 5 | 0

(1 row)

upper указывает на конец блока.

Хотя серверный процесс создал файл FSM, он его не заполнил. Почему? Потому что для заполнения нужно прочесть все блоки данных таблицы, а это не задача серверного процесса и привело бы к задержке выполнения команды. VM файл не был создан.

Только обычный вакуум и автовакуум заполнят FSM и VM. Серверные процессы вносят изменения в заполненную FSM и исправляют повреждения части дерева FSM.

Часть 2. Изменение порядка следования столбцов

1) Если на виртуальной машине есть доступ в сеть, скачайте архив с демонстрационной базой данных:

postgres@tantor:~$ wget https://edu.postgrespro.com/demo-medium-en.zip

Saving to: ‘demo-medium.zip’

‘demo-medium-en.zip’ saved [64544920/64544920]

Демонстрационная база данных распространяется под лицензией PostgreSQL.

Демонстрационная база есть в трёх вариантах demo-small.zip demo-medium.zip demo-big.zip

Демонстрационная база также есть по адресу:

postgres@tantor:~$ wget https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/example-guided-project/flights_RUSSIA_small.sql

‘flights_RUSSIA_small.sql’ saved [103865229/103865229]

postgres=# \i flights_RUSSIA_small.sql

2) Импортируйте базу данных:

postgres@tantor:~$ time zcat demo-medium.zip | psql

SET

...

real 1m3.339s

user 0m2.168s

sys 0m0.255s

3) Воспользуемся скриптом, который может показать оптимальный порядок следования столбцов. Скачайте скрипт:

postgres@tantor:~$ wget https://raw.githubusercontent.com/NikolayS/postgres_dba/refs/heads/master/sql/p1_alignment_padding.sql

‘p1_alignment_padding.sql’ saved [6598/6598]

postgres@tantor:~$ cat p1_alignment_padding.sql

4) Подсоединитесь к базе данных demo:

postgres@tantor:~$ psql -d demo

5) Выполните скрипт:

demo=# \i p1_alignment_padding.sql

Table | Size | Wasted | Suggested Columns Reorder

------------------------+-------+----------------+--------------------------------------

bookings.ticket_flights| 155 MB| ~18 MB (11.61%)| amount, fare_conditions, flight_id, ticket_no

bookings.boarding_passes| 110 MB| ~14 MB (13.13%)| boarding_no, flight_id, seat_no, ticket_no

bookings.tickets | 109 MB| ~6.4MB (5.79%) | book_ref, contact_data, passenger_id,

passenger_name, ticket_no

bookings.bookings | 30 MB | |

bookings.flights | 6.7MB | |

bookings.seats | 96 kB | |

bookings.airports_data | 48 kB |~832 b (1.69%) | airport_code, airport_name, city, timezone,

coordinates

bookings.aircrafts_data| 8192 b| |

(8 rows)

Для 4 таблиц скрипт нашёл более оптимальный порядок следования столбцов. Ожидаемая экономия места по расчётам скрипта ~11%.

6) Выгрузите определения объектов базы данных demo:

postgres@tantor:~$ pg_dump -d demo -s -f demo.sql

Параметр -s указывает не выгружать строки таблиц.

Параметр -f название файла, куда выгружаются команды создания и изменения объектов (файл дампа)

Параметр -d указывает к какой базе данных подключиться, чтобы выгрузить её содержимое

7) Отредактируйте скрипт, поменяв порядок столбцов для таблиц ticket_flights, boarding_passes, tickets:

postgres@tantor:~$ mcedit demo.sql

8) Создайте базу данных с названием demo2, подсоединитесь к ней и выполните отредактированный скрипт demo.sql:

postgres=#

create database demo2;

\c demo2 \\

\i demo.sql

CREATE DATABASE

You are now connected to database "demo2" as user "postgres".

...

ALTER TABLE

demo2=#

9) Перегрузите данные из базы данных demo в базу данных demo2:

postgres@tantor:~$ time pg_dump -d demo -a | psql -d demo2

...

real 3m38.040s

user 0m1.981s

sys 0m0.259s

Перегрузка выполняется в один поток и будет длится ~3 минуты.

За эти три минуты выполните следующие два пункта практики.

10) Пока работает команда перегрузки данных выполните запрос:

demo2=# select * from pg_stat_progress_copy;

-------+--------+---------+--------+-----------+------+----------------+-----------+--------------+--------

59160 | 535928 | demo | 535978 | COPY TO | PIPE | 217467 | 0| 5654 | 0

59161 | 536055 | demo2 | 536110 | COPY FROM | PIPE | 83424852 | 0| 829071 | 0

(2 rows)

Запрос позволяет оценить скорость выполнения команд COPY. Отдельного представления для наблюдения за прогрессом выполнения выгрузки-загрузки нет, так как выполнение demo.sql с точки зрения серверного процесса это набор отдельных команд.

Кроме представления pg_stat_progress_copy есть ещё несколько представлений для мониторинга прогресса выполнения некоторых, обычно долго выполняющихся команд:

postgres=# \dv *progress*

List of relations

Schema | Name | Type | Owner

------------+-------------------------------+------+----------

pg_catalog | pg_stat_progress_analyze | view | postgres

pg_catalog | pg_stat_progress_basebackup | view | postgres

pg_catalog | pg_stat_progress_cluster | view | postgres

pg_catalog | pg_stat_progress_copy | view | postgres

pg_catalog | pg_stat_progress_create_index | view | postgres

pg_catalog | pg_stat_progress_vacuum | view | postgres

(6 rows)

11) Пока работает команда перегрузки данных выполните запрос:

postgres=# select * from pg_stat_activity where query like 'COPY%' \gx

-[ RECORD 1 ]----+-----------------------------------------------

datid | 535645

datname | demo2

pid | 57607

leader_pid |

usesysid | 10

usename | postgres

application_name | psql

client_addr |

client_hostname |

client_port | -1

backend_start | 17:50:39.986712+03

xact_start | 17:59:27.486498+03

query_start | 17:59:27.486498+03

state_change | 17:59:27.4865+03

wait_event_type | IO

wait_event | DataFileWrite

state | active

backend_xid | 406744

backend_xmin | 406744

query_id |

query | COPY bookings.boarding_passes (ticket_no, flight_id, boarding_no, seat_no) FROM stdin;

backend_type | client backend

12) После того как данные перегрузятся, выполните запрос:

postgres=# select pg_size_pretty(a), pg_size_pretty(b), 100*(a-b)/(a+b) "%" from (select pg_database_size('demo') a , pg_database_size('demo2') b);

pg_size_pretty | pg_size_pretty | %

----------------+----------------+----

706 MB | 815 MB | -7

(1 row)

Запрос показывает размеры исходной базы данных, оптимизированной и процент экономии места. Место наоборот увеличилось. Почему такое произошло?

Потому, что данные загружались с созданными индексами. Из-за этого время загрузки данных существенно увеличилось и размеры индексов стали больше.

13) Посмотрите размеры индексов в двух базах данных demo и demo2:

demo2=# \di+ bookings.*

List of relations

Schema | Name | Table | Size |

----------+-------------------------------------------+-----------------+--------+

bookings | aircrafts_pkey |aircrafts_data | 16 kB |

bookings | airports_data_pkey |airports_data | 16 kB |

bookings | boarding_passes_flight_id_boarding_no_key |boarding_passes | 281 MB |

bookings | boarding_passes_flight_id_seat_no_key |boarding_passes | 274 MB |

bookings | boarding_passes_pkey |boarding_passes | 404 MB |

bookings | bookings_pkey |bookings | 45 MB |

bookings | flights_flight_no_scheduled_departure_key |flights | 9552 kB |

bookings | flights_pkey |flights | 7328 kB |

bookings | seats_pkey |seats | 48 kB |

bookings | ticket_flights_pkey |ticket_flights | 423 MB |

bookings | tickets_pkey |tickets | 99 MB |

(11 rows)

demo2=# \c demo

You are now connected to database "demo" as user "postgres".

demo=# \di+ bookings.*

List of relations

Schema | Name | Table | Size |

----------+-------------------------------------------+----------------+---------+

bookings | aircrafts_pkey |aircrafts_data | 16 kB |

bookings | airports_data_pkey |airports_data | 16 kB |

bookings | boarding_passes_flight_id_boarding_no_key |boarding_passes | 170 MB |

bookings | boarding_passes_flight_id_seat_no_key |boarding_passes | 170 MB |

bookings | boarding_passes_pkey |boarding_passes | 307 MB |

bookings | bookings_pkey |bookings | 45 MB |

bookings | flights_flight_no_scheduled_departure_key |flights | 6648 kB |

bookings | flights_pkey |flights | 4744 kB |

bookings | seats_pkey |seats | 48 kB |

bookings | ticket_flights_pkey |ticket_flights | 325 MB |

bookings | tickets_pkey |tickets | 89 MB |

(11 rows)

Семь индексов увеличились в размере. Индекс bookings_pkey не поменял размер. Чем он отличается от других индексов? Тем, что данные столбца, по которому он создан заполнялись монотонно возрастающими значениями:

demo2=# select * from bookings.bookings limit 3;

book_ref | book_date | total_amount

----------+------------------------+--------------

00000F | 2017-07-05 03:12:00+03 | 265700.00

000012 | 2017-07-14 09:02:00+03 | 37900.00

00002D | 2017-05-20 18:45:00+03 | 114700.00

(3 rows)

Структура индексов типа b-tree в PostgreSQL при вставке монотонно возрастающих значений заполняются оптимально. Такое происходит, если индекс создан по столбцу, заполняющемуся возрастающей последовательностью.

14) Перестройте индексы. Это можно сделать несколькими способами.

Первый способ выполнить команду:

demo=# \c demo2

demo2=# SELECT 'REINDEX INDEX ' || indexrelid::regclass || ';' FROM pg_index where indexrelid::regclass::text like 'bookings.%'; \gexec

?column?

-------------------------------------------------------------------

REINDEX INDEX bookings.aircrafts_pkey;

REINDEX INDEX bookings.airports_data_pkey;

REINDEX INDEX bookings.boarding_passes_flight_id_boarding_no_key;

REINDEX INDEX bookings.boarding_passes_flight_id_seat_no_key;

REINDEX INDEX bookings.boarding_passes_pkey;

REINDEX INDEX bookings.bookings_pkey;

REINDEX INDEX bookings.flights_flight_no_scheduled_departure_key;

REINDEX INDEX bookings.flights_pkey;

REINDEX INDEX bookings.seats_pkey;

REINDEX INDEX bookings.ticket_flights_pkey;

REINDEX INDEX bookings.tickets_pkey;

(11 rows)

Команда удобна тем, что можно добавить предикат (условие WHERE ) и отфильтровать те индексы, которые нужно перестроить.

Второй и третий способ выполнить команды:

demo2=# \timing on

Timing is on.

demo2=# REINDEX SCHEMA bookings;

REINDEX

Time: 27179.519 ms (00:27.180)

demo2=# REINDEX DATABASE;

REINDEX

Time: 28331.634 ms (00:28.332)

demo2=# \timing off

Timing is off.

Предполагается, что в таблицы не вносятся изменения в параллельных сессиях, поэтому REINDEX оптимальнее, чем REINDEX INDEX CONCURRENTLY. Команды REINDEX INDEX CONCURRENTLY выполняют два прохода по индексируемым данным, что медленнее чем один проход, который выполняет команда REINDEX.

15) Сравните время перестройки индекса с опцией CONCURRENTLY и обычной перестройки.

Для этого выполните команды:

postgres@tantor:~$ sudo restart

postgres@tantor:~$ time psql -d demo2 -c "REINDEX INDEX CONCURRENTLY bookings.boarding_passes_pkey;"

REINDEX

real 0m9.278s

user 0m0.009s

sys 0m0.000s

postgres@tantor:~$ sudo restart

postgres@tantor:~$ time psql -d demo2 -c "REINDEX INDEX bookings.boarding_passes_pkey;"

REINDEX

real 0m7.982s

user 0m0.009s

sys 0m0.000s

Перезапуск экземпляра выполнялся для очистки буферного кэша. Перестройка индекса с CONCURRENTLY медленнее на 16%.

16) Как предотвратить создание индексов перед загрузкой данных? Таких параметров у pg_dump нет. При редактировании скрипта demo.sql в конце скрипта есть команды:

ALTER TABLE ONLY ..

ADD CONSTRAINT ..

Этими командами создаются индексы. Можно скопировать скрипт, провести автозамену "ADD CONSTRAINT" на " --ADD CONSTRAINT". В конце набора команд с закомментированными частями добавить ";". Пример:

postgres@tantor:~$ cp demo.sql demo-withoutindexs.sql

postgres@tantor:~$ mcedit demo-withoutindexs.sql

<F4>

postgres@tantor:~$ cat demo-withoutindexs.sql | tail -16

ALTER TABLE ONLY bookings.ticket_flights

-- ADD CONSTRAINT ticket_flights_ticket_no_fkey FOREIGN KEY (ticket_no) REFERENCES bookings.tickets(ticket_no);

-- Name: tickets tickets_book_ref_fkey; Type: FK CONSTRAINT; Schema: bookings; Owner: postgres

ALTER TABLE ONLY bookings.tickets

-- ADD CONSTRAINT tickets_book_ref_fkey FOREIGN KEY (book_ref) REFERENCES bookings.bookings(book_ref);

;

-- PostgreSQL database dump complete

Аналогично с командами создания индексов, если такие будут, но таких команд в снет, так как нет "аналитических индексов" (индексы, которые не используются ограничениями целостности, а используются для ускорения запросов). Последовательность действий:

a) выполнить изменённый скрипт demo-withoutindexs.sql

b) перегрузить данные командой pg_dump -d demo -s -f demo.sql Команда перегрузки данных вместо 3 минут выполнится за 10 секунд. Наличие индексов существенно (в 12 раз) замедлило внесение изменений в таблицы.

с) выполнить скрипт demo.sql. При выполнении скрипта demo.sql все команды выдадут ошибки, кроме добавления ограничений целостности.

17) Выполните запрос:

demo2=# select pg_size_pretty(a), pg_size_pretty(b), 100*(a-b)/(a+b) "%" from (select pg_database_size('demo') a , pg_database_size('demo2') b);

pg_size_pretty | pg_size_pretty | %

----------------+----------------+---

706 MB | 706 MB | 0

(1 row)

Размер баз стал одинаковым.

Однако, перестановка столбцов по рекомендации скрипта, не привела к успеху. Размер самой большой таблицы остался тем же:

demo2=# select pg_table_size('bookings.ticket_flights');

pg_table_size

---------------

162660352

(1 row)

demo2=# \c demo

You are now connected to database "demo" as user "postgres".

demo=# select pg_table_size('bookings.ticket_flights');

pg_table_size

---------------

162660352

(1 row)

18) Список функций, в названии которых есть size:

demo2=# \df pg*size*

List of functions

Schema | Name | Result data type | Argument data types | Type

------------+------------------------+------------------+---------------------+------

pg_catalog | pg_column_size | integer | "any" | func

pg_catalog | pg_database_size | bigint | name | func

pg_catalog | pg_database_size | bigint | oid | func

pg_catalog | pg_indexes_size | bigint | regclass | func

pg_catalog | pg_relation_size | bigint | regclass | func

pg_catalog | pg_relation_size | bigint | regclass, text | func

pg_catalog | pg_size_bytes | bigint | text | func

pg_catalog | pg_size_pretty | text | bigint | func

pg_catalog | pg_size_pretty | text | numeric | func

pg_catalog | pg_table_size | bigint | regclass | func

pg_catalog | pg_tablespace_size | bigint | name | func

pg_catalog | pg_tablespace_size | bigint | oid | func

pg_catalog | pg_total_relation_size | bigint | regclass | func

(13 rows)

Имеется функция pg_column_size(значение), которая показывает, сколько байт займёт при сохранении значение. Если в аргументы функции передать имя столбца таблицы, то функция выдаст, сколько реально места занимает поле в блоке таблицы с учетом сжатия, padding, вытеснения в TOAST. Если поле хранится в сжатом виде, то выдаст, сколько занимает поле в сжатом виде.

Функции для измерения размера строки не существует.

19) С помощью, функции pg_column_size(таблица.*) можно посмотреть размер всей строки

вместе с заголовком. При этом функция выдает размер строки внутри блока без padding всей строки. Пример измерения реального размера области данных строк таблиц без padding всей строки:

demo2=# select pg_column_size(bookings.ticket_flights.*) from bookings.ticket_flights limit 1;

pg_column_size

----------------

58 -> 64

(1 row)

demo2=# \c demo

You are now connected to database "demo" as user "postgres".

demo=# select pg_column_size(bookings.ticket_flights.*) from bookings.ticket_flights limit 1;

pg_column_size

----------------

60 -> 64

(1 row)

demo=# select pg_column_size(bookings.tickets.*) from bookings.tickets limit 1;

pg_column_size

----------------

103 -> 104

(1 row)

demo=# \c demo2

You are now connected to database "demo2" as user "postgres".

demo2=# select pg_column_size(bookings.tickets.*) from bookings.tickets limit 1;

pg_column_size

----------------

103 -> 104

(1 row)

demo2=# select pg_column_size(bookings.boarding_passes.*) from bookings.boarding_passes limit 1;

pg_column_size

----------------

49 -> 56

(1 row)

demo2=# \c demo

You are now connected to database "demo" as user "postgres".

demo=# select pg_column_size(bookings.boarding_passes.*) from bookings.boarding_passes limit 1;

pg_column_size

----------------

51 -> 56

(1 row)

Разница небольшая - всего несколько байт.

Эта разница нивелируется paddingом всей строки: длинна всей строки (заголовок плюс область данных) должна быть кратна 8 байтам.

Кроме padding отдельных столбцов ВСЕГДА выполняется выравнивание (aligning) всей строки до 8 байт. Заголовок строки плюс область данных - это полный размер строки и именно он выравнивается до 8 байт.

Перестановка столбцов для таблиц демонстрационной базы данных эффекта не дала.

Размер всей строки должен быть кратным 8, а значит равен: .., 48, 56, 64,.., 96, 104,...

Пять предыдущих SELECT выдали числа: 58 - дополняется до 64; 60 - дополняется до 64; 49 и 51 дополняются до 56.

Если текст пункта не понятен, перечитайте этот пункт ещё раз. Это может быть сложным для понимания, как и любая новая информация. Если один раз ощущение понимания пришло, то позже вы легко вспомните об этом. Даже высококвалифицированные специалисты упускают "padding всей строки". В частности, в сложном скрипте p1_alignment_padding.sql "padding всей строки" не учтён.

Интересно то, что если бы функция pg_column_size(таблица.*)по таблицам с переставленными строками выдала значения 64 и 65, то экономия места на каждой строке была бы 7 байт. А если функция выдаёт 57 и 63, то разницы нет.

Примечание: на 64-разрядных операционных системах выравнивание по 8 байт, на 32-разрядных по 4 байта. Выравнивание сохранено в управляющем файле и его можно посмотреть утилитой командной строки:

postgres@tantor:~$ pg_controldata | grep align

Maximum data alignment: 8

19) Проверим, реагирует и скрипт на те таблицы, где перестановка столбцов даст эффект. Создадим две таблицы с разным порядком следования столбцов и одинаковыми данными. Одна таблица из-за padding будет занимать на 18% больше места.

demo=#

drop table if exists t1;

drop table if exists t2;

create table t1 (c1 char(1), c2 integer, c3 char(1), c4 integer, c5 char(1), c6 integer);

create table t2 (c1 integer, c2 integer, c3 integer, c4 char(1), c5 char(1), c6 char(1));

ALTER TABLE t1 SET ( fillfactor = 100);

ALTER TABLE t2 SET ( fillfactor = 100);

BEGIN

FOR i IN 1 .. 500000 LOOP

INSERT INTO t1 VALUES ('1', 1,'1', 1,'1', null);

INSERT INTO t2 VALUES (null, 1, 1, '1','1','1');

END LOOP;

END;

$$;

DROP TABLE

CREATE TABLE

ALTER TABLE

demo=# \i p1_alignment_padding.sql

Table | Table Size | Wasted * | Suggested Columns Reorder

--------------------------+------------+--------------------+--------------------------------------

bookings.ticket_flights | 155 MB | ~18 MB (11.61%) | amount, fare_conditions, flight_id +

| | | ticket_no

bookings.boarding_passes | 110 MB | ~14 MB (13.13%) | boarding_no, flight_id, seat_no +

| | | ticket_no

bookings.tickets | 109 MB | ~6477 kB (5.79%) | book_ref, contact_data, passenger_id+

| | | passenger_name, ticket_no

bookings.bookings | 30 MB | |

bookings.t1 | 25 MB | |

bookings.t2 | 21 MB | |

bookings.flights | 6688 kB | |

bookings.seats | 96 kB | |

bookings.airports_data | 48 kB | ~832 bytes (1.69%) | airport_code, airport_name, city +

| | | timezone, coordinates

bookings.aircrafts_data | 8192 bytes | |

(10 rows)

Размеры таблиц t1 и t2 различаются, хотя скрипт не рекомендовал перестановку столбцов у таблицы t1.

20) Посмотрим пример, где скрипт даёт точную оценку. Выполните команды:

postgres=#

drop table if exists t;

create table t(c1 int4, c2 int4, c3 int4, c4 int4, c5 int4, c6 int4, c7 int8, c8 int8);

BEGIN

FOR i IN 1 .. 100000 LOOP

INSERT INTO t VALUES (1,2,3,4,5,6,7,8);

END LOOP;

END;

;

drop table if exists t1;

create table t1(c1 int8, c2 int4, c3 int4, c4 int4, c5 int8, c6 int4, c7 int4, c8 int4);

BEGIN

FOR i IN 1 .. 100000 LOOP

INSERT INTO t1 VALUES (1,2,3,4,5,6,7,8);

END LOOP;

END;

;

select pg_table_size('t'), pg_table_size('t1'), 100*(pg_table_size('t1')-pg_table_size('t'))/pg_table_size('t') "%";

DROP TABLE

CREATE TABLE

DROP TABLE

CREATE TABLE

pg_table_size | pg_table_size | %

---------------+---------------+----------

6914048 | 7684096 | 11

(1 row)

Экономия места 11% (увеличение размера 10% если в знаменателе вместо таблицы t1 указать t).

postgres=# \i p1_alignment_padding.sql

Table | Table Size | Wasted * | Suggested Columns Reorder

----------------------+------------+------------------+---------------------------

pgbench_accounts | 13 MB | |

t1 | 7512 kB | ~781 kB (10.40%) | c2, c3, c4 +

| | | c6, c7, c8 +

| | | c1, c5

t | 6760 kB | |

Скрипт правильно оценил экономию места.

21) В теоретической части были приведены примеры на слайде "Aligning (выравнивание)".

Был дан пример для второй каринки:

create table t ( a boolean, b int4);

insert into t values (true, 1);

select t_data, lp_len, t_hoff from heap_page_items(get_raw_page('t','main',0));

t_data | lp_len | t_hoff

--------------------+--------+--------

\x0100000001000000 | 32 | 24

Создайте пример для четвертой картинки на слайде:

Первое поле 1-байтовое тип "char", второе поле bigint.

Результат должен быть аналогичный тому, что показан на слайде. Пример:

postgres=# drop table if exists t;

DROP TABLE

postgres=# напишите команду создания таблицы

CREATE TABLE

postgres=# insert into t values ('1', 1);

INSERT 0 1

postgres=# select t_data, lp_len, t_hoff from heap_page_items(get_raw_page('t','main',0));

t_data | lp_len | t_hoff

------------------------------------+--------+--------

\x31000000000000000100000000000000 | 40 | 24

(1 row)

Неиспользуемых байт 7, что довольно много. Если переставить столбцы местами, то исчезнут ли между полями неиспользуемые байты? Между полями исчезнут, но те же 7 неиспользуемые байты появятся между строками в блоке, так как строки выравниваются по 8 байт.

Часть 3. Содержимое блоков таблицы

1) Создайте таблицу:

postgres=#

drop table if exists t;

create table t(s text);

insert into t values ('a');

select * from page_header(get_raw_page('t', 0));

NOTICE: table "t" does not exist, skipping

DROP TABLE

CREATE TABLE

INSERT 0 1

------------+----------+-------+-------+-------+---------+----------+---------+---------

9/5507B2B8 | 0 | 0 | 28 | 8144 | 8176 | 8192 | 5 | 0

(1 row)

lower указывает на конец заголовка блока

special на конец области данных, он же начало специальной области, которая используется для поддержки 64-разрядных идентификаторов транзакций

pagesize - размер блока, в СУБД Tantor всегда 8192.

checksum - контрольная сумма блока. Она рассчитывается при сохранении блока в файл. При нахождении блока в буфере контрольная сумма не меняется.

prune_xid - по умолчанию равен 0. xmax наиболее старой неочищенной строки в блоке. Используется как подсказка (it's like a hint-bit, non-WAL-logged hint field that helps determine whether pruning will be useful. It is currently unused in index pages) процессу, который будет искать место в блоке, чтобы попытался очистить блок (First check whether there's any chance there's something to prune).

Наибольший интерес представляют lower и upper. По этим полям можно определить размер заголовка блока, размер области данных, сколько свободного места в блоке.

2) Чтобы увидеть ненулевое значение в поле контрольной суммы выполните полное вакуумирование таблицы:

postgres=# vacuum full t;

select * from page_header(get_raw_page('t', 0));

VACUUM

------------+----------+-------+-------+-------+---------+----------+---------+---------

9/BCF15670 | -7207 | 0 | 28 | 8144 | 8176 | 8192 | 5 | 0

(1 row)

3) Посмотрите какие типы данных предпочтительны (preferred) в своей категории (category):

postgres=# select distinct typname, typalign, typstorage, typlen from pg_type where typname not like 'pg_%' and typname not like '\_%' and typtype='b' and typispreferred = true and typisdefined = true order by typname;

typname | typalign | typstorage | typlen

-------------+----------+------------+--------

bool | c | p | 1

float8 | d | p | 8

inet | i | m | -1

interval | d | p | 16

oid | i | p | 4

text | i | x | -1

timestamptz | d | p | 8

varbit | i | x | -1

(8 rows)

typispreferred = true означает, что тип является предпочитаемым типом в своей категории (typcategory). Выдалось 8 строк, значит категорий типов данных 8. Если убрать это условие, запрос выдаст 62 строки.

typtype = b (base) базовый тип данных. Остальные типы создаются отдельно: c (composite) составной тип (образ строки таблицы), d (domain) домена (ограничение), e (enum) перечисление, p (pseudo-type) псевдотип, r (range) диапазонный тип, m (multirange) мультидиапазонный тип.

typisdefined = true тип сформирован. false - тип-заготовка и не готов к использованию.

typalign - выравнивание. Принимает значения:

c (char), 1 байт, то есть без выравнивания

s (short), 2 байта

i (int), 4 байта

d (double) по 8 байт

typlen - число байт в которых хранится поле этого типа. Для типов переменной длины (называются varlena), typlen=-1.

typstorage - стратегия хранения столбца по умолчанию. Для типов данных фиксированной ширины (typlen>0) единственно возможная стратегия "p". Возможные значения:

p (plain, простое хранение): поле хранится в блоке таблицы без сжатия

e (external, внешнее хранение): значение поля перемещается в TOAST

m (main, в основном слое): поле сжимается и хранится в блоке таблицы

x (extended, расширенное): поле может быть несжато/сжато, храниться в блоке таблицы или значение поля может быть помещено в TOAST.

Часть 4. Выравнивание полей в строках таблиц

1) Создайте таблицы и посмотрите характеристики столбцов таблиц:

postgres=#

drop table if exists t1;

drop table if exists t2;

create table t1 (c1 varchar(1), c2 bigserial , c3 date, c4 timestamp);

create table t2 (c1 bigserial , c2 timestamp, c3 date, c4 varchar(1));

SELECT a.attname, t.typname, t.typalign, t.typlen

FROM pg_class c

JOIN pg_attribute a ON (a.attrelid = c.oid)

JOIN pg_type t ON (t.oid = a.atttypid)

WHERE c.relname = 't1' AND a.attnum >= 0;

SELECT a.attname, t.typname, t.typalign, t.typlen

FROM pg_class c

JOIN pg_attribute a ON (a.attrelid = c.oid)

JOIN pg_type t ON (t.oid = a.atttypid)

WHERE c.relname = 't2' AND a.attnum >= 0;

DROP TABLE

CREATE TABLE

attname | typname | typalign | typlen

---------+-----------+----------+--------

c1 | varchar | i | -1

c2 | int8 | d | 8

c3 | date | i | 4

c4 | timestamp | d | 8

(4 rows)

attname | typname | typalign | typlen

---------+-----------+----------+--------

c1 | int8 | d | 8

c2 | timestamp | d | 8

c3 | date | i | 4

c4 | varchar | i | -1

(4 rows)

Последним в таблице t1 идёт столбец фиксированной длинны 8 байт. Это значит, что все предыдущие столбцы фиксированной ширины будут выравниваться по 8 байт. Столбцы переменной ширины varlena (text, bytea, numeric и много других) имеют выравнивание i (реже d). Поля таких типов будут выравниваться и заставлять выравниваться предыдущие столбцы, если в таких полях хранится больше 126 байт. Эта фраза сложна для понимания, её можно детализировать:

В таблице t1 все четыре столбца выровнены по 8 байт, в том числе и столбец c1 занимает минимум 8 байт. А вот в таблице t2 столбец с4 не выравнивается и не заставляет выравниваться предыдущие столбцы, если размер поля c4 меньше 126 байт.

2) Посмотрите список типов переменной ширины varlena:

postgres=# select distinct typname, typalign, typstorage, typlen from pg_type where typname not like 'pg_%' and typname not like '\_%' and typtype='b' and typisdefined = true and typlen= -1 order by typname;

typname | typalign | typstorage | typlen

---------------+----------+------------+--------

bit | i | x | -1

bpchar | i | x | -1

bytea | i | x | -1

cidr | i | m | -1

gtsvector | i | p | -1

inet | i | m | -1

int2vector | i | p | -1

json | i | x | -1

jsonb | i | x | -1

jsonpath | i | x | -1

numeric | i | m | -1

oidvector | i | p | -1

path | d | x | -1

polygon | d | x | -1

refcursor | i | x | -1

text | i | x | -1

tsquery | i | p | -1

tsvector | i | x | -1

txid_snapshot | d | x | -1

varbit | i | x | -1

varchar | i | x | -1

xml | i | x | -1

(22 rows)

Выравнивание существенно ускоряет обработку данных, поэтому оно используется, несмотря на увеличение места хранения. То же самое со структурами в памяти - по возможности используется выравнивание.

3) Вставьте в таблицы t1 и t2 по одной строке:

postgres=#

insert into t1 values('A', 1, now(), current_timestamp);

insert into t2 values(1, current_timestamp, now(), 'A');

INSERT 0 1

4) Посмотрите какой размер строки показывает функция pg_column_size(таблица.*):

postgres=#

select pg_column_size(t1.*) from t1 limit 1;

select pg_column_size(t2.*) from t2 limit 1;

row_size

----------

(1 row)

row_size

----------

(1 row)

Разница в размере строк по данным функции 56-46=10 байт. Реальная разница в числе байт под хранение строки будет другой. Какой? Можно вернуться к 18 пункту предыдущей части практики (где написано, что пункт сложен для понимания) и рассчитать реальную разницу.

Ответ: 46 будет занимать 6*8=48 байт, 56 будет занимать 7*8=56 байт. Реальная разница в размере строки после выравнивания всей строки: 56-48=8 байт.

5) Что находится в этих 46 и 56 байтах? Выполните запросы:

postgres=# SELECT lp_off,lp_len,t_hoff,t_data FROM heap_page_items(get_raw_page('t1','main',0))\gx

-[ RECORD 1 ]--------------------------------------------

lp_off | 8120

lp_len | 56

t_hoff | 24

t_data | \x054100000000000001000000000000009b23000000000000015fcf714ccc0200

Размер данных строки (t_data) 32 байта.

Размер заголовка строки: 56-32=24 байта.

Все столбцы занимают по 8 байт и будут выравниваться по 8 байт.

postgres=# SELECT lp_off,lp_len,t_hoff,t_data FROM heap_page_items(get_raw_page('t2','main',0))\gx

-[ RECORD 1 ]------------------------------------------

lp_off | 8128

lp_len | 46

t_hoff | 24

t_data | \x0100000000000000a27fcf714ccc02009b2300000541

Размер данных строки (t_data) 22 байта.

Размер заголовка строки: 46-22=24 байта.

Последний столбец varchar не выравнивается и занимает 2 байта. Если длинна поля varchar превысит 126 байт, то поле будет выровнено по 4 байта.

Поля c1 и c2 занимают по 8 байт потому , что у них такой размер.

lp_len не показывает полный размер строки, который строка занимает в блоке. В lp_len не входит выравнивание всей строки. Это означает, что если lp_len не делится на 8, то в конец строки добавятся от 1 до 7 пустых байт, чтобы размер места, занимаемого строкой стал кратен 8 байтам. lp_len хранится в заголовке блока.

Во втором запросе lp_len=46 (не делится на 8). Строка занимает в блоке 48 байт (делится на 8).

Почему lp_len не хранит полный размер строки, ведь так было бы удобнее подсчитывать реальный размер строки? Потому, что lp_len используется процессами экземпляра, чтобы определить на каком байте заканчивается последнее поле в строке. Расширение pageinspect просто выдаёт то, что хранится в блоке.

В СУБД Tantor минимальный размер заголовка строки, так же как и в PostgreSQL 24 байта. Этот размер может увеличиваться сразу на 8 байт за счет размера карты пустых значений. Карта пустых значений (NULL) хранится в заголовке строки. Для каждого столбца используется 1 бит.

В Astralinux PostgeSQL в заголовке строки хранится служебное поле t_maclabel (а также биты t_infomaskpgac, t_hasmac) и и минимальный размер заголовка каждой строки 32 байта. Функция heap_page_items(...) показывает поле t_maclabel.

Часть 5. Выравнивание строк в блоках таблиц

1) Пересоздайте таблицы:

postgres=#

BEGIN;

drop table if exists t1;

drop table if exists t2;

create table t1 (c1 serial, c2 timestamp);

create table t2 (c2 timestamp , c1 serial);

insert into t1 (c2) values(current_timestamp);

insert into t2 (c2) values(current_timestamp);

COMMIT;

BEGIN

DROP TABLE

CREATE TABLE

INSERT 0 1

COMMIT

В таблицы вставлено по две строки, чтобы можно было вычислить реальный размер строк с выравниванием всей строки.

2) Выполните запрос к таблице t1:

postgres=# SELECT lp, t_ctid, lp_off,lp_len,t_hoff,t_data FROM heap_page_items(get_raw_page('t1','main',0));

----+--------+--------+--------+--------+------------------------------------

1 | (0,1) | 8136 | 40 | 24 | \x01000000000000008cb97ce24ecc0200

2 | (0,2) | 8096 | 40 | 24 | \x02000000000000008cb97ce24ecc0200

(2 rows)

lp - (line pointer) номер слота в заголовке блока (размер слота 4 байта), в котором хранится значение lp_off.

t_ctid - адрес строки. Состоит из двух чисел: порядковый номер блока в слое main, номер слота (lp) в заголовке блока.

lp_off - адрес начала заголовка строки (смещение в байтах от начала блока).

lp_len - длинна строки в байтах без учёта выравнивания всей строки.

t_hoff - размер заголовка строки в байтах. Заголовок строки всегда выравнивается по 8 байт (t_hoff кратен 8). В примере t_hoff имеет минимальный размер 24 байта. В Astralinux PostgreSQL минимальный размер 32 байта. Размер заголовка строки может увеличиваться за счт карты пустых значений в полях строки. Карта пустых значений (NULL) хранится в заголовке строки. Для каждого столбца используется 1 бит.

Размер второй строки: 8136-8096=40 байт.

Размер первой строки точно такой же. Как его вычислить? Адрес специальной области в результате запроса не видна. Для СУБД Tanator SE это 16 байт. Размер блока 8Кб=8192 байт. Формула: 8192 (размер блока)-16 (размер специальной области в конце блока)-8136 (lp_off первой строки)=40 байт.

3) Выполните запрос к таблице t2:

postgres=# SELECT lp, t_ctid, lp_off,lp_len,t_hoff,t_data FROM heap_page_items(get_raw_page('t2','main',0));

----+--------+--------+--------+--------+----------------------------

1 | (0,1) | 8136 | 36 | 24 | \x8cb97ce24ecc020001000000

2 | (0,2) | 8096 | 36 | 24 | \x8cb97ce24ecc020002000000

(2 rows)

Размер второй строки: 8136-8096=40 байт. Размер, занимаемый строкой такой же, как у таблицы t1. Мы выяснили, с точки зрения места под хранение разницы между таблицами нет.

4) Убедимся, что разницы действительно нет. Вставьте по 600 строк в каждую таблицу и посмотрите максимальный ctid:

postgres=#

BEGIN

FOR i IN 1 .. 600 LOOP

insert into t1 (c2) values(current_timestamp);

insert into t2 (c2) values(current_timestamp);

END LOOP;

END;

;

postgres=# select max(ctid) from t1;

max

--------

(3,47)

(1 row)

postgres=# select max(ctid) from t2;

max

--------

(3,47)

(1 row)

В обеих таблицах максимальный ctid одинаков. Это означает, что в первые два блока поместилось одинаковое число строк.

5) Сколько строк поместилось в первый блок обеих таблиц? Выполните команду:

postgres=# SELECT count(lp) FROM heap_page_items(get_raw_page('t1','main',0));

count

-------

185

(1 row)

postgres=# SELECT count(lp) FROM heap_page_items(get_raw_page('t1','main',0));

count

-------

185

(1 row)

В первый блок каждой таблицы поместилось 185 строк.

6) Сколько места занимает заголовок блока?

postgres=# select * from page_header(get_raw_page('t2','main',0));

------------+----------+-------+-------+-------+---------+----------+---------+-----------

A/3D28EAE0 | 0 | 0 | 764 | 776 | 8176 | 8192 | 5 | 0

(1 row)

postgres=# select * from page_header(get_raw_page('t1','main',0));

------------+----------+-------+-------+-------+---------+----------+---------+-----------

A/3D28EA98 | 0 | 0 | 764 | 776 | 8176 | 8192 | 5 | 0

(1 row)

В обеих таблицах заголовок блока занимает 764 байта, что равняется 9,3% от размера блока.

Между заголовком и областью данных осталось неиспользуемым 776-764=12 байт, что немного. Первый блок (второй блок тоже) таблиц полностью заполнен.

В этой части практики вы изучили функции, которыми можно посмотреть как в реальности располагаются строки в блоках. Проверив блок таблицы, которая занимает много места, возможно, удастся оптимизировать её хранение. Не только перестановкой строк, а, например, изменением размерности, типов или числа полей.

Эта часть главы полезна тем, кто проектирует или реорганизует схемы хранения данных в PostgreSQL. Это небольшая часть того, что стоит знать при проектировании схем. Дальше в курсе будет рассматриваться хранение пустых значений, вытеснение полей в TOAST, выбор типов данных, хранение записей в индексах.

Часть 6. Хранение пустых (NULL) значений в строках таблиц

Если в строке хотя бы одно из полей пусто (имеет значение NULL), то в заголовке этой строки выделяется место под битовую карту. В битовой карте один бит означает один столбец. Если столбцов тысяча, то в битовой карте будет тысяча бит. Размер заголовка увеличится на 1000 бит и будет после этого выровнен до 8 байт.

Минимальный размер заголовка 24 байта. Хочется определить: сколько столбцов может быть в таблице, чтобы размер заголовка при появлении пустого значения в любом столбце не увеличился до 32 байт.

1) Создайте таблицы с числом столбцов 8,9,24,25 и вставьте в каждую таблицу по две строки. В первой строке все поля непустые, во второй строке хотя бы одно поле пустое:

postgres=#

drop table if exists t1;

drop table if exists t2;

drop table if exists t3;

drop table if exists t4;

create table t1(c1 int4, c2 int4, c3 int4, c4 int4, c5 int4, c6 int4, c7 int4,

c8 int4);

create table t2(c1 int4, c2 int4, c3 int4, c4 int4, c5 int4, c6 int4, c7 int4,

c8 int4,c9 int4);

create table t3(c1 int4, c2 int4, c3 int4, c4 int4, c5 int4, c6 int4, c7 int4,

c8 int4, c9 int4, c10 int4, c11 int4, c12 int4, c13 int4, c14 int4, c15 int4,

c16 int4, c17 int4, c18 int4, c19 int4, c20 int4, c21 int4, c22 int4, c23 int4,

c24 int4);

create table t4(c1 int4, c2 int4, c3 int4, c4 int4, c5 int4, c6 int4, c7 int4,

c8 int4, c9 int4, c10 int4, c11 int4, c12 int4, c13 int4, c14 int4, c15 int4,

c16 int4, c17 int4, c18 int4, c19 int4, c20 int4, c21 int4, c22 int4, c23 int4,

c24 int4, c25 int4);

INSERT INTO t1 VALUES (1,2,3,4,5,6,7,8);

INSERT INTO t1 VALUES (1,NULL,3,4,5,6,7,8);

INSERT INTO t2 VALUES (1,2,3,4,5,6,7,8,9);

INSERT INTO t2 VALUES (1,NULL,3,4,5,6,7,8,9);

INSERT INTO t3 VALUES (1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24);

INSERT INTO t3 VALUES (1,NULL,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24);

INSERT INTO t4 VALUES (1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25);

INSERT INTO t4 VALUES (1,NULL,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25);

DROP TABLE

CREATE TABLE

INSERT 0 1

2) Выполните запросы, чтобы определить размер заголовка каждой из строк во всех четырёх таблицах:

postgres=#

select lp, lp_off, lp_len, t_ctid, t_hoff,t_bits from heap_page_items(get_raw_page('t1','main',0));

select lp, lp_off, lp_len, t_ctid, t_hoff,t_bits from heap_page_items(get_raw_page('t2','main',0));

select lp, lp_off, lp_len, t_ctid, t_hoff,t_bits from heap_page_items(get_raw_page('t3','main',0));

select lp, lp_off, lp_len, t_ctid, t_hoff,t_bits from heap_page_items(get_raw_page('t4','main',0));

----+--------+--------+--------+--------+----------

1 | 8120 | 56 | (0,1) | 24 |

2 | 8064 | 52 | (0,2) | 24 | 10111111

(2 rows)

----+--------+--------+--------+--------+------------------

1 | 8112 | 60 | (0,1) | 24 |

2 | 8048 | 64 | (0,2) | 32 | 1011111110000000

(2 rows)

----+--------+--------+--------+--------+--------------------------

1 | 8056 | 120 | (0,1) | 24 |

2 | 7928 | 124 | (0,2) | 32 | 101111111111111111111111

(2 rows)

----+--------+--------+--------+--------+----------------------------------

1 | 8048 | 124 | (0,1) | 24 |

2 | 7920 | 128 | (0,2) | 32 | 10111111111111111111111110000000

(2 rows)

Если в таблице до 8 столбцов включительно, то размер заголовка строки 24 байта.

Если в таблице 9 столбцов и больше, то размер заголовка строки в случае если хоть в одном поле присутвтует пустое значение (NULL) резко увеличивается в размере и становится 32 байта.

Битовая карта выравнивается по одному байту. Это означает, что если в таблице до 9 столбцов, то битовая карта занимает 1 байт (8 бит). Если в таблице 9-16 столбца, то битовая карта занимает 2 байта (16 бит). Если 17-24, то 3 байта. Начиная с 25 столбцов - 4 байта и так далее.

Сколько столбцов в таблице должно быть минимально, чтобы заголовок строки из-за битовой карты пустых значений увеличился с 32 байт до 40 байт? 8*8 (64 столбца это 8 байт в карте)+8 (битовая карта на 8 столбцов помещается в заголовке размером 24 байта)+1 (лишний столбец из-за которого размер заголовка строки увеличится на 8 байт)=73 столбца.

Не нужно переоценивать увеличение размера заголовка строки. Дело в том, что хранение NULL не занимает ни байта в области данных, то есть высокоэффективно. Например, если в поле вместо NULL хранить ноль и это поле выравнивается по 8 байт, то использование NULL вместо любого другого значения сэкономит 8 байт. Это видно по столбцу lp_len:

52 меньше, чем 56 в таблице t1. В других таблицах нужно сделать пустым ещё один столбец, чтобы размер строки стал меньше на 4 байта:

postgres=# INSERT INTO t3 VALUES (1,NULL,3,NULL,5,NULL,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24);

INSERT 0 1

postgres=# select lp, lp_off, lp_len, t_ctid, t_hoff,t_bits from heap_page_items(get_raw_page('t3','main',0));

----+--------+--------+--------+--------+--------------------------

1 | 8056 | 120 | (0,1) | 24 |

2 | 7928 | 124 | (0,2) | 32 | 101111111111111111111111

3 | 7808 | 116 | (0,3) | 32 | 101010111111111111111111

(3 rows)

Строка с тремя пустыми полями имеет размер 116 байт, что меньше, чем 120 байт у строки где нет пустых значений. t_hoff входит в lp_len. Реальный размер строк (с учетом выравнивания всей строки) одинаков: 120 байт. Это легко проверить по столбцу lp_off: первая строка занимает 8192-8056-16=120 байт; третья строка занимает 7928-7808=120 байт.

Использование NULL неудобно для написания запросов, но при этом в PostgreSQL NULL экономит место под хранение. Индексы типа btree в PostgreSQL индексируют NULL.

Часть 7. Число строк в блоке таблицы

Посмотрим сколько строк может хранится в блоке. Представление сколько строк может быть и обычно бывает полезно для того чтобы представлять себе как организовано хранение строк в таблицах.

1) В зависимости от размера строки, при полном заполнении блока число строк в блоке Tantor SE будет:

postgres=# select string_agg(a::text,',') rows from (SELECT distinct trunc(2038/(2*generate_series(0, 1015)+7)) a order by a desc) a;

rows

-------------------------------------------------------------------------291,226,185,156,135,119,107,97,88,81,75,70,65,61,58,55,52,49,47,45,43,41,39,38,37,35,34,33,32,31,30,29,28,27,26,25,24,23,22,21,20,19,18,17,16,15,14,13,12,11,10,9,8,7,6,5,4,3,2,1

(1 row)

В сборках с 32-разрядным счетчиком транзакций специальная область в конце блока размером 16 байт отсутствует. Это повлияет только на три числа: вместо 156,135,119 в таких сборках будет помещаться 157,136,120 строк.

2) Проверьте, сколько строк поместится в блоке у таблицы с одним столбцом типа serial (int4, integer):

postgres=#

drop table if exists t;

create table t(c serial);

insert into t select * from generate_series(1, 600);

select count(*) from t where (ctid::text::point)[0] = 0;

select lp, lp_off, lp_len, t_ctid, t_hoff, t_data from heap_page_items(get_raw_page('t','main',0)) where t_ctid::text like '(0,%' order by lp_off limit 2;

select count(*) from heap_page_items(get_raw_page('t','main',0)) where t_ctid::text like '(0,%';

select * from page_header(get_raw_page('t','main',0));

DROP TABLE

CREATE TABLE

INSERT 0 600

count

-------

226

(1 row)

-----+--------+--------+---------+--------+------------

226 | 944 | 28 | (0,226) | 24 | \xe2000000

225 | 976 | 28 | (0,225) | 24 | \xe1000000

(2 rows)

count

-------

226

(1 row)

------------+----------+-------+-------+-------+---------+----------+---------+---------

A/55E5F568 | 0 | 0 | 928 | 944 | 8176 | 8192 | 5 | 0

(1 row)

В блоке такой таблицы поместится 226 строк. Заменяя определение таблицы можно проверить сколько строк поместится в блоке.

Как получилось 226 байт? Формула для вычисления максимального числа строк в блоке Tantor SE:

8192 (размер блока) = 24 (заголовок блока) + 4*x + 24 (заголовок строки)*x + 8 (длина строки кратна 8)*x + 16 (специальная область).

8152 = 36*x + 16

x = 226

3) В Astralinux PostgreSQL в блоке помещается 185 строк, а не 226 строк. Проверьте это, подсоединившись на порт 5435:

postgres@tantor:~$ psql -p 5435

psql (16.2, server 15.6 (Debian 15.6-astra.se2))

Type "help" for help.

postgres=#

drop table if exists t;

create table t(c serial);

insert into t select * from generate_series(1, 600);

select count(*) from t where (ctid::text::point)[0] = 0;

select lp, lp_off, lp_len, t_ctid, t_hoff, t_data from heap_page_items(get_raw_page('t','main',0)) where t_ctid::text like '(0,%' order by lp_off limit 2;

select * from page_header(get_raw_page('t','main',0));

DROP TABLE

CREATE TABLE

INSERT 0 600

count

-------

185

(1 row)

-----+--------+--------+---------+--------+------------

185 | 792 | 36 | (0,185) | 32 | \xb9000000

184 | 832 | 36 | (0,184) | 32 | \xb8000000

(2 rows)

-----------+----------+-------+-------+-------+---------+----------+---------+---------

0/8D9C5A8 | 0 | 0 | 764 | 792 | 8192 | 8192 | 4 | 0

(1 row)

4) Замените serial на bigserial (int8) и проверьте сколько строк помещается в блоке:

postgres=#

drop table if exists t;

create table t(c bigserial);

insert into t select * from generate_series(1, 600);

select count(*) from t where (ctid::text::point)[0] = 0;

select lp, lp_off, lp_len, t_ctid, t_hoff, t_data from heap_page_items(get_raw_page('t','main',0)) where t_ctid::text like '(0,%' order by lp_off limit 2;

select * from page_header(get_raw_page('t','main',0));

DROP TABLE

CREATE TABLE

INSERT 0 600

count

-------

226

(1 row)

-----+--------+--------+---------+--------+--------------------

226 | 944 | 32 | (0,226) | 24 | \xe200000000000000

225 | 976 | 32 | (0,225) | 24 | \xe100000000000000

(2 rows)

------------+----------+-------+-------+-------+---------+----------+---------+---------

A/55E20128 | 0 | 0 | 928 | 944 | 8176 | 8192 | 5 | 0

(1 row)

Число строк также 226. Почему? Потому что строка таблицы со столбцом serial выравнивается по 8 байт.

Это не означает, serial не отличается от bigserial. Можно добавить столбцы к таблицам и в части случаев будет разница.

Однако что важно: индексы типа b-tree по столбцам int4 (integer, serial) и int8 (bigserial) всегда имеют одинаковый размер.

5) Число строк при максимальном размере данных в строке:

postgres=# SELECT trunc(2038/(2*generate_series+7)) rows , max(generate_series*8) size FROM generate_series(0, 1015) group by rows order by 1 desc;

rows | size

------+------

291 | 0

226 | 8

185 | 16

156 | 24

135 | 32

119 | 40

107 | 48

97 | 56

88 | 64

81 | 72

75 | 80

70 | 88

65 | 96

61 | 104

58 | 112

55 | 120

52 | 128

49 | 136

47 | 144

45 | 152

43 | 160

41 | 168

39 | 176

38 | 184

37 | 192

35 | 200

34 | 208

33 | 216

32 | 224

31 | 232

30 | 240

29 | 248

28 | 256

27 | 272

26 | 280

25 | 296

24 | 304

23 | 320

22 | 336

21 | 360

20 | 376

19 | 400

18 | 424

17 | 448

16 | 480

15 | 512

14 | 552

13 | 592

12 | 648

11 | 712

10 | 784

9 | 872

8 | 984

7 | 1136

6 | 1328

5 | 1600

4 | 2008

3 | 2688

2 | 4048

1 | 8120

(60 rows)

6) Проверим значение 185, которое следует за 266:

postgres=#

drop table if exists t;

create table t(c bigserial, c1 text default 'a');

insert into t select *, 'a' from generate_series(1, 600);

select count(*) from t where (ctid::text::point)[0] = 0;

select lp, lp_off, lp_len, t_ctid, t_hoff, t_data from heap_page_items(get_raw_page('t','main',0)) where t_ctid::text like '(0,%' order by lp_off limit 2;

select count(*) from heap_page_items(get_raw_page('t','main',0)) where t_ctid::text like '(0,%';

select * from page_header(get_raw_page('t','main',0));

DROP TABLE

CREATE TABLE

INSERT 0 600

count

-------

185

(1 row)

-----+--------+--------+---------+--------+------------------------

185 | 776 | 34 | (0,185) | 24 | \xb9000000000000000561

184 | 816 | 34 | (0,184) | 24 | \xb8000000000000000561

(2 rows)

count

-------

185

(1 row)

------------+----------+-------+-------+-------+---------+----------+---------+---------

A/55E8F8B0 | 0 | 0 | 764 | 776 | 8176 | 8192 | 5 | 0

(1 row)

Для двух столбцов bigserial и столбца переменной ширины, хранящего один символ и выровненного по 4 байта максимальное число строк в блоке 185.

Формула:

8192 = 24 (заголовок блока) + 4*x + 24 (заголовок строки)*x + 16 (длина строки кратна 8)*x + 16 (специальная область)

8152 = 44*x + 12

x = 185

7) Наиболее оптимальный полный размер строки кратен 64 байтам (размер cache line). Число строк и размер области данных строки для Tantor SE:

postgres=# SELECT distinct trunc(2038/(16*generate_series+4)) rows, max(generate_series*64-24) size FROM generate_series(1, 64) group by rows order by 1 desc;

rows | size

------+------

101 | 40

56 | 104

39 | 168

29 | 232

24 | 296

20 | 360

17 | 424

15 | 488

13 | 552

12 | 616

11 | 680

10 | 744

9 | 808

8 | 936

7 | 1064

6 | 1256

5 | 1576

4 | 1960

3 | 2664

2 | 4008

1 | 4072

(21 rows)

При размере области данных как в столбце size потерь на padding нет и строки выровнены по cache line, то есть обрабатываются с минимальными накладными расходами.

Практика к главе 7

Часть 1. Методы доступа

1) Посмотрите какие имеются методы доступа к данным:

postgres=# \dA+

List of access methods

Name | Type | Handler | Description

--------+-------+----------------------+----------------------------------------

brin | Index | brinhandler | block range index (BRIN) access method

btree | Index | bthandler | b-tree index access method

gin | Index | ginhandler | GIN index access method

gist | Index | gisthandler | GiST index access method

hash | Index | hashhandler | hash index access method

heap | Table | heap_tableam_handler | heap table access method

spgist | Index | spghandler | SP-GiST index access method

(7 rows)

Есть два типа методов (способов) доступа: табличные и индексные.

2) Установите расширения pg_columnar и bloom:

postgres=#

create extension pg_columnar;

create extension bloom;

CREATE EXTENSION

Эти расширения добавляют методы доступа. Можно добавлять и табличные и индексные методы доступа. Табличные методы доступа определяют способ хранения данных в таблицах.

3) Посмотрите, какие методы доступа добавились:

postgres=# \dA+

List of access methods

Name | Type | Handler | Description

----------+-------+----------------------+------------------------------

bloom | Index | blhandler | bloom index access method

brin | Index | brinhandler | block range index (BRIN) access method

btree | Index | bthandler | b-tree index access method

columnar | Table | columnar.columnar_handler |

gin | Index | ginhandler | GIN index access method

gist | Index | gisthandler | GiST index access method

hash | Index | hashhandler | hash index access method

heap | Table | heap_tableam_handler | heap table access method

spgist | Index | spghandler | SP-GiST index access method

(9 rows)

postgres=# select * from pg_am;

oid | amname | amhandler | amtype

--------+----------+---------------------------+--------

2 | heap | heap_tableam_handler | t

403 | btree | bthandler | i

405 | hash | hashhandler | i

783 | gist | gisthandler | i

2742 | gin | ginhandler | i

4000 | spgist | spghandler | i

3580 | brin | brinhandler | i

544775 | columnar | columnar.columnar_handler | t

544924 | bloom | blhandler | i

(9 rows)

4) При создании индекса указывается тип индекса и класс операторов для каждого столбца индекса. Пример:

postgres=# drop table if exists t;

NOTICE: table "t" does not exist, skipping

DROP TABLE

postgres=# create table t (id int8, s text);

CREATE TABLE

postgres=# create index t_idx on t using btree (id int8_ops, s text_pattern_ops);

CREATE INDEX

Если не указать тип индекса (индексный метод доступа), то используется btree.

Если не указать класс операторов, то используется класс операторов по умолчанию, установленный для типа данных, по которому создаётся индекс.

5) Посмотрите, какие имеются классы операторов для метода btree. В процессе набора команды можно нажать два раза клавишу <TAB> и будет показан список слов, которыми можно продолжить команду:

postgres=# \dA<TAB><TAB>

\dA \dAc \dAf \dAo \dAp

postgres=# \dAc+ btree int<TAB><TAB>

int2 int2vector int4 int4multirange int4range int8 int8multirange int8range integer internal

postgres=# \dAc+ btree int8

List of operator classes

-------+------------+--------------+----------------+----------+-----------------+----------

(1 row)

postgres=# \dAc+ btree bigint

List of operator classes

-------+------------+--------------+----------------+----------+-----------------+----------

(1 row)

Для типа данных int8 (bigint) имеется один класс операторов int8_ops, входящий в семейство integer_ops.

Для int4 (integer) имеется один класс операторов int4_ops, входящий в то же семейство.

Семейство зависит от наличия метода доступа и связано с ним. Методы доступа не зависят от наличия семейства. Методы доступа используют не семейства, а классы операторов.

Вместо команд psql можно использовать запросы к таблицам системного каталога. Например, для команды \dAc+ * bigint эквивалентом будет запрос:

postgres=# SELECT am.amname "AM", format_type(c.opcintype, NULL) "type",

c.opcname "op_class", c.opcdefault "d", of.opfname "op_family"

FROM pg_opclass c JOIN pg_am am on am.oid = c.opcmethod JOIN pg_opfamily of ON of.oid = c.opcfamily where format_type(c.opcintype, NULL)='bigint'

ORDER BY 1, 2, 4;

AM | type | op_class | d | op_family

-------+--------+-----------------------+---+--------------------------

brin | bigint | int8_minmax_multi_ops | f | integer_minmax_multi_ops

brin | bigint | int8_bloom_ops | f | integer_bloom_ops

brin | bigint | int8_minmax_ops | t | integer_minmax_ops

btree | bigint | int8_ops | t | integer_ops

hash | bigint | int8_ops | t | integer_ops

(5 rows)

6) Посмотрите, какое семейство операторов имеется для целочисленных типов:

postgres=# \dAf btree int4

List of operator families

AM | Operator family | Applicable types

-------+-----------------+---------------------------

btree | integer_ops | smallint, integer, bigint

(1 row)

postgres=# \dAf btree int8

List of operator families

AM | Operator family | Applicable types

-------+-----------------+---------------------------

btree | integer_ops | smallint, integer, bigint

(1 row)

Для целочисленных типов имеется одно и то же семейство: integer_ops

Классы операторов объединяются в семейство, чтобы можно было создавать планы выполнения с выражениями разных (но совместимых, приводимых друг к другу) типов без использования явного приведения типов.

7) Посмотрите (выполнять команды не нужно) следующие примеры, которые показывают, что при использовании типов данных, не включенных в семейство затруднено и требуется явное приведение типов:

Выберем значения столбца backend_xmin:

postgres=# select backend_xmin from pg_stat_activity where backend_xmin is not null limit 1;

backend_xmin

--------------

422122

(1 row)

Значение счётчика транзакций похоже на целое число.

Целые числа можно сравнивать и сортировать. Это значение отсортировать нельзя:

postgres=# select backend_xmin from pg_stat_activity where backend_xmin is not null order by 1 limit 1;

ERROR: could not identify an ordering operator for type xid

LINE 1: ..._activity where backend_xmin is not null order by 1 limit 1;

HINT: Use an explicit ordering operator or modify the query.

Функция max не работает с этим типом:

postgres=# select max(backend_xmin) from pg_stat_activity where backend_xmin is not null order by 1 limit 1;

ERROR: function max(xid) does not exist

LINE 1: select max(backend_xmin) from pg_stat_activity where backend...

HINT: No function matches the given name and argument types. You might need to add explicit type casts.

Привести к целому числу тип данных xid нельзя, так как нет приведения типов (приведения типов создаются командой CREATE CAST), как и функций приведения:

postgres=# select backend_xmin::int8 from pg_stat_activity where backend_xmin is not null order by 1 limit 1;

ERROR: cannot cast type xid to bigint

LINE 1: select backend_xmin::int8 from pg_stat_activity where backen...

postgres=# select backend_xmin::text from pg_stat_activity where backend_xmin is not null order by 1 limit 1;

backend_xmin

--------------

422122

(1 row)

К типу text приведение есть. С типом text работает сортировка.

8) После предыдущего пункта вы могли забыть, какие классы операторов есть для целых чисел и в какое семейство они входят. Можно перечитать 5 и 6 пункты этой части практики. Вы вспомните, что семейства операторов нужны для того, чтобы запросы выполнялись без явного приведения совместимых типов.

Посмотрите, какие функции используются для поддержки метода доступа btree:

postgres=# \dAp+ btree integer_ops

List of support functions of operator families

-------+-----------------+----------------------+-----------------------+--------+---------------------------

bigint,boolean,boolean)

integer,boolean,boolean)

smallint,boolean,boolean)

bigint,boolean,boolean)

smallint,boolean,boolean)

bigint,boolean,boolean)

integer,boolean,boolean)

(22 rows)

Функций много, так как есть варианты функций, принимающие разные типы данных: integer, bigint, smallint.

Для индексации методом btree достаточно, чтобы тип данных был сравним. Для этого в классе операторов имелась поддерживающая ("опорная") функция Number=1, которая могла бы сравнить два значения типа данных для которых создан класс операторов. Функция с таким номером есть и называется btint8cmp(..). Результат функции : отрицательное, положительное значение или ноль если значения равны.

Для эффективной сортировки (ORDER BY) желательно чтобы класс операторов имел вторую (Number=2) функцию быстрой сортировки значений. Функция с таким номером есть и называется btint8sortsupport(..)

Для возможности использования планировщиком индекса в выражениях "RANGE" оконных функций нужна третья (Number=3) функция.

Для поддержки дедупликации нужна четвертая (Number=4) функция.

9) Класс операторов связывает операторы, которые будут играть роли (стратегии) в методах которые использует логика индекса для упорядочивания (сравнения, сортировки, измерения расстояний, ассоциаций и т.п.) данных. Посмотрите какие операторы связаны со "стратегиями" методов доступа:

postgres=# \dAo btree integer_ops

List of operators of operator families

AM | Operator family | Operator | Strategy | Purpose

-------+-----------------+-----------------------+----------+---------

btree | integer_ops | <(bigint,bigint) | 1 | search

btree | integer_ops | <=(bigint,bigint) | 2 | search

btree | integer_ops | =(bigint,bigint) | 3 | search

btree | integer_ops | >=(bigint,bigint) | 4 | search

btree | integer_ops | >(bigint,bigint) | 5 | search

btree | integer_ops | <(integer,integer) | 1 | search

btree | integer_ops | <=(integer,integer) | 2 | search

btree | integer_ops | =(integer,integer) | 3 | search

btree | integer_ops | >=(integer,integer) | 4 | search

btree | integer_ops | >(integer,integer) | 5 | search

btree | integer_ops | <(smallint,smallint) | 1 | search

btree | integer_ops | <=(smallint,smallint) | 2 | search

btree | integer_ops | =(smallint,smallint) | 3 | search

btree | integer_ops | >=(smallint,smallint) | 4 | search

btree | integer_ops | >(smallint,smallint) | 5 | search

btree | integer_ops | <(bigint,integer) | 1 | search

btree | integer_ops | <=(bigint,integer) | 2 | search

btree | integer_ops | =(bigint,integer) | 3 | search

btree | integer_ops | >=(bigint,integer) | 4 | search

btree | integer_ops | >(bigint,integer) | 5 | search

btree | integer_ops | <(bigint,smallint) | 1 | search

btree | integer_ops | <=(bigint,smallint) | 2 | search

btree | integer_ops | =(bigint,smallint) | 3 | search

btree | integer_ops | >=(bigint,smallint) | 4 | search

btree | integer_ops | >(bigint,smallint) | 5 | search

btree | integer_ops | <(integer,bigint) | 1 | search

btree | integer_ops | <=(integer,bigint) | 2 | search

btree | integer_ops | =(integer,bigint) | 3 | search

btree | integer_ops | >=(integer,bigint) | 4 | search

btree | integer_ops | >(integer,bigint) | 5 | search

btree | integer_ops | <(integer,smallint) | 1 | search

btree | integer_ops | <=(integer,smallint) | 2 | search

btree | integer_ops | =(integer,smallint) | 3 | search

btree | integer_ops | >=(integer,smallint) | 4 | search

btree | integer_ops | >(integer,smallint) | 5 | search

btree | integer_ops | <(smallint,bigint) | 1 | search

btree | integer_ops | <=(smallint,bigint) | 2 | search

btree | integer_ops | =(smallint,bigint) | 3 | search

btree | integer_ops | >=(smallint,bigint) | 4 | search

btree | integer_ops | >(smallint,bigint) | 5 | search

btree | integer_ops | <(smallint,integer) | 1 | search

btree | integer_ops | <=(smallint,integer) | 2 | search

btree | integer_ops | =(smallint,integer) | 3 | search

btree | integer_ops | >=(smallint,integer) | 4 | search

btree | integer_ops | >(smallint,integer) | 5 | search

(45 rows)

В классе операторов указаны названия "опорных" (supporting, поддерживающих) функций, которые если встретятся в запросе, то может быть задействован индексный метод доступа при поиске (Purpose=search) или сортировке (Purpose=ordering) данных.

Числа в Strategy предопределены в коде, реализующем методы доступа. Например, для btree определены стратегии 1 (<),2 (<=),3 (=),4 (>=),5 (>).

Для хэш-индексов одна стратегия с номером 1 (=):

postgres=# \dAo+ hash integer_ops

List of operators of operator families

------+-----------------+----------------------+----------+---------+---------------

(9 rows)

Хэш индексы могут использоваться только с запросами на точное совпадение: равенство (=).

В куре нет заданий типа "давайте посмотрим всё, что только есть". Наоборот, в курсе не изучаются индексы gist, gin, brin чтобы не было лишней информации.

Приводятся примеры для одного наиболее часто используемого типа индексов: btree. Поняв как функционирует индекс btree можно по аналогии разобраться с тем, как работают все остальные типы индексов. Списки стратегий для методов доступа есть в документации https://docs.tantorlabs.ru/tdb/ru/16_4/se/xindex.html

Мы подробно останавливаемся на операторах, так как это позволит понять, какие типы индексов можно создавать для обслуживания запросов. Если в запросе есть оператор, то смогут использоваться индексы, у которых этот оператор есть в списке стратегий этого типа индексов и типа данных.

Часть 2. Использование индексов ограничениями целостности

1) Создайте таблицу с первичным ключом:

postgres=# drop table if exists t3;

DROP TABLE

postgres=# create table t3 (n int4 primary key, m int4);

CREATE TABLE

При создании таблицы был создан индекс с названием t3_pkey для поддержки первичного ключа:

postgres=# \d+ t3

Table "public.t3"

--------+---------+-----------+----------+---------+---------+-----------+-------------

Indexes:

"t3_pkey" PRIMARY KEY, btree (n)

Access method: heap

Табличный метод доступа к таблице: heap.

2) Создайте составной индекс по столбцам m,n:

postgres=# create unique index concurrently t3_pkey1 on t3 (m,n);

CREATE INDEX

Индекс может создаваться с опцией CONCURRENTLY. Эта опция устанавливает блокировку SHARE UPDATE EXCLUSIVE на таблицу на время своей работы (то есть на время создания индекса). Опция позволяет выполняться командам SELECT, WITH, INSERT, UPDATE, DELETE, MERGE и позволяет использовать быстрый путь блокирования объектов.

Создание индекса может занимать долго времени. Без CONCURRENTLY таблица сканируется один раз, с CONCURRENTLY таблица сканируется два раза и используются три транзакции, чтобы уменьшить длительность удержания горизонта базы данных.

Автовакуум несовместим с созданием, удалением, пересозданием индексов независимо от того используется CONCURRENTLY или не используется. Автовакуум попускает таблицы, если не может немедленно получить блокировку.

Несколько индексов с опцией CONCURRENTLY на одну и ту же таблицу не могут одновременно создаваться. Несколько индексов без опции CONCURRENTLY могут одновременно создаваться на одну и ту же таблицу и на разные таблицы. Команды создания индексов можно запустить в разных сессиях.

3) Замените ограничение целостности одной командой:

postgres=# ALTER TABLE t3 DROP CONSTRAINT t3_pkey, ADD CONSTRAINT t3_pkey PRIMARY KEY USING INDEX t3_pkey1;

NOTICE: ALTER TABLE / ADD CONSTRAINT USING INDEX will rename index "t3_pkey1" to "t3_pkey"

ALTER TABLE

postgres=# \d+ t3

Table "public.t3"

--------+---------+-----------+----------+---------+---------+-----------+-------------

Indexes:

"t3_pkey" PRIMARY KEY, btree (m, n)

Access method: heap

Сравните с результатом вывода этой же команды, выполненной ранее. На столбец m было добавлено ограничение целостности not null и для первичного ключа стал использоваться новый индекс. Старый индекс по столбцу n был удалён и его место освобождено. Индекс t3_pkey1 был переименован в индекс t3_pkey.

Время выполнения команды складывается из:

a) ожидания получения монопольной блокировки на таблицу

b) ожидания освобождения (буфера будут добавлены в список свободных) всех буферов в кэше буферов, которые использовались блоками удаляемого индекса. При использовании кэша буферов неоправданно большого размера поиск каждого блока в кэше буферов может занять долгое время. Неоправданное увеличение кэша буферов провоцируется увеличением числа hash bucket slot в Shared Buffer Lookup Table в некоторых форках PostgreSQL. СУБД Tantor не увеличивает это число (NUM_BUFFER_PARTITIONS).

4) Создайте индекс на столбец n:

postgres=# create index concurrently t3_pkey1 on t3 (n);

CREATE INDEX

postgres=# \d t3

Table "public.t3"

Column | Type | Collation | Nullable | Default

--------+---------+-----------+----------+---------

n | integer | | not null |

m | integer | | not null |

Indexes:

"t3_pkey" PRIMARY KEY, btree (m, n)

"t3_pkey1" btree (n)

Индекс создан. На таблице есть два индекса. Оба индекса будут одновременно обновляться, если менять строки в таблице. Дополнительные индексы снижают производительность изменения строк в таблицах. Зачем тогда создаются дополнительные индексы?

Дополнительные индексы создаются, если время выполнения команд, использующих дополнительные индексы, существенно меньше, чем команд без использования этих дополнительных индексов. Меньшее время коррелирует со стоимостью плана выполнения и ресурсами процессоров и ввода-вывода.

5) Попробуйте заменить ограничение целостности одной командой:

postgres=# alter table t3 DROP CONSTRAINT t3_pkey, ADD CONSTRAINT t3_pkey PRIMARY KEY USING INDEX t3_pkey1;

ERROR: "t3_pkey1" is not a unique index

LINE 1: ALTER TABLE t3 DROP CONSTRAINT t3_pkey, ADD CONSTRAINT t3_pk...

DETAIL: Cannot create a primary key or unique constraint using such an index.

Созданный индекс не может использоваться ограничениями целостности. Почему?

Потому, что индекс неуникальный. Неуникальные индексы не могут использоваться ограничениями целостности.

6) Попробуйте добавить ограничение целостности в состоянии NOT VALID:

postgres=# alter table t3 ADD CONSTRAINT t3_pkey PRIMARY KEY USING INDEX t3_pkey1 NOT VALID;

ERROR: PRIMARY KEY constraints cannot be marked NOT VALID

В PostgreSQL у PRIMARY KEY нет состояния NOT VALID. В СУБД других производителей ограничения целостности могут иметь состояние NOT VALID.

7) Если индекс не пригоден для использования ограничениями целостности и не ускоряет выполнение запросов, его стоит удалить. Удалите индекс:

postgres=# drop index t3_pkey1;

DROP INDEX

8) Попробуйте удалить индекс, использующийся ограничением целостности:

postgres=# drop index t3_pkey;

ERROR: cannot drop index t3_pkey because constraint t3_pkey on table t3 requires it

HINT: You can drop constraint t3_pkey on table t3 instead.

Индекс, использующийся ограничением целостности нельзя удалить. Можно удалить ограничение целостности.

9) Попробуйте создайте внешний ключ командой:

postgres=# alter table t3 add constraint fk foreign key (m) references t3(n) not valid;

ERROR: there is no unique constraint matching given keys for referenced table "t3"

Внешний ключ может быть создан только на ограничения целостности PRIMARY KEY или UNIQUE.

10) Создайте внешний ключ командой:

postgres=# alter table t3 add constraint fk foreign key (n,m) references t3(m,n) not valid;

ALTER TABLE

postgres=# \d+ t3

Table "public.t3"

--------+---------+---------+----------+-------+---------+-------------+-------------

Indexes:

"t3_pkey" PRIMARY KEY, btree (m, n)

Foreign-key constraints:

"fk" FOREIGN KEY (n, m) REFERENCES t3(m, n) NOT VALID

Referenced by:

TABLE "t3" CONSTRAINT "fk" FOREIGN KEY (n, m) REFERENCES t3(m, n) NOT VALID

Access method: heap

Внешний ключ создан без проверки существующих строк.

Индекс на столбцы внешнего ключа отсутствует.

11) При этом внешний ключ работает и выполняют проверку при вставке, удалении, изменении строк в таблице. Выполните вставку в таблицу:

postgres=# insert into t3 values (2,3);

ERROR: insert or update on table "t3" violates foreign key constraint "fk"

DETAIL: Key (n, m)=(2, 3) is not present in table "t3".

postgres=# insert into t3 values (1,1);

INSERT 0 1

Вставка строки, нарушающая внешний ключ не может быть выполнена.

Если после внесения изменений не нарушаются ограничения целостности, то команда выполняется.

12) Выполните проверку строк на соответствие ограничению целостности:

postgres=# alter table t3 validate constraint fk;

ALTER TABLE

При валидации строк запрашивается блокировка ShareRowExclusive на таблицы:

a) на которой создан FOREIGN KEY (дочерняя таблица)

b) на родительскую таблицу, в которой есть PRIMARY KEY или UNIQUE, на который ссылается FOREIGN KEY.

В примере таблица одна и та же.

Проверка может быть долгой и зависит от числа строк в дочерней таблице. На время проверки удерживается блокировка ShareRowExclusive.

Если используются секционированные таблицы, то статус проверки ограничения целостности может использоваться планировщиком для исключения секций из сканирования.

Индекс на столбцы внешнего ключа при проверке не был создан.

Индекс на FK создают если:

1) в мастер-таблице (там где PK) часто обновляется значение столбца PK или удаляются строки. Эти действия нежелательны и при проектировании приложений их избегают.

2) когда используются соединения таблиц связанных PK-FK. Это используется очень часто, та как для этого FK и нужен: определяет связь (join) между таблицами.

Часть 3. Характеристики btree индексов

1) Создайте таблицу:

postgres=#

drop table if exists t;

create table t (id int8, s text storage plain);

create index t_idx on t (s text_ops) include (id);

insert into t values (1, repeat('a',2700));

DROP TABLE

CREATE TABLE

CREATE INDEX

2) Попробуйте вставить строку с полем с 2700 символов в таблицу:

postgres=# insert into t values (1, repeat('a',2700));

ERROR: index row size 2720 exceeds btree version 4 maximum 2704 for index "t_idx"

DETAIL: Index row references tuple (0,1) in relation "t".

HINT: Values larger than 1/3 of a buffer page cannot be indexed.

Consider a function index of an MD5 hash of the value, or use full text indexing.

Максимальный размер индексной записи 2704 байта, то есть примерно треть размера блока без заголовка блока: 2704*3=8112 байт.

Значения, больше чем 1/3 блока не могут индексироваться.

Для вычисления размера строки в таблице можно использовать функцию:

postgres=# select pg_column_size(row(1::int4, repeat('a',2700))), pg_column_size(row(repeat('a',2700)));

pg_column_size | pg_column_size

----------------+----------------

2732 | 2728

(1 row)

Функций для вычисления размера записи в блоке индекса нет.

3) Посмотрите, сколько записей помещается в промежуточный блок индекса:

postgres=# drop table if exists t3;

create table t3 (id bigserial primary key, s int4) with (autovacuum_enabled=off);

insert into t3 (s) select * from generate_series(1, 1000000);

select pg_indexes_size('t3');

select pg_relation_size('t3_pkey', 'main');

select * from bt_page_stats('t3_pkey',3);

DROP TABLE

CREATE TABLE

INSERT 0 1000000

pg_indexes_size

-----------------

22487040

(1 row)

pg_relation_size

------------------

22487040

(1 row)

-------+------+------------+------------+---------------+-----------+-----------+-----------+------------+

3 | i | 286 | 0 | 15 | 2436 | 0 | 411 | 1 |

(1 row)

Число записей в промежуточном (внутреннем) блоке индекса 286.

Процент заполнения промежуточных блоков индекса btree 70% и не меняется.

Размер основного слоя индекса 22487040 байт.

В таблицу вставляется большое число строк, чтобы в индексе были уровни: листовой, промежуточный и корневой.

4) По умолчанию процент заполнения листовых блоков 90% и может меняться. Посмотрите сколько записей в листовом блоке индекса:

postgres=# select * from bt_page_stats('t3_pkey',274);

-------+------+------------+------------+---------------+-----------+-----------+-----------+------------+

274 | l | 367 | 0 | 16 | 808 | 273 | 275 | 0 |

(1 row)

При заполнении (fillfactor=90) на 90% число записей в блоке индекса 286*90%/70%=367.

Во всех листовых блоках свободно 808 байт, кроме самого правого блока. Проиндексированный столбец заполняется монотонно возрастающей последовательностью. Новые значения добавляются в самый правый листовой блок. У самого правого блока на каждом уровне btpo_next=0. У листовых блоков type=l, также нумерация уровней начинается с листового уровня и поэтому у листовых блоков btpo_level=0. Данные по листовому блоку:

postgres=# select * from bt_page_stats('t3_pkey',275);

-------+------+------------+------------+---------------+-----------+-----------+-----------+------------+

275 | l | 82 | 0 | 16 | 6508 | 274 | 0 | 0 |

В правом листовом блоке 82 записи, в блоке свободно 6508 байт.

5) Посмотрите, сколько записей поместится в листовой блок, если установить fillfactor=100:

postgres=# drop table if exists t3;

create table t3 (id bigserial primary key, s int4) with (autovacuum_enabled=off, fillfactor=100);

alter index t3_pkey set (fillfactor=100);

insert into t3 (s) select * from generate_series(1, 1000000);

select pg_indexes_size('t3');

select pg_relation_size('t3_pkey', 'main');

select * from bt_page_stats('t3_pkey',3);

select * from bt_page_stats('t3_pkey',4);

pg_indexes_size

-----------------

20275200

(1 row)

pg_relation_size

------------------

20275200

(1 row)

-------+------+------------+------------+---------------+-----------+-----------+-----------+-----------+

3 | i | 286 | 0 | 15 | 2436 | 0 | 411 | 1 |

(1 row)

-------+------+------------+------------+---------------+-----------+-----------+-----------+------------+

4 | l | 407 | 0 | 16 | 8 | 2 | 5 | 0 |

(1 row)

Число записей в промежуточных блоках индекса не поменялось и осталось 286, так как процент заполнения промежуточных блоков индекса btree 70% и не меняется. 30% будут использоваться в случае, если листовые блоки будут делиться. При вставке строк в таблицу t3 (заполнение проиндексированного столбца монотонно возрастающей последовательностью) делятся только правые блоки листового и промежуточных уровней.

Число записей, поместившихся в листовые блоки увеличилось на ~11% с 367 до 407, что соответствует увеличению fillfactor с 90% до 100%.

Размер файла индекса уменьшился на ~10% с 22487040 до 20275200 байт, что соответствует увеличению fillfactor с 90% до 100%.

Длинна записи в листовом блоке 16 байт.

6) Посмотрите данные из заголовка полностью заполненного листового блока:

postgres=# select * from page_header(get_raw_page('t3_pkey', 4));

------------+----------+-------+-------+-------+---------+----------+---------+----------

B/3DD2D598 | 0 | 0 | 1652 | 1664 | 8176 | 8192 | 5 | 0

(1 row)

Область данных занимает 407*16 = 6152 байт. 8192-6152=1680 это накладные расходы. Основная часть накладных расходов это переменная часть заголовка блока: 4 байта на индексную запись. 407*4 байта (размер слота в заголовке блока)=1628 байт. 1680-1628=52 байт, которые используются фиксированной частью заголовка блока 24 байта, незанятым местом 1664-1652=12 байт, специальной областью размером 8192-8176=16 байт.

7) Посмотрите, сколько блоков разных типов есть в индексе:

postgres=# select type, count(*) from bt_multi_page_stats('t3_pkey',1,-1) group by type order by 2;

type | count

------+-------

r | 1

i | 9

l | 2464

(3 rows)

99,6%, то есть подавляющее большинство блоков - листовые.

Процент листовых блоков уменьшится, если длинна проиндексированных полей будет больше. В таком случае в листовом и промежуточных блоках будет меньше записей и число уровней индекса возрастёт. Дедупликация увеличит число записей в листовых блоках индекса.

8) Выполните удобный запрос, который выводит размеры индексов и команду создания индексов:

postgres=# select i.relname "table", indexrelname "index",

pg_INDEXES_size(relid) "indexes_size",

pg_RELATION_size(relid) "table_size ",

pg_TOTAL_RELATION_size(relid) "total",

pg_RELATION_size(indexrelid) "index_size",

reltuples::bigint "rows",

ii.indexdef ddl

from pg_stat_all_indexes i join pg_class c on (i.relid = c.oid)

join pg_indexes ii on (i.indexrelname = ii.indexname)

where i.schemaname not like 'pg_%' -- не выводить служебные объекты

order by pg_INDEXES_size(relid) desc, pg_RELATION_size(indexrelid) desc limit 1;

------------------+-----------------------------+--------------+-------------+----------+------------+--------+

t3 | t3_pkey | 20275200 | 44285952 | 64593920 | 20275200 | -1 | CREATE UNIQUE INDEX t3_pkey ON public.t3 USING btree (id) WITH (fillfactor='100')

(1 row)

Почему число строк в таблице rows=-1?

Потому, что не собрана статистика.

9) Соберите статистику по таблице t3:

postgres=# analyze t3;

ANALYZE

10) Повторите запрос:

postgres=# select i.relname "table", indexrelname "index",

pg_INDEXES_size(relid) "indexes_size",

pg_RELATION_size(relid) "table_size ",

pg_TOTAL_RELATION_size(relid) "total",

pg_RELATION_size(indexrelid) "index_size",

reltuples::bigint "rows",

ii.indexdef ddl

from pg_stat_all_indexes i join pg_class c on (i.relid = c.oid)

join pg_indexes ii on (i.indexrelname = ii.indexname)

where i.schemaname not like 'pg_%' -- не выводить служебные объекты

order by pg_INDEXES_size(relid) desc, pg_RELATION_size(indexrelid) desc limit 1 \gx

-[ RECORD 1 ]+---------------------------------------------------------

table | t3

index | t3_pkey

indexes_size | 20275200

table_size | 44285952

total | 64593920

index_size | 20275200

rows | 1000000

ddl | CREATE UNIQUE INDEX t3_pkey ON public.t3 USING btree (id) WITH

(fillfactor='100')

Сейчас число строк в таблице rows=1000000.

Если из запроса убрать limit 1, то запрос удобен для быстрой оценки размеров таблиц и индексов; узнать, на какие индексы обратить внимание. Например, на индексы большого размера, на таблицы с большим числом индексов по одной таблице.

Часть 4. Навигация по структуре btree индексов

1) В расширении pageinspect есть функции для просмотра структуры блоков индексов. Функции для индексов типа btree имеют префикс bt_ . Число уровней в дереве индекса типа btree отсутствует в таблицах статистики. Число уровней хранится в блоке метаданных и его можно посмотреть функцией bt_metap. Посмотрите метаданные об индексе t3_pkey,который был создан в предыдущей части практики:

postgres=# select * from bt_metap('t3_pkey');

--------+---------+------+-------+----------+-----------+-------------+------------+-------------

340322 | 4 | 412 | 2 | 412 | 2 | 0 | -1 | t

(1 row)

В результатах функции интерес представляют только level и root.

Число уровней level=2. Нумерация начинается с нуля. Дерево индекса растёт снизу вверх и нуль соотвествует листовым блокам.

Поля magic и version используются для быстрой проверки того, что объект является индексом btree поддерживаемой версии. "Магическое" число для индексов типа btree равно 340322 (0x0531162).

Начиная с PostgreSQL версии 12 используется 4 версия индексов. Более старая версия индекса может встретиться, если СУБД обновлялась со старых версий. Индексы старых версий стоит перестроить, иначе новшества, появивишиеся в новых версиях, не будут использоваться.

Корневой блок индекса root=412. Число - порядковый номер блока с начала первого файла слоя данных индекса.

fastroot и fastlevel используются для неважной оптимизации поиска по индексу. На эти столбцы можно не обращать внимание. Если в таблице удалить все строки, то число уровней индекса не уменьшается. При этом у корневого блока останется один наследник. В таком случае fastroot станет блок, у которого несколько наследников и с которого можно будет начинать поиск. В примере fastroot указывает на root.

2) Функция bt_page_stats необходима для навигации по структуре индекса и выдаёт одну строку для каждого блока индекса. Посмотрите данные по корневому блоку индекса t3_pkey:

postgres=# select * from bt_page_stats('t3_pkey',412);

-----+----+----------+----------+-------------+---------+-----------+-----------+------------+-----------

412 | r | 9 | 0 | 15 | 7976 | 0 | 0 | 2 | 2

(1 row)

Для навигации используются поля btpo_prev и btpo_next. В этих полях указаны номера блоков левее и правее на том же уровне. btpo_prev=0 означает, что блок самый левый, btpo_next=0 означает, что блок самый правый на своём уровне. Корневой блок единственный на своём уровне, поэтому значения нули.

Тип блока указан в поле type. Значения в этом столбце: r - корневой (root); i - внутренний (internal); l - листовой (list), e - (ignored), d - удалёный листовой (deleted leaf), D - удалённый внутренний (deleted internal).

avg_item_size показывает вычисленное значение среднего размера индексной записи в этом блоке. Записи выравниваются по 8 байт.

live_items - сколько записей есть в этом блоке.

3) Для просмотра индексных записей используется функция bt_page_items. Посмотрите индексные записи в корневом блоке индекса t3_pkey:

postgres=# select itemoffset, ctid, itemlen, nulls, vars, dead, htid, tids, data from bt_page_items('t3_pkey', 412) order by 1;

------------+----------+---------+-------+------+------+------+------+------------------------

1 | (3,0) | 8 | f | f | | | |

2 | (411,1) | 16 | f | f | | | | ff c3 01 00 00 00 00 00

3 | (698,1) | 16 | f | f | | | | fd 87 03 00 00 00 00 00

4 | (984,1) | 16 | f | f | | | | fb 4b 05 00 00 00 00 00

5 | (1270,1) | 16 | f | f | | | | f9 0f 07 00 00 00 00 00

6 | (1556,1) | 16 | f | f | | | | f7 d3 08 00 00 00 00 00

7 | (1842,1) | 16 | f | f | | | | f5 97 0a 00 00 00 00 00

8 | (2128,1) | 16 | f | f | | | | f3 5b 0c 00 00 00 00 00

9 | (2414,1) | 16 | f | f | | | | f1 1f 0e 00 00 00 00 00

(9 rows)

В корневом блоке 9 записей, которые указывают на блоки индекса. В столбце ctid могут храниться ссылки на блоки индекса или строки таблицы. При хранении ссылок на блоки индекса идентификатор строки не играет роли: в приведённом примере идентификатор строки имеет значения 0 или 1. Если 1, то в поле data хранится минимальное значение, которое присутствует в дочернем листовом блоке. Если ноль, то поле data пусто (трактуется как "минус бесконечность", то есть граница неизвестна) и эта ссылка ведёт на самый левый дочерний блок.

Так как блок корневой, то в первой записи (itemoffset=1) не хранится HighKey. HighKey не хранится в самых правых блоках каждого уровня, так как нет смысла обозначать правую границу - блок и так самый правый. HighKey используется для проверки того не нужно ли считывать блок правее.

Поле data текущей и следующей (itemoffset+1) записи задаёт диапазон, в который должно попасть значение, по которому выполняется поиск в индексе.

Индексные записи хранятся упорядоченно, порядок выдаётся в столбце itemoffset. Первая строка itemoffset=1 , ctid=(3,0) указывает на блок нижнего уровня, который будет самым левым на своём уровне. Последняя строка itemoffset=9 , ctid=(2414,1) указывает на блок нижнего уровня, который будет самым правым на своём уровне.

В индексе используются оптимизация suffix truncation и усечение проиндексированных столбцов в поле data её следствие. Из-за этой оптимизации индекс btree используемый в PostgreSQL можно называть "Simple Prefix B-Tree". Простое (Simple) потому, что усекаются целые поля (whole "attribute" truncation). Для индекса по одному столбцу остаётся пустота, трактуемая как минус бесконечность.

Длинна первой записи за счёт отсутствия значения в поле data 8 байт: itemlen=8.

4) Посмотрите, что выдаёт функция bt_page_stats по блокам с itemoffset=1,9,2:

postgres=# select blkno, type, live_items live, dead_items dead, avg_item_size size, free_size free, btpo_prev, btpo_next, btpo_level l, btpo_flags f from bt_page_stats('t3_pkey', 3);

-------+------+------+------+------+------+-----------+-----------+---+---

3 | i | 286 | 0 | 15 | 2436 | 0 | 411 | 1 | 0

(1 row)

3 блок самый левый на своём уровне, на это указывает btpo_prev=0.

В 3 блоке 286 записей. Блок наполнен на 70%, что является значением процента заполнения по умолчанию для промежуточных блоков.

postgres=# select blkno, type, live_items live, dead_items dead, avg_item_size size, free_size free, btpo_prev, btpo_next, btpo_level l, btpo_flags f from bt_page_stats('t3_pkey', 2414);

-------+------+------+------+------+------+-----------+-----------+---+---

2414 | i | 184 | 0 | 15 | 4476 | 2128 | 0 | 1 | 0

(1 row)

2414 блок самый правый на своём уровне, на это указывает btpo_next=0.

В 2414 блоке 184 записи. Это самый правый блок своего уровня, он заполнен не на 70%, а меньше. Это произошло из-за того, что при заполнении монотонно возрастающей последовательностью, вставки выполняются в правый листовой блок и именно он делится. Вставка записи со ссылкой на новый листовой блок выполняется в самый правый блок вышестоящего уровня. Делятся самые правые блоки каждого уровня. После деления записи перераспределяются между двумя блоками. В блоке "левее" остаётся 70% записей для промежуточных блоков. При делении листового блока, в блоке "левее" остаётся fillfactor записей. Оставшиеся записи как у промежуточного, так и у листового блока остаются в "правом" блоке и их меньше, чем в блоке "левее" от него. Именно поэтому в "правом" 2414 блоке 184 записи, что меньше, чем 286.

postgres=# select blkno, type, live_items live, dead_items dead, avg_item_size size, free_size free, btpo_prev, btpo_next, btpo_level l, btpo_flags f from bt_page_stats('t3_pkey', 411);

-------+------+------+------+------+------+-----------+-----------+---+---

411 | i | 286 | 0 | 15 | 2436 | 3 | 698 | 1 | 0

(1 row)

411 блок стоит справа от блока 3, на это указывает btpo_prev=3.

Значения btpo_prev и btpo_next соответствуют порядку следования записей столбца itemoffset. вышестоящего блока. В примере btpo_next=698, что соответствует записи с itemoffset=3 в вышестоящем блоке.

Во всех промежуточных блоках, кроме "правых" число записей (286) и свободное место (free) соответствует 70% заполнению потому, что вставки были в правые блоки. В результате деления правых блоков (когда в них не оставалось места для вставки) левые блоки заполнялись на 70% (промежуточные) или до fillfactor (листовые).

5) Блок 2414 самый правый на промежуточном уровне. В блоке 184 записи. Посмотрите первые и последние записи:

postgres=# select itemoffset, ctid, itemlen, nulls, vars, dead, htid, tids, data from bt_page_items('t3_pkey', 2414) order by 1 limit 2;

------------+----------+---------+-------+------+------+------+------+-------------------------

1 | (2290,0) | 8 | f | f | | | |

2 | (2291,1) | 16 | f | f | | | | 87 21 0e 00 00 00 00 00

(2 rows)

postgres=# select itemoffset, ctid, itemlen, nulls, vars, dead, htid, tids, data from bt_page_items('t3_pkey', 2414) order by 1 desc limit 2;

------------+----------+---------+-------+------+------+------+------+-------------------------

184 | (2474,1) | 16 | f | f | | | | 2b 42 0f 00 00 00 00 00

183 | (2473,1) | 16 | f | f | | | | 95 40 0f 00 00 00 00 00

(2 rows)

В блоке три уровня. Какой номер у самого правого листового блока? 2474.

6) Посмотрите статистику и содержимое самого правого листового блока:

postgres=# select blkno, type, live_items live, dead_items dead, avg_item_size size, free_size free, btpo_prev, btpo_next, btpo_level l, btpo_flags f from bt_page_stats('t3_pkey',2474);

-------+------+------+------+------+------+-----------+-----------+---+---

2474 | l | 22 | 0 | 16 | 7708 | 2473 | 0 | 0 | 1

(1 row)

В статистике type=l, это означает, что блок листовой. btpo_next=0 означает, что блок самый правый.

postgres=# select itemoffset, ctid, itemlen, nulls, vars, dead, htid, tids, data from bt_page_items('t3_pkey', 2474);

------------+-----------+---------+-------+------+------+-----------+------+-------------------------

1 | (5405,54) | 16 | f | f | f | (5405,54) | | 2b 42 0f 00 00 00 00 00

2 | (5405,55) | 16 | f | f | f | (5405,55) | | 2c 42 0f 00 00 00 00 00

3 | (5405,56) | 16 | f | f | f | (5405,56) | | 2d 42 0f 00 00 00 00 00

4 | (5405,57) | 16 | f | f | f | (5405,57) | | 2e 42 0f 00 00 00 00 00

5 | (5405,58) | 16 | f | f | f | (5405,58) | | 2f 42 0f 00 00 00 00 00

6 | (5405,59) | 16 | f | f | f | (5405,59) | | 30 42 0f 00 00 00 00 00

7 | (5405,60) | 16 | f | f | f | (5405,60) | | 31 42 0f 00 00 00 00 00

8 | (5405,61) | 16 | f | f | f | (5405,61) | | 32 42 0f 00 00 00 00 00

9 | (5405,62) | 16 | f | f | f | (5405,62) | | 33 42 0f 00 00 00 00 00

10 | (5405,63) | 16 | f | f | f | (5405,63) | | 34 42 0f 00 00 00 00 00

11 | (5405,64) | 16 | f | f | f | (5405,64) | | 35 42 0f 00 00 00 00 00

12 | (5405,65) | 16 | f | f | f | (5405,65) | | 36 42 0f 00 00 00 00 00

13 | (5405,66) | 16 | f | f | f | (5405,66) | | 37 42 0f 00 00 00 00 00

14 | (5405,67) | 16 | f | f | f | (5405,67) | | 38 42 0f 00 00 00 00 00

15 | (5405,68) | 16 | f | f | f | (5405,68) | | 39 42 0f 00 00 00 00 00

16 | (5405,69) | 16 | f | f | f | (5405,69) | | 3a 42 0f 00 00 00 00 00

17 | (5405,70) | 16 | f | f | f | (5405,70) | | 3b 42 0f 00 00 00 00 00

18 | (5405,71) | 16 | f | f | f | (5405,71) | | 3c 42 0f 00 00 00 00 00

19 | (5405,72) | 16 | f | f | f | (5405,72) | | 3d 42 0f 00 00 00 00 00

20 | (5405,73) | 16 | f | f | f | (5405,73) | | 3e 42 0f 00 00 00 00 00

21 | (5405,74) | 16 | f | f | f | (5405,74) | | 3f 42 0f 00 00 00 00 00

22 | (5405,75) | 16 | f | f | f | (5405,75) | | 40 42 0f 00 00 00 00 00

(22 rows)

Это содержимое самого правого листового блока. Во всех ctid самого правого листового блока хранятся ссылки на строки таблицы. В столбце htid (heap tuple id) хранится то же самое значение, что и в ctid. Почему дублируется значение в ctid и htid? Алгоритм работы btree оптимизирован для работы в условиях минимума блокировок и для минимизации расщеплений блоков. В процессе чтения блоков индекса одним процессом, другие процессы могут менять его структуру. При навигации по блокам нет единой картины ("целостности по чтению"). Дополнительные поля используются для выявления противоречий.

7) Проверьте, что ctid ссылается на строку таблицы. Выполните запрос к таблице t3 по служебному столбец ctid:

postgres=# select * from t3 where ctid='(5405,54)';

id | s

--------+--------

999979 | 999979

(1 row)

postgres=# select * from t3 where ctid='(5405,75)';

id | s

---------+---------

1000000 | 1000000

(1 row)

Строка ctid='(5405,75)' была добавлена самой последней в таблицу.

8) Вставьте строку в таблицу и проверьте, что в правый листовой блок была вставлена запись:

postgres=# insert into t3 values(default);

INSERT 0 1

postgres=# select itemoffset, ctid, itemlen, nulls, vars, dead, htid, tids, data from bt_page_items('t3_pkey', 2474) where itemoffset>21;

------------+-----------+---------+-------+------+------+-----------+------+------------------------

22 | (5405,75) | 16 | f | f | f | (5405,75) | | 40 42 0f 00 00 00 00 00

23 | (5405,76) | 16 | f | f | f | (5405,76) | | 41 42 0f 00 00 00 00 00

(2 rows)

9) Посмотрите первые записи в любом листовом блоке, кроме самого правого:

postgres=# select itemoffset, ctid, itemlen, nulls, vars, dead, htid, tids, data from bt_page_items('t3_pkey', 2473) limit 3;

------------+-----------+---------+-------+------+------+-----------+------+----------------------

1 | (5405,1) | 16 | f | f | | | | 2b 42 0f 00 00 00 00 00

2 | (5403,18) | 16 | f | f | f | (5403,18) | | 95 40 0f 00 00 00 00 00

3 | (5403,19) | 16 | f | f | f | (5403,19) | | 96 40 0f 00 00 00 00 00

(3 rows)

Первая строка (itemoffset=1) в листовых блоках кроме самого "правого" всегда хранит служебное значение, называемое "High key". При вставке в структуру индекса нового блока обновляются High keys и ссылки на соседние блоки того же уровня. High key хранит наибольшее значение, которое встречается в этом блоке индекса.

High key (первая строка листового блока кроме самого правого листового блока) всегда проверяется при поиске по индексу. Зачем? В процессе спуска с предыдущего уровня до листового другой процесс мог уже расщепить блок, на который спускаются и перераспределить ссылки на строки таблиц, а это значит, что искомое значение находится в блоке (или даже блоках) правее того, на который спустились. Если значение High key листового блока отличается от значения в ссылке на следующий листовой блок, то процесс должен двигаться вправо по листовому уровню и проверять, нет ли там искомого значения. Ссылка на следующий лиcтовой блок находится в вышестоящем блоке в записи itemoffset+1 (в примере 184).

Часть 5. Дедупликация в btree индексах

Дедупликация появилась в PostgreSQL 13 версии и использует для хранения информации поля, которые без дедупликации предназначены для других целей. Это позволило радикально не менять структуру индекса и не требовать перестройки индексов при миграции на новую версию PostgreSQL.

1) Создайте таблицу с одним столбцом типа int4 или int8. Вставьте в таблицу 407 строк с одинаковым значением 1. Посмотрите содержимое блока индекса:

postgres=# drop table if exists td;

create table td(id int8) with (autovacuum_enabled=off);

create index td_idx on td (id);

insert into td select 1 from generate_series(1, 407);

select magic, root, level, fastroot, fastlevel, allequalimage from bt_metap('td_idx');

select blkno, type, live_items live, dead_items dead, avg_item_size size, free_size free, btpo_prev, btpo_next, btpo_level l, btpo_flags f from bt_page_stats('td_idx',1);

select itemoffset o, ctid, itemlen, htid, data, substring(tids::text for 34) tids from bt_page_items('td_idx',1) limit 3;

DROP TABLE

CREATE TABLE

CREATE INDEX

INSERT 0 407

--------+------+-------+----------+-----------+---------------

340322 | 1 | 0 | 1 | 0 | t

(1 row)

Корневым блоком указан блок номер 1. Для поддержки дедупликации в классе операторов для типа данных, который индексируется, должна быть определена функция номер 4 (BTEQUALIMAGE_PROC). Если allequalimage=t, то функция определена и дедупликация поддерживается.

Дедупликация не поддерживается с типами данных: numeric, jsonb, float4, float8, массивами, составными, диапазонными типами. Индексы со столбцами INCLUDE не поддерживают дедупликацию. У таких индексов allequalimage=f.

-------+------+------+------+------+------+-----------+-----------+---+---

1 | l | 407 | 0 | 16 | 8 | 0 | 0 | 0 | 3

(1 row)

Тип блока номер 1 в самом блоке указан как листовой. Левее и правее этого блока блоков нет (btpo_prev=0 и btpo_next=0), блок единственный на своём уровне. В блоке 407 записи (live=407). В блоке свободно 8 байт (free=8).

Индекс состоит из двух блоков: нулевого блока с метаданными и единственного блока.

---+-------+---------+-------+-------------------------+-----------

1 | (0,1) | 16 | (0,1) | 01 00 00 00 00 00 00 00 |

2 | (0,2) | 16 | (0,2) | 01 00 00 00 00 00 00 00 |

3 | (0,3) | 16 | (0,3) | 01 00 00 00 00 00 00 00 |

(3 rows)

Блок имеет формат правого листового блока. В каждой записи в поле ctid хранится ссылка на строку таблицы, в поле data хранится проиндексированное значение. Так как блок правый, то он заполнен полностью так, что в нём нет места для вставки новой записи.

2) Вставьте одну строку:

postgres=# insert into td values(1);

INSERT 0 1

3) Посмотрите как поменялось содержимое блока 1 индекса:

postgres=# select blkno, type, live_items live, dead_items dead, avg_item_size size, free_size free, btpo_prev, btpo_next, btpo_level l, btpo_flags f from bt_page_stats('td_idx',1);

select itemoffset o, ctid, itemlen, htid, data, substring(tids::text for 34) tids from bt_page_items('td_idx',1);

-------+------+------+------+------+------+-----------+-----------+---+--

1 | l | 3 | 0 | 832 | 5640 | 0 | 0 | 0 | 3

(1 row)

Была выполнена дедупликация. Дедупликация выполняется, если блок должен был бы делиться: в блоке нет места или превышается fillfactor.

В блоке было 407 записи, а стало 3 записи.

В блоке свободно 5640 байт.

---+-----------+---------+---------+-------------------------+-----------------------------------

1 | (16,8414) | 1352 | (0,1) | 01 00 00 00 00 00 00 00 | {"(0,1)","(0,2)","(0,3)","(0,4)","

2 | (16,8377) | 1128 | (0,223) | 01 00 00 00 00 00 00 00 | {"(0,223)","(0,224)","(0,225)","(0

3 | (1,182) | 16 | (1,182) | 01 00 00 00 00 00 00 00 |

(3 rows)

В поле data хранится значение проиндексированных столбцов. В примере это целое число 1.

Значения проиндексированных столбцов хранятся в записи индекса, а ссылки на строки таблицы хранится в столбце tids (tuple ids, идентификаторы строк таблицы) в виде отсортированного массива значений типа ctid.

В строке itemoffset=3 нет дедупликации (tids пуст) и на строку таблицы указывает ctid=(1,182).

В первой и второй строках на строки таблицы указывает tids.

В htid сохраняется первый tid из tids.

В ctid первой и второй записи хранятся не ссылки на блоки, а служебные данные о tids. Например, ctid промежуточных блоков будет хранить номер блока в индексе, ссылающийся на нижестоящий уровень, а вторая часть ctid будет хранить число элементов в tids.

Размер массива tids указан в столбце itemlen:

postgres=# select itemoffset o, ctid, itemlen, htid, pg_column_size(tids) size, cardinality(tids) from bt_page_items('td_idx',1);

---+-----------+---------+---------+------+-------------

1 | (16,8414) | 1352 | (0,1) | 1356 | 222

2 | (16,8377) | 1128 | (0,223) | 1134 | 185

3 | (1,182) | 16 | (1,182) | |

(3 rows)

Размер типа ctid 6 байт. Число элементов в массиве выдаёт функция cardinality(tids). Вычисление размера массива в столбце tids: 222*6=1332. 185*6=1110.

Это соответствует значениям, выдаваемым функцией pg_column_size(tids). Функция выдаёт значения, увеличенные на 24 байта (1332+24=1356 и 1110+24=1134), так как предназначена для выдачи размера строки таблицы. 24 байта это минимальный размер заголовка строки.

4) Посмотрим как определить поддерживает ли индекс дедупликацию.

У индексов не поддерживающих дедупликацию allequalimage=f.

Дедупликация не поддерживается с типами данных: numeric, jsonb, float4, float8, массивами, составными типами, диапазонными типами:

postgres=# drop table if exists td;

create table td(id float8);

create index td_idx on td (id);

select allequalimage from bt_metap('td_idx');

DROP TABLE

CREATE TABLE

CREATE INDEX

allequalimage

---------------

(1 row)

postgres=# drop table if exists td;

create table td(id int8[]);

create index td_idx on td (id);

select allequalimage from bt_metap('td_idx');

DROP TABLE

CREATE TABLE

CREATE INDEX

allequalimage

---------------

(1 row)

postgres=# drop table if exists td;

create table td(id jsonb);

create index td_idx on td (id);

select allequalimage from bt_metap('td_idx');

DROP TABLE

CREATE TABLE

CREATE INDEX

allequalimage

---------------

(1 row)

postgres=# drop table if exists td;

create table td(n timestamp, n1 date, n2 integer, n3 char, n4 text, n5 varchar);

create index td_idx on td (n,n1,n2,n3,n4,n5);

select allequalimage from bt_metap('td_idx');

DROP TABLE

CREATE TABLE

CREATE INDEX

allequalimage

---------------

(1 row)

Составной индекс поддерживает дедупликацию, если типы ключевые данных ее поддерживают.

postgres=# create index td1_idx on td (n) include (n1);

select allequalimage from bt_metap('td1_idx');

CREATE INDEX

allequalimage

---------------

(1 row)

Индексы со столбцами INCLUDE не поддерживают дедупликацию даже если типы данных поддерживают.

Часть 6. Индексы в убывающем порядке

По умолчанию индекс строится в возрастающем порядке, то есть "слева" меньшие значения, "справа" большие. При создании индекса можно указать обратный порядок: DESC. Не стоит это делать для индексов заполняемых возрастающей последовательностью. Свойство ASC и DESC при создании индекса не влияет на эффективность использования индекса планировщиком (например, ORDER BY ASC или DESC). Это свойство влияет на заполнение индекса: правые блоки в индексе отличаются от остальных тем, что оптимизированы для вставок. Желательно, чтобы вставки выполнялись преимущественно в правый листовой блок индекса.

1) Включите измерение времени выполнения команд:

postgres=# \timing

Timing is on.

2) Создайте таблицу и индекс в прямом и обратном порядке сортировки:

postgres=# drop table if exists t3;

create table t3 (id bigserial, s int4) with (autovacuum_enabled=off, fillfactor=100);

create unique index if not exists t3_pkey on t3 using btree (id) include (s) with (fillfactor=100, deduplicate_items=off);

insert into t3 (s) select * from generate_series(1, 1000000);

select pg_relation_size('t3_pkey', 'main');

drop table if exists t3;

create table t3 (id bigserial, s int4) with (autovacuum_enabled=off, fillfactor=100);

create unique index if not exists t3_pkey on t3 using btree (id DESC nulls first) include (s) with (fillfactor=100, deduplicate_items=off);

insert into t3 (s) select * from generate_series(1, 1000000);

select pg_relation_size('t3_pkey', 'main');

DROP TABLE

Time: 29.181 ms

CREATE TABLE

Time: 5.667 ms

CREATE INDEX

Time: 15.279 ms

INSERT 0 1000000

Time: 4351.432 ms (00:04.351)

pg_relation_size

------------------

28467200

(1 row)

Time: 0.229 ms

DROP TABLE

Time: 23.951 ms

CREATE TABLE

Time: 7.504 ms

CREATE INDEX

Time: 11.651 ms

INSERT 0 1000000

Time: 5740.328 ms (00:05.740)

pg_relation_size

------------------

56401920

(1 row)

Time: 0.307 ms

Изменение порядка существенно повлияло на скорость вставки и размер индекса.

Размер индекса увеличился в 2 раза. Скорость вставки снизилась на 32%.

Если бы значения заполнялись убывающей последовательностью, то индекс DESC был бы оптимальнее, чем ASC.

3) Перестройте индекс и посмотрите уменьшился ли размер индекса:

postgres=# reindex index t3_pkey;

REINDEX

postgres=# select pg_relation_size('t3_pkey', 'main');

pg_relation_size

------------------

28475392

(1 row)

Time: 1077.214 ms (00:01.077)

Размер индекса уменьшился. Перестройка индекса была эффективна. Индекс при вставке строк в таблицу обновлялся неэффективно. Обновления происходили в левых блоках индекса, которые не оптимизированы для вставок, в отличие от правых блоков индекса btree.

При вставке строк в таблицу значениями, которые попадают не в правый блок структура индекса заполняется неэффективно и вставки замедляются.

Причина замедления вставок не столько в излишнем делении блоков, сколько в отсутствии оптимизации fastpath. Процесс, который выполнил вставку в правый листовой блок, запоминает ссылку на него и при последующей вставке, если новое значение больше предыдущего (или пусто) и не проходит путь от корня до листового блока. Оптимизация fastpath также используется при вставке в датавременной столбец, заполняемый по DEFAULT временем вставки. Процесс забывает адрес блока и снова начинает поиск с корня, если по какой-либо причине выполнил вставку (в индекс записи только вставляются, они не меняются, а удаляются только вакуумом) не в самый правый блок. Fastpath применяется при числе уровней в индексе 2 и больше.

Помимо значений, заполняющихся последовательностью, нужно помнить и о пустых значениях.

По умолчанию пустые значения сохраняются "справа" (в правых блоках индекса). Это можно переопределить указав NULLS FIRST.

При переопределении порядка, разработчики приложений обычно исходят из того, что должно выдаваться преимущественно первым при сортировке. Эта идея неверна, так как серверный процесс скользит по блокам в обе стороны с одинаковой эффективностью.

Использование NULLS FIRST может повлиять на производительность: если при вставке строк в таблицу в индекс вставляется NULL (при вставке строки в таблицу значение индексированного столбца не задаётся, а обновляется позже и обновления распределены по времени, а не массовые), то оптимизация fastpath перестает работать, так как NULL будут в самом левом листовом блоке, а fastpath работает только с правым блоком. Вставки строк с NULL замедлятся при использовании NULLS FIRST. Деградация производительности такая же, как при использовании DESC в приведённом примере, поэтому пример для NULLS FIRST не приводится.

4) Отключите измерение времени:

postgres=# \timing

Timing is off.

Часть 7. Покрывающие индексы и Index Only Scan

Индекс t3_pkey был создан с опцией include (s) означающей, что в листовых блоках индекса сохраняются значения столбца s. Хранение значений столбцов увеличивает размер индекса.

Такие индексы используются, чтобы можно было использовать метод доступа Index Only Scan. Этот метод используется, если упоминаемые в запросе столбцы присутствуют в индексе. Можно сказать, что запрос "покрывается" индексом. Тогда индекс называют "покрывающим" для запроса. Трудоёмкость выполнения команды методом Index Only Scan существенно уменьшается, так как не нужно обращаться к блокам таблицы. Все нужные запросу значения берутся из индекса.

Столбцы, добавленные include (..) не влияют на структуру индекса.

Почему бы не добавить столбец в ключевые? Если тип данных столбца не поддерживает операцию сравнения, то такой тип данных нельзя добавить в ключевые столбцы. Также include (..) столбцы отсутствуют в промежуточных блоках, что немного уменьшает размер индекса.

1) Посмотрите план выполнения команд:

postgres=# explain select * from t3 where id=1;

QUERY PLAN

------------------------------------------------------------------------

Index Only Scan using t3_pkey on t3 (cost=0.42..8.44 rows=1 width=12)

Index Cond: (id = 1)

(2 rows)

postgres=# explain select * from t3 where id=4 and s>3;

QUERY PLAN

------------------------------------------------------------------------

Index Only Scan using t3_pkey on t3 (cost=0.42..8.45 rows=1 width=12)

Index Cond: (id = 4)

Filter: (s > 3)

(3 rows)

Используется метод Index Only Scan.

2) Посмотрите план выполнения команды:

postgres=# explain select s from t3 where id>4 and id < 10;

QUERY PLAN

---------------------------------------------------------------------------

Bitmap Heap Scan on t3 (cost=123.67..5717.65 rows=5000 width=4)

Recheck Cond: ((id > 4) AND (id < 10))

-> Bitmap Index Scan on t3_pkey (cost=0.00..122.42 rows=5000 width=0)

Index Cond: ((id > 4) AND (id < 10))

(4 rows)

Index Only Scan не используется. Планировщик сильно ошибается в числе строк: по его оценке запрос выдает 5000 строк.

3) Соберите статистику:

postgres=# analyze t3;

ANALYZE

4) Повторите команду:

postgres=# explain select s from t3 where id>4 and id < 10;

QUERY PLAN

-----------------------------------------------------------------------

Index Only Scan using t3_pkey on t3 (cost=0.42..8.53 rows=5 width=4)

Index Cond: ((id > 4) AND (id < 10))

(2 rows)

Стал использоваться Index Only Scan.

Оценка числа строк становится правильной rows=5.

5) В include могут присутствовать только столбцы, но не выражения:

postgres=# create unique index if not exists t3_pkey1 on t3 using btree (id) include (UPPER(s));

ERROR: expressions are not supported in included columns

Часть 8. Частичные (partial) индексы

Частичные (partial) индексы создаются по части строк таблицы. Часть строк определяется предикатом WHERE, который указывается при создании индекса и делает индекс частичным.

Частичные индексы полезны тем, что позволяют избежать индексирования наиболее часто встречающихся значений. Наиболее часто встречающееся значение - это значение, которое содержится в значительном проценте всех строк таблицы. При поиске наиболее часто встречающихся значений индекс всё равно не будет использоваться, так как более эффективным будет сканирование всех строк таблицы. Индексировать строки с наиболее часто встречающимися значениями нет смысла. Исключив такие строки из индекса, можно уменьшить размер индекса, что ускорит вакуумирование таблицы. Также ускоряется внесение изменений в строки таблицы, если индекс не затрагивается.

Вторая причина, по которой используется частичный индекс это когда отсутствуют обращения к части строк таблицы. Если обращения присутствуют, то используется не индексный доступ, а полное сканирование таблицы.

Частичный индекс может быть уникальным.

Создавать большое число частичных индексов, которые индексируют разные строки не стоит. Чем больше индексов на таблице, тем ниже производительность команд, изменяющих данные; автовакуума; вероятность использования быстрого пути блокировок уменьшается.

1) Посмотрите какой размер у индекса t3_pkey:

postgres=# select pg_relation_size('t3_pkey', 'main');

pg_relation_size

------------------

28475392

(1 row)

2) Удалите индекс и создайте частичный индекс по строкам в которых s<1000:

postgres=# drop index t3_pkey;

DROP INDEX

postgres=# create unique index t3_pkey on t3 using btree (id) include (s) WHERE s<1000;

CREATE INDEX

3) Посмотрите какой размер у индекса:

postgres=# select pg_relation_size('t3_pkey', 'main');

pg_relation_size

------------------

49152

(1 row)

Размер индекса существенно меньше, чем индекса по всем строкам.

4) Выполните запрос:

postgres=# explain select * from t3 where id=4 and s>3;

QUERY PLAN

----------------------------------------------------------------------

Gather (cost=1000.00..12656.10 rows=1 width=12)

Workers Planned: 2

-> Parallel Seq Scan on t3 (cost=0.00..11656.00 rows=1 width=12)

Filter: ((s > 3) AND (id = 4))

(4 rows)

Хотя запрос и выдаёт строки, на которые есть ссылки в индексе, но планировщик об этом не знает.

5) Выполните запрос с явно заданным условием s<3:

postgres=# explain select * from t3 where id=4 and s<3;

QUERY PLAN

------------------------------------------------------------------------

Index Only Scan using t3_pkey on t3 (cost=0.28..8.29 rows=1 width=12)

Index Cond: (id = 4)

Filter: (s < 3)

(3 rows)

Частичный индекс используется.

Часть 9. Изучение структуры индекса типа btree

В главе приводился пример структуры индекса.

1) Создайте таблицу, индекс, вставьте три строки:

postgres=# drop table if exists t;

create table t(s text storage plain) with (autovacuum_enabled=off, fillfactor=10);

create index t_idx on t (s) with (fillfactor=10, deduplicate_items = off);

insert into t values (repeat('a',2500));

insert into t values (repeat('b',2500));

insert into t values (repeat('c',2500));

Размер полей выбран так, чтобы в блок таблицы помещалась одна строка. В блок индекса индекса помещались 3-4 строки.

2) Адрес корневого блока индекса и число уровней можно посмотреть запросом:

postgres=# select root, level, fastroot, fastlevel, allequalimage from bt_metap('t_idx');

root | level | fastroot | fastlevel | allequalimage

------+-------+----------+-----------+---------------

1 | 0 | 1 | 0 | t

(1 row)

Статистику по всем блокам индекса можно посмотреть запросом:

postgres=# select blkno, type, live_items live, avg_item_size size, free_size free, btpo_prev prev, btpo_next next, btpo_level level, btpo_flags fl from bt_multi_page_stats('t_idx',1,-1);

-------+------+------+------+------+------+------+-------+----

1 | l | 3 | 2512 | 600 | 0 | 0 | 0 | 3

(1 row)

Содержимое блока индекса можно посмотреть запросом:

postgres=# select itemoffset o, ctid, itemlen, htid, left(data::text,18) data, chr(nullif(('0x0'||substring(data from 13 for 2))::integer,0)) c from bt_page_items('t_idx',1);

---+-------+---------+-------+--------------------+---

1 | (0,1) | 2512 | (0,1) | 20 27 00 00 61 61 | a

2 | (1,1) | 2512 | (1,1) | 20 27 00 00 62 62 | b

3 | (2,1) | 2512 | (2,1) | 20 27 00 00 63 63 | c

(3 rows)

На основе этих запросов можно нарисовать структуру индекса:

В индексе два блока: нулевой всегда содержит метаданные; блок номер 1 содержит три строки.

Для компактности значение отображено одной буквой, а не 2500 буквами. Буква a в шестнадцатеричном виде 61, буква b - 62, буква c - 63.

Дальше, вставляя по одной строке, будут выполнены запросы и на основе запросов нарисована структура индекса. Запросы в следующих пунктах не обязательно выполнять, достаточно просматривать результаты запросов и сопоставлять их с рисунком. Это полезно, чтобы понять как растёт индекс.

4) После вставки четвёртой строки можно выполнить следующие запросы и на основе их результатов нарисовать структуру индекса:

postgres=# insert into t values (repeat('d',2500));

select ctid, left(s, 24) from t;

select blkno, type, live_items live, avg_item_size size, free_size free, btpo_prev prev, btpo_next next, btpo_level level, btpo_flags fl from bt_multi_page_stats('t_idx',1,-1);

select itemoffset o, ctid, itemlen, htid, left(data::text,18) data, chr(nullif(('0x0'||substring(data from 13 for 2))::integer,0)) c from bt_page_items('t_idx',1);

select itemoffset o, ctid, itemlen, htid, left(data::text,18) data, chr(nullif(('0x0'||substring(data from 13 for 2))::integer,0)) c from bt_page_items('t_idx',2);

select itemoffset o, ctid, itemlen, htid, left(data::text,18) data, chr(nullif(('0x0'||substring(data from 13 for 2))::integer,0)) c from bt_page_items('t_idx',3);

INSERT 0 1

ctid | left

-------+--------------------------

(0,1) | aaaaaaaaaaaaaaaaaaaaaaaa

(1,1) | bbbbbbbbbbbbbbbbbbbbbbbb

(2,1) | cccccccccccccccccccccccc

(3,1) | dddddddddddddddddddddddd

(4 rows)

-------+------+------+------+------+------+------+-------+----

1 | l | 2 | 2512 | 3116 | 0 | 2 | 0 | 1

2 | l | 3 | 2512 | 600 | 1 | 0 | 0 | 1

3 | r | 2 | 1260 | 5620 | 0 | 0 | 1 | 2

(3 rows)

---+-------+---------+-------+--------------------+---

1 | (1,1) | 2512 | | 20 27 00 00 62 62 | b

2 | (0,1) | 2512 | (0,1) | 20 27 00 00 61 61 | a

(2 rows)

---+-------+---------+-------+--------------------+---

1 | (1,1) | 2512 | (1,1) | 20 27 00 00 62 62 | b

2 | (2,1) | 2512 | (2,1) | 20 27 00 00 63 63 | c

3 | (3,1) | 2512 | (3,1) | 20 27 00 00 64 64 | d

(3 rows)

---+-------+---------+------+--------------------+---

1 | (1,0) | 8 | | |

2 | (2,1) | 2512 | | 20 27 00 00 62 62 | b

(2 rows)

Корневым стал 3 блок. При дальнейших вставках корневой блок будет также меняться.

5) После вставки четвёртой строки можно повторить запросы, добавив к ним запрос по 4 блоку. Блоки в индекс добавляются один за другим и в индекс будет добавлен 4 блок.

postgres=# insert into t values (repeat('e',2500));

select ctid, left(s, 24) from t;

select blkno, type, live_items live, avg_item_size size, free_size free, btpo_prev prev, btpo_next next, btpo_level level, btpo_flags fl from bt_multi_page_stats('t_idx',1,-1);

select itemoffset o, ctid, itemlen, htid, left(data::text,18) data, chr(nullif(('0x0'||substring(data from 13 for 2))::integer,0)) c from bt_page_items('t_idx',1);

select itemoffset o, ctid, itemlen, htid, left(data::text,18) data, chr(nullif(('0x0'||substring(data from 13 for 2))::integer,0)) c from bt_page_items('t_idx',2);

select itemoffset o, ctid, itemlen, htid, left(data::text,18) data, chr(nullif(('0x0'||substring(data from 13 for 2))::integer,0)) c from bt_page_items('t_idx',3);

select itemoffset o, ctid, itemlen, htid, left(data::text,18) data, chr(nullif(('0x0'||substring(data from 13 for 2))::integer,0)) c from bt_page_items('t_idx',4);

INSERT 0 1

ctid | left

-------+--------------------------

(0,1) | aaaaaaaaaaaaaaaaaaaaaaaa

(1,1) | bbbbbbbbbbbbbbbbbbbbbbbb

(2,1) | cccccccccccccccccccccccc

(3,1) | dddddddddddddddddddddddd

(4,1) | eeeeeeeeeeeeeeeeeeeeeeee

(5 rows)

-------+------+------+------+------+------+------+-------+----

1 | l | 2 | 2512 | 3116 | 0 | 2 | 0 | 1

2 | l | 2 | 2512 | 3116 | 1 | 4 | 0 | 1

3 | r | 3 | 1677 | 3104 | 0 | 0 | 1 | 2

4 | l | 3 | 2512 | 600 | 2 | 0 | 0 | 1

(4 rows)

---+-------+---------+-------+--------------------+---

1 | (1,1) | 2512 | | 20 27 00 00 62 62 | b

2 | (0,1) | 2512 | (0,1) | 20 27 00 00 61 61 | a

(2 rows)

---+-------+---------+-------+--------------------+---

1 | (2,1) | 2512 | | 20 27 00 00 63 63 | c

2 | (1,1) | 2512 | (1,1) | 20 27 00 00 62 62 | b

(2 rows)

---+-------+---------+------+--------------------+---

1 | (1,0) | 8 | | |

2 | (2,1) | 2512 | | 20 27 00 00 62 62 | b

3 | (4,1) | 2512 | | 20 27 00 00 63 63 | c

(3 rows)

---+-------+---------+-------+--------------------+---

1 | (2,1) | 2512 | (2,1) | 20 27 00 00 63 63 | c

2 | (3,1) | 2512 | (3,1) | 20 27 00 00 64 64 | d

3 | (4,1) | 2512 | (4,1) | 20 27 00 00 65 65 | e

(3 rows)

6) Повтор для 6 строки:

postgres=# insert into t values (repeat('f',2500));

select ctid, left(s, 24) from t;

select blkno, type, live_items live, avg_item_size size, free_size free, btpo_prev prev, btpo_next next, btpo_level level, btpo_flags fl from bt_multi_page_stats('t_idx',1,-1);

select itemoffset o, ctid, itemlen, htid, left(data::text,18) data, chr(nullif(('0x0'||substring(data from 13 for 2))::integer,0)) c from bt_page_items('t_idx',1);

select itemoffset o, ctid, itemlen, htid, left(data::text,18) data, chr(nullif(('0x0'||substring(data from 13 for 2))::integer,0)) c from bt_page_items('t_idx',2);

select itemoffset o, ctid, itemlen, htid, left(data::text,18) data, chr(nullif(('0x0'||substring(data from 13 for 2))::integer,0)) c from bt_page_items('t_idx',3);

select itemoffset o, ctid, itemlen, htid, left(data::text,18) data, chr(nullif(('0x0'||substring(data from 13 for 2))::integer,0)) c from bt_page_items('t_idx',4);

select itemoffset o, ctid, itemlen, htid, left(data::text,18) data, chr(nullif(('0x0'||substring(data from 13 for 2))::integer,0)) c from bt_page_items('t_idx',5);

INSERT 0 1

ctid | left

-------+--------------------------

(0,1) | aaaaaaaaaaaaaaaaaaaaaaaa

(1,1) | bbbbbbbbbbbbbbbbbbbbbbbb

(2,1) | cccccccccccccccccccccccc

(3,1) | dddddddddddddddddddddddd

(4,1) | eeeeeeeeeeeeeeeeeeeeeeee

(5,1) | ffffffffffffffffffffffff

(6 rows)

-------+------+------+------+------+------+------+-------+----

1 | l | 2 | 2512 | 3116 | 0 | 2 | 0 | 1

2 | l | 2 | 2512 | 3116 | 1 | 4 | 0 | 1

3 | r | 4 | 1886 | 588 | 0 | 0 | 1 | 2

4 | l | 2 | 2512 | 3116 | 2 | 5 | 0 | 1

5 | l | 3 | 2512 | 600 | 4 | 0 | 0 | 1

(5 rows)

---+-------+---------+-------+--------------------+---

1 | (1,1) | 2512 | | 20 27 00 00 62 62 | b

2 | (0,1) | 2512 | (0,1) | 20 27 00 00 61 61 | a

(2 rows)

---+-------+---------+-------+--------------------+---

1 | (2,1) | 2512 | | 20 27 00 00 63 63 | c

2 | (1,1) | 2512 | (1,1) | 20 27 00 00 62 62 | b

(2 rows)

---+-------+---------+------+--------------------+---

1 | (1,0) | 8 | | |

2 | (2,1) | 2512 | | 20 27 00 00 62 62 | b

3 | (4,1) | 2512 | | 20 27 00 00 63 63 | c

4 | (5,1) | 2512 | | 20 27 00 00 64 64 | d

(4 rows)

---+-------+---------+-------+--------------------+---

1 | (3,1) | 2512 | | 20 27 00 00 64 64 | d

2 | (2,1) | 2512 | (2,1) | 20 27 00 00 63 63 | c

(2 rows)

---+-------+---------+-------+--------------------+---

1 | (3,1) | 2512 | (3,1) | 20 27 00 00 64 64 | d

2 | (4,1) | 2512 | (4,1) | 20 27 00 00 65 65 | e

3 | (5,1) | 2512 | (5,1) | 20 27 00 00 66 66 | f

(3 rows)

7) Повтор для 7 строки. В индекс будет добавлено сразу три блока, так как увеличится число уровней индекса и на двух уровнях блоки разделятся:

postgres=# insert into t values (repeat('g',2500));

select blkno, type, live_items live, avg_item_size size, free_size free, btpo_prev prev, btpo_next next, btpo_level level, btpo_flags fl from bt_multi_page_stats('t_idx',1,-1);

select itemoffset o, ctid, itemlen, htid, left(data::text,18) data, chr(nullif(('0x0'||substring(data from 13 for 2))::integer,0)) c from bt_page_items('t_idx',1);

select itemoffset o, ctid, itemlen, htid, left(data::text,18) data, chr(nullif(('0x0'||substring(data from 13 for 2))::integer,0)) c from bt_page_items('t_idx',2);

select itemoffset o, ctid, itemlen, htid, left(data::text,18) data, chr(nullif(('0x0'||substring(data from 13 for 2))::integer,0)) c from bt_page_items('t_idx',3);

select itemoffset o, ctid, itemlen, htid, left(data::text,18) data, chr(nullif(('0x0'||substring(data from 13 for 2))::integer,0)) c from bt_page_items('t_idx',4);

select itemoffset o, ctid, itemlen, htid, left(data::text,18) data, chr(nullif(('0x0'||substring(data from 13 for 2))::integer,0)) c from bt_page_items('t_idx',5);

select itemoffset o, ctid, itemlen, htid, left(data::text,18) data, chr(nullif(('0x0'||substring(data from 13 for 2))::integer,0)) c from bt_page_items('t_idx',6);

select itemoffset o, ctid, itemlen, htid, left(data::text,18) data, chr(nullif(('0x0'||substring(data from 13 for 2))::integer,0)) c from bt_page_items('t_idx',7);

select itemoffset o, ctid, itemlen, htid, left(data::text,18) data, chr(nullif(('0x0'||substring(data from 13 for 2))::integer,0)) c from bt_page_items('t_idx',8);

INSERT 0 1

-------+------+------+------+------+------+------+-------+----

1 | l | 2 | 2512 | 3116 | 0 | 2 | 0 | 1

2 | l | 2 | 2512 | 3116 | 1 | 4 | 0 | 1

3 | i | 3 | 1677 | 3104 | 0 | 7 | 1 | 0

4 | l | 2 | 2512 | 3116 | 2 | 5 | 0 | 1

5 | l | 2 | 2512 | 3116 | 4 | 6 | 0 | 1

6 | l | 3 | 2512 | 600 | 5 | 0 | 0 | 1

7 | i | 3 | 1677 | 3104 | 3 | 0 | 1 | 0

8 | r | 2 | 1260 | 5620 | 0 | 0 | 2 | 2

(8 rows)

---+-------+---------+-------+--------------------+---

1 | (1,1) | 2512 | | 20 27 00 00 62 62 | b

2 | (0,1) | 2512 | (0,1) | 20 27 00 00 61 61 | a

(2 rows)

---+-------+---------+-------+--------------------+---

1 | (2,1) | 2512 | | 20 27 00 00 63 63 | c

2 | (1,1) | 2512 | (1,1) | 20 27 00 00 62 62 | b

(2 rows)

---+-------+---------+------+--------------------+---

1 | (4,1) | 2512 | | 20 27 00 00 63 63 | c

2 | (1,0) | 8 | | |

3 | (2,1) | 2512 | | 20 27 00 00 62 62 | b

(3 rows)

---+-------+---------+-------+--------------------+---

1 | (3,1) | 2512 | | 20 27 00 00 64 64 | d

2 | (2,1) | 2512 | (2,1) | 20 27 00 00 63 63 | c

(2 rows)

---+-------+---------+-------+--------------------+---

1 | (4,1) | 2512 | | 20 27 00 00 65 65 | e

2 | (3,1) | 2512 | (3,1) | 20 27 00 00 64 64 | d

(2 rows)

---+-------+---------+-------+--------------------+---

1 | (4,1) | 2512 | (4,1) | 20 27 00 00 65 65 | e

2 | (5,1) | 2512 | (5,1) | 20 27 00 00 66 66 | f

3 | (6,1) | 2512 | (6,1) | 20 27 00 00 67 67 | g

(3 rows)

---+-------+---------+------+--------------------+---

1 | (4,0) | 8 | | |

2 | (5,1) | 2512 | | 20 27 00 00 64 64 | d

3 | (6,1) | 2512 | | 20 27 00 00 65 65 | e

(3 rows)

---+-------+---------+------+--------------------+---

1 | (3,0) | 8 | | |

2 | (7,1) | 2512 | | 20 27 00 00 63 63 | c

(2 rows)

Корневым стал 8 блок вместо 3.

Добавление нового уровня привело к особенности в 3 блоке. Вторую запись в 3 блоке "логичнее" было бы сделать первой. Однако, она идёт второй и это не является ошибкой. Также на 4 блок есть два указателя из двух блоков вышестоящего уровня. Это также не является ошибкой (поиск значений по индексу не нарушается).

8) Повтор для 8 строки:

postgres=# insert into t values (repeat('h',2500));