장애의 유형
장애란 시스템이 제대로 작동하지 않는 상태를 말한다. 데이터베이스 시스템에서 발생할 수 있는 장애는 다음과 같이 분류된다.
- 트랜잭션 장애: 트랜잭션 수행 중 오류가 발생하여 정상적으로 수행을 할 수 없는 상태이다.
- 시스템 장애: 하드웨어의 결함으로 정상적으로 수행을 할 수 없는 상태이다.
- 미디어 장애: 디스크 장치의 결함으로 디스크에 저장된 데이터베이스의 일부 혹은 전체가 손상된 상태를 말한다.
회복 기법
회복은 데이터베이스에 장애가 발생했을 때, 장애가 발생하기 전의 모순이 없고 일관된 상태로 복구시키는 것을 말한다. 장애가 발생하면 복구하는 기간 동안에는 데이터베이스에 접근하여 업무를 진행할 수 없기에 회복 과정은 빠른 시간 내에 이루어져야 한다.
회복 과정을 수행할 때, 덤프 또는 로그 방법을 사용하여 데이터를 복사해놓았다가 회복시킬 때 복사본을 사용한다. 덤프 방법과 로그 방법은 다음과 같다.
- 덤프(Dump): 데이터베이스 전체를 다른 저장 장치에 주기적으로 복사하는 방법
- 로그(Log): 데이터베이스에서 변경 연산이 실행될 때마다 데이터를 변경하기 이전 값과 변경한 이후의 값을 별도의 파일에 기록하는 방법
덤프 방법 또는 로그 방법으로 중복 저장한 데이터를 이용하여 데이터를 복구할 때는 Redo 연산이나 Undo 연산을 사용한다.
- Redo(재실행): 로그에 기록된 “변경 연산 후의 값”을 이용하여 변경 연산을 재실행하는 방법으로, 데이터베이스가 전반적으로 손상된 경우에 주로 사용한다.
- Undo(취소): 로그에 기록된 “변경 연산 이전의 값”을 이용하여 변경 연산을 취소하는 방법으로, 데이터베이스가 변경 중이었거나 이미 변경된 내용만 신뢰성을 잃은 경우에 주로 사용한다.
장애가 발생하는 시점과 유형이 다양한데, 이러한 장애들을 빠르게 해결하기 위하여 효율적인 회복 기법들을 사용한다. 데이터베이스 회복 기법으로는 “로그 회복 기법”, “검사 시점 회복 기법”, “미디어 회복 기법”이 있다.
로그 회복 기법
로그를 이용한 회복 기법은 데이터를 변경한 연산 결과를 데이터베이스에 반영하는 시점에 따라 “즉시 갱신 회복 기법”과 “지연 갱신 회복 기법”으로 분류된다.
즉시 갱신 회복 기법
즉시 갱신 회복 기법은 트랜잭션 수행 중에 데이터를 변경한 연산의 결과를 데이터베이스에 “즉시” 반영한다. 장애 발생을 대비하기 위해 데이터 변경에 대한 내용을 로그 파일에 기록한다. 데이터베이스 회복 시 로그를 제대로 사용하려면, 트랜잭션에서 데이터 변경 연산이 실행되었을 때 로그 파일에 로그 레코드를 먼저 기록한 후 데이터베이스에 변경 연산을 반영해야 한다.
즉시 갱신 회복 기법은 장애가 발생하면 로그 파일에 기록된 내용을 참조하여 장애 발생 시점에 따라 Redo 또는 Undo 연산을 실행하여 데이터베이스를 복구한다. 이때 Redo 또는 Undo 연산을 실행하는 기준은 다음과 같다.
- Redo 연산 실행: 트랜잭션이 완료된 후에 장애가 발생하면 Redo 연산을 수행한다.
- Undo 연산 실행: 트랜잭션이 완료되기 전에 장애가 발생하면 Undo 연산을 수행한다.
지연 갱신 회복 기법
지연 갱신 회복 기법은 트랜잭션이 수행되는 동안에는 데이터 변경 연산의 결과를 데이터베이스에 즉시 반영하지 않고 로그 파일에만 기록했다가, 트랜잭션이 부분 완료된 후에 로그에 기록된 내용을 이용하여 데이터베이스에 한 번에 반영한다. 트랜잭션이 수행되는 동안 장애가 발생하면 로그 기록을 제거하면 되기에 Undo 연산이 필요없고 Redo 연산만 필요하다. 따라서 로그 레코드에 변경 이전 값을 기록할 필요가 없다.
검사 시점 회복 기법
로그를 이용한 회복 기법은 로그 전체를 분석하여 Redo 연산 또는 Undo 연산을 결정해야 하기에 비효율적인 부분이 발생한다. 검사 회복 기법은 로그 기록을 이용하되, 일정 시간 간격으로 검사 시점(Checkpoint)을 만든다.
장애가 발생한 경우, 가장 최근 검사 시점 이후의 트랜잭션에만 회복 작업을 수행한다. 검사 시점 회복 기법을 이용하면 회복 작업의 범위가 검사 시점 이후로 정해지기에 불필요한 회복 작업을 수행하지 않기에 데이터베이스 회복 시간이 단축된다. 회복 작업의 범위가 정해지면 즉시 갱신 회복 기법 또는 지연 갱신 회복 기법을 이용하여 회복 작업을 수행한다.
미디어 회복 기법
미디어 회복 기법은 디스크에 발생할 수 있는 장애에 대해서 적용할 수 있는 회복 기법이다. 미디어 회복 기법은 전체 데이터베이스의 내용을 일정 주기마다 다른 안전한 저장 장치에 복사해두는 덤프를 사용한다. 이를 통해 디스크 장애가 발생하면 덤프를 이용하여 장애 발생 이전의 일관된 데이터베이스 상태로 복구한다. 필요에 따라 로그의 내용을 토대로 Redo 연산을 수행한다. 다만, 전체 데이터베이스를 다른 저장 장치에 복사하는 것은 비용도 많이 들고 복사하는 동안 트랜잭션 수행도 중단되어야 하기에 CPU가 낭비된다.
병행 제어의 정의
데이터베이스 관리 시스템은 여러 사용자가 데이터베이스를 동시에 공유할 수 있도록 여러 개의 트랜잭션이 동시에 수행되는 병행 수행을 지원한다. 이때, 병행 수행은 여러 트랜잭션이 차례로 번걸아 수행되는 인터리빙(Interleaving) 방식으로 진행된다. 그런데 병행 수행을 할 때 각 트랜잭션이 다른 트랜잭션의 방해를 받지 않고 제대로 수행되도록 제어가 필요하다. 이를 병행 제어 또는 동시성 제어라고 한다.
병행 수행의 문제점
병행 수행을 제어 없이 진행하면 여러 문제가 발생할 수 있다. 대표적인 문제로는 갱신 분실, 모순성, 연쇄 복귀가 있다.
갱신 분실 (Lost Update)
갱신 분실이란 하나의 트랜잭션이 수행한 데이터 변경 연산의 결과를 다른 트랜잭션이 덮어서 변경 연산이 무효화되는 것이다.
두 개 이상의 트랜잭션을 동시에 수행하더라도 갱신 분실 문제가 발생하지 않고 순차적으로 수행한 것과 같은 결과 값을 얻을 수 있어야 정확한 병행 수행이라 할 수 있다.
모순성 (Inconsistency)
모순성이란 하나의 트랜잭션이 여러 개의 데이터 변경 연산을 실행할 때, 일관성 없는 상태의 데이터베이스에서 데이터를 가져와서 연산을 실행하여 모순된 결과가 발생하는 것이다.
두 개 이상의 트랜잭션을 동시에 수행하더라도 모순성의 문제가 발생하지 않고 순차적으로 수행한 것과 같은 결과 값을 얻을 수 있어야 정확한 병행 수행이라 할 수 있다.
연쇄 복귀 (Cascading Rollback)
연쇄 복귀란 트랜잭션이 완료되기 전에 장애가 발생하여 rollback 연산을 수행하면, 이 트랜잭션이 장애 발생 전에 변경한 데이터를 가져가 변경 연산을 실행한 또 다른 트랜잭션에도 rollback 연산을 연쇄적으로 실행해야 한다는 것이다.
만약 장애가 발생한 트랜잭션이 rollback 연산을 실행하기 전에 변경한 데이터를 가져가 사용하는 다른 트랜잭션이 수행을 완료해버리면 rollback 연산을 실행할 수 없어 큰 문제가 발생하게 된다. 두 개 이상의 트랜잭션을 동시에 수행하더라도 연쇄 복귀의 문제가 발생하지 않고 순차적으로 수행한 것과 같은 결과 값을 얻을 수 있어야 정확한 병행 수행이라 할 수 있다.
트랜잭션 스케줄
병행 수행에서는 인터리빙 방식으로 진행되기에 트랜잭션의 연산을 실행하는 순서에 따라 트랜젹션들의 수행 결과가 달라지기도 하고, 문제가 생기기도 한다. 따라서 여러 트랜잭션을 병행 수행할 때는 트랜잭션들의 연산을 실행하는 순서가 중요하다.
트랜잭션 스케줄은 트랜잭션에 포함되어 있는 연산들을 수행하는 순서이다. 트랜잭션에는 많은 연산들이 포함되어 있기에 트랜잭션 스케줄도 여러 가지가 있을 수 있다. 트랜잭션 스케줄은 “직렬 스케줄”, “비직렬 스케줄”, “직렬 가능 스케줄” 이렇게 세 가지 유형으로 구분할 수 있다
직렬 스케줄 (Serial Schedule)
직렬 스케줄은 인터리빙 방식을 이용하지 않고 트랜잭션 별로 연산들을 순차적으로 실행시키는 것이다. 직렬 스케줄에 따라 트랜잭션이 수행되면, 다른 트랜잭션의 방해를 받지 않고 독립적으로 수행되기에 항상 모순이 없는 정확한 결과를 얻을 수 있다.
같은 트랜잭션들을 대상으로 해도 트랜잭션의 수행 순서에 따라 다양한 직렬 스케줄이 만들 수 있고, 직렬 스케줄마다 최종 결과가 달라질 수 있다. 그러나, 직렬 스케줄의 결과는 정확하기에 어떤 직렬 스케줄을 사용하는가는 중요하지 않다.
직렬 스케줄에 따라 트랜잭션을 수행하면 정확한 결과를 얻을 수 있으나, 인터리빙 방식이 아니며 각 트랜잭션을 독립적으로 수행하기에 병행 수행이라고 할 수 없다. 따라서 직렬 스케줄은 일반적으로 잘 사용하지 않는다.
비직렬 스케줄 (Nonserial Schedule)
비직렬 스케줄은 인터리빙 방식을 사용하여 트랜잭션을 병행하여 수행시키는 것이다. 비직렬 스케줄에 따라 여러 트랜잭션을 병행 수행하면 갱신 분실, 모순성, 연쇄 복귀 등의 문제가 발생할 수 있어 최종 결과의 정확성을 보장할 수 없다.
트랜잭션의 연산들을 실행하는 순서에 따라 다양한 비직렬 스케줄이 만들어질 수 있다. 이 중에는 모순이 없는 정확한 결과를 생성하는 비직렬 스케줄도 있으나, 잘못된 결과를 수행하는 비직렬 스케줄도 있다. 따라서 어떤 비직렬 스케줄을 선택하여 트랜잭션들을 수행하느냐가 중요하다.
직렬 가능 스케줄 (Serializable Schedule)
직렬 가능 스케줄은 직렬 스케줄에 따라 수행한 것과 같이 정확한 결과를 생성하는 비직렬 스케줄이다. 모든 비직렬 스케줄이 직렬 가능한 것은 아니다. 비직렬 스케줄 중에서 정확한 결과가 생성되는 것은 직렬 가능 스케줄이고 정확하지 않은 결과가 생성되는 것은 직렬 가능 스케줄이 아니다.
직렬 가능 스케줄을 이용하여 트랜잭션을 병행 수행해야 하지만, 직렬 가능 스케줄인지 여부를 판단하는 것은 쉽지 않다. 다수의 트랜잭션을 대상으로 비직렬 스케줄을 찾아내는 것도 쉽지 않으며 게다가 트랜잭션 스케줄을 하나씩 수행해보며 직렬 스케줄과 같은 결과가 나오는지 비교하는 것도 어렵기 때문이다. 따라서 대부분 데이터베이스 관리 시스템에서는 직렬 가능 스케줄인지를 검사하는 것보다는 직렬 가능성을 보장하는 병행 제어 기법을 사용한다.
병행 제어 기법
병행 제어 기법은 여러 트랜잭션을 병행 수행하면서도 정확한 결과를 얻을 수 있는 직렬 자능성을 보장받기 위해 사용한다. 병행 제어 기법은 모든 트랜잭션이 지키는 경우 직렬 가능성이 보장되는 규약을 정의하고, 트랜잭션들이 이 규약을 따르도록 하는 것이다.
따라서 트랜잭션 스케줄이 직렬 가능 스케줄인지 미리 검사할 필요가 없다. 모든 트랜잭션이 병행 제어 기법에서 정의한 규약을 따르면 해당 스케줄은 직렬 가능성을 보장할 수 있다.
로킹 기법
로킹 기법은 병행 수행되는 트랜잭션들이 동일한 데이터에 동시에 접근하지 못하도록 lock 과 unlock 이라는 2개의 연산을 이용해 제어한다. 두 가지 연산을 통해 다른 트랜잭션의 방해를 받지 않고 데이터에 독점적으로 접근할 수 있다. 로킹 기법의 원리는 한 트랜잭션이 먼저 접근한 데이터에 대한 연산을 모두 마칠 때까지 해당 데이터에 다른 트랜잭션이 접근하지 못하도록 “상호 배제”하여 직렬 가능성을 보장하는 것이다.
- lock 연산: 트랜잭션이 사용할 데이터에 대한 독점권을 가지기 위해 사용한다.
- unlock 연산: 트랜잭션이 데이터에 대한 독점권을 반납하기 위해 사용한다.
lock 연산은 전체 데이터베이스에서 데이터베이스를 구성하는 속성에 이르기까지 다양한 크기의 데이터를 대상으로 실행 가능하다. 가장 큰 단위인 전체 데이터베이스에 lock 연산을 실행하면 제어가 간단해지지만 데이터베이스에 하나의 트랜잭션만 수행되는 것과 같기에 병행 수행이라 하기 어렵다. 반면, 가장 작은 단위인 속성에 lock 연산을 하면 독점하는 범위가 좁아 많은 수의 트랜잭션을 병행 수행할 수 있지만 제어가 복잡해진다.
즉, 로킹 단위가 커질수록 병행성은 낮아지지만 제어가 쉽고, 로킹 단위가 작아질수록 제어가 어렵지만 병행성은 높아진다. 따라서 시스템에 따라 적절한 로킹 단위를 선택하는 것이 중요하다.
그러나 기본 로킹 기법은 병행 수행을 제어할 수 있지만 너무 엄격한 제약으로 인해 어떤 순간이든 데이터에 대한 독점권은 하나의 트랜잭션만 가진다. 트랜잭션이 데이터를 변경시키는 write 연산의 경우는 독점권을 가져야 하지만, 단순히 데이터를 읽는 read 연산의 경우 트랜잭션이 같은 데이터에 대해 동시에 수행해도 문제가 생기지 않는다. 이와 같은 트랜잭션의 처리 효율성을 높이기 위하여 lock 연산을 두 종류로 구분할 수 있다.
- 공용 lock(Shared Lock): 트랜잭션이 데이터에 대해 공용 lock 연산을 실행하면 해당 데이터에 read 연산을 사용할 수 있지만, write 연산은 사용할 수 없다. 해당 데이터에 다른 트랜잭션도 공용 lock 연산을 동시에 실행할 수 있다.
- 전용 lock(Exclusive Look): 트랜잭션이 데이터에 전용 lock 연산을 실행하면 해당 데이터에 read 연산과 write 연산을 모두 실행할 수 있다. 해당 데이터에 다른 트랜잭션은 공용이든 전용이든 어떤 lock 연산도 수행할 수 없다.
이렇게 로킹 기법 규약을 지켜도 잘못된 결과를 얻을 수 있다. 그 이유는 lock과 unlock 연산이 실행되는 시점으로 인함이다. 이 문제를 해결하기 위해서는 lock과 unlock 연산을 실행하는 시점에 대한 새로운 규약이 추가로 필요하다.
2단계 로킹 규약
2단계 로킹 규약이란 기본 로킹 규약의 문제를 해결하고 트랜잭션의 직렬 가능성을 보장하기 위해 lock 과 unlock 연산의 수행 시점에 대한 새로운 규약을 추가한 것이다.
트랜잭션 스케줄의 모든 트랜잭션이 2단계 로킹 규약을 준수하면 해당 스케줄은 직렬 가능성이 보장된다. 2단계 로킹 규약을 따르려면 모든 트랜잭션이 lock 연산과 unlock 연산을 다음과 같이 2단계로 나누어 실행해야 한다.
- 확장 단계: 트랜잭션이 lock 연산만 실행할 수 있고, unlock 연산은 실행할 수 없는 단계
- 축소 단계: 트랜잭션이 unlock 연산만 실행할 수 있고, lock 연산은 실행할 수 없는 단계
트랜잭션이 처음에 수행되면 확장 단계로 들어가 lock 연산만 실행할 수 있다. 그리고 unlock 연산을 실행하면 축소 단계로 들어가 그때부터는 unlock 연산만 실행할 수 있다. 2단계 로킹 규약을 준수하는 트랜잭션은첫 번째 unlock 연산을 실행하기 전에 필요한 모든 lock 연산을 실행해야 한다.
2단계 로킹 규약을 적용하면 트랜잭션 스케줄의 직렬 가능성을 보장할 수 있지만, 교착 상태(Dead Lock)가 발생할 수 있어 이에 대한 해결책이 필요하다. 교착 상태란 트랜잭션들이 상대가 독점하고 있는 데이터에 unlock 연산이 실행되기를 서로 기다리며 수행을 중단하는 상태이다. 교착 상태는 처음부터 발생하지 않도록 예방하거나, 발생한 경우 최대한 빠르게 탐지하여 필요한 조치를 취해야 한다.