정보처리기사 3과목 데이터베이스 구축 - 1장 논리 데이터베이스 설계 요점 정리
1. 데이터베이스 설계(설계 순서, 각 단계별 특징 및 작업)
● 고려 사항 : 무결성(제약 조건 항상 만족), 일관성, 회복, 보안, 효율성, DB 확장
● 설계 순서
① 요구 조건 분석 : 필요 용도 파악, 수집, 요구 조건 명세 작성
② 개념적 설계(정보 모델링, 개념화) : 다른 사람과 통신 위해 현 세계 인식을 추상적 개념으로 표현 과정
- 개념 스키마 모델링, 트랜잭션 모델링 병행 수행, 요구 조건 명세를 DBMS에 독립적인 E-R 다이어그램으로 작성
- DBMS에 독립적인 개념 스키마 설계
③ 논리적 설계(데이터 모델링) : DBMS가 지원하는 논리적 자료 구조로 변환하는 과정
- 데이터 타입과 논리적 구조의 데이터로 모델화
- 개념 스키마를 평가 및 정제, 논리적 스키마(종속적) 설계, 트랜잭션의 인터페이스 설계, RDB라면 테이블 설계 단계
④ 물리적 설계(데이터 구조화) : 물리적 저장 장치에 저장할 수 있는 물리적 구조의 데이터로 변환하는 과정
- DB의 저장 구조 및 액세스 경로를 결정, 데이터 저장되는 방법 묘사
⑤ 데이터베이스 구현 : 이전 단계에서 도출된 DB 스키마를 파일로 생성하는 과정
- 특정 DBMS의 DDL을 이용하여 DB 스키마를 기술한 후 컴파일하여 빈 DB 파일 생성
- 생성된 빈 DB 파일에 데이터 입력
- 응용 프로그램을 위한 트랜잭션 작성, DB 접근을 위해 응용 프로그램 작성
2. 데이터 모델의 개념(개념, 정의, 개념적 및 논리적 데이터 모델 구분)
- 정의 : 단순화, 추상화하여 체계적으로 표현한 개념적 모형
- 개념적 도구들의 모임, DB 설계 과정에서 데이터의 구조를 논리적으로 표현하기 위해 사용되는 지능적 도구
- 구성 요소
개체(Entity) : 현실 세계의 대상체
속성(Attribute) : 가장 작은 논리적 단위(데이터 항목 or 데이터 필드)
관계(Relation ship) : 개체 간의 관계 or 속성 간의 논리적인 연결
● 개념적 데이터 모델 : 현실 세계에 대한 인식을 추상적 개념으로 표현하는 과정
- 속성들로 기술된 개체 타입과 이 개체 타입들 간의 관계를 이용하여 현실 세계 표현
- 정보 모델이라고 함, 대표적 모델 : E-R 모델
● 논리적 데이터 모델 : 개념적 모델링 과정에서 얻은 개념적 구조를 컴퓨터가 이해 및 처리 가능 환경에 맞도록 변환 과정
- 필드로 기술된 데이터 타입과 데이터 타입들 간 관계를 이용하여 현실 세계 표현
- 데이터 모델이라고 하면 논리적 데이터 모델 의미
- 특정 DBMS는 특정 논리적 데이터 모델 하나만 선정하여 사용
- 데이터 간의 관계 어떻게 표현하느냐에 따라 관계, 계층, 넽웤 모델로 구문
● 데이터 모델에 표시할 요소
┌ 구조(Structure) : 논리적으로 표현된 개체 타입들 간의 관계로서 데이터 구조 및 정적 성질을 표현 => 관계 기술
├ 연산(Operation) : DB 조작하는 기본 도구
└ 제약 조건(Constraint) : DB에 저장될 수 있는 실제 데이터의 논리적인 제약 조건
3. 데이터 모델의 구성 요소 - 개체
: 사람이 생각하는 개념이나 정보 단위 같은 현실 세계의 대상체
- 실 세계 독립적으로 존재하는 유형, 무형의 정보, 서로 연관된 몇 개의 속성으로 구성
- 파일 시스템 레코드에 대응, 어떤 정보 제공 역할, 영속적으로 존재하는 개체의 집합
- 독립적 존재, 그 자체로 구별 가능, 유일 식별자에 의해 식별 가능
- 업무 프로세스에 의해 이용됨, 다른 개체와 하나 이상의 관계
● 개체 선정 방법
- 업무 기술서 이용, 담당자와 인터뷰, 직접 견학, 장부와 전표 이용, 산출물 검토(이미 구축 시스템 존재 시)
- 자료 흐름도(DFD) 통해 업무 분석 시 자료 저장소 이용, 업무 프로세스(BPR)에 의해 업무 재정의 시 관련 개체 찾음
● 개체명 지정 방법
- 일반적으로 해당 업무 사용 용어로 지정, 약어 사용 자제, 단수 명사 사용 지향, 모든 개체명 유일, 의미에 따라 이름 부여
4. 속성
- 가장 작은 논리적 단위, 데이터 항목 또는 필드, 개체 구성 항목, 개체 특성 기술, 속성수 = 디그리, 차수
● 종류
- 속성 특성에 따른 분류
┌ 기본 속성 : 업무 분석 통해 정의한 것, 가장 많음, 업무상 코드로 정의 속성은 기본 속성 제외
├ 설계 속성 : 설계 과정서 도출해낸 속성, 데이터 모델링 위해 업무 규칙화하려고 속성을 새로 만들거나 변형하여 정의
└ 파생 속성 : 다른 속성으로부터 계산 변형 등의 영향받아 발생 속성, 적은 수 정의하면 좋음
- 개체 구성 방식에 따른 분류
┌ 기본키 속성 : 개체 식별
├ 외래키 속성 : 다른 개체와의 관계에서 포함된 속성
└ 일반 속성 : 개체에 포함되어 있고 기본키, 외래키에 포함되지 않은 속성
● 속성 후보 선정 원칙
: 후보 최대한 많이 선택, 원시 속성 판단 후보 버리지 않음, 소 그룹별로 속성 후보군 만들고 가장 근접한 개체에 할당
● 속성명 지정 원칙
: 정확하고 혼란이 없도록 지정, 해당 업무 용어, 서술형 X, 약어 X, 개체명은 속성명으로 사용 X, 개체에서 유일 식별 가능토록 지정
5. 관계
: 개체와 개체 사이의 논리적인 연결
● 관계의 형태 : 1:1, 1:다, 다:다
● 관계의 종류 : 처리하는 업무에 따라 분류
- 종속(Denpendent) 관계 : 주 종 관계 표현, 식별 관계와 비식별 관계 존재
- 중복(Redundant) 관계 : 2번 이상의 종속 관계 발생
- 재귀(Recursive) 관계 : 개체가 자기 자신과의 관계, 순환 관계
- 배타(Exclusive) 관계 : 개체의 속성이나 구분자를 기준으로 개체의 특성을 분할하는 관계,
배타AND(하나 선택),배타OR(하나 이상)
└ 둘 이상의 다른 개체의 합집합, 교집합과의 관계를 갖는 것
6. 식별자
- 정의 : 하나의 개체 내 각각의 인스턴스(구체적인 데이터 값)를 유일하게 구분 지을 수 있는 것
● 대표성 여부(개체 유일 식별 가능)
- 주 식별자 : 개체 대표 유일 식별자 => 특징 : 유일성, 최소성, 불변성, 존재성 ex) 학번
- 보조 식별자 : 주 식별자 대신 개체 식별 ex) 주민번호
● 스스로 생성 여부
- 내부 식별자 : 개체 내에서 스스로 만들어지는 식별자
- 외부 식별자 : 다른 개체와의 관계에서 만들어지는 식별자
● 단일 속성 여부
- 단일 식별자 : 주 식별자가 한 가지 속성으로 구성된 식별자
- 복합 식별자 : 주 식별자가 두 개 이상의 속성으로 구성된 식별자
● 대체 여부
- 원조 식별자 : 업무에 의해 만들어지는 가공 X 원래 식별자, 본질 식별자
- 대리 식별자 : 주 식별자의 속성이 두 개 이상인 경우 속성들을 하나의 속성으로 묶어 사용하는 식별자, 인조 식별자
└ 조건 : 최대한 범용적인 값 사용, 대체할 수 없는 경우 주의, 편의성 단순성 의미의 체계화, 내부적 대리 식별자 사용 가능
● 후보 식별자 : 개체에서 각 인스턴스를 유일하게 식별 가능한 속성 or 속성 집합
-조건 : 각 인스턴스 유일 식별 가능, 속성들을 직접 식별, 널 값 X, 개념적으로 유일, 자주 변경 X
7. E-R(개체-관계) 모델
- 개념적 데이터 모델의 가장 대표적인 것, 1976 피터 첸 제안
- 현실의 무질서한 데이터를 개념적인 논리 데이터로 표현하기 위한 방법, 관계 형태 제한 없이 나타냄
- 최초 : 개체, 관계, 속성 같은 개념들로 구성, 나중 => 일반화 계층 같은 복잡한 개념들이 첨가되어 확장된 모델로 발전
● E-R 다이어그램 : 시각적으로 표현한 그림, 시스템 내에 역할을 가진 모든 실체들 표현, 뷰들 하나로 단일화
┌ 피터 첸 표기법
- 사각형 : 개체 타입
- 마름모 : 관계 타입
- 타원 : 속성
- 이중 타원 : 복합(다중 값) 속성
- 밑줄 타원 : 기본키 속성
- 복수 타원 : 복합 속성
- 관계 : 1:1, 1:N, N:M 같은 관계에 대한 대응 수
- 선, 링크 : 연결
● 정보 공학 표기법 : 1981 클리프 핀켈쉬타인, 제임스 마틴 공동 개발
- ㅣ: 필수
- O : 선택적
- < : 다중
● 바커 표기법 : 영국 컨설팅 회사 CACI에서 개발, 리차드 바커에 의해 정립
8. 관계형 데이터 모델 : 2차원적인 표 or 테이블 이용해서 데이터 상호 관계 정의하는 DB 구조
- 테이블 내에 있는 속성들의 관계를 설정하거나 테이블 간의 관계를 설정하여 이용
- 기본키와 이를 참조하는 외래키로 데이터의 관계 표현
- 개체를 테이블로 사용하고 개체 집합들 사이의 관계를 공통 속성으로 연결하는 독립된 형태의 데이터 모델
9. 관계형 데이터베이스
- 개체, 관계를 모두 릴레이션이라는 표로 표현
- 간결하고 보기 편하며 다른 DB로 변환 용이하지만 성능 느림
● 관계형 데이터베이스의 Relation 구조
- 릴레이션은 데이터들을 표(Table)의 형태로 표현, 구조를 나타내는 릴레이션 스키마와 실제 값 들인 릴레이션 인스턴스로 구성
- 튜플 : 각각의 행, 속성의 모임, 파일 구조에서 레코드와 같은 의미, 튜플 수 = 카디널리티, 기수, 대응 수
- 속성 : 가장 작은 논리적인 단위, 개체의 특성 기술, 데이터 항목 or 필드, 속성수 = 디그리, 차수
- 도메인 : 하나의 속성이 취할 수 있는 같은 타입의 원자 값들의 집합(값의 범위), 실제 속성 값 나타날 때 시스템이 그 값의 합법 여부
검사하는데 이용
● 릴레이션 특징
- 튜플 모두 상이(똑같은 튜플 X), 튜플 순서 X, 릴레이션은 삽입, 삭제 등의 작업으로 시간에 따라 변함,
속성 간의 순서 중요 X
- 명칭 유일 속성 구성 값 동일 가능, 속성들의 부분집합 키로 설정, 속성의 값은 더 이상 쪼갤 수 없는 원자 값만을 저장
10. 관계형 데이터베이스의 제약 조건 - 키(KEY)
└ 참조, 개체 무결성 제약
● 키의 개념 : DB에서 조건에 맞는 튜플 찾거나 정렬 시 튜플을 서로 구분할 수 있는 기준이 되는 속성
- 후보키 : 기본키 사용 가능 속성, 유일성 최소성 만족, 모든 릴레이션은 반드시 하나 이상의 후보키 존재, 개체들을 고유하게 식별
- 기본키 : 후보키 중 선정된 주키로 중복된 값 가질 수 없음, 튜플 유일 구별 속성, 후보키의 부분 집합, NULL 값 X
- 대체키 : 후보 키가 둘 이상일 때 기본키를 제외한 나머지 후보키, 보조키
- 슈퍼키 : 한 가지 속성일 땐 키가 될 수 없지만 여러 속성이 뭉쳐서 키의 속성 가짐, 유일성 만족, 최소성 만족 X
- 외래키 : 다른 릴레이션의 기본 키를 참조한 것, 참조되는 릴레이션의 기본키와 대응되어 릴레이션 간의 참조 관계 표현(참조 무결성)
11. 관계형 데이터베이스의 제약 조건 - 무결성
- 무결성 : DB에 저장된 데이터 값과 그것이 표현하는 실제 값이 일치하는 정확성
● 종류
- 개체 무결성(실체 무결성) : 기본 테이블의 기본키를 구성하는 어떤 속성도 Null 값이나 중복 값을 가질 수 없다는 규정
- 도메인 무결성(영역 무결성) : 속성 값이 도메인에 속한 값이어야 한다는 규정
- 참조 무결성 : 외래 키값은 Null이거나 참조한 릴레이션의 기본 키 값과 동일, 외래키와 참조하려는 기본키는 도메인 속성 개수 동일
- 사용자 정의 무결성 : 속성 값들은 사용자가 정의한 제약 조건에 만족
● 데이터 무결성 강화 : DB 구축 과정에서 정의
- 애플리케이션 : 데이터 생성 수정 삭제 시 무결성 조건을 검증하는 코드를 데이터를 조작하는 프로그램 내에 추가
사용자 정의 같은 복잡한 무결성 조건 구현 가능, 관리 힘듦, 개별적인 시행으로 적정성 검토 어렵
- DB 트리거 : 트리거 이벤트에 무결성 조건을 실행하는 절차형 SQL, 통합 관리 가능, 복잡한 요구 조건 구현 가능
운영 중 변경이 어렵, 사용상 주의 필요
- 제약 조건 : DB에 제약 조건 설정하여 무결성을 유지, 통합 관리 가능, 간단한 선언으로 구현 가능, 변경 용이,
오류 발생 방지, 복잡한 제약 조건의 구현과 예외적인 처리 불가능
12. 관계대수 및 관계해석(비교)
● 관계대수 : 관계형 데이터베이스에서 원하는 정보와 그 정보를 검색하기 위해 유도하는 것을 기술하는 절차적 언어
- 릴레이션 처리 위해 연산자와 연산 규칙을 제공하는 언어, 피연산자, 결과 = 릴레이션, 연산의 순서 명시
- 순수 관계 연산자 : Select, Project, Division
- 일반 관계 연산자 : UNION(합), INTERSECTION(교), DIFFERENCE(차), CARTESIAN PRODUCT(교차곱)
● 관계해석 : 술어 해석(Predicate Calculus)에 기반을 둠, 관계 데이터의 연산을 표현하는 비절차적 언어
- 계산 수식 사용, (튜플 도메인) 관계해석 존재, 관계대수 관계해석은 관계 DB를 처리하는 기능과 능력 면에서 동등
- 관계대수로 표현한 식은 관계해석으로 표현 가능, 질의어로 표현
● Select : 조건 만족하는 튜플의 부분집합을 구하여 새로운 릴레이션 만드는 연산
- 수평연산, 연산자의 기호 : 시그마(σ) 사용, 표기 형식 : σ<조건>(R) (R은 릴레이션 이름)
● Project : 릴레이션에서 속성 리스트에 제시된 속성만 추출하여 새로운 릴레이션 만드는 연산
- 수직연산, 연산 결과에 중복 발생 시 제거, 연산자 기호 : 파이(π), 표기 형식 : π<조건>(R)
● Join : 두 릴레이션을 합쳐서 새로운 릴레이션을 만드는 연산
- Join 결과로 만들어진 릴레이션의 차수는 두 차수의 합, 결과는 교차 곱을 수행 후 Select 한 것과 같음
- 연산자 기호 : ⋈, 표기 형식 : R⋈키 속성 r=키 속성 sS
- 자연 조인 : Join의 조건이 같을 때 동일한 속성이 두 번 나타나 중복된 속성을 제거하여 한 번만 표기하는 방법
자연 조인 성립되려면 두 릴레이션의 속성명과 도메인이 같아야 함
● Division : R ⊃ S인 두 개의 릴레이션 있을 때, R의 속성이 S의 속성의 값을 모두 가진 튜플에서 S가 가진 속성을
제외한 속성만을 구하는 연산
● 일반 집합 연산자
- 합병 조건 만족
- 합집합(∪) : 두 릴레이션 튜플의 합집합, 중복 튜플 제거
- 교집합(∩) : 교집합
- 차집합 (-) : 차집합
- 교차곱(×) : 두 릴레이션 튜플들의 순서쌍, 차수는 서로 더한 값 / 카디널리티는 서로 곱한 값
13. 정규화(Normalization)
: 관계형 DB에서 정확성을 더욱 유지하기 위해 스키마를 쪼개는 과정
- 하나의 종속성이 하나의 릴레이션에 포함될 수 있도록 분해해가는 과정
- 차수가 높아질수록 만족시켜야 할 제약 조건 늘어남
- DB의 논리적 설계 단계에서 수행
- 일관성, 정확성, 단순성, 비증복성, 안정성 등을 보장
- 정규화 수준 높을수록 유연한 데이터 구축, 정확성 높아지는 반면, 물리적 접근 복잡, 성능 저하
● 목적 : 안정성 및 무결성 유지, 어떤 릴레이션이라도 DB 내에서 표현 가능, 효과적인 검색 알고리즘 생성,
이상 발생 방지 및 자료 저장 공간의 최소화, 데이터 삽입 시 릴레이션 재구성 필요성 줄임, 단순화, 검증 가능
누락 여부 확인 가능, 효율성 추구
● 이상의 개념 및 종류
: 사용자의 의도와 상관없이 데이터가 삽입, 삭제, 갱신되는 현상
● 정규화 과정
- 1NF(제1정규형) : 릴레이션의 모든 속성 값들이 원자 값으로만 구성, 단순 영역에서 정의, 부분 함수 종속 제거
- 2NF : 기본키가 아닌 모든 속성이 기본키에 대하여 완전 함수적 종속을 만족
- 3NF : 기본키가 아닌 모든 속성이 기본키에 대해 이행적 종속을 만족하지 않음,
무손실 조인 또는 종속성 보존 저해 X 하고 항상 3NF 설계 가능
- BCNF : 결정자가 모두 후보키, 모든 BCNF가 종속성을 보존하는 것은 아님
└ 제약 조건 : 키가 아닌 모든 속성은 (각 키에 대해 완전 종속, 그 자신이 부분적으로 들어가 있지 않은 모든 키에 대해 완전 종속), 어떤 속성도 키가 아닌 속성에 대해 완전 종속 X
- 4NF : 릴레이션에 다치 종속이 성립하는 경우 모든 속성이 함수적 종속 관계 만족
- 5NF : 모든 조인 종속이 R의 후보키를 통해서만 성립되는 정규형
14. 반 정규화(개념 및 방법 특징)
: 시스템의 성능 향상, 정규화된 데이터 모델을 통합, 중복, 분리하는 과정, 의도적으로 정규화 원칙 위배하는 행위
- 성능 및 효율성 증가, 일관성 및 정합성 저하, 과도한 정규화 성능 저하
- 사전에 데이터의 일관성과 무결성 우선인지, DB의 성능과 단순화를 우선으로 할지 결정
● 테이블 통합 : 두 개의 테이블이 조인되는 경우가 많아 하나의 테이블로 합쳐 사용하여 성능 향상
- 두 개의 테이블서 발생하는 프로세스가 동일하게 자주 처리될 때, 두 개의 테이블 이용하여 항상 조회 수행 경우 고려
- 종류 : 1:1 통합 테이블, 1:N 통합 테이블, 슈퍼 타입, 서브타입 테이블 통합
- 고려 사항 : 레코드 증가로 인해 처리량 증가(검색은 간편), 입력 삭제 수정 규칙 복잡, 제약 조건 설계 어렵
● 테이블 분할 : 수직 or 수평으로 분할
- 수평 분할 : 레코드 기준으로 테이블 분할, 레코드별로 사용 빈도 차이 큰 경우 사용 빈도에 따라 테이블 분할
- 수직 분할 : 하나의 테이블에 속성이 너무 많을 경우 속성을 기준으로 테이블을 분할하는 것
- 고려 사항 : 기본키 유일성 관리 어려워짐, 데이터양이 적거나 사용 빈도 낮은 경우 테이블 분할 필요한지 고려
수행 속도 느려질 수 있음, 데이터 검색에 중점 두어 테이블 분할 여부 결정
● 중복 테이블 추가 : 여러 테이블에서 데이터를 추출하여 사용해야 하거나, 다른 서버에 저장된 테이블을 이용해야
하는 경우 중복 테이블 추가하여 작업 효율성 향상
- 경우 : 정규화로 속도 느려진 경우, 많은 범위나 특정 범위만 자주 처리하는 경우, 처리 범위 줄이지 않고 속도 개선할 수 없는 경우
● 중복 속성 추가 : 조인해서 데이터 처리 시 데이터 조회 경로 단축 위해 자주 사용하는 속성을 하나 더 추가하는 것
- 무결성 확보 어렵, 디스크 공간 추가 필요
- 경우 : 조인이 자주 발생하는 속성인 경우, 접근 경로 복잡 속성인 경우, 액세스의 조건으로 자주 사용되는 경우
기본키의 형태 적절하지 않거나 여러 개의 속성으로 구성된 경우
- 고려 사항 : 테이블 및 속성의 중복 고려, 데이터 일관성 및 무결성에 유의, SQL 그룹 함수 이용하여 처리 가능해야 함,
저장 공간의 지나친 낭비 고려
15. 시스템 카탈로그 : 시스템 그 자체에 관련이 있는 다양한 객체에 관한 정보를 포함하는 시스템 DB
- 시스템 카탈로그 테이블은 사용자 포함하여 DBMS에서 지원하는 모든 객체의 정보를 유지 관리하는 시스템 테이블
- 데이터 사전이라고도 함
● 시스템 카탈로그 저장 정보
: 시스템 카탈로그에 저장된 정보 = 메타 데이터
- 메타 데이터 유형
┌ 데이터베이스 객체 정보 : 테이블, 인덱스, 뷰 등의 구조 및 통계 정보
├ 사용자 정보 : 아이디, 패스워드, 접근 권한
└ 테이블의 무결성 제약 조건 정보 : 기본키, 외래키, NULL 값 허용 여부 등
- 함수, 프로시저, 트리거 등에 대한 정보
● 카탈로그의 특징 : 일반 이용자도 SQL 이용하여 내용 검색 가능, INSERT, DELETE, UPDATE 문으로 갱신 허용 X
DB 시스템에 따라 상이한 구조 가짐, 카탈로그는 DBMS가 스스로 생성 및 유지