[CS:APP] Chapter 03. 프로그램의 기계수준 표현 (3.9 이기종 자료구조 ~ 3.10 기계수준 프로그램에서 제어와 데이터의 결합)

CS:APP - 10

February 11, 2022

honggoo

honggoo

본격적인 개발 블로그를 시작해 볼까!

Chapter 03. 프로그램의 기계수준 표현

3.1 역사적 관점
3.2 프로그램의 인코딩
3.3 데이터의 형식
3.4 정보 접근하기
3.5 산술연산과 논리연산
3.6 제어문
3.7 프로시져
3.8 배열의 할당과 접근
3.9 이기종 자료구조
3.10 기계수준 프로그램에서 제어와 데이터의 결합

3.9 이기종 자료구조

C는 서로 다른 유형의 객체를 연결해서 자료형을 만드는 두 가지 방법을 제공한다.
- struct 키워드를 사용해서 선언하는 구조체
  - 다수의 객체를 하나의 단위로 연결한다.
- union으로 선언하는 공용체
  - 하나의 객체를 여러 개의 다른 자료형으로 참조될 수 있도록 한다.

3.9.1 구조체

서로 다른 유형의 객체들을 하나의 객체로 묶어주는 자료형을 생성한다.
구조체의 구현은 구조체의 모든 컴포넌트들이 메모리의 연속된 영역에 저장된다.
구조체의 포인터가 첫 번째 바이트의 주소라는 점에서 배열과 유사하다.

3.9.2 공용체

C언어의 자료형 체제를 회피해서 하나의 객체가 다수의 자료형에 따라 참조될 수 있도록 해준다.
공용체를 선언하는 문법은 구조체와 동일하나 그 의미는 매우 다르다.
- 다른 필드들이 메모리의 다른 블록을 참조하는 것이 아니라 동일한 블록을 참조한다.

3.9.3 데이터의 정렬

많은 컴퓨터 시스템들은 기본 자료형들에 대해 사용 가능한 주소를 제한하고 있어서 어떤 객체의 주소는 어떤 값 K의 배수가 되도록 요구한다.
이러한 정렬제한은 프로세서와 메모리 시스템 간의 인터페이스를 구성하는 하드웨어의 설계를 단순화한다.
이들의 정렬 규칙은 모든 K의 원시 객체들은 K의 배수를 주소로 가져야 한다는 원칙에 기초한다.
정렬은 자료형 내의 모든 객체들이 각각의 정렬 제한사항을 만족하는 방법으로 조직되고 할당되도록 강요된다.
아래의 그림처럼 컴파일러는 c와 j 사이에 3바이트 공간을 삽입한다.

추가로, 컴파일러는 구조체의 마지막에 0을 채워서 구조체 배열에서 각 원소가 각각의 정렬 요건을 만족하도록 해준다.

3.10 기계수준 프로그램에서 제어와 데이터의 결합

데이터와 자료가 상호작용 하는 방식을 살펴본다.
C 프로그래밍 언어에서 가장 심오한 개념인 포인터를 자세히 살펴본다.
기계수준 프로그램의 상세한 동작을 심벌 디버거인 GDB를 사용해서 검토한다.
실제 시스템에서 중요한 보안취약성인 버퍼 오브펄로우를 어떻게 이해할 수 있는지 살펴본다.
함수가 요구하는 스택 저장공간의 양이 실행때마다 달라지는 경우를 기계수준 프로그램이 어떻게 구현하는지 살펴본다.

3.10.1 포인터 이해하기

다른 자료구조 내 원소들에 대한 참조를 생성하는 통일된 방법으로서의 역할을 수행한다.
포인터의 일부 주요 원리
- 포인터는 연관된 자료형을 갖는다.
- 모든 포인터는 특정 값을 가진다.
- 포인터는 &연산자를 사용해서 만든다.
- ㅍ포인터는 *연산자를 사용해서 역참조한다.
- 배열과 포인터는 밀접한 관련이 있다. 배열의 이름은 마치 포인터 변수처럼 참조될 수 있다.
- 한 종류의 포인터에서 다른 종류로의 자료형 변환은 그 종류만 바뀔 뿐 값은 변화가 없다.
- 포인터는 함수를 가리킬 수도 있. 이것은 프로그램의 다른 부분에서 호출할 수 있는 코드에 대한 참조를 저장하거나 넘겨줄 수 있는 강력한 기능을 제공한다.

3.10.2 실제 적용하기: GDB 디버거 사용하기

GNU 디버거인 GDB는 기계어 프로그램의 런타임 평가 및 분석에 유용한 기능을 제공한다.

GNU는 운영체제의 하나이자 컴퓨터 소프트웨어의 모음집이다.
GDB를 사용하면, 프로그램의 실행을 정교하게 제어하면서 실행되는 프로그램을 관찰하여 프로그램의 동작을 분석할 수 있다.
일반적인 방법은 브레이크포인트를 프로그램에서 관심이 있는 부분 근처에 설정하는 것이다.
프로그램 실행중에 브레이크포인트를 만나게 되면, 프로그램은 실행을 중단하고, 제어를 사용자에게 넘긴다.

3.10.3 범위를 벗어난 메모리 참조와 버퍼 오버플로우

C에서는 배열참조 시 범위를 체크하지 않으며, 지역변수들이 스택에 보존용 레지스터들과 리턴 주소 같은 상태정보와 함께 스택에 저장된다는 것을 배웠다.
에를들어 배열에 문자열이 저장될 때 stack top인 return address 범위까지 저장이 되면 심각한 오류를 발생시킨다.

버퍼 오버플로우의 보다 치명적인 사용은 일반적으로 프로그램이 하지 않을 기능들을 실행하도록 하는 것이다.
일반적으로 탐색코드exploit code 라고 하는 실행코드를 바이트 인코딩한 탐색코드를 가리키는 포인터 리턴 주소를 덮어쓰는 약간의 추가적인 바이트들을 포함하는 스트링을 입력한다. ret 인스트럭션을 실행하면 탐색코드로 점프하게된다.
- 인터넷 상의 많은 컴퓨터에 접속을 획득한 FINGER 데몬인 fingerd로의 버퍼 오버플로우 공격이 있다.

3.10.4 버퍼 오버플로우 공격 대응 기법

이들 공격이 실행되기 어렵게 하는 방법과 침입자가 버퍼 오버플로우 공격을 통해서 시스템의 제어권을 획득할 수 있는 방법을 제한하는 방법을 구현하였다.

스택 랜덤화
- 공격자는 탐색코드를 시스템에 삽입하기 위해서 공격 스트링 내에 코드뿐만 아니라 코드로의 포인터까지 집어넣어야한다. 이 포인터를 만들기 위해서는 스트링이 위치하게 될 스택의 주소를 알아야 한다. 역사적으로 프로그램의 스택 주소는 쉽게 에측할 수 있었다.

스택 랜덤화의 아이디어는 스택의 위치를 프로그램의 매 실행마다 다르게 해주는 것이다.
ASLR을 사용하면 프로그램 코드, 라이브러리 코드, 스택, 전역변수, 힙 데이터를 포함하는 여러 프로그램의 부분들이 프로그램이 매번 실행할 때마다 메모리의 다른 지역에 로딩된다.
하지만, 이런 방법은 공격자가 반복적으로 주소를 바꿔가며 무지막지한 공격을 하면 랜덤화를 극복할 수 있다.

스택 손상 검출
- 두번째 방법은 스택이 손상되는 것을 감지하는 것이다.
- 아래의 그림은 스택 보호기가 작동될 때 해당 함수의 스택 구성이다. 특별 “canary” 값이 배열 buf와 저장된 상태 값 사이에 위치한다. 코드는 스택 상태가 손상되었는지 여부를 결정하기 위해 canary 값을 체크한다.

실행코드 영역 제한하기
- 마지막 방법은 공격자가 실행코드를 시스템에 추가할 가능성을 제거하는 것이다.
- 어느 메모리 영역이 실행코드를 저장할지를 제한하는 거시앋. 다른 부분들은 읽기와 쓰기만 허용하도록 제한할 수 있다.

3.10.5 가변크기 스택 프레임 지원하기

공통적으로 할당되어야 하는 스택 프레임의 크기를 컴파일러가 미리 결정할 수 있다는 특징이 있었다. 하지만 일부 함수들은 가변적인 지역저장공간 크기를 필요로 한다.

공유하기

Twitter Facebook LinkedIn

댓글남기기

참고

[OSTEP] 영속성 - 파일 시스템 구현

June 25, 2022

OSTEP - 18

[OSTEP] 영속성 - 파일과 디렉터리

June 24, 2022

OSTEP - 17

자식 프로세스와 부모 프로세스는 파일 디스크립터를 어떻게 공유할까?

June 24, 2022

터미널 출력 버퍼와 파일 출력 버퍼의 차이

[OSTEP] 영속성 - Redundant Array of Inexpensive Disk(RAID)

June 16, 2022

OSTEP - 16