[HTTP] 1. HTTP 개관
HTTP 완벽 가이드라는 책을 공부해보며 정리하는 내용이다.
(저작권 문제되면 내리겠습니다.)
1. HTTP
HTTP는 전세계의 웹 서버로부터 대량의 정보를 빠르고, 간편하고, 정확하게 사람들의 PC에 설치된 브라우저로 옮겨준다.
HTTP는 신뢰성 있는 데이터 전송 프로토콜을 사용하기 때문에, 데이터가 지구 반대편에서 오더라도 전송 중 손상되거나 꼬이지 않음을 보장한다.
1.1 웹 클라이언트와 서버
웹 서버(HTTP 서버) : 인터넷의 데이터를 저장하고, HTTP 클라이언트가 요청한 데이터를 제공한다.
1.2 리소스
웹 리소스 : 웹 콘텐츠의 원천이다. 가장 단순한 웹 리소스는 웹 서버 파일 시스템의 정적 파일이다. 리소스는 요청에 따라 콘텐츠를 생산하는 프로그램이 될 수 있다.
(* 정적 파일 : 텍스트 파일, HTML 파일, 마이크로소프트 워드 파일, JPEG 이미지 파일, AVI 동영상 파일, 그 외 모든 종류의 파일)
1.3 URI(Uniform Resource Identifier)
인터넷의 우편물 주소 같은 곳으로, 정보 리소스를 고유하게 식별하고 위치를 지정할 수 있다.
EX) http://www.joes-hardware.com/specials/saw-blade.gif
-> 죠의 컴퓨터 가게의 웹 서버에 있는 이미지 리소스에 대한 URI
1) HTTP 프로토콜을 사용.
2) www.joes-hardware.com으로 이동
3) /specials/saw-blade.gif라고 불리는 리소스를 부른다.
1.4 URL(통합자원지시자, Uniform Resource Locator)
URL : 리소스 식별자의 가장 흔한 형태. 특정 서버에 한 리소스에 대한 구체적인 위치를 서술한다. 대부분의 URL은 세 부분으로 이루어진 표준 포맷을 따른다. 오늘날 대부분의 URI는 URL이다.
1) URL의 첫번째 부분 스킴(Scheme) : 리소스에 접근하기 위해 사용되는 프로토콜을 서술한다. 보통 HTTP 프로토콜(http://)이다.
2) 두번째 부분 : 서버의 인터넷 주소를 제공한다. (www.joes-hardware.com)
3) 마지막 부분 : 웹 서버의 리소스를 가리킨다. (/specials/saw-blade.gif)
1.5 URN(유니폼리소스이름, Uniform Resource name)
URN : 콘텐츠를 이루는 한 리소스에 대해, 그 리소스의 위치에 영향받지 않는 유일무이한 이름 역할을 한다. 여전히 실험 중인 상태이고 아직 널리 채택되지는 않는다.
2. 트랜잭션
구성 : 요청명령(클라이언트에서 서버로 보내는), 응답 결과(서버가 클라이언트에게 돌려주는)
2.1 메서드
HTTP는 HTTP 메서드라고 불리는 여러 가지 종류의 요청 명령을 지원한다. 모든 HTTP 요청 메시지는 한 개의 메서드를 갖는다.
EX)
1) GET : 서버에서 클라이언트로 지정한 리소스를 보낸다.
2) PUT : 클라이언트에서 서버로 보낸 데이터를 지정한 이름의 리소스로 저장한다.
3) DELETE : 지정한 리소스를 서버에서 삭제한다.
4) POST : 클라이언트 데이터를 서버 게이트웨이 애플리케이션으로 보낸다.
5) HEAD : 지정한 리소스에 대한 응답에서, HTTP 헤더 부분만 보낸다.
2.2 상태 코드
모든 HTTP 응답 메시지는 상태 코드와 함께 반환된다. 흔히 쓰이는 상태 코드 3가지만 알아보자.
EX)
1) 200 : 문서가 바르게 반환되었다.
2) 302 : 다른 곳에 가서 리소스를 가져온다.
3) 404 : 리소스를 찾을 수가 없다.
2.3 메시지
요청 메시지 : 웹 클라이언트에서 웹 서버로 보낸 HTTP 메시지.
응답 메시지 : 서버에서 클라이언트로 가는 메시지.
HTTP 메시지는 3부분으로 나누어진다.
1) 시작줄 : 요청이라면 무엇을 해야 하는지, 응답이라면 무슨 일이 일어났는지 나타낸다.
2) 헤더
3) 본문 : 요청의 본문은 웹 서버로 데이터를 실어 보내며, 응답의 본문은 클라이언트로 데이터를 반환한다.
3. TCP 커넥션
메시지가 TCP 커넥션을 통해 한 곳에서 다른 곳으로 어떻게 옮겨가는지 보자.
3.1 TCP/IP
HTTP는 대중적이고 신뢰성 있는 인터넷 전송 프로토콜인 TCP/IP를 통해 전송한다.
TCP/IP는 TCP와 IP가 층을 이루는, 패킷 교환 네트워크인 프로토콜의 집합이다.
TCP가 제공하는 것을 확인해보자.
1) 오류 없는 데이터 전송.
2) 순서에 맞는 전달. (데이터는 보낸 순서대로 도착한다.)
3) 조각나지 않는 데이터 스트링. (언제든 어떤 크기로든 보낼 수 있다.)
3.2 접속, IP주소 그리고 포트번호
HTTP 클라이언트가 서버에 메시지를 전송할 수 있게 되기 전에, 인터넷 프로토콜 주소와 포트번호를 사용하여 클라이언트와 서버 사이에 TCP/IP 커넥션을 맺어야 한다.
TCP에서는 서버 컴퓨터에 대한 IP 주소와 그 서버에서 실행 중인 프로그램이 사용 중인 포트번호가 필요하다.
HTTP URL에 포트번호가 빠진 경우에는 기본값 80이라고 가정한다.
EX) http://207.200.83.29:80/index.html
* 웹 브라우저가 HTTP를 이용해서 멀리 떨어진 곳에 있는 서버의 단순한 HTML 리소스를 사용자에게 보여주는 순서
1) 웹 브라우저는 서버의 URL에서 호스트 명을 추출한다.
2) 웹 브라우저는 서버의 호스트 명을 IP로 변환한다.
3) 웹 브라우저는 URL에서 포트번호를 추출한다.
4) 웹 브라우저는 웹 서버와 TCP 커넥션을 맺는다.
5) 웹 브라우저는 서버에 HTTP 요청을 보낸다.
6) 서버는 웹 브라우저에 HTTP 응답을 돌려준다.
7) 커넥션이 닫히면, 웹 브라우저는 문서를 보여준다.
4. 웹의 구성요소
4.1 프락시
웹 보안, 애플리케이션 통합, 성능 최적화를 위한 중요한 구성요소이다. 프락시는 클라이언트와 서버 사이에 위치하여, 클라이언트의 모든 HTTP 요청을 받아 서버에 전달한다. 또한 프락시는 주로 보안을 위해 사용한다.
즉, 모든 웹 트래픽 흐름 속에서 신뢰할 만한 중개자 역할을 한다.
또 프락시는 요청과 응답을 필터링 하기도 한다.
4.2 캐시 (웹 캐시, 캐시 프락시)
자신을 거쳐 가는 문서들 중 자주 찾는 것의 사본을 저장해 두는, 특별한 종류의 HTTP 프락시 서버이다.
다음번에 클라이언트가 같은 문서를 요청하면 그 캐시가 갖고 있는 사본을 받을 수 있다.
4.3 게이트웨이
다른 서버들의 중개자로 동작하는 특별한 서버이다. 주로 HTTP 트래픽을 다른 프로토콜로 변환하기 위해 사용된다.
게이트웨이는 언제나 스스로가 리소스를 갖고 있는 진짜 서버인 것처럼 요청을 다룬다.
(* HTTP/FTP 게이트웨이 : FTP URI에 대한 HTTP 요청을 받아들인 뒤, FTP 프로토콜을 이용해 문서를 가져온다.)
4.4 터널
두 커넥션 사이에서 날(raw) 데이터를 열어보지 않고 그대로 전달해주는 HTTP 애플리케이션이다.
대표적인 예로, 암호화된 SSL 트래픽을 HTTP 커넥션으로 전송함으로써 웹 트래픽만 허용하는 사내 방화벽을 통과시키는 것이 있다.
4.5 에이전트
사용자를 위해 HTTP 요청을 만들어주는 클라이언트 프로그램이다. 웹 요청을 만드는 애플리케이션은 뭐든 HTTP 에이전트이다.