[HTTP 완벽 가이드] 1장 HTTP 웹의 기초
1장 HTTP 웹의 기초
작성일시: 2022년 7월 1일 오후 2:00
HTTP는 신뢰성 있는 데이터 전송 프로토콜
을 사용하기 때문에, 데이터가 지구 반대편에서 오더라도 전송 중 손상되거나 꼬이지 않음을 보장한다.
웹 클라이언트와 서버
웹 콘텐츠는 웹서버에 존재한다. 웹서버는 HTTP프로토콜로 의사소통하기 때문에 HTTP 서버라고도 부름
웹서버는 데이터를 저장하고 HTTP클라이언트가 요청한 데이터를 제공한다.
가장 흔한 웹클라이언트는 익스플러, 파이어폭스, 크롬 같은 웹브라우저이다. 웹브라우저는 서버에게 HTTP 객체 요청을하고 사용자의 화면에 보여준다.
리소스
웹 서버는 리소스를 제공한다.
웹 리소스는 웹 컨텐츠의 원천이며 단순한 웹리소스로는 정적파일
도 있고, 요청에따라 콘텐츠를 생성하는 동적 콘텐텐츠 파일
리소스도 있다.
어떤 종류의 콘텐츠도 웹 리소스가 될 수 있다.
정적 파일
정적 파일은 텍스트 파일, HTML 파일, 마이크로소프트 워드파일, 어도비, JPEG, 이미지 파일, AVI 동영상 파일 그외 모든 종류의 파일을 포함한다.
동적 콘텐츠 파일
사용자가 누구인지, 어떤 정보를 요청했는지, 몇 시 인지에 따라 다른 동적콘텐츠를 생선한다.
미디어 타입
인터넷은 수천 가지 데이터 타입을 다루기 때문에, HTTP는 웹 에서 전송되는 객체 각각에 신중하게 MINE 타입 이라는 데이 포맷 라벨
을 붙인다.
MINE은 원래 각기 다른 전자메일 시스템 사이에서 메세지가 오갈 때 겪는 문제점을 해결하기 위해 설게되었다.
MINE 타입
웹 서버는 모든 HTTP 객체 데이터에 MINE
타입을 붙인다.
MINE타입은 (/)사선 으로 구분되며 주 타입
과 부 타입
으로 이루어진 문자열 라벨이다.
- HTML으로 작성된 문서는 text/html 라벨이 붙음.
- plain ASCII 텍스트 문서는 text/plain 라벨이 붙음
- JPEG 이미지는 image/jpeg 라벨이 붙음
- GIF 이미지는 image/gif 라벨이 붙음
이외에도 수백가지 타입이 있다.
URI
웹 서버 리소스는 각자의 이름을 가지고 있기때문에 클라이언트는 관심있는 리소스를 지목 할수가 있다.
서버 리소스 이름은 통합 자원 식별자
또는 URI
라 부른다.
URI는 우편 주소와 같은것으로, 정보 리소스를 고유하게 지정할 수 있고 위치를 지정할 수 있다.
URL
통합 자원 지시자 url
은 리소스 식별자의 가장 흔한 형태다.
URL은 특정 서버의 한 리소스에 대한 구체적인 위치를 서술한다.
URL은 리소스가 정확히 어디에있고 어떻게 접근해야하는지 정확하게 알려준다.
URL은 대부분 세 부분으로 이루어진 표준 포맷을 따룬다
- URL의 첫번째 부분은 스킴이라하며 리소스에 접근하기위해 사용하는 프로토콜을 명시한다.
위 예시에서는 http 프로토콜을 명시하였다. - 두번쨰 부분은 서버의 주소를 제공한다
위 예시에서는 www.joes-hardware.com가 되겠다. - 세번째로는 웹서버의 리소스르 가르킨다
위 예시에서는 spcials/saw-balde.gif 가되겠다.
URN
URI의 두번째 종류는 유니폼 리소스 이름 URN
이다.
URN은 콘텐츠를 이루는 한 리소스에 대해, 그 리소스의 위치에 영향 받지 않는 유일무이한 이름을 역할한다.
이 위치는 독립적인 URN은 리소스를 여기저기 옮기더라도 문제없이 동작한다.
URN은 여전히 실험 중인 상태고 아직 널리 채택되지 않았다.
트랜잭션
HTTP 트랜잭션은 요청명령
과 응답 결과
로 구성되어있다.
요청명령
클라이언트에서 서버로 보내는 HTTP 메세지
응답 결과
서버가 클라이언트에게 돌려주는 HTT 메세지
메서드
HTTP는 HTTP메서드라고 불리느 여러 가지 종류의 요청 명령을 지원한다.
모든 HTTP 요청 메세지는 한개의 메서드를 갖고, 메서드는 서버에게 어떤 동작을 취해야하는지 말해준다.
HTTP 메서드 | 설명 |
---|---|
GET | 서버에서 클라이언트로 지정한 리소스를 보내라 |
PUT | 클라이언트에서 서버로 보낸 데이터를 지정한 이름의 리소스로 저장해라 |
DELETE | 지정한 리소스를 서버에서 삭제해라 |
POST | 클라이언트 데이터를 서버 게이트웨이 애플리케이션으로 보내라. |
HEAD | 지정한 리소스에 대한 응답에서, HTTP 헤더 부분만 보내라. |
상태 코드
모든 HTTP 응답 메세지는 상태코드와 함께 반환된다.
상태 코드는 클라이언트 요청에 따라 성공 여부를 아니면 추가 조치가 필요한지 알려주는 세자리 숫자다.
HTTP 상태코드 | 설명 |
---|---|
200 | 좋다. 문서가 바르게 반환됬다. |
302 | 다시 보내라. 다른 곳에 가서 리소스를 찾아라 |
404 | 없음. 리소스를 찾을 수 없다. |
HTTP는 각 숫자 상태 코드에 텍스트로 된 “사유 구절” 도 함꼐 보낸다.
이 구문은 단지 설명만 위해서 포함된 것일뿐 실제 응답 처리에는 숫자로 된 코드가 사용된다.
웹 브라우저는 시각적으로 풍부한 웹페이지를 가져 올 때 대량의 HTTP 트렌잭션을 수행한다.
페이지 레이아웃을 서술하는 HTM뼈대를 한번의 트랜잭션으로 가져온 후, HTML에 첨부된 이미지나 동영상 등 필요 자료들을 추가로 가져오기 위해 HTTP 트랜젝션을 추가로 수행한다.
메세지
HTTP 메세지는 단순한 줄 단위의 문자열이다.
이진 형식이 아닌 일반 텍스트이기 떄문에 사람이 읽고 쓰기 쉽다.
웹 클라이언트에서 웹 서버로 보낸 HTTP 메세지를 요청 메세지
라 하고 서버에서 클라이언트로 다시가는 메세지를 응답 메세지
라고한다.
HTTP 메세지는 다음의 세 부분으로 나누워진다
시작줄
메세지의 첫 시작은 시작줄이다
요청 메세지라면 무어을 해야하는지 , 응답 메세지같은경우는 무슨 일이났는지 나타낸다.
헤더
시작줄 다음에는 0개 이상의 헤더 필드가 나온다. 각 헤더 필드는 구문 분석을 위해 콜론(:)으로 구분되어 있는 하나의 이름과 하나의 값으로 구성된다.
헤더 필드는 추가하려면 그저 한줄을 더하기만 하면되고 헤더는 빈줄 로 끝난다.
본문
빈 줄 다음에는 어떤 종류의 데이터가 들어갈 수 있는 메세지 본문이 온다.
요청 메세지의 본문은 웹서버로 데이터를 실어 보내며, 응답 메세지의 본문은 클라이언트로 데이터를 반환한다.
본문은 임의의 이진 데이터를 포함할수 있다. 이미지, 오디오, 텍스트 등 다양하게 포함가능하다
TCP 커넥션
TCP/IP
HTTP는 어플리케이션 계층(7 계층) 프로토콜이다.
HTTP는 네트워크 통신의 핵심적인 세부사항에 대해서 신경 쓰지 않는다.
대중적이고 신뢰성 있는 인터넷 전송 프로토콜인 TCP/IP에 맡긴다.
TCP
TCP는 다음을 제공한다.
- 오류 없는 데이터 전송
- 순서에 맞는 전달
- 조각나지 않는 데이터 스트림
일단 TCP로 커넥션이 맺어지게되면 서버와 클라이언트 간에 교환되는 메세지가 결코 없어지거나, 손상되거나, 순서가 뒤 바뀌어 수신되는 일은 결코 없다.
HTTP는 TCP의 윗 계층이고 데이터를 전송하기위해 TCP를 사용한다.
접속, IP 주소 그리고 포트
HTTP 클라이언트가 서버에 메세지를 전송 할 수 있게 되기전에, 인터넷 프로토콜 주소와 포트번호를 이용하여 클라이언트와 서버 사이에 TCP/IP 커넥션을 맺어야한다. 아래의 순서대로 진행된다
- 웹브라우저는 서버의 URL에서 호스트명을 추출한다
- 웹 브라우저는 서버의 호스트명을 IP로 반환한다.
- 웹 브라우저는 URL에서 포트번호를 추출한다.
이떄 포트 번호가 적혀있지않으면 기본적으로 포트번호를 80으로 설정한다. - 웹브라우저는 웹 서버와 TCP커넥션(3-handshake)를 맺는다.
- 웹 브라우저는 서버에 HTTP 요청을 보낸다
- 서버는 웹 브라우저에 HTTP 응답을 돌려준다.
- 커넥션이 닫히면(4-handshake 이후), 브라우저는 문서를 보여준다
프로토콜 버전
오늘날 쓰이는 HTTP 프로토콜 버전은 여러가지다
HTTP/0.9
오직 GET 메서드만 지원하고, 멀티미디어 콘테츠에 대한 MIME타입이나, HTTP 헤더, 버전 번호는 지원하지 않는다.
HTTP/1.0
HTTP 헤더, 추가 메서드, 멀티미디어 객체를 처리할 수 있게 추가했다.
오래 지속되는 “keep_alive” 커넥션, 가상 호스팅 지원, 프락시 연결 지원 을 포함해 많은 기능이 공식적이지는 않지만 사실상 표준으로 HTTP에 추가됨.
HTTP/1.1
이전 HTTP설계의 구조적 결함 교정, 두드러진 성능 최적화, 잘못된 기능 제거에 집중하고
HTTP/1.1은 더 복잡해진 웹 애플리케이션과 배포를 지원한다.
HTTP/2.0
HTTP/1.1의 성능 문제를 개선하기위해 구글의 SPDY 프로토콜 기반으로 설계가 진행된다.
웹의 구성요소
웹의 구성요소로는 프락시
, 캐시
, 게이트웨이
, 터널
, 에이전트
등 있다.
프락시
프락시는 클라이언트와 서버 사이에 위치하며 클라이언트의 모든 HTTP요청을 받아 서버에 전달함
애플리케이션은 사용자를 위한 프락시로 동작하며 사용자를 대신해서 서버에 접근하기도함.
프락시는 주로 보안을 위해 사영되며 웹의 모든 트래픽 속에서 신뢰할만한 중개자 역할을한다.
캐시
웹캐시와 캐시 프락시는 자신을 거쳐가는 문서들 중 자주 찾는 것의 사본을 저장해두는 특별한 종류의 HTTP 프락시 서버다 . 클라이언트가 같은 문서를 요청하면 그 캐시가 갖고 있는 사본을 받을 수 있다.
또 클라이언트는 멀리 떨어져있는 서버보다 근처에 있는 캐시에 훨씬 더 빨리 문서를 다운받을수 있음.
게이트웨이
게이트웨이는 다른 서버들의 중개자로 동작하는 특별서버다
게이트웨이는 주로 HTTP트래픽을 다른 프로토콜로 변환하기 위해 사용됨.
게이트웨이는 언제나 스스로가 리소스를 갖고 있는 진짜 서버인 것처럼 요청함.
터널
터널은 두커넥션 사이에 날(raw) 데이터를 열어보지 않고 그대로 전달 해주는 HTTP 애플리케이션이다.
HTTP 터널을 활용하는 대표적인 예로 암호화된 SSL트래픽을 HTTP 커넥션으로 전송함으로써 웹 트래픽만 허용하는 사내 방화벽을 통과시키는 것이 있다.
에이전트
사용자 에이전트는 사용자를 위해 HTTP 요청을 만들어주는 클라이언트 프로그램이다.
웹 요청을 만드는 애플리케이션은 뭐든 HTTP 에이전트이다.