深入淺出全面解析 TCP/IP 協議棧
TCP/IP 協議棧是一系列網絡協議的總和,是構成網絡通信的核心骨架,它定義了電子設備如何連入因特網,以及數據如何在它們之間進行傳輸。TCP/IP 協議采用4層結構,分別是應用層、傳輸層、網絡層和鏈路層,每一層都呼叫它的下一層所提供的協議來完成自己的需求。由于我們大部分時間都工作在應用層,下層的事情不用我們操心;其次網絡協議體系本身就很復雜龐大,入門門檻高,因此很難搞清楚TCP/IP的工作原理,通俗一點講就是,一個主機的數據要經過哪些過程才能發送到對方的主機上。 接下來,我們就來探索一下這個過程。
0、物理介質
物理介質就是把電腦連接起來的物理手段,常見的有光纖、雙絞線,以及無線電波,它決定了電信號(0和1)的傳輸方式,物理介質的不同決定了電信號的傳輸帶寬、速率、傳輸距離以及抗干擾性等等。
TCP/IP協議棧分為四層,每一層都由特定的協議與對方進行通信,而協議之間的通信最終都要轉化為 0 和 1 的電信號,通過物理介質進行傳輸才能到達對方的電腦,因此物理介質是網絡通信的基石。
下面我們通過一張圖先來大概了解一下TCP/IP協議的基本框架:
當通過http發起一個請求時,應用層、傳輸層、網絡層和鏈路層的相關協議依次對該請求進行包裝并攜帶對應的首部,最終在鏈路層生成以太網數據包,以太網數據包通過物理介質傳輸給對方主機,對方接收到數據包以后,然后再一層一層采用對應的協議進行拆包,最后把應用層數據交給應用程序處理。
799780百万文字论坛-799780百万文字论坛新粤彩-780790百万文字论坛红字-百万文字论坛500505com-500608百万文字论坛網絡通信就好比送快遞,商品外面的一層層包裹就是各種協議,協議包含了商品信息、收貨地址、收件人、聯系方式等,然后還需要配送車、配送站、快遞員,商品才能最終到達用戶手中。
799780百万文字论坛-799780百万文字论坛新粤彩-780790百万文字论坛红字-百万文字论坛500505com-500608百万文字论坛一般情況下,快遞是不能直達的,需要先轉發到對應的配送站,然后由配送站再進行派件。
配送車就是物理介質,配送站就是網關, 快遞員就是路由器,收貨地址就是IP地址,聯系方式就是MAC地址。
快遞員負責把包裹轉發到各個配送站,配送站根據收獲地址里的省市區,確認是否需要繼續轉發到其他配送站,當包裹到達了目標配送站以后,配送站再根據聯系方式找到收件人進行派件。
有了整體概念以后,下面我們詳細了解一下各層的分工。
1、鏈路層
網絡通信就是把有特定意義的數據通過物理介質傳送給對方,單純的發送 0 和 1 是沒有意義的,要傳輸有意義的數據,就需要以字節為單位對 0 和 1 進行分組,并且要標識好每一組電信號的信息特征,然后按照分組的順序依次發送。以太網規定一組電信號就是一個數據包,一個數據包被稱為一幀, 制定這個規則的協議就是以太網協議。一個完整的以太網數據包如下圖所示:
整個數據幀由首部、數據和尾部三部分組成,首部固定為14個字節,包含了目標MAC地址、源MAC地址和類型;數據最短為46個字節,最長為1500個字節,如果需要傳輸的數據很長,就必須分割成多個幀進行發送;尾部固定為4個字節,表示數據幀校驗序列,用于確定數據包在傳輸過程中是否損壞。因此,以太網協議通過對電信號進行分組并形成數據幀,然后通過物理介質把數據幀發送給接收方。那么以太網如何來識接收方的身份呢?
以太網規協議定,接入網絡的設備都必須安裝網絡適配器,即網卡, 數據包必須是從一塊網卡傳送到另一塊網卡。而網卡地址就是數據包的發送地址和接收地址,也就是幀首部所包含的MAC地址,MAC地址是每塊網卡的身份標識,就如同我們身份證上的身份證號碼,具有全球唯一性。MAC地址采用十六進制標識,共6個字節, 前三個字節是廠商編號,后三個字節是網卡流水號,例如4C-0F-6E-12-D2-19
有了MAC地址以后,以太網采用廣播形式,把數據包發給該子網內所有主機,子網內每臺主機在接收到這個包以后,都會讀取首部里的目標MAC地址,然后和自己的MAC地址進行對比,如果相同就做下一步處理,如果不同,就丟棄這個包。
所以鏈路層的主要工作就是對電信號進行分組并形成具有特定意義的數據幀,然后以廣播的形式通過物理介質發送給接收方。
2、網絡層
對于上面的過程,有幾個細節問題值得我們思考:
799780百万文字论坛-799780百万文字论坛新粤彩-780790百万文字论坛红字-百万文字论坛500505com-500608百万文字论坛發送者如何知道接收者的MAC地址?
799780百万文字论坛-799780百万文字论坛新粤彩-780790百万文字论坛红字-百万文字论坛500505com-500608百万文字论坛發送者如何知道接收者和自己同屬一個子網?
如果接收者和自己不在同一個子網,數據包如何發給對方?
為了解決這些問題,網絡層引入了三個協議,分別是IP協議、ARP協議、路由協議。
【1】IP協議
通過前面的介紹我們知道,MAC地址只與廠商有關,與所處的網絡無關,所以無法通過MAC地址來判斷兩臺主機是否屬于同一個子網。
因此,網絡層引入了IP協議,制定了一套新地址,使得我們能夠區分兩臺主機是否同屬一個網絡,這套地址就是網絡地址,也就是所謂的IP地址。
IP地址目前有兩個版本,分別是IPv4和IPv6,IPv4是一個32位的地址,常采用4個十進制數字表示。IP協議將這個32位的地址分為兩部分,前面部分代表網絡地址,后面部分表示該主機在局域網中的地址。由于各類地址的分法不盡相同,以C類地址192.168.24.1為例,其中前24位就是網絡地址,后8位就是主機地址。因此,如果兩個IP地址在同一個子網內,則網絡地址一定相同。為了判斷IP地址中的網絡地址,IP協議還引入了子網掩碼,IP地址和子網掩碼通過按位與運算后就可以得到網絡地址。
由于發送者和接收者的IP地址是已知的(應用層的協議會傳入), 因此我們只要通過子網掩碼對兩個IP地址進行AND運算后就能夠判斷雙方是否在同一個子網了。
【2】ARP協議
即地址解析協議,是根據IP地址獲取MAC地址799780百万文字论坛-799780百万文字论坛新粤彩-780790百万文字论坛红字-百万文字论坛500505com-500608百万文字论坛的一個網絡層協議。其工作原理如下:
ARP首先會發起一個請求數據包,數據包的首部包含了目標主機的IP地址,然后這個數據包會在鏈路層進行再次包裝,生成以太網數據包,最終由以太網廣播給子網內的所有主機,每一臺主機都會接收到這個數據包,并取出標頭里的IP地址,然后和自己的IP地址進行比較,如果相同就返回自己的MAC地址,如果不同就丟棄該數據包。ARP接收返回消息,以此確定目標機的MAC地址;與此同時,ARP還會將返回的MAC地址與對應的IP地址存入本機ARP緩存中并保留一定時間,下次請求時直接查詢ARP緩存以節約資源。cmd輸入 arp -a 就可以查詢本機緩存的ARP數據。
【3】路由協議
通過ARP協議的工作原理可以發現,ARP的MAC尋址還是局限在同一個子網中,因此網絡層引入了路由協議,首先通過IP協議來判斷兩臺主機是否在同一個子網中,如果在同一個子網,就通過ARP協議查詢對應的MAC地址,然后以廣播的形式向該子網內的主機發送數據包;如果不在同一個子網,以太網會將該數據包轉發給本子網的網關進行路由。網關是互聯網上子網與子網之間的橋梁,所以網關會進行多次轉發,最終將該數據包轉發到目標IP所在的子網中,然后再通過ARP獲取目標機MAC,最終也是通過廣播形式將數據包發送給接收方。
而完成這個路由協議的物理設備就是路由器,在錯綜復雜的網絡世界里,路由器扮演者交通樞紐的角色,它會根據信道情況,選擇并設定路由,以最佳路徑來轉發數據包。
【4】IP數據包
在網絡層被包裝的數據包就叫IP數據包,799780百万文字论坛-799780百万文字论坛新粤彩-780790百万文字论坛红字-百万文字论坛500505com-500608百万文字论坛IPv4數據包的結構如下圖所示:
799780百万文字论坛-799780百万文字论坛新粤彩-780790百万文字论坛红字-百万文字论坛500505com-500608百万文字论坛IP數據包由首部和數據兩部分組成,首部長度為20個字節,主要包含了目標IP地址和源IP地址,目標IP地址是網關路由的線索和依據;數據部分的最大長度為65515字節,理論上一個IP數據包的總長度可以達到65535個字節,而以太網數據包的最大長度是1500個字符,如果超過這個大小,就需要對IP數據包進行分割,分成多幀發送。
所以,網絡層的主要工作是定義網絡地址,區分網段,子網內MAC尋址,對于不同子網的數據包進行路由。
3、傳輸層
鏈路層定義了主機的身份,即MAC地址, 而網絡層定義了IP地址,明確了主機所在的網段,有了這兩個地址,數據包就從可以從一個主機發送到另一臺主機。但實際上數據包是從一個主機的某個應用程序發出,然后由對方主機的應用程序接收。而每臺電腦都有可能同時運行著很多個應用程序,所以當數據包被發送到主機上以后,是無法確定哪個應用程序要接收這個包。
因此傳輸層引入了UDP協議來解決這個問題,為了給每個應用程序標識身份,UDP協議定義了端口,同一個主機上的每個應用程序都需要指定唯一的端口號,并且規定網絡中傳輸的數據包必須加上端口信息。 這樣,當數據包到達主機以后,就可以根據端口號找到對應的應用程序了。UDP定義的數據包就叫做UDP數據包,結構如下所示:
UDP數據包由首部和數據兩部分組成,首部長度為8個字節,主要包括源端口和目標端口;數據最大為65527個字節,整個數據包的長度最大可達到65535個字節。
UDP協議比較簡單,實現容易,但它沒有確認機制, 數據包一旦發出,無法知道對方是否收到,因此可靠性較差,為了解決這個問題,提高網絡可靠性,TCP協議就誕生了,TCP即傳輸控制協議,是一種面向連接的、可靠的、基于字節流的通信協議。簡單來說TCP就是有確認機制的UDP協議,每發出一個數據包都要求確認,如果有一個數據包丟失,就收不到確認,發送方就必須重發這個數據包。
為了保證傳輸的可靠性,TCP 協議在 UDP 基礎之上建立了三次對話的確認機制,也就是說,在正式收發數據前,必須和對方建立可靠的連接。由于建立過程較為復雜,我們在這里做一個形象的描述:
799780百万文字论坛-799780百万文字论坛新粤彩-780790百万文字论坛红字-百万文字论坛500505com-500608百万文字论坛主機A:我想發數據給你,可以么?
主機B:可以,你什么時候發?
799780百万文字论坛-799780百万文字论坛新粤彩-780790百万文字论坛红字-百万文字论坛500505com-500608百万文字论坛主機A:我馬上發,你接著!
經過三次對話之后,主機A才會向主機B發送正式數據,而UDP是面向非連接的協議,它不與對方建立連接,而是直接就把數據包發過去了。所以 TCP 能夠保證數據包在傳輸過程中不被丟失,但美好的事物必然是要付出代價的,相比 UDP,TCP 實現過程復雜,消耗連接資源多,傳輸速度慢。
TCP 數據包和 UDP 一樣,都是由首部和數據兩部分組成,唯一不同的是,TCP 數據包沒有長度限制,理論上可以無限長,但是為了保證網絡的效率,通常 TCP 數據包的長度不會超過IP數據包的長度,以確保單個 TCP 數據包不必再分割。
總結一下,傳輸層的主要工作是定義端口,標識應用程序身份,實現端口到端口的通信,TCP協議可以保證數據傳輸的可靠性。
4、應用層
799780百万文字论坛-799780百万文字论坛新粤彩-780790百万文字论坛红字-百万文字论坛500505com-500608百万文字论坛理論上講,有了以上三層協議的支持,數據已經可以從一個主機上的應用程序傳輸到另一臺主機的應用程序了,但此時傳過來的數據是字節流,不能很好的被程序識別,操作性差。因此,應用層定義了各種各樣的協議來規范數據格式,常見的有 HTTP、FTP、SMTP 等,HTTP 是一種比較常用的應用層協議,主要用于B/S架構之間的數據通信,其報文格式如下:
在 Resquest Headers 中,Accept 表示客戶端期望接收的數據格式,而 ContentType 則表示客戶端發送的數據格式;在 Response Headers 中,ContentType 表示服務端響應的數據格式,這里定義的格式,一般是和 Resquest Headers 中 Accept 定義的格式是一致的。
有了這個規范以后,服務端收到請求以后,就能正確的解析客戶端發來的數據,當請求處理完以后,再按照客戶端要求的格式返回,客戶端收到結果后,按照服務端返回的格式進行解析。
所以應用層的主要工作就是定義數據格式并按照對應的格式解讀數據。
5、全流程
首先我們梳理一下每層模型的職責:
鏈路層799780百万文字论坛-799780百万文字论坛新粤彩-780790百万文字论坛红字-百万文字论坛500505com-500608百万文字论坛:對0和1進行分組,定義數據幀,確認主機的物理地址,傳輸數據;
網絡層799780百万文字论坛-799780百万文字论坛新粤彩-780790百万文字论坛红字-百万文字论坛500505com-500608百万文字论坛:定義IP地址,確認主機所在的網絡位置,并通過IP進行MAC尋址,對外網數據包進行路由轉發;
傳輸層799780百万文字论坛-799780百万文字论坛新粤彩-780790百万文字论坛红字-百万文字论坛500505com-500608百万文字论坛:定義端口,確認主機上應用程序的身份,并將數據包交給對應的應用程序;
應用層799780百万文字论坛-799780百万文字论坛新粤彩-780790百万文字论坛红字-百万文字论坛500505com-500608百万文字论坛:定義數據格式,并按照對應的格式解讀數據。
然后再把每層模型的職責串聯起來,用一句通俗易懂的話講就是:
當你輸入一個網址并按下回車鍵的時候,首先,應用層協議對該請求包做了格式定義;緊接著傳輸層協議加上了雙方的端口號,確認了雙方通信的應用程序;然后網絡協議加上了雙方的IP地址,確認了雙方的網絡位置;最后鏈路層協議加上了雙方的MAC地址,確認了雙方的物理位置,同時將數據進行分組,形成數據幀,采用廣播方式,通過傳輸介質發送給對方主機。而對于不同網段,該數據包首先會轉發給網關路由器,經過多次轉發后,最終被發送到目標主機。目標機接收到數據包后,采用對應的協議,對幀數據進行組裝,然后再通過一層一層的協議進行解析,最終被應用層的協議解析并交給服務器處理。
6、總結
799780百万文字论坛-799780百万文字论坛新粤彩-780790百万文字论坛红字-百万文字论坛500505com-500608百万文字论坛以上內容是對TCP/IP四層模型做了簡單的介紹,而實際上每一層模型都有很多協議,每個協議要做的事情也很多,但我們首先得有一個清晰的脈絡結構,掌握每一層模型最基本的作用,然后再去豐富細枝末節的東西,也許會更容易理解。