Revision Ver-1

開發者眼中的圖像文件：雖然格式不同，但共通的「文件結構」骨架

從使用者角度看，圖像文件就是一幅「畫」。從開發者角度看，圖像文件則是「存放圖像的二進位資料」同時也是「如何解讀這些資料的結構化文件」。

本文暫時不談 JPG/PNG/WebP 等各自的特性，而聚焦於「不論圖像格式，皆共通的結構」進行整理。術語盡量簡化，僅以結構為主說明。

圖像文件不是「像素塊」而是「包含規則的位元組集合」{#sec-361d689653d0}

圖像文件結構示意圖

構成圖像文件的核心通常有三個部分。

確認身份的區域：告訴你這是什麼格式
解讀所需資訊：尺寸、色彩表達等「如何閱讀」的說明
實際圖像資料：通常以壓縮/編碼形式存放

雖然每種格式的名稱與佈局不同，但大體骨架基本不會偏離此模式。

1) 文件簽名：最先告訴你「這是什麼文件」{#sec-bac08ab2ce24}

大多數圖像文件在文件最前面放置獨特的位元組模式。這比副檔名更可靠的提示。

副檔名可被使用者隨意改
而簽名若不符合格式，則難以辨識

因此開發者在判斷文件類型時，會先檢查

「文件名(.png/.jpg)」
「文件內容的前幾位元組」

簽名通常只有「幾個位元組」長，但它是決定是否要讀取後續標頭的起點。

2) 標頭：重建像素所必須的最小資訊{#sec-957f649d3915}

簽名告訴你「這是什麼格式」後，接下來通常是標頭。標頭包含解碼器（圖像載入器）重建像素所必須的資訊。

典型資訊包括：

寬/高尺寸：width, height
色彩表達方式：例如 RGB 或是否有透明度（Alpha）
精度（位元數）：8 位、16 位等
資料讀取方式：是否壓縮/編碼、需要的處理方式

關鍵點是：

像素資料往往「本身難以直接讀取」；文件先在標頭中寫下「讀取方法」。

若標頭缺失或損毀，即使像素資料存在，也難以正常解讀。

3) 元資料：圖像本身之外的「關於圖像的資訊」{#sec-08323699cfd2}

圖像文件除了可見畫面，還可包含額外資訊。這些資訊不一定對重建像素必須，但在產品中常成為問題或有用。

拍攝時間、相機資訊、方向（旋轉）
色彩空間相關資訊
預覽用小圖（縮圖）
其他製作工具、版權標示等

從開發者角度看，元資料的重點很簡單：

可能存在，也可能不存在。
可能影響正常運作（例如方向資訊）。
可能涉及安全/隱私（例如位置資訊）。

因此「只取像素」並非萬無一失，某些系統還需同時處理元資料。

4) 圖像資料：大多以「壓縮/編碼」形式存放{#sec-e89fbb08e9dd}

圖像文件的目的在於儲存與傳輸。因此實際圖像資料通常是以下之一。

無壓縮（少見或有限）：直接存放像素值
壓縮/編碼（大多數）：為縮小尺寸而轉換的形式

開發者須知的核心是：

文件內的圖像資料極有可能不是「直接的像素陣列」；通常需要解碼才能在記憶體中得到像素。

也就是說，文件優化於儲存，而記憶體中的像素緩衝區則優化於處理，兩者形態必然不同。

5) 「文件」與「記憶體」呈現不同形態{#sec-f49dcf9a6f81}

即使是同一幅圖像，開發者會遇到兩種不同的呈現。

磁碟上的圖像文件是串流：簽名 + 標頭/元資料 + 資料按順序排列的位元組流。
記憶體中的圖像則是物件：擁有 width/height、像素緩衝區（以及輔助資訊）的結構化物件，方便開發者直接存取。

因此常見的處理流程為：

讀取文件前部判斷格式（簽名）
讀取標頭決定「如何解碼」
解碼資料至記憶體的像素形式
之後才進行縮放/裁切/濾鏡等處理

從這個角度看，「圖像文件」不只是簡單的畫，而是可被解讀的結構化資料。

結語：閱讀圖像文件即是解讀結構{#sec-1e8cc4cdf0fd}

雖然各格式實作細節不同，但從開發者角度看，圖像文件共通的流程為：簽名 → 標頭 →（可選）元資料 → 圖像資料。這個順序不僅是慣例，更是「安全且一致地解讀文件」的設計。

我們常說「打開圖像」其實包含：

讀取前部識別格式
透過標頭取得解讀規則
如有必要，考慮元資料
最終將圖像資料還原為記憶體中的像素

換句話說，圖像不只是像素，而是帶有結構與規則的文件。了解這一結構，即使在沒有庫的環境下，也能更快診斷問題，並針對「識別/標頭/解碼」等階段做出對應。

下一篇預告{#sec-aec45c7bb7d2}

會整理 python-magic 與 Linux file 指令之間的關係，以及這些工具如何完成「文件類型判斷」。
會說明 Pillow（PIL）中 open()、load()、verify() 等核心方法實際上有何差異，並討論在何種情境下選擇哪個方法。

相關文章：

Django 圖像上傳安全指引：有效處理避免伺服器崩潰

開發者眼中的圖像文件：從結構拆解圖像文件 [ r1 ]