眼見不一定為憑？生成式 AI 帶來的信任危機！

深偽偵測與深度生成模型之影像應用

你看過美國前總統川普被警方逮捕的影片嗎？又或是英國女王在皇宮中大跳熱舞的片段？多年來，人們普遍相信著「有圖有真相」的道理，然而，隨著圖像與影音相關的生成式 AI 越發成熟，我們似乎再也不能輕易相信自己的雙眼。而在真假影音的差異可說是微乎其微的狀況下，我們究竟該如何判斷資訊真實性？中央研究院資訊科技創新研究中心的副研究員陳駿丞與團隊每天在尋找的，便是有效又好用的解決方案。本次，中研院「研之有物」將透過專訪，從生成式 AI 的原理開始了解，一步步為各位解開深偽影像的神秘面紗。

生成式 AI 怎麼這麼紅？因為成熟又好用！

一講到生成式 AI，許多人都能立刻喊出「ChatGPT」的大名，足見這個領域之熱門程度。其實，生成式 AI 發展並不是近年才開始的事，可是為什麼直到最近，才受到社會大眾的熱烈歡迎呢？

中研院資創中心的陳駿丞副研究員認為，其中最關鍵的原因，莫過於 AI 程式的優秀表現開始讓一般人很「有感」。由於生成式 AI 的相關研究快速發展，基礎建設在近年來逐漸成熟，使用介面也設計得十分親民，讓大眾能透過極為直覺、簡單的方式去使用，實際體會到應用的效果，例如改善工作效率、處理圖像任務等，再加上大眾媒體的渲染，便帶起了 2023 前半年的 AI 風潮。

陳駿丞笑著說，雖然自己不是文字生成式 AI 的專家，但使用「ChatGPT」時，也發現到它真的能做到很多事，比早期的 Siri 效果更好、更準確。的確，對於我們來說，這款基於 OpenAI 開發的大型語言模型（Large Language Model）的聊天機器人（Chatbot），就彷彿是一個全能小秘書一般，可以整理文案、改錯字，甚至連寫程式碼都不在話下。

場景轉換到影像領域，如今市面上也有同樣由 OpenAI 打造出的圖像生成平台「DALL·E 2」，或是大名鼎鼎的「Midjourney 」，都可以很有效率的將使用者文字描述轉換成圖片。雖然這些平台生成的內容偶爾還是會出現「破圖」的情況，例如頭髮少一塊，或是出現奇怪色塊等，但它們的生成速度極快，也能產生不少令人印象深刻的高品質內容；對於一般大眾而言，自然充滿吸引力。

陳駿丞解釋，過去也有許多以文字產生圖片的嘗試，但品質並不佳，而現在之所以可以顯得如此真實，便是借助了「擴散模型」（Diffusion Model）的強大威力。大約 2019 年左右，「擴散模型」逐漸超越了原本主流的「生成對抗網路」（Generative Adversarial Network，GAN），吸引大量研究人員投入，也因此衍生出「Midjourney」這類的圖片服務，打個字、按個鈕便能生成美美的圖片。進階使用者還可以輸入如同咒語般長的自訂提示詞（Prompt），生成符合需求的圖片，甚至還有人專門訓練生成提示詞的 AI，各種 AI 藝術社群也如雨後春筍般成立。