深度學習入門 - AI-XS學院

深度學習概述

深度學習是機器學習的一個子領域，使用多層神經網絡來學習數據的層次化表示。它在圖像識別、語音識別、自然語言處理等領域取得了突破性進展。

為什麼叫「深度」？

「深度」指的是神經網絡的層數。傳統神經網絡通常只有2-3層，而深度神經網絡可以有數十層甚至上百層。更深的網絡能夠學習更複雜、更抽象的特徵表示。

深度學習的優勢

自動特徵提取：無需手動設計特徵，網絡自動學習有用的特徵
處理複雜數據：擅長處理圖像、音頻、文本等非結構化數據
端到端學習：從原始輸入直接學習到最終輸出
可擴展性：隨著數據和計算資源增加，性能持續提升

神經網絡基礎

神經網絡受生物神經元啟發，由大量相互連接的節點（神經元）組成。

神經網絡的組成

輸入層

接收原始數據，每個神經元對應一個特徵。例如，處理28×28的圖像時，輸入層有784個神經元。

隱藏層

進行特徵轉換和抽象。深度網絡包含多個隱藏層，每層學習不同層次的特徵。

輸出層

產生最終預測結果。分類問題通常使用softmax激活函數，回歸問題使用線性激活。

關鍵概念

激活函數

為神經網絡引入非線性，使其能夠學習複雜的模式。

ReLU：最常用，計算簡單，緩解梯度消失問題
Sigmoid：輸出範圍0-1，適合二分類輸出層
Tanh：輸出範圍-1到1，零中心化
Softmax：多分類問題的輸出層

反向傳播

訓練神經網絡的核心算法，通過計算損失函數對權重的梯度，使用梯度下降法更新權重。

優化器

控制權重更新的策略：

SGD：隨機梯度下降，簡單但可能收斂慢
Adam：自適應學習率，最常用的優化器
RMSprop：適合處理非平穩目標

卷積神經網絡（CNN）

CNN專門設計用於處理網格狀數據，如圖像。它通過卷積操作自動學習空間層次特徵。

CNN的核心組件

1. 卷積層（Convolutional Layer）

使用可學習的濾波器（卷積核）在輸入上滑動，提取局部特徵。淺層提取邊緣、紋理等低級特徵，深層提取物體部件等高級特徵。

2. 池化層（Pooling Layer）

降低特徵圖的空間維度，減少參數數量，提供平移不變性。常用的有最大池化和平均池化。

3. 全連接層（Fully Connected Layer）

將提取的特徵映射到最終的輸出類別。通常位於網絡的末端。

經典CNN架構

LeNet-5（1998）

最早的CNN之一，用於手寫數字識別。奠定了現代CNN的基本結構。

AlexNet（2012）

在ImageNet競賽中取得突破，開啟了深度學習時代。使用ReLU、Dropout等技術。

VGGNet（2014）

使用小卷積核（3×3）堆疊，證明了網絡深度的重要性。

ResNet（2015）

引入殘差連接，解決了深層網絡的退化問題，可以訓練上百層的網絡。

循環神經網絡（RNN）

RNN專門處理序列數據，如文本、時間序列、語音等。它具有記憶能力，能夠利用之前的信息。

RNN的特點

與傳統神經網絡不同，RNN在處理序列的每個時間步時，不僅考慮當前輸入，還會考慮之前的隱藏狀態，形成一種「記憶」機制。

RNN的變體

LSTM

長短期記憶網絡，通過門控機制解決了傳統RNN的梯度消失問題，能夠學習長期依賴關係。

GRU

門控循環單元，LSTM的簡化版本，參數更少，訓練更快，性能相當。

Transformer

基於注意力機制，完全拋棄了循環結構，成為當前NLP領域的主流架構。

應用場景

機器翻譯：將一種語言的文本翻譯成另一種語言
文本生成：自動寫作、對話系統、代碼生成
語音識別：將語音轉換為文字
時間序列預測：股票價格、天氣預報、能源消耗

深度學習框架

選擇合適的框架可以大大提高開發效率。

TensorFlow

Google開發的開源框架，生態系統完善，支持從研究到生產的全流程。TensorFlow 2.0引入了Keras作為高級API，更加易用。

適合：生產部署、大規模分布式訓練

PyTorch

Facebook開發，動態計算圖，代碼直觀易懂，深受研究人員喜愛。近年來在工業界也越來越流行。

適合：研究實驗、快速原型開發

Keras

高級API，簡潔易用，適合初學者。現已集成到TensorFlow中。

適合：快速搭建標準模型、教學

開始你的深度學習之旅

理論與實踐相結合，查看實戰應用案例，動手構建自己的深度學習項目。

實戰應用查看所有課程