Panduan Lengkap Implementasi Multi-Head Attention Python

Mekanisme attention, khususnya self-attention, telah membawa perubahan signifikan dalam berbagai bidang kecerdasan buatan (AI), terutama pemrosesan bahasa alami (NLP) dan visi komputer. Kemampuannya untuk menimbang relevansi bagian-bagian berbeda dari data input memungkinkan model seperti Transformer mencapai kinerja canggih (state-of-the-art). Artikel ini akan memandu Anda langkah demi langkah mengimplementasikan varian penting dari self-attention, yaitu Multi-Head Self-Attention (MHSA), dari awal menggunakan Python dan Pytorch, tanpa bergantung pada pustaka Transformer tingkat tinggi.

Memahami Konsep Dasar Self-Attention dan Multi-Head Attention

Sebelum memulai implementasi kode, mari kita pahami konsep fundamental di balik mekanisme attention ini. Tujuannya adalah memberikan intuisi dan dasar yang kuat sebelum kita membangunnya.

Intuisi di Balik Mekanisme Attention

Secara intuitif, mekanisme attention meniru kemampuan kognitif manusia untuk fokus pada informasi relevan sambil mengabaikan sisanya saat memproses data. Bayangkan Anda menerjemahkan kalimat; Anda tidak melihat seluruh kalimat sumber sekaligus, melainkan fokus pada kata atau frasa tertentu saat menghasilkan setiap kata terjemahan. Demikian pula, saat meringkas teks, Anda mengidentifikasi kalimat kunci. Mekanisme attention dalam deep learning memungkinkan model melakukan hal serupa: secara dinamis memberikan “bobot” atau “perhatian” lebih tinggi pada bagian input yang paling penting untuk tugas yang dihadapi. Bagi Anda yang ingin belajar attention mechanism Python, memahami intuisi ini adalah langkah awal yang baik. Penjelasan self-attention untuk pemula sering kali dimulai dari analogi sederhana ini.

Scaled Dot-Product Attention (SDPA): Inti Self-Attention

Self-attention adalah jenis mekanisme attention di mana sebuah urutan (sequence) memperhatikan dirinya sendiri. Artinya, untuk setiap elemen dalam urutan (misalnya, kata dalam kalimat), model menghitung seberapa relevan elemen lain dalam urutan yang sama terhadap elemen tersebut. Varian paling umum yang digunakan dalam Transformer adalah Scaled Dot-Product Attention (SDPA). Dalam SDPA, tiga representasi berbeda dihasilkan dari setiap elemen input: Query (Q), Key (K), dan Value (V). Interaksi antara Q, K, dan V inilah yang menentukan bobot attention.

Multi-Head Self-Attention (MHSA): Meningkatkan Kemampuan

Multi-Head Self-Attention (MHSA) merupakan pengembangan dari SDPA. Alih-alih menghitung attention sekali, MHSA melakukannya beberapa kali secara paralel (disebut “heads”). Setiap head beroperasi pada bagian (subspace) yang berbeda dari representasi input. Hal ini memungkinkan model untuk secara bersamaan memperhatikan kombinasi fitur yang berbeda dari posisi yang berbeda. Cara kerja multi-head self-attention melibatkan pembagian Q, K, dan V menjadi beberapa bagian, menghitung attention secara terpisah untuk setiap bagian (head), lalu menggabungkan hasilnya. Keunggulan utama dibandingkan single-head attention adalah kemampuannya menangkap jenis hubungan yang lebih kaya dan beragam dalam data. Memahami perbedaan self-attention dan multi-head ini penting untuk mengapresiasi kekuatan arsitektur Transformer.

Matematika di Balik Scaled Dot-Product Attention

Untuk mengimplementasikan SDPA, kita perlu memahami perhitungan matematis yang mendasarinya. Mari kita bedah formula dan langkah-langkahnya.

Query, Key, dan Value: Blok Bangunan SDPA

Seperti disebutkan sebelumnya, Q, K, dan V adalah inti dari self-attention. Mereka biasanya dihasilkan dengan mengalikan vektor embedding input asli dengan matriks bobot yang berbeda (Wq, Wk, Wv) yang dipelajari selama pelatihan model.

Query (Q): Merepresentasikan elemen saat ini yang sedang “bertanya” atau mencari informasi relevan.
Key (K): Merepresentasikan semua elemen dalam urutan (termasuk elemen itu sendiri) yang “menawarkan” informasi. Setiap Key terkait dengan Value-nya.
Value (V): Merepresentasikan konten atau informasi aktual dari elemen yang sesuai dengan Key.

Analogi: Bayangkan mencari video di YouTube. Query Anda adalah teks pencarian. Setiap judul video (Key) “menawarkan” kontennya. Berdasarkan seberapa cocok Query Anda dengan Key (judul), YouTube menampilkan video yang relevan (Value).

Menghitung Skor Attention: Interaksi Q dan K

Langkah pertama adalah menghitung skor kecocokan antara setiap Query (dari satu elemen) dan semua Key (dari semua elemen dalam urutan). Ini dilakukan menggunakan perkalian titik (dot product).

Score = Q @ K^T

Di mana K^T adalah transpose dari matriks Key. Hasilnya adalah matriks skor di mana setiap elemen (i, j) menunjukkan seberapa relevan elemen input ke-j terhadap elemen input ke-i. Ini adalah salah satu langkah-langkah implementasi self-attention yang paling krusial.

Pentingnya Penskalaan (Scaling Factor)

Perkalian titik dapat menghasilkan nilai yang sangat besar, terutama ketika dimensi Key (d_k) tinggi. Jika nilai-nilai ini dimasukkan langsung ke fungsi softmax (langkah berikutnya), gradien bisa menjadi sangat kecil, sehingga menghambat proses pembelajaran. Untuk mengatasi ini, skor dibagi dengan akar kuadrat dari dimensi Key:

Scaled Score = (Q @ K^T) / sqrt(d_k)

Faktor penskalaan ini membantu menstabilkan gradien dan proses pelatihan.

Normalisasi Skor dengan Softmax

Skor yang telah diskalakan kemudian dinormalisasi menggunakan fungsi softmax. Fungsi ini mengubah skor menjadi distribusi probabilitas, di mana semua nilai berada di antara 0 dan 1, dan jumlah totalnya adalah 1.

Weights = Softmax(Scaled Score)

Hasilnya, Weights, sering disebut sebagai bobot attention. Setiap baris dalam matriks `Weights` menunjukkan seberapa besar “perhatian” yang harus diberikan oleh satu elemen input ke setiap elemen lain dalam urutan (termasuk dirinya sendiri).

Menghasilkan Output Akhir: Weighted Sum of Values

Langkah terakhir adalah mengalikan matriks bobot attention (`Weights`) dengan matriks Value (`V`).

Output = Weights @ V

Operasi ini menghasilkan representasi output untuk setiap elemen input. Setiap representasi adalah penjumlahan tertimbang (weighted sum) dari semua Value dalam urutan, dengan bobot yang ditentukan oleh `Weights`. Artinya, elemen input yang dianggap lebih relevan (memiliki bobot attention lebih tinggi) akan memberikan kontribusi lebih besar pada representasi output elemen saat ini.

Implementasi Scaled Dot-Product Attention dengan Python (PyTorch)

Sekarang kita akan menerjemahkan matematika di atas ke dalam kode Python menggunakan PyTorch. Konsepnya serupa jika Anda menggunakan TensorFlow atau NumPy (meskipun NumPy tidak memiliki autograd untuk pelatihan). PyTorch dipilih karena popularitasnya dalam riset deep learning.

Persiapan: Instalasi PyTorch

Pastikan Anda telah menginstal PyTorch. Jika belum, instal menggunakan pip:

pip install torch

Selanjutnya, kita akan membuat fungsi untuk SDPA.

Kode Implementasi SDPA dengan PyTorch

Berikut adalah fungsi Python yang mengimplementasikan SDPA menggunakan PyTorch. Fungsi ini akan menjadi inti dari modul Multi-Head Attention kita nanti.


import torch
import torch.nn.functional as F
import math

def scaled_dot_product_attention(Q, K, V, mask=None):
    """
    Menghitung Scaled Dot-Product Attention.

    Args:
        Q (torch.Tensor): Tensor Query, shape (batch_size, num_heads, seq_len_q, d_k)
        K (torch.Tensor): Tensor Key, shape (batch_size, num_heads, seq_len_k, d_k)
        V (torch.Tensor): Tensor Value, shape (batch_size, num_heads, seq_len_v, d_v)
                          (Biasanya seq_len_k == seq_len_v)
        mask (torch.Tensor, optional): Mask boolean atau float, shape broadcastable
                                       ke (batch_size, num_heads, seq_len_q, seq_len_k).
                                       Nilai 0 pada mask akan diabaikan.
                                       Defaults to None.

    Returns:
        torch.Tensor: Tensor output attention, shape (batch_size, num_heads, seq_len_q, d_v)
        torch.Tensor: Tensor bobot attention, shape (batch_size, num_heads, seq_len_q, seq_len_k)
    """
    d_k = K.size(-1)  # Dimensi Key

    # 1. Hitung skor: Matmul Q dengan K transpose
    # (..., seq_len_q, d_k) @ (..., d_k, seq_len_k) -> (..., seq_len_q, seq_len_k)
    scores = torch.matmul(Q, K.transpose(-2, -1))

    # 2. Scaling skor
    scores = scores / math.sqrt(d_k)

    # 3. Terapkan mask (jika ada)
    # Masking mengabaikan posisi tertentu (misal, padding atau future tokens)
    if mask is not None:
        # Mengisi nilai sangat kecil (-1e9 atau -inf) pada posisi yang di-mask (mask == 0)
        scores = scores.masked_fill(mask == 0, float('-inf'))

    # 4. Normalisasi dengan Softmax pada dimensi Key (terakhir)
    attention_weights = F.softmax(scores, dim=-1)

    # 5. Hitung output tertimbang: Matmul bobot attention dengan V
    # (..., seq_len_q, seq_len_k) @ (..., seq_len_v, d_v) -> (..., seq_len_q, d_v)
    # (seq_len_k == seq_len_v)
    output = torch.matmul(attention_weights, V)

    return output, attention_weights

Ini adalah kode scaled dot-product attention Python dasar. Kode ini menjadi fondasi untuk tutorial multi-head attention PyTorch yang lebih lengkap.

Membedah Kode SDPA

d_k = K.size(-1): Mendapatkan dimensi d_k dari tensor Key.
scores = torch.matmul(Q, K.transpose(-2, -1)): Melakukan perkalian matriks antara Q dan transpose K (menukar dua dimensi terakhir).
scores = scores / math.sqrt(d_k): Melakukan penskalaan skor.
if mask is not None: ... masked_fill(mask == 0, float('-inf')): Jika mask diberikan (nilai 0 menandakan posisi yang harus diabaikan), kita mengisi posisi skor tersebut dengan nilai negatif tak terhingga (atau angka negatif sangat besar seperti -1e9). Ini memastikan bobot attention setelah softmax menjadi 0 untuk posisi tersebut.
attention_weights = F.softmax(scores, dim=-1): Menerapkan fungsi softmax pada dimensi terakhir (dimensi Key) untuk mendapatkan bobot attention yang ternormalisasi (jumlah = 1).
output = torch.matmul(attention_weights, V): Melakukan perkalian matriks antara bobot attention dan tensor Value untuk mendapatkan output akhir.
Fungsi mengembalikan output dan attention_weights (berguna untuk analisis).

Membangun Multi-Head Attention: Konsep dan Arsitektur

Setelah memahami dan mengimplementasikan SDPA, langkah selanjutnya adalah membangun Multi-Head Attention (MHSA) dengan menggabungkan beberapa mekanisme SDPA secara paralel. Ini adalah komponen kunci dalam membangun Transformer Python dan memahami arsitektur Transformer dari awal.

Proyeksi Linear: Menciptakan Input untuk Setiap Head

Dalam MHSA, input asli (setelah embedding) tidak langsung digunakan sebagai Q, K, V untuk satu SDPA. Sebaliknya, input diproyeksikan secara linear menggunakan matriks bobot yang berbeda untuk *setiap head*. Jika kita memiliki h head dan dimensi model adalah d_model, maka input asli (dimensi d_model) diproyeksikan menjadi h set Q, K, dan V. Setiap set ini kemudian dibagi lagi sehingga tiap head memproses Q, K, V dengan dimensi d_k = d_v = d_model / h. Penting memastikan d_model habis dibagi h. Proyeksi ini memungkinkan setiap head mempelajari representasi atau hubungan yang berbeda dari input.

Paralelisasi: Menjalankan SDPA di Setiap Head

Setelah mendapatkan representasi Q, K, V yang telah dibagi untuk h head, fungsi scaled_dot_product_attention yang telah kita buat diterapkan pada setiap set secara independen dan paralel. Ini berarti kita menghitung attention h kali, masing-masing dengan potensi fokus yang berbeda karena berasal dari proyeksi linear yang berbeda.

Menggabungkan Hasil dari Setiap Head

Output dari setiap head (Output_i, yang memiliki dimensi d_v) kemudian digabungkan (concatenated) kembali sepanjang dimensi fitur. Jika setiap head menghasilkan output dengan dimensi d_v, dan ada h head, maka hasil penggabungan akan memiliki dimensi h * d_v. Karena kita mengatur d_v = d_model / h, dimensi total setelah penggabungan adalah h * (d_model / h) = d_model, kembali ke dimensi input awal.

Proyeksi Linear Akhir: Menghasilkan Output MHSA

Terakhir, hasil gabungan dari semua head dilewatkan melalui satu lapisan linear (proyeksi) akhir dengan matriks bobot W^O. Lapisan ini mencampur informasi dari semua head dan memproyeksikan kembali hasil gabungan ke dimensi output yang diinginkan, yang biasanya juga d_model.

Tutorial Implementasi Multi-Head Self-Attention Python (PyTorch)

Mari kita implementasikan arsitektur MHSA sebagai sebuah kelas `nn.Module` di PyTorch, menggunakan fungsi `scaled_dot_product_attention` yang sudah kita buat. Ini adalah inti dari implementasi Multi-Head Self-Attention Python.

Inisialisasi Kelas `MultiHeadAttention`

Dalam konstruktor kelas, kita mendefinisikan parameter utama dan menginisialisasi lapisan-lapisan linear yang dibutuhkan.


import torch
import torch.nn as nn

class MultiHeadAttention(nn.Module):
    def __init__(self, d_model, num_heads):
        """
        Inisialisasi modul Multi-Head Attention.

        Args:
            d_model (int): Dimensi embedding model (input dan output).
            num_heads (int): Jumlah head attention paralel.
        """
        super(MultiHeadAttention, self).__init__()
        assert d_model % num_heads == 0, "d_model harus habis dibagi num_heads"

        self.d_model = d_model
        self.num_heads = num_heads
        self.d_k = d_model // num_heads # Dimensi per head (d_k = d_v)

        # Lapisan linear untuk proyeksi Q, K, V
        # Alternatif: satu lapisan besar nn.Linear(d_model, d_model * 3) lalu di-split
        self.W_q = nn.Linear(d_model, d_model)
        self.W_k = nn.Linear(d_model, d_model)
        self.W_v = nn.Linear(d_model, d_model)

        # Fungsi SDPA yang sudah kita buat sebelumnya
        # (Diasumsikan `scaled_dot_product_attention` sudah terdefinisi di scope ini)

        # Lapisan linear akhir untuk output
        self.W_o = nn.Linear(d_model, d_model)

    def split_heads(self, x, batch_size):
        """
        Membagi dimensi d_model menjadi (num_heads, d_k).
        Input: (batch_size, seq_len, d_model)
        Output: (batch_size, num_heads, seq_len, d_k)
        """
        # Reshape menjadi (batch_size, seq_len, num_heads, d_k)
        x = x.view(batch_size, -1, self.num_heads, self.d_k)
        # Transpose agar num_heads menjadi dimensi kedua
        # -> (batch_size, num_heads, seq_len, d_k)
        return x.transpose(1, 2)

    def forward(self, Q_in, K_in, V_in, mask=None):
        """
        Forward pass untuk Multi-Head Attention.

        Args:
            Q_in (torch.Tensor): Input Query, shape (batch_size, seq_len_q, d_model)
            K_in (torch.Tensor): Input Key, shape (batch_size, seq_len_k, d_model)
            V_in (torch.Tensor): Input Value, shape (batch_size, seq_len_v, d_model)
            mask (torch.Tensor, optional): Mask untuk attention. Defaults to None.

        Returns:
            torch.Tensor: Output MHSA, shape (batch_size, seq_len_q, d_model)
            torch.Tensor: Bobot attention, shape (batch_size, num_heads, seq_len_q, seq_len_k)
        """
        batch_size = Q_in.size(0)

        # 1. Proyeksi linear Q, K, V
        # Hasilnya masih (batch_size, seq_len_*, d_model)
        Q = self.W_q(Q_in)
        K = self.W_k(K_in)
        V = self.W_v(V_in)

        # 2. Bagi Q, K, V menjadi beberapa head (split_heads)
        # Hasilnya (batch_size, num_heads, seq_len_*, d_k)
        Q = self.split_heads(Q, batch_size)
        K = self.split_heads(K, batch_size)
        V = self.split_heads(V, batch_size)

        # 3. Hitung Scaled Dot-Product Attention (paralel untuk semua head)
        # scaled_attention shape: (batch_size, num_heads, seq_len_q, d_k)
        # attention_weights shape: (batch_size, num_heads, seq_len_q, seq_len_k)
        scaled_attention, attention_weights = scaled_dot_product_attention(Q, K, V, mask)

        # 4. Gabungkan kembali hasil dari semua head
        # Transpose kembali -> (batch_size, seq_len_q, num_heads, d_k)
        scaled_attention = scaled_attention.transpose(1, 2).contiguous()
        # Reshape/Concatenate -> (batch_size, seq_len_q, d_model)
        concat_attention = scaled_attention.view(batch_size, -1, self.d_model)

        # 5. Proyeksi linear akhir
        # Hasilnya (batch_size, seq_len_q, d_model)
        output = self.W_o(concat_attention)

        return output, attention_weights

Logika Forward Pass: Proyeksi dan Pemisahan Head

Input Q_in, K_in, V_in pertama kali dilewatkan melalui lapisan linear W_q, W_k, W_v. Dimensi tetap (batch_size, seq_len, d_model).
Fungsi split_heads kemudian digunakan. view(batch_size, -1, self.num_heads, self.d_k) membagi dimensi d_model menjadi num_heads dan d_k. transpose(1, 2) menukar dimensi seq_len dan num_heads agar dimensi num_heads menjadi yang kedua, sesuai format input SDPA dan memungkinkan pemrosesan paralel per head.

Logika Forward Pass: Aplikasi SDPA Paralel

Fungsi scaled_dot_product_attention dipanggil. Karena Q, K, V kini berdimensi (batch_size, num_heads, seq_len, d_k), operasi torch.matmul di dalam SDPA secara otomatis menangani perhitungan attention untuk setiap head secara paralel berkat mekanisme broadcasting PyTorch.

Logika Forward Pass: Penggabungan dan Proyeksi Akhir

Output dari SDPA, scaled_attention, perlu digabungkan. Pertama, transpose(1, 2) mengembalikan dimensi num_heads dan seq_len ke posisi semula: (batch_size, seq_len_q, num_heads, d_k).
.contiguous() dipanggil untuk memastikan tensor disimpan dalam blok memori yang berdekatan setelah transpose, yang seringkali diperlukan sebelum operasi .view().
view(batch_size, -1, self.d_model) menggabungkan dua dimensi terakhir (num_heads dan d_k) kembali menjadi d_model. Ini secara efektif menggabungkan output dari semua head.
Hasil gabungan ini kemudian dilewatkan melalui lapisan linear akhir W_o untuk menghasilkan output akhir modul MHSA dengan dimensi (batch_size, seq_len_q, d_model).

Penjelasan Lengkap Kode `MultiHeadAttention`

Kode di atas menyajikan implementasi lengkap kelas `MultiHeadAttention` di PyTorch, sebuah blok bangunan fundamental dalam banyak arsitektur AI modern.

__init__: Menginisialisasi lapisan proyeksi Q, K, V, lapisan output, dan menyimpan parameter penting seperti d_model, num_heads, dan d_k.
split_heads: Fungsi utilitas untuk memanipulasi bentuk tensor agar sesuai dengan pemrosesan multi-head.
forward: Mendefinisikan alur pemrosesan data: proyeksi input -> pemisahan head -> perhitungan SDPA paralel -> penggabungan hasil head -> proyeksi output akhir.

Meskipun tutorial ini fokus pada PyTorch, logika serupa berlaku untuk implementasi di TensorFlow/Keras. Konsep dasarnya (proyeksi, pemisahan, SDPA, penggabungan, proyeksi akhir) tetap sama, hanya sintaks API yang berbeda (misalnya, menggunakan `tf.keras.layers.Dense`, `tf.matmul`, `tf.transpose`, `tf.reshape`).

Contoh Penggunaan Multi-Head Attention Sederhana

Mari kita lihat cara menggunakan kelas `MultiHeadAttention` yang baru saja kita buat dengan input dummy.


# Asumsikan kelas MultiHeadAttention dan fungsi scaled_dot_product_attention sudah terdefinisi

# Parameter
batch_size = 4
seq_length = 10   # Panjang sekuens input
d_model = 512     # Dimensi embedding model
num_heads = 8       # Jumlah attention heads

# Buat instance modul MHSA
mha_layer = MultiHeadAttention(d_model, num_heads)

# Buat input dummy (Q, K, V berasal dari sumber yang sama untuk self-attention)
# Shape: (batch_size, seq_length, d_model)
input_tensor = torch.randn(batch_size, seq_length, d_model)

# Buat mask dummy (opsional, contoh: tidak ada mask)
# Jika ada mask, pastikan shape-nya sesuai atau broadcastable
attn_mask = None

# Jalankan forward pass
# Untuk self-attention: Q_in = K_in = V_in = input_tensor
output, attention_weights = mha_layer(input_tensor, input_tensor, input_tensor, mask=attn_mask)

# Cetak dimensi input dan output
print("Input shape:", input_tensor.shape)
print("Output shape:", output.shape)
print("Attention weights shape:", attention_weights.shape)

# Output yang diharapkan:
# Input shape: torch.Size([4, 10, 512])
# Output shape: torch.Size([4, 10, 512])
# Attention weights shape: torch.Size([4, 8, 10, 10])

Contoh ini menunjukkan bahwa output dari lapisan MHSA memiliki dimensi yang sama dengan input (`batch_size, seq_length, d_model`), sehingga mudah ditumpuk dalam arsitektur deep learning. Bobot attention (`attention_weights`) memiliki dimensi `(batch_size, num_heads, seq_len_q, seq_len_k)`, memberikan informasi bobot untuk setiap head secara terpisah.

Kesimpulan: Menguasai Multi-Head Self-Attention Python

Melalui tutorial ini, kita telah membedah dan mengimplementasikan mekanisme Multi-Head Self-Attention dari awal menggunakan PyTorch.

Rangkuman: Dari Konsep ke Kode

Kita mulai dari intuisi dasar attention, memahami komponen Scaled Dot-Product Attention (Query, Key, Value, scaling, softmax), lalu membangun di atasnya untuk menciptakan Multi-Head Attention. Anda sekarang memiliki pemahaman konseptual dan kode implementasi fungsional untuk Self-Attention Python dari Awal, khususnya varian multi-head yang kuat.

Koneksi ke Arsitektur Transformer dan Aplikasinya

Multi-Head Self-Attention adalah inovasi kunci dan blok bangunan fundamental dari arsitektur Transformer (“Attention Is All You Need”). Kemampuannya menangkap dependensi jarak jauh dalam data secara efisien telah membuatnya sangat sukses. Lapisan MHSA digunakan baik di encoder maupun decoder Transformer. Memahami MHSA adalah langkah penting untuk memahami cara kerja model canggih seperti BERT, GPT, dan lainnya, yang mendasari banyak aplikasi NLP modern. Pengetahuan ini juga krusial jika Anda tertarik membangun Transformer Python atau memahami arsitektur Transformer dari awal.

Sumber Belajar Lebih Lanjut

Untuk pendalaman lebih lanjut, Anda bisa merujuk ke sumber-sumber berikut:

Paper asli: Vaswani, A., et al. (2017). Attention Is All You Need.
Dokumentasi resmi PyTorch atau TensorFlow mengenai lapisan Attention.
Tutorial dan blog post lain yang membahas implementasi Transformer (misalnya, “The Annotated Transformer” oleh Harvard NLP).

Teruslah berlatih dan bereksperimen untuk benar-benar menguasai konsep dan implementasi attention mechanism Python.

Menguasai mekanisme seperti Multi-Head Self-Attention membuka pintu untuk mengembangkan solusi AI yang lebih canggih dan efektif. Jika Anda tertarik menerapkan atau mengintegrasikan teknologi AI terdepan seperti ini ke dalam bisnis Anda, Kirim.ai siap membantu. Sebagai pemimpin dalam solusi digital berbasis AI, kami menawarkan pengembangan platform AI khusus, termasuk aplikasi mobile dan website, serta platform SaaS kami sendiri yang dilengkapi alat AI canggih. Kami juga menyediakan AI Agent untuk optimasi SEO otomatis yang berkelanjutan. Dengan solusi lengkap kami, mulai dari pengembangan hingga strategi pemasaran digital, Kirim.ai dapat menjadi mitra strategis Anda dalam mendorong pertumbuhan bisnis di era digital. Dapatkan konsultasi gratis untuk membahas bagaimana AI dapat mentransformasi bisnis Anda.

Memahami Konsep Dasar Self-Attention dan Multi-Head Attention

Intuisi di Balik Mekanisme Attention

Scaled Dot-Product Attention (SDPA): Inti Self-Attention

Multi-Head Self-Attention (MHSA): Meningkatkan Kemampuan

Matematika di Balik Scaled Dot-Product Attention

Query, Key, dan Value: Blok Bangunan SDPA

Menghitung Skor Attention: Interaksi Q dan K

Pentingnya Penskalaan (Scaling Factor)

Normalisasi Skor dengan Softmax

Menghasilkan Output Akhir: Weighted Sum of Values

Implementasi Scaled Dot-Product Attention dengan Python (PyTorch)

Persiapan: Instalasi PyTorch

Kode Implementasi SDPA dengan PyTorch

Membedah Kode SDPA

Membangun Multi-Head Attention: Konsep dan Arsitektur

Proyeksi Linear: Menciptakan Input untuk Setiap Head

Paralelisasi: Menjalankan SDPA di Setiap Head

Menggabungkan Hasil dari Setiap Head

Proyeksi Linear Akhir: Menghasilkan Output MHSA

Tutorial Implementasi Multi-Head Self-Attention Python (PyTorch)

Inisialisasi Kelas `MultiHeadAttention`

Logika Forward Pass: Proyeksi dan Pemisahan Head

Logika Forward Pass: Aplikasi SDPA Paralel

Logika Forward Pass: Penggabungan dan Proyeksi Akhir

Penjelasan Lengkap Kode `MultiHeadAttention`

Contoh Penggunaan Multi-Head Attention Sederhana

Kesimpulan: Menguasai Multi-Head Self-Attention Python

Rangkuman: Dari Konsep ke Kode

Koneksi ke Arsitektur Transformer dan Aplikasinya

Sumber Belajar Lebih Lanjut

SEO Jago AI

Tanggapan (0 )

Tetap terhubung dengan AI

👋 Kami ada di media sosial

✨ 10 Kategori Terpopuler

AI

Eksplorasi

Edukasi

Open Source

Model

Riset

Ekonomi

NLP

Otomatisasi

Generatif