Dari Data ke AI: Cara LLM Bekerja di Balik Layar
- Rita Puspita Sari
- •
- 1 hari yang lalu
Ilustrasi Large Language Models
Dalam beberapa tahun terakhir, perkembangan kecerdasan buatan mengalami lonjakan yang sangat signifikan. Kehadiran model bahasa besar seperti GPT-4, Llama, dan Claude telah mengubah cara manusia berinteraksi dengan teknologi. Kini, mesin tidak hanya mampu memahami perintah, tetapi juga dapat menulis, menganalisis, bahkan membantu pengambilan keputusan secara kompleks.
Namun di balik kecanggihan tersebut, ada satu elemen penting yang sering luput dari perhatian: data. Tanpa data yang berkualitas, secanggih apa pun model yang digunakan tidak akan mampu menghasilkan output yang akurat dan bermanfaat. Di sinilah peran rekayasa data (data engineering) menjadi sangat krusial.
Artikel ini akan membahas bagaimana rekayasa data bertransformasi di era LLM, tantangan yang muncul, serta bagaimana pipeline data modern dirancang untuk mendukung sistem AI generatif yang semakin kompleks.
Transformasi dari BI ke Data Siap AI
Pada masa sebelumnya, rekayasa data identik dengan kebutuhan business intelligence (BI). Fokus utamanya adalah mengolah data terstruktur dari berbagai sistem operasional, seperti database transaksi, untuk kemudian disimpan dalam data warehouse. Data ini digunakan untuk analisis bisnis, laporan keuangan, dan pengambilan keputusan berbasis angka.
Namun, kebutuhan di era LLM jauh lebih luas. Data yang digunakan tidak lagi terbatas pada tabel dan angka, melainkan juga mencakup data tidak terstruktur seperti:
- Dokumen PDF
- Transkrip percakapan pelanggan
- Email dan chat internal
- Kode program dari repositori
- Konten website
Jenis data ini jauh lebih kompleks karena tidak memiliki format yang seragam. Oleh karena itu, pendekatan rekayasa data harus berubah: dari sekadar menyimpan dan merapikan data menjadi mengolah data agar “dapat dipahami” oleh model AI.
Transformasi ini melahirkan kebutuhan akan pipeline data baru yang mampu mendukung tiga tahap utama dalam siklus hidup LLM:
- Pelatihan (Training): Mengajarkan model memahami bahasa dan konteks.
- Inferensi (Inference): Menggunakan model untuk menjawab pertanyaan atau menghasilkan output.
- Evaluasi (Evaluation): Memastikan hasil yang diberikan model tetap akurat dan aman.
Tahap 1: Rekayasa Data untuk Pelatihan LLM
Pelatihan model LLM adalah proses yang sangat kompleks dan membutuhkan sumber daya besar. Di tahap ini, data engineer bertanggung jawab untuk menyiapkan dataset dalam skala besar yang berkualitas tinggi.
Tiga Pilar Utama Data Pelatihan
-
Volume Data
LLM belajar dari pola statistik dalam data. Untuk memahami bahasa manusia secara mendalam, model membutuhkan triliunan token (unit kata). Artinya, data yang digunakan bisa mencapai skala petabyte.Pengolahan data sebesar ini tidak mungkin dilakukan secara manual atau dengan sistem sederhana. Dibutuhkan teknologi pemrosesan terdistribusi seperti Apache Spark yang mampu membagi pekerjaan ke banyak server sekaligus.
-
Keragaman Data
Model yang hanya dilatih dengan satu jenis data akan memiliki pemahaman yang sempit. Misalnya, model yang hanya membaca dokumen hukum mungkin akan kesulitan memahami bahasa sehari-hari.Karena itu, data harus berasal dari berbagai sumber dan domain agar model mampu melakukan generalisasi. Semakin beragam data, semakin fleksibel kemampuan model.
-
Kualitas Data
Kualitas adalah faktor paling penting. Internet sebagai sumber data memiliki banyak masalah seperti:- Konten spam
- Informasi tidak akurat
- Teks duplikat
- Konten berbahaya
Pipeline data harus mampu menyaring semua ini melalui proses seperti deduplikasi, filtering bahasa, dan moderasi konten.
Selain itu, penting untuk menjaga data lineage atau jejak asal data. Hal ini membantu dalam pelacakan kesalahan serta memastikan kepatuhan terhadap regulasi.
Tahap 2: Arsitektur RAG sebagai Solusi Modern
Sebagian besar perusahaan tidak memiliki sumber daya untuk melatih model dari nol. Oleh karena itu, mereka menggunakan model yang sudah ada dan menggabungkannya dengan data internal. Pendekatan ini dikenal sebagai Retrieval-Augmented Generation (RAG).
Mengapa RAG Penting?
Model LLM memiliki keterbatasan: pengetahuannya berhenti pada saat pelatihan terakhir. Artinya, model tidak mengetahui informasi terbaru kecuali diberikan akses tambahan. RAG memungkinkan model untuk mengambil informasi terbaru secara real-time dari sumber data yang relevan.
Cara Kerja RAG
RAG adalah metode yang menggabungkan kemampuan model AI dengan pencarian data secara real-time. Tujuannya adalah agar model tidak hanya mengandalkan pengetahuan lama saat pelatihan, tetapi juga bisa mengambil informasi terbaru dan relevan saat dibutuhkan. Proses RAG melibatkan beberapa langkah penting:
-
Ingestion Data
Data internal dikumpulkan dari berbagai sumber seperti dokumen, database, dan sistem komunikasi. Data ini bisa berupa:- Dokumen PDF
- File Word atau presentasi
- Database perusahaan
- Email dan chat internal
- Halaman wiki atau knowledge base
Pada tahap ini, data engineer memastikan semua data penting masuk ke dalam sistem. Proses ini sering disebut sebagai “ingestion pipeline”.
-
Chunking
Dokumen yang terlalu panjang tidak bisa langsung diproses oleh model AI karena adanya batasan kapasitas (context window). Oleh karena itu, dokumen perlu dipecah menjadi bagian-bagian kecil yang disebut “chunk”. -
Embedding
Setiap potongan teks diubah menjadi representasi numerik (vektor) yang menggambarkan makna teks. -
Penyimpanan
Semua vektor yang dihasilkan kemudian disimpan dalam database khusus yang disebut vector database. Berbeda dengan database biasa, vector database dirancang untuk:- Menyimpan data dalam bentuk vektor
- Melakukan pencarian berdasarkan kemiripan makna
- Mengambil hasil dengan sangat cepat
Database ini menjadi “otak pencarian” dalam sistem RAG. Saat pengguna mengajukan pertanyaan:
- Pertanyaan diubah menjadi vektor
- Sistem mencari data yang paling relevan
- Data tersebut diberikan ke model untuk menghasilkan jawaban
Tantangan dalam Implementasi RAG
Keberhasilan RAG sangat bergantung pada kualitas pipeline data. Beberapa tantangan yang sering muncul antara lain:
- Strategi pemotongan teks yang kurang tepat
- Model embedding yang tidak sesuai
- Hasil pencarian yang tidak relevan
Di sinilah peran data engineer menjadi sangat penting dalam memastikan sistem berjalan optimal.
Tahap 3: Data Stack Modern untuk LLM
Untuk mendukung sistem berbasis LLM, dibutuhkan teknologi baru yang melengkapi infrastruktur data tradisional.
-
Vector Database
Berbeda dengan database biasa yang mencari berdasarkan kata kunci, vector database mencari berdasarkan makna. Ini memungkinkan pencarian yang lebih kontekstual dan relevan. Beberapa contoh teknologi yang digunakan antara lain Pinecone, Weaviate, Milvus, dan PostgreSQL dengan ekstensi pgvector. -
Framework Orkestrasi
Framework ini membantu mengatur alur kerja antara model, data, dan prompt. Dengan tools seperti LangChain dan LlamaIndex, developer dapat membangun aplikasi AI dengan lebih cepat dan terstruktur. -
Pemrosesan Data (ETL)
Proses ETL tetap menjadi tulang punggung rekayasa data. Data harus diekstrak, dibersihkan, dan disiapkan sebelum digunakan oleh model. Tools seperti Apache Spark masih sangat relevan di tahap ini. -
Integrasi dengan Sistem Lama
Penting untuk dipahami bahwa data stack modern tidak menggantikan sistem lama, melainkan melengkapinya. Data warehouse tetap digunakan untuk analisis terstruktur, sementara vector database digunakan untuk mendukung AI.
Tahap 4: Evaluasi dan Observabilitas
Berbeda dengan machine learning tradisional yang memiliki metrik jelas seperti akurasi, evaluasi pada AI generatif jauh lebih kompleks.
Beberapa pertanyaan yang harus dijawab antara lain:
- Apakah jawabannya benar?
- Apakah mudah dipahami?
- Apakah aman dan tidak bias?
- Analisis Kegagalan dalam RAG
Jika sistem menghasilkan jawaban yang salah, penyebabnya bisa berasal dari:
- Kegagalan Ingestion – Data tidak tersedia dalam sistem
- Kegagalan Retrieval – Data ada, tetapi tidak ditemukan
- Kegagalan Generasi – Model mengabaikan data yang diberikan
Untuk mengatasi hal ini, diperlukan sistem observabilitas yang mencatat seluruh proses, mulai dari pertanyaan pengguna hingga jawaban akhir.
Dengan data ini, tim dapat:
- Mengidentifikasi masalah
- Memperbaiki pipeline
- Meningkatkan kualitas model
Penutup
Era LLM telah mengubah lanskap teknologi secara fundamental. AI kini menjadi antarmuka utama dalam mengakses dan memanfaatkan data. Hal ini membuka peluang besar bagi para data scientist dan data engineer.
Namun, tantangan yang dihadapi juga semakin kompleks. Data tidak lagi hanya berbentuk tabel, tetapi juga teks, gambar, dan berbagai format lain yang tidak terstruktur. Oleh karena itu, kemampuan dalam mengelola data menjadi semakin penting.
Rekayasa data bukan lagi sekadar pendukung, melainkan fondasi utama dalam pembangunan sistem AI modern. Tanpa pipeline data yang baik, model AI tidak akan mampu memberikan hasil yang optimal.
Dengan memahami konsep-konsep seperti pipeline LLM, arsitektur RAG, dan data stack modern, Anda tidak hanya mengikuti perkembangan teknologi, tetapi juga menjadi bagian dari pembangunan masa depan kecerdasan buatan.
Pada akhirnya, keberhasilan AI bukan hanya ditentukan oleh seberapa canggih modelnya, tetapi oleh seberapa baik kita mengelola data yang menjadi bahan bakarnya.
