DETEKSI SPAM EMAIL MENGGUNAKAN MODEL TRANSFORMER BERBASIS NATURAL LANGUAGE PROCESSING (NLP): STUDI KASUS PADA DATASET PUBLIK EMAIL

POETRA, HAIDAR RAMBANG and abdurrasyid, abdurrasyid and Putra, Rakhmadi Irfansyah (2025) DETEKSI SPAM EMAIL MENGGUNAKAN MODEL TRANSFORMER BERBASIS NATURAL LANGUAGE PROCESSING (NLP): STUDI KASUS PADA DATASET PUBLIK EMAIL. Diploma thesis, ITPLN.

[thumbnail of 202131118_Haidar Rambang Poetra_Revisi_Skrips_Haidar Rambang Poetr.pdf] Text
202131118_Haidar Rambang Poetra_Revisi_Skrips_Haidar Rambang Poetr.pdf
Restricted to Registered users only

Download (2MB)

Abstract

Penelitian ini bertujuan untuk mengembangkan sistem deteksi spam email dengan memanfaatkaan pendekatan Natural Language Processing (NLP) berbasis arsitektur Transformer. Sistem ini dirancang untuk mengatasi keterbatasan metode tradisional dalam mendeteksi ancaman spam yang semakin kompleks, seperti phising berbasis AI dan pemalsuan domain. Model yang digunakan adalah DistilBERT, sebuah varian ringan dari BERT yang dirancang agar lebih efisien secara komputasi. Model dilatih melalui proses fine-tuning pada dataset publik berisi 5.728 email yang telah melalui tahapan pra pemrosesan teks. Evaluasi kinerja dilakukan menggunakan metrik akurasi, precision, recall, dan F1-score. Hasil pengujian menunjukkan bahwa model mencapai akurasi sebesar 0,9953 dan F1-score 0,9903, dengan waktu pelatihan rata-rata lebih efisien dan cepat. Temuan ini menunjukkan bahwa DistilBERT dapat menjadi alternatif yang cukup andal dan efisien untuk sistem deteksi spam real-time, terutama pada lingkungan yang memiliki keterbatasan sumber daya komputasi.

This study aims to develop an email spam detection system using a Transformer-based Natural Language Processing (NLP) approach. The system addresses limitations in traditional methods when dealing with advanced spam threats, such as AI-generated phishing and domain spoofing. The proposed model is DistilBERT, a lightweight variant of BERT optimized for computational efficiency. The model was fine-tuned on a publicly available dataset containing 5,728 email samples after pre-processing steps such as normalization and tokenization. Model performance was evaluated using accuracy, precision, recall, and F1-score metrics. Results indicate that the model achieved an accuracy of 0.9953 and an F1-score of 0.9903, with an average training time of approximately 4.5 minutes. These findings suggest that DistilBERT offers a reliable and efficient alternative for real-time spam detection, particularly in environments with limited computing resources.

Item Type: Thesis (Diploma)
Uncontrolled Keywords: deteksi email, keamanan siber, pembelajaran mendalam, pemrosesan bahasa alami, klasifikasi teks. email detection, cybersecurity, deep learning, natural language processing, text classification.
Subjects: Skripsi
Bidang Keilmuan > Teknik Informatika
Divisions: Fakultas Telematika Energi > S1 Teknik Informatika
Depositing User: Sudarman
Date Deposited: 09 Oct 2025 08:51
Last Modified: 09 Oct 2025 08:51
URI: https://repository.itpln.ac.id/id/eprint/2025

Actions (login required)

View Item
View Item