Exploratory Data Analysis (EDA): Sebuah Pengantar

Rina
4 min readNov 18, 2024

--

1. Apa itu EDA?

Exploratory Data Analysis atau dikenal juga dengan EDA merupakan proses eksplorasi data yang bertujuan untuk memahami isi dan komponen penyusun apa saja yang terdapat dalam sebuah data.

Secara sederhana, EDA dapat digambarkan ketika seseorang hendak membeli HP. Tentunya, hal pertama yang akan ia lakukan adalah mencari tahu terkait spesifikasi HP yang akan dibeli baik dengan membaca artikel maupun dengan menonton video unboxing.

Tujuannya, agar ia mengetahui dan memahami apa aja sih spesifikasi dari HP tersebut. Misalnya RAM 4GB, kamera 12MP, battery 5000 mAh, dan seterusnya. Proses untuk mengetahui dan memahami spesifikasi dari HP tersebutlah yang dikenal dengan EDA.

Proses Exploratory Data Analysis

2. Manfaat EDA

Berdasarkan contoh ilustrasi di atas, dapat disimpulkan manfaat EDA adalah untuk mengetahui informasi terkait dataset yang akan digunakan seperti sumber data, tipe data, nama atribut, dan lain sebagainya.

Pasalnya, dalam kasus nyata, dataset yang dihasilkan sering kali masih kotor. Mayoritas di dalamnya terdapat nilai yang hilang (missing value), nilai outlier (nilai di luar rentang) serta noise atau data yang berisi nilai salah lainnya.

Setelah mengetahui berbagai informasi terkait dataset tersebut, kita bisa dengan mudah menentukan kira-kira algoritme apasih yang paling tepat untuk digunakan atau model seperti apa sih yang akan dibuat.

Namun, untuk mengetahui seluruh informasi tersebut, tentunya kita akan mengalami kesulitan jika harus menggunakan data dalam bentuk tabular (tabel). Untuk itu, kita membutuhkan visualisasi lain untuk menyelesaikannya.

3. Data Source

Data source atau sumber data merupakan salah satu elemen penting dalam data mining. Terdapat dua jenis sumber data yang digunakan untuk dataset, yaitu data privat dan data publik.

Data privat merupakan data yang diperoleh langsung dari suatu organisasi yang kita jadikan objek penelitian dan tidak boleh diakses secara bebas. Beberapa contoh data privat yaitu data siswa sekolah, karyawan perusahaan, bank, rumah sakit, dan lain sebagainya.

Sedangkan data publik adalah data yang diambil dari repositori publik, sehingga data yang tersimpan di sana dapat diakses dan diolah secara bebas oleh semua orang. Contoh data publik di antaranya data yang dibagikan oleh pemerintah atau organisasi publik seperti data kemiskinan, data ekonomi, data kesehatan, dan seterusnya. Beberapa situs yang menyediakan data publik yaitu:

4. Data Types

Memiliki pemahaman yang baik tentang berbagai jenis tipe data merupakan syarat penting sebelum melakukan analisis data eksplorasi (EDA). Mengapa penting? Karena setiap tipe data memiliki karakteristik yang berbeda antara tipe data satu dengan tipe data yang lainnya, sehingga untuk mengolah datanya pun pasti akan membutuhkan teknik yang berbeda.

Dalam kasus nyata, kita bisa analogikan pemahaman di atas ke dalam kasus beras dan beras ketan. Tentu kedua beras tersebut memiliki karakteristik yang berbeda dan cara pengolahan yang berbeda pula.

Bayangkan jika kita mengolahnya dengan cara yang sama, misal dibuat nasi goreng. Pasti hasil (output) yang diperoleh atau diharapkan akan berbeda.

Lalu, tipe data apa saja sih yang harus kita pahami? Secara umum, tipe data dibagi menjadi dua yaitu tipe data diskrit dan kontinu. Tipe data diskrit merupakan tipe data yang memiliki nilai pasti (tidak memiliki koma).

Jenis data ini tidak dapat diukur namun dapat dihitung. Misal banyaknya orang dalam satu ruangan berjumlah 20 orang, kita tidak mungkin akan mengatakan banyaknya orang yang ada di ruangan tersebut berjumlah 20,75 atau –20 orang.

Sedangkan tipe data kontinu merupakan data yang merepresentasikan sebuah pengukuran (bisa disajikan dalam bentuk koma). Oleh karena itu, nilai data tersebut tidak dapat dihitung tetapi dapat diukur. Beberapa contoh tipe data kontinu yaitu tinggi badan, berat badan, suhu di dalam sebuah ruangan, berapa lama waktu yang diperlukan untuk menempuh rumah mantan dan lain sebagainya.

Jenis Tipe Data

Dalam data mining, tipe data yang digunakan secara sederhana dibedakan menjadi data numerik dan kategorik. Data numerik atau disebut juga dengan data kontinu dibagi menjadi dua bagian yaitu ratio dan interval. Sedangkan data kategorik atau dikenal juga dengan data diskrit dibagi menjadi data ordinal dan data nominal.

Untuk mempermudah dalam memahami karakteristik dari tiap-tiap tipe data, dapat dilihat penjelasannya pada tabel di bawah ini:

Artikel berikutnya akan membahas berbagai tahapan pada proses Exploratory Data Analysis.

--

--

No responses yet