Karakteristik Umum Himpunan Data (Data-Set) Dalam Data Mining
Saturday, November 2, 2019
Edit
Pengertian Himpunan Data Dalam Data Mining
Sebelum mempelajari dari karakteristik dari himpunan data, mungkin kita harus tahu terlebih dahulu pengertian dari himpunan data itu sendiri, Himpunan data (data-set) yakni kumpulan dari objek dan atributnya. Atribut merupakan sifat atau karakteristik dari suatu objek. Contohnya : Warna mata seseorang, suhu, dsb.Atribut juga dikenal sebagai variabel, field, karakteristik atau fitur. Kumpulan dari atribut menggambarkan sebuah Objek. Objek juga disebut dengan record, titik, kasus, sample, entitas atau instance. (Baca Juga: Definisi dan Tipe Data: Himpunan Data, Nilai Atribut, Sifat Atribut dan Tipe Atribut)
Karakteristik Umum Himpunan Data (Data-set) Dalam data Mining
Himpunan data (data-set) memiliki beberapa karakteristik umum yaitu :
1. Dimensionality
2. Sparsity
Sebelum mempelajari dari karakteristik dari himpunan data, mungkin kita harus tahu terlebih dahulu pengertian dari himpunan data itu sendiri, Himpunan data (data-set) yakni kumpulan dari objek dan atributnya. Atribut merupakan sifat atau karakteristik dari suatu objek. Contohnya : Warna mata seseorang, suhu, dsb.Atribut juga dikenal sebagai variabel, field, karakteristik atau fitur. Kumpulan dari atribut menggambarkan sebuah Objek. Objek juga disebut dengan record, titik, kasus, sample, entitas atau instance. (Baca Juga: Definisi dan Tipe Data: Himpunan Data, Nilai Atribut, Sifat Atribut dan Tipe Atribut)
Simber gambar: indiadataentry.co.uk
Karakteristik Umum Himpunan Data (Data-set) Dalam data Mining
Himpunan data (data-set) memiliki beberapa karakteristik umum yaitu :
1. Dimensionality
- Dimensionalitas dari sebuah data-set adalah'jumlah atribut yang dimiliki oleh objek-objek dalam data-set.
- Data dengan jumlah dimensi kecil punya kecenderungan berbeda secara kualitatif dibandingkan dengan data dimensi tinggi.
- Kesulitan yang bekerjasama dengan data dimensi tinggi sering disebut sebagai curse ofdimensionality.
- Untuk itu pada tahap preprocessing perlu dilakukan pengurangan dimensi (dimensionality reduction).
2. Sparsity
- Untuk beberapa data-set, misalkan data dengan fitur asimetris, kebanyakan atribut dari suatu objek memiliki nilai 0; dan biasanya kurang dari 1% memiliki nilai tidak nol.
- Sparsity memiliki laba dalam waktu komputasi dan penyimpanan data.
- Sifat dari data berbeda pada resolusi yang berbeda.
- Pola dalam data bergantung pada level resolusi.
- Jika resolusi terlalu baik [tidak ada perbedaan/halus), contoh mungkin tidak akan kelihatan; jikalau resolusi terlalu kasar, contoh juga akan hilang