Karakteristik Umum Himpunan Data (Data-Set) Dalam Data Mining

Pengertian Himpunan Data Dalam Data Mining

Sebelum mempelajari dari karakteristik dari himpunan data, mungkin kita harus tahu terlebih dahulu pengertian dari himpunan data itu sendiri, Himpunan data (data-set) ialah kumpulan dari objek dan atributnya. Atribut merupakan sifat atau karakteristik dari suatu objek. Contohnya : Warna mata seseorang, suhu, dsb.Atribut juga dikenal sebagai variabel, field, karakteristik atau fitur. Kumpulan dari atribut menggambarkan sebuah Objek. Objek juga disebut dengan record, titik, kasus, sample, entitas atau instance. (Baca Juga: Definisi dan Tipe Data: Himpunan Data, Nilai Atribut, Sifat Atribut dan Tipe Atribut)

Simber gambar: indiadataentry.co.uk

Karakteristik Umum Himpunan Data (Data-set) Dalam data Mining

Himpunan data (data-set) memiliki beberapa karakteristik umum yaitu :
1. Dimensionality
  • Dimensionalitas dari sebuah data-set adalah'jumlah atribut yang dimiliki oleh objek-objek dalam data-set.
  • Data dengan jumlah dimensi kecil punya kecenderungan berbeda secara kualitatif dibandingkan dengan data dimensi tinggi.
  • Kesulitan yang berafiliasi dengan data dimensi tinggi sering disebut sebagai curse ofdimensionality.
  • Untuk itu pada tahap preprocessing perlu dilakukan pengurangan dimensi (dimensionality reduction). 
Baca Juga: Tantangan dan Permasalahan data Mining

2. Sparsity
  • Untuk beberapa data-set, misalkan data dengan fitur asimetris, kebanyakan atribut dari suatu objek memiliki nilai 0; dan biasanya kurang dari 1% memiliki nilai tidak nol.
  • Sparsity memiliki laba dalam waktu komputasi dan penyimpanan data.
3. Resolution
  • Sifat dari data berbeda pada resolusi yang berbeda.
  • Pola dalam data bergantung pada level resolusi.
  • Jika resolusi terlalu baik [tidak ada perbedaan/halus), teladan mungkin tidak akan kelihatan; kalau resolusi terlalu kasar, teladan juga akan hilang

Iklan Atas Artikel

Iklan Tengah Artikel 1

Iklan Tengah Artikel 2

Iklan Bawah Artikel