Data Preprocessing


What is Data?
  • Kumpulan objek dan atributnya 
Atribut adalah properti atau karakteristik sebuah objek.
Contoh: warna mata seseorang, suhu, status perkawinan, dll.  Atribut = variabel, field, karakteristik, fitur

  • Kumpulan atribut mendeskripsikan sebuah objek tertentu. 
Objek = record, point, case, sample, entitas, atau instance

Attribute Values
  • Attribute values 
Bilangan atau simbol yang mengisi sebuah atribut.
  • Perbedaan antara attribute dan attribute values 
- Beberapa atribut dapat dipetakan ke dalam beberapa attribute values yang berbeda
Contoh: tinggi dapat diukur dalam meter atau kaki.

- Beberapa atribut dapat dipetakan ke dalam himpunan nilai yang sama.
Contoh : Attribute values untuk ID dan usia adalah integer 

Namun, sifat dari attribute values dapat berbeda ID has no limit but age has a maximum and minimum value

Types of Attributes
  • Nominal: hanya membedakan (klasifikasi) 
Contoh: Nomor ID, warna mata, kode pos
  • Ordinal - ada jenjang / urutan / tingkat 
Contoh: rankings (Kepedasan sambal dalam skala 1-10), nilai, ukuran pakaian {XXL,XL,L,M,S}
  • Interval - selisihnya ada arti 
Contoh: tanggal
  • Ratio - bisa dibandingkan, angka 0 memiliki arti sendiri 
Contoh: Temperatur, panjang, waktu, volume air

Operasi pada Atribut
  • Kesamaan : = ≠  Urutan : < > 
  • Penambahan : + - 
  • Perkalian : * / 
Bagaimana hubungan antara atribut dengan operasi?


Atribut Diskrit dan Kontinu
  • Atribut Diskrit 
- Memiliki jumlah yang terbatas dan dapat dihitung
- Contoh: kode pos, himpunan jumlah kata dalam koleksi dokumen.
- Seringkali direpresentasikan sebagai variabel integer.

  • Atribut Kontinu 
- Nilai atributnya menggunakan bilangan riil
- Contoh: suhu, panjang, berat. 


Tipe Dataset
  • Record 
    • Data Matrix 
    • Document Data 
    • Transaction Data 
  • Graph 
    • World Wide Web 
    • Mollecular Structures 
  • Ordered 
    • Spatial Data 
    • Temporal Data 
    • Sequential Data 
    • Genetic Sequence Data
Record Data
Data yang terdiri dari kumpulan record, dimana setiap record memiliki himpunan atribut yang tetap.

Data Matrix
  • Jika objek data memiliki himpunan atribut numerik yang tetap, maka objek data dapat dianggap sebagai titik dalam ruang multidimensi di mana setiap dimensi merupakan sebuah atribut 
  • Data set dapat direpresentasikan sebagai matriks m x n, di mana m adalah baris, untuk setiap objek, dan n adalah kolom untuk setiap atribut.
Document Data
Document - vektor “term/kata”

  • Setiap term adalah komponen/atribut dari vektor 
  • Nilai setiap komponen adalah jumlah kemunculan term dalam dokumen
Transaction Data
Tipe khusus dari data record, di mana

  • Setiap record/transaksi melibatkan beberapa item. 
  • Contoh: Kumpulan produk yang dibeli = transaksi, produk= item

0 komentar

Post a Comment