Data Preprocessing 2


Graph Data
Contoh: Generic graph, HTML Link
Ordered Data
  • Sequences of transactions 
  • Perbedaannya dengan Transcation data?
Gambar Contoh Ordered Data

Ordered Data

  • Genomic Sequence Data
GGTTCCGCCTTCAGCCCCGCGCC CGCAGGGCCCGCCCCGCGCCGTC GAGAAGGGCCCGCCTGGCGGGCG GGGGGAGGCGGGGCCGCCCGAGC CCAACCGAGTCCGACCAGGTGCC CCCTCTGCTCGGCCTAGACCTGA GCTCATTAGGCGGCAGCGGACAG GCCAAGTAGAACACGCGAAGCGC TGGGCTGCCTGCTGCGACCAGGG
Kualitas Data
  • Apa saja masalah yang mempengaruhi kualitas data ? 
  • Bagaimana kita dapat mendeteksi masalah dalam data? 
  • Bagaimana cara mengatasinya?
Gambar Contoh data

Data Cleaning

  • Penanganan Missing value 
    • Data yang tidak lengkap, tidak diperhitungkan dalam algoritma DM. 
    • Mengisi missing value secara manual 
    • Menggunakan nilai konstan yang bersifat global: N/A, – 
    • Menggunakan nilai rata-rata atribut untuk mengisi missing value 
    • Menggunakan nilai rata-rata atribut untuk data yang berada dalam satu kelas 
    • Menggunakan nilai yang paling mungkin dengan teknik: regresi, decision tree, teorema Bayes. 
Contoh data


  • Penanganan Noise dan outlier 
    • Noise → random error atau variansi pada nilai variabel. 
Solusi: Smoothing
  • Binning 

  • Regression 
    • Mencari nilai suatu atribut berdasarkan nilai atribut lain 
    • Y = wx + b 
    • Y = nilai atribut 1 yang diketahui nilainya 
    • X = nilai atribut 2 yang ingin diketahui nilainya 
  • Clustering 
Data yang tidak termasuk dalam salah satu cluster - outlier

0 komentar

Post a Comment