Metode pengukuran similarity/Dissimilarity


Sifat umum DissimilarityDissimilarity dikenal juga sebagai jarak antar data ( d ).

Sifat umumnya:
d ( p , q ) ≥ 0 for all p and q , and d ( p , q ) = 0 if and only if p = q ,
d ( p , q ) = d(q,p) for all p and q ,
d ( p , r ) ≤ d ( p , q ) + d ( p , r ) for all p , q , and r, where d ( p , q ) is the distance (dissimilarity) between points (data objects), p and q .

Dissimilarity
1. Euclidean Distance (Jarak Euclidean) 
  • Dengan ketentuan: n adalah jumlah dimensi (atribut), p k dan q k adalah nilai atribut ke-k untuk obyek data p dan q . 
  • Standarisasi data dibutuhkan jika nilai antar atribut memiliki skala yang berbeda. 
Contoh Euclidean Distance
    • distance matrix (matrixs jarak) 

Misal dihitung jarak dari p1 ke p2:
2. Minkowski Distance (Jarak Minkowski) merupakan bentuk umum dari Euclidean Distance. 
  • Dgn ketentuan: r adalah parameter, n adalah jumlah dimensi (atribut), p k and q k masing-masing adalah nilai atribut ke-k dari obyek data p dan q
Minkowski Distance
  • L1 norm: r = 1. City block atau Manhattan distance. 
Contoh umum: Hamming distance (jumlah bit yang berbeda diantara dua buah vektor biner)
  • L2 norm: r = 2. Euclidean distance 
  • L∞ norm: r - ∞. “supremum” (Lmax norm) distance. 
    • Perbedaan yang paling maksimum diantara semua nilai atribut vektor
  • City block atau Manhattan Distance (L1 norm). ◦ Untuk xij i = 1, … , N , j = 1, … , p : 
  • Lmax Distance (L∞ norm). 

Contoh Minkowski Distance :
L1 Norm untuk jarak antar titik p1 ke titik lain: 
L∞ norm untuk jarak antar titik p1 ke titik lain:
Sifat umum Similarit
  • Similarity juga memiliki ciri umum, sbb: 
  1.  s ( p , q ) = 1 (atau maximum similarity) hanya jika p = q , 
  1. s ( p , q ) = s ( q , p ) untuk semua p dan q, dimana s ( p , q ) adalah kemiripan obyek data antara p dan q. 
  • Similarity antara vektor biner: diterapkan pada obyek, p dan q, yang hanya memiliki atribut biner. 

1. Simple Matching and Jaccard Coefficients
SMC = number of matches / number of attributes = (n11 + n00) / (n01 + n10 + n11 + n00)

J = number of 11 matches / number of not-both-zero attributes values = (n11) / (n01 + n10 + n11)
2.Cosine Similarity
Jika d 1 and d 2 adalah dua buah dokumen vektor, maka:
cos( d 1 , d 2 ) = ( d 1 ◦ d 2 ) / || d 1 || || d 2 ||
Tanda ◦ merupakan dot product vektor dan || d || adalah panjang vektor d.
Contoh Cosine Similarity
  • Diketahui dua buah dokumen vektor, sbb: 
  • d 1 = 3 2 0 5 0 0 0 2 0 0 
  • d 2 = 1 0 0 0 0 0 0 1 0 2 
  • d 1 ◦ d 2 = 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = 5 
  • || d 1 || = (3*3 + 2*2 + 0*0 + 5*5 + 0*0 + 0*0 + 0*0 + 2*2 + 0*0 + 0*0)0.5 = (42) 0.5 = 6.481 
  • || d 2 || = (1*1 + 0*0 + 0*0 + 0*0 + 0*0 + 0*0 + 0*0 + 1*1 + 0*0 + 2*2) 0.5 = (6) 0.5 = 2.245 
  • cos( d 1 , d 2 ) = ( d 1 ◦ d 2 ) / || d 1 || || d 2 || = 0.315 
3.Extended Jaccard Coefficients
  • Merupakan variasi dari Jaccard Coefficients untuk atribut yang bersifat kontinu atau diskrit. 
  • Reduces to Jaccard for binary attributes 
4. Correlation (korelasi)
Mengukur tingkat hubungan linearitas antar obyek.

0 komentar

Post a Comment