Sifat umumnya:
Dissimilarity
1. Euclidean Distance (Jarak Euclidean)
Misal dihitung jarak dari p1 ke p2:
2. Minkowski Distance (Jarak Minkowski) merupakan bentuk umum dari Euclidean Distance.
Contoh Minkowski Distance :
L1 Norm untuk jarak antar titik p1 ke titik lain:
1. Simple Matching and Jaccard Coefficients
d ( p , q ) ≥ 0 for all p and q , and d ( p , q ) = 0 if and only if p = q ,
d ( p , q ) = d(q,p) for all p and q ,
d ( p , r ) ≤ d ( p , q ) + d ( p , r ) for all p , q , and r, where d ( p , q ) is the distance (dissimilarity) between points (data objects), p and q .
Dissimilarity
1. Euclidean Distance (Jarak Euclidean)
- Dengan ketentuan: n adalah jumlah dimensi (atribut), p k dan q k adalah nilai atribut ke-k untuk obyek data p dan q .
- Standarisasi data dibutuhkan jika nilai antar atribut memiliki skala yang berbeda.
- distance matrix (matrixs jarak)
- Dgn ketentuan: r adalah parameter, n adalah jumlah dimensi (atribut), p k and q k masing-masing adalah nilai atribut ke-k dari obyek data p dan q
- L1 norm: r = 1. City block atau Manhattan distance.
- L2 norm: r = 2. Euclidean distance
- L∞ norm: r - ∞. “supremum” (Lmax norm) distance.
- Perbedaan yang paling maksimum diantara semua nilai atribut vektor
- City block atau Manhattan Distance (L1 norm). ◦ Untuk xij i = 1, … , N , j = 1, … , p :
- Lmax Distance (L∞ norm).
Contoh Minkowski Distance :
L1 Norm untuk jarak antar titik p1 ke titik lain:
L∞ norm untuk jarak antar titik p1 ke titik lain:
Sifat umum Similarit
- Similarity juga memiliki ciri umum, sbb:
- s ( p , q ) = 1 (atau maximum similarity) hanya jika p = q ,
- s ( p , q ) = s ( q , p ) untuk semua p dan q, dimana s ( p , q ) adalah kemiripan obyek data antara p dan q.
- Similarity antara vektor biner: diterapkan pada obyek, p dan q, yang hanya memiliki atribut biner.
SMC = number of matches / number of attributes = (n11 + n00) / (n01 + n10 + n11 + n00)2.Cosine Similarity
J = number of 11 matches / number of not-both-zero attributes values = (n11) / (n01 + n10 + n11)
Jika d 1 and d 2 adalah dua buah dokumen vektor, maka:
cos( d 1 , d 2 ) = ( d 1 ◦ d 2 ) / || d 1 || || d 2 ||
Tanda ◦ merupakan dot product vektor dan || d || adalah panjang vektor d.
Contoh Cosine Similarity
Mengukur tingkat hubungan linearitas antar obyek.
3.Extended Jaccard Coefficients
- Diketahui dua buah dokumen vektor, sbb:
- d 1 = 3 2 0 5 0 0 0 2 0 0
- d 2 = 1 0 0 0 0 0 0 1 0 2
- d 1 ◦ d 2 = 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = 5
- || d 1 || = (3*3 + 2*2 + 0*0 + 5*5 + 0*0 + 0*0 + 0*0 + 2*2 + 0*0 + 0*0)0.5 = (42) 0.5 = 6.481
- || d 2 || = (1*1 + 0*0 + 0*0 + 0*0 + 0*0 + 0*0 + 0*0 + 1*1 + 0*0 + 2*2) 0.5 = (6) 0.5 = 2.245
- cos( d 1 , d 2 ) = ( d 1 ◦ d 2 ) / || d 1 || || d 2 || = 0.315
- Merupakan variasi dari Jaccard Coefficients untuk atribut yang bersifat kontinu atau diskrit.
- Reduces to Jaccard for binary attributes
Mengukur tingkat hubungan linearitas antar obyek.
0 komentar
Post a Comment