Monday, July 25, 2011

[22] Analisis Gerombol (Cluster Analysis)

ANALISIS CLUSTER

            Analisis cluster merupakan teknik multivariat yang mempunyai tujuan utama untuk mengelompokkan objek-objek berdasarkan karakteristik yang dimilikinya. Analisis cluster mengklasifikasi objek sehingga setiap objek yang paling dekat  kesamaannya dengan objek lain berada dalam cluster yang sama. Cluster-cluster yang terbentuk memiliki homogenitas internal yang tinggi dan heterogenitas eksternal yang tinggi. Berbeda dengan teknik multivariat lainnya, analisis ini tidak mengestimasi set vaiabel secara empiris sebaliknya menggunakan setvariabel yang ditentukan oleh peneliti itu sendiri. Fokus dari analisis cluster adlah membandingkan objek berdasarkan set variabel, hal inilah yang menyebabkan para ahli mendefinisikan set variabel sebagai tahap kritis dalam analisis cluster. Set variabel cluster adalah suatu set variabel yang merpresentasikan karakteristik yang dipakai objek-objek. Bedanya dengan analisis faktor adalah bahwa analisis cluster terfokus pada pengelompokan objek sedangkan analisis faktor terfokus pada kelompok variabel.
            Solusi analisis cluster bersifat tidak unik, anggota cluster untuk tiap penyelesaian/solusi tergantung pada beberapa elemen prosedur dan beberapa solusi yang berbeda dapat diperoleh dengan mengubah satu elemen atau lebih. Solusi cluster secara keseluruhan bergantung pada variabel-variaabel yang digunakan sebagai dasar untuk menilai kesamaan. Penambahan atau pengurangan variabel-variabel yang relevan dapat mempengaruhi substansi hasi analisisi cluster. 
Cara Kerja Analisis Cluster
            Secara garis besar ada tiga hal yang harus terjawab dalam proses kerja analisis cluster, yaitu :
  1. Bagaimana mengukur kesamaan ?
Ada tiga ukuran untuk mengukur kesamaaan antar objek, yaitu ukuran korelasi, ukuran jarak, dan ukuran asosiasi.
  1. Bagaimana membentuk cluster ?
Prosedur yang diterapkan harus dapat mengelompokkan objek-objek yang memiliki kesamaan yang tinggi ke dalam sutau cluster yang sama.
  1. Berapa banyak cluster/kelompok yang akan dibentuk ?
Pada prinsipnya jika jumlah cluster berkurang maka homogenitas alam cluster secra otomatis akan menurun.
 Proses Analisis Cluster
            Sebagaimana teknik multivariat lain proses analisis cluster dapat dijelaskan dalam enam tahap sebagai berikut : 
Tahap Pertama : Tujuan Analisis Cluster
Tujuan utama analisis cluster adalah mempartisi suatu set objek menjadi dua kelompok atau lebih berdasarkan kesamaan karakteristik khusus yang dimilikinya.
Dalam pembentukan kelompok/cluster  dapat dicapai tiga tujuan, yaitu :
A. Deskripsi klasifikasi (taxonomy description)
Penerapan anallisis cluster secara tradisisonal bertujuan mengeksplorasi dan membentuk suatu klasisfikasi/taksonomi secara empiris. Karena kemampuan partisinya analisis cluster dapat diterapkan secara luas. Meskipun secara empiris merupakan teknik eksplorasi analisis cluster dapat pula digunakan untuk tujuan konfirmasi.
a.       Penyederhanaan Data
Penyederhanaan data merupakan bagian dari suatu taksonomi. Dengan struktur yang terbatas observasi/objek dapat dikelompokkan untuk analisis selanjutnya.
b.      Identifikasi Hubungan (Relationship Identification)
Hubunganantar objek diidentifikasi secara empiris. Struktur analisis cluster yang sederhana dapat menggambarkan adanya hubungan atau kesamaan dan perbedaan yang tidak dinyatakan sebelumnya.

Pemilihan pada Pengelompokan Variabel
Tujuan analisis cluster tidak dapat dipisahkan dengan pemilihan variabel yang digunakan untuk menggolongkan objek ke dalam clucter-cluster. Cluster yang terbentuk merefleksikan struktur yang melekat pada data seperti yang didefinisikan oleh variabel-variabel. Pemilihan variabel harus sesuai dengan teori dan konsep yang umum digunakan dan harus rasional. Rasionalitas ini didasarkan pada teori-teori eksplisit atau  penelitian sebelumnya. Variabel-variabel yang dipilih hanyalah variabel yang dapat mencirikan objek yang akan dikelompokkan dan  secara spesifik harus sesuai dengan tujuan analisis cluster.
 Tahap Kedua : Desain Penelitian dalam Analisis Cluster
Tiga hal penting dalam tahap ini adalah pendeteksian outlier, mengukur kesamaan, dan standarisasi data.
A. Pendeteksian Outlier
Outlier adlah suatu objek yang sangat berbeda dengan objek lainnya. Outlier dapat digambarkan sebagai observasi yang secara nyata kebiasaan, tidak mewakili populasi umum, dan adanya undersampling dapat pula memunculkan outlier. Outlier menyebabkan menyebabkan struktur yang tidak benar dan cluster yang terbentuk menjadi tidak representatif.
       B. Mengukur Kesamaan antar Objek
Konsep kesamaan adalah hal yang fundamental dalam analisis cluster. Kesamaan antar objek merupakan ukuran korespondensi antar objek. Ada tiga metode yang dapat diterapkan, yaitu ukuran korelasi, ukuran jarak, dan ukuran asosiasi.
a.       Ukuran Korelasi
Ukuran ini dapat diterapkan pada data dengan skala metrik, namun jarang digunakan karena titik bertnya pada nilai suatu pola tertentu, padahal tisik berat analisis cluster adalah besarnya objek. Kesamaan antar objek dapat dilihat dari koefisien korelasi antar pasangan objek yang diukur dengan beberapa variabel.
b.      Ukuran Jarak
Merupakan ukuran yang paling sering digunakan. Diterapkan untuk data berskala metrik. Sebenarnya merupakan ukuran ketidakmiripan, dimana jarak yang besar menunjukkan sedikit kesamaan sebaliknya jarak yang pendek/kesil menunjukkan bahwa suatu objek makin mirip dengan objek lain. Bedanya dengan ukuran korelasi adalah bnahwa ukuran jarak fokusnya pada besarnya nilai. Cluster berdasarkan ukuran korelasi bisa saja tidak memiliki kesamaan nilai tapi memiliki kesamaan pola, sedangkan cluster dberdasrkan ukuran jarak lebih memiliki kesamaan nilai meskipun polanya berbeda.
Ada beberapa tipe ukuran jarak antara lain jarak Euklidian, jarak city-Box, dan jarak Mahalanobis. Ukuran yang paling sering digunakan adalah jarak Euklidian. Jarak Euklidian adalah besarnya jarak suatu garis lurus yang menghubungkan antar objek. Misalkan ada dua objek yaitu A dengan koordinat (   ) dan B dengan koordinat (    ) maka jarak antar kedua objek tersebut dapat diukur dengan rumus ....
c.       Ukuran Asosiasi
Ukuran asosiasi dipakai untuk mengukur data berskala nonmetrik (nominal atau ordinal).              
           
C.     Standarisasi Data
a.       Standarisasi Variabel
Bentuk paling umum dalam standarisasi variabel adalah konversi setiap variabel terhadap skor atandar ( dikenal dengan Z score) dengan melakukan substraksi nilai tengan dan membaginyadengan standar deviasi tiap variabel.
b.      Standarisasi Data
Berbeda dengan standarisasi variabel, standarisasi ndata dilakukan terhadap observasi/objek yang akan dikelompokkan.
 Tahap Ketiga : Asumsi-asumsi dalam Analisis Cluster

Seperti hal teknik analisis lain,analisis cluster juga menetapkan adanya suatu asumsi. Ada dua asumsi dalam analisis cluster, yaitu :
     A.   Kecukupan Sampel untuk merepresentasikan/mewakili Populasi
Biasanya suatu penelitian dilakukan terhadap populasi diwakili oleh sekelompok sampel. Sampel yang digunakan dalam analisis ckuster harus dapat mewakili populasi yang ingin dijelaskan, karena analisis ini baik jika sampel representatif. Jumlah sampel yang diambil tergantung penelitinya, seorang peneliti harus yakin bahwa sampil yang diambil representatif terhadap populasi.
     B   .Pengaruh Multukolinieritas
Ada atau tidaknya multikolinieritas antar variabel sangat diperhatikan dalam analisis cluster karena hal itu berpengaruh, sehingga variabel-variabel yang bersifat multikolinieritas secara eksplisit dieprtimbangkan dengan lebih seksama.

Tahap Keempat : Proses Mendapatkan Cluster dan Menilai kelayakan secara keseluruhan
Ada dua proses penting yaitu algoritma cluster dalam pembentukan cluster dan menentukan jumlah cluster yang akan dibentuk. Keduanya mempunyai implikasi substansial tidak hanya pada hasil yang diperoleh tetapi juga pada interpretasi yang akan dilakukan terhadap hasil tersebut.

Algoritma Cluster
Algoritma cluster harus dapat memaksimalkan perbedaan relatif cluster terhadap variasi dalam cluster. Dua metode paling umum dalam algoritma cluster adalahmetode hirarkhi dan metode non hirarkhi. Penentuan metode mana yag akan dipakai tergantung kepada peneliti dan konteks penelitian dengan tidak mengabaikan substansi, teori dan konsep yang berlaku. Keduanya memiliki kelebihan sendiri-sendiri. Keuntungan metode hirarkhi adalah cepat dalam proses pengolahan sehingga menghemat waktu, namun kelemahannya metode ini dapat menimbulkan kesalahan. Selain itu tidak baik diterapkan untuk menganalisis sampel dengan ukuran besar. Metode Non Hirarkhi memiliki keuntungan lebih daripada metode hirarkhi. Hasilnya memiliki sedikit kelemahan pada data outlier, ukuran jarak yang digunakan, dan  termasuk variabel tak relevan atau variabel yang tidak tepat. Keuntungannya hanya dengan menggunakan titik bakal nonrandom, penggunaan metode non hirarkhi untuk titik bakal  random  secara nyata lebih buruk dari pada metode hirarkhi.
Alternatif lain adalah dengan mengkombinasikan kedua metode ini. Pertama gunakan metode hirarkhi kemudian dilanjutkan dengan metode non hirarkhi.  
           
A.  Metode Hirarkhi
Tipe dasar dalam metode ni adalah aglomerasi dan pemecahan. Dalam metode aglomerasi tiap observasi pada mulanya dianggap sebagai cluster tersendiri sehingga terdapat cluster sebyak jumlah observasi. Kemudian dua cluster yang terdekat kesamaannya digabung menjadi suatu cluster babru, sehingga jumlah cluster berkurang satu pada tiap tahap. Sebaliknya pada metode pemecahan dimulai dari satu cluster besar yang mengandung seluruh observasi, selanjutnya observasi-observasi yang paling tidak sama dipisah dan dibentuk cluster-cluster yang lebih kecil. Proses ini dilakukan hingga tiap observasi menjadi cluster sendiri-sendiri.
Hal penting dalam metode hirarkhi adalah bahwa hasil pada tahap sebelumnya selalu bersarang di dalam hasil pada tahap berikutnya, membentuk sebuah pohon.
Ada lima metode aglomerasi dalam pembentukan cluster, yatiu :
a. Pautan Tunggal (Single Linkage)
Metode ini didasarkan pada jarak minimum. Dimulai dengan dua objek yang dipisahkan dengan jarak paling pendek  maka keduanya akan ditempatkan pada cluster pertama, dan seterusnya. Metode ini dikenal pula dengan nama pendekatan tetangga terdekat.
             b. Pautan Lengkap (Complete Linkage)
Disebut juga pendekatan tetangga terjauh. Dasarnya adalah jarak maksimum. Dalam metode ini seluruh objek dalam suatu cluster dikaitkan satu sama lain pada suatu jarak maksimuma atau dengan kesamaan minimum.
             c. Pautan Rata-rata (Average Linkage)
Dasarnya adalah jarak rata-rata antar observasi. pengelompokan dimulai dari tengan atau pasangan observasi dengan jarak paling mendekati jarak rata-rata. 

             d. Metode Ward (Ward’s Method)
Dalam metode ini  jarak antara dua cluster adalah jumlah kuadrat antara dua cluster untuk seluruh variabel. Metode ini cenderung digunakan untuk mengkombinasi cluster-cluster dengan jumlah kecil.
           
e. Metode Centroid
Jarak antara dua cluster adalah jarak antar centroid cluster tersebut. Centroid cluster adalah nilai tengah observasi pada variabel dalam suatu set variabel cluster. Keuntungannya adalah outlier hanya sedikit berpengaruh jika dibandingkan dengan metode lain.
            B. Metode Non Hirarkhi
Masalah utama dalam metoda non hirarkhi adalah bagaimana memilih bakal cluster. Harus disadari pengaruh pemilihan bakal cluster terhadap hasil akhir analisis cluster. Bakal cluster pertama adalah observasi pertama dalam set data tanpa missing value. Bakal kedua adalah observasi lengkap berikutnya (tanpa missing data) yang dipisahkan dari bakal pertama oleh jarak minimum khusus.
Ada tiga prosedur dalam metode non hirarkhi, yaitu :
a.       Sequential threshold
Metode ini dimulai dengan memilih bakal cluster dan menyertakan seluruh objek dalam jarak tertentu. Jika seluruh objek dalam jarak tersebut disertakan, bakal cluster kedua terpilih, kemudian proses terus berlangsung seperti sebelumnya.

b.      Parallel Threshold
Metode ini memilih beberapa bakal cluster secara simultan pada permulaannya dan menandai objek-objek dengan jarak permulaan ke bakal terdekat.
c.       Optimalisasi
Metode ketiga ini mirip dengan kedua metode sebelumnya kecuali pada penandaan ulang terhadap objek-objek.
  
Hal penting lain dalam tahap keempat adalah menentukan jumlah cluster yang akan dibentuk.Sebenarnya tidak ada standar,prosedur pemilihan tujuan eksis. Karena tidak ada kriteria statistik internal digunakan untuk inferensia, seperti tes signifikansipada teknik multivariat lainnya, para peneliti telah mengembangkan beberapa kriteria dan petunjuk sebagai pendekatan terhadap permasalahan ini dengan memperhatikan substansi dan aspek konseptual.
 Tahap Kelima : Interpretasi terhadap Cluster

Tahap interpretasi meliputi pengujian tiap cluster dalam term untuk menamai dan menandai dengan suatu label yang secara akurat dapat menjelaskan kealamian cluster. Proes ini dimulai dengan suatu ukuran yang sering digunakan yaitu centroid cluster.
Membuat profil dan interpretasi cluster tidak hanya tidak hanya untuk memoeroleh suatu gambaran saja melainkan pertama, menyediakan suatu rata-rata untuk menilai korespondensi pada cluster yang terbentuk, kedua, profil cluster memberikan araha bagi penilainan terhadap signifikansi praktis.

Tahap Keenam: Proses Validasi dan Pembuatan Profil (PROFILING) Cluster

A.  Proses validasi solusi cluster
Proses validasi bertujuan menjamin bahwa solusi yang dihasilkan dari analisis cluster dapat mewakili populasi dan dapat digeneralisasi untuk objek lain. Pendekatan ini membandingkan solusi cluster dan menilai korespondensi hasil. Terkadang tidak dapat dipraktekkan karena adanya kendala waktu dan biaya atau ketidaktersediaan ibjek untuk analisis cluster ganda.
B. Pembuatan Profil ( PROFILING)Solusi Cluster
Tahap ini menggambarkan karakteristik tiap cluster untuk menjelaskan cluster-cluster tersebut dapat dapat berbeda pada dimensi yang relevan. Titik beratnta pada karakteristik yang secara signifikan berbeda antar clustre dan memprediksi anggota dalam suatu cluster khusus.

Secara keseluruhan proses analisis cluster berakhir setelah keenam tahap ini dilalui. Hasil analisis cluster dapat digunakan untuk berbagai kepentingan sesuai dengan materi yang dianalisis. 
 Contoh:
Berdasarkan data BPS pada laporan Sosial Indonesia dari Supas dan Sakernas 1995 didapatkan data seperti pada tabel 1.
Mengingat penduduk lansia semakin lama semakin banyak, didasarkan perkiraan BPS pada tahun 2005 penduduk lansia cenderung bertambah atau ada perubahan struktur dari struktur penduduk muda ke struktur penduduk tua. Maka dari itu perlu adanya perhatian ekstra dari pihak pemerintah untuk permsalahan ini.
Pembentukan wilayah pembinaan untuk permasalahan lansia dapat dilakukan dengan membentuk wilayah konsentrasi berdasarkan data pada tabel 1. Model analisis cluster sangat mendukung penbentukan wilayah tersebut.

Tabel. 1
Enam Kriteria Keterlantara Lansia Menurut Propinsi

PROPINSI
tidak pernah sekolah/tamat SD
makan makanan pokok <21X dalam seminggu
makan lauk pauk berprotein tinggi<4X dalam seminggu
memiliki pakaian <4 stel
tidak mempunyai tempat tetap untuk tidur
bila sakit tidak diobati
SUMATERA UTARA     
63,13
38,67
35,70
16,79
2,48
3,33
SUMATERA BARAT     
57,48
48,23
17,48
20,60
0,90
4,05
RIAU               
67,72
50,59
18,43
9,95
1,58
3,34
JAMBI              
75,99
44,10
29,77
27,94
1,76
2,55
SUMATERA SELATAN   
65,69
58,39
27,90
24,67
5,57
5,18
BENGKULU           
71,37
52,02
35,60
30,64
2,17
4,29
LAMPUNG            
80,64
35,59
41,56
34,15
1,48
2,78
DKI JAKARTA        
37,80
56,38
12,28
87,24
1,45
6,78
JAWA BARAT         
70,84
70,48
31,37
17,17
1,82
5,32
JAWA TENGAH         
79,30
35,99
16,25
19,36
1,89
3,97
D.I.  YOGYAKARTA   
76,05
46,27
11,35
17,45
1,17
4,72
JAWA TIMUR         
82,76
30,86
15,13
30,77
2,01
3,55
BALI               
77,96
42,28
6,28
25,74
0,34
4,87
NUSA TENGGARA BARAT
86,92
33,09
23,48
48,28
3,20
4,64
NUSA TENGGARA TIMUR
87,36
56,75
58,67
49,77
1,42
9,31
KALIMANTAN BARAT   
83,48
54,34
38,60
29,46
3,87
7,51
KALIMANTAN TIMUR 
60,37
50,29
18,78
28,13
6,69
2,68
KALIMANTAN SELATAN 
76,93
38,72
16,65
29,37
2,77
7,07
KALIMANTAN TENGAH   
73,43
52,45
18,18
12,72
1,11
1,01
SULAWESI UTARA     
51,30
58,14
25,58
11,08
1,84
2,89
SULAWESI TENGAH    
66,01
54,47
16,29
32,81
2,47
8,66
SULAWESI SELATAN   
77,62
58,74
10,93
24,03
3,70
6,89
SULAWESI TENGGARA  
74,65
72,91
3,19
17,78
1,07
8,78
IRIAN JAYA         
52,32
70,04
30,37
16,84
6,58
18,62


Dalam melakukan analisis cluster terdapat dua metode yaitu metode kelompok hiraki dan metode kelompok non hirarki.
Dalam hal ini metode yang digunakan adalah metode hiraki karena paling banyak digunakan oleh para peneliti dan memiliki keunggulan tersendiri, yaitu pengelompokan yang terbentuk  dapat terjadi secara alamiah.
Berdasarkan hasil pengolahan didapatkan Hasil sebagai berikut:

    
Dilihat dari kemiripan dalam melakukan pengklusteran propinsi Jambi dengan Sumatera Utara mempunyai jarak 2,241. sedang propinsi Jambi dengan Sumatera Selatan berjarak 7,830. Jadi karakteristik lansia terlantar di propinsi Jambi dengan Sumatera Utara lebih mirip bila dibandingkan dengan propinsi Jambi dengan Sumatera Selatan. Demikian pula kemiripan propinsi0propinsi lainnya dapat dilihat dengan melihat kedekatan jaraknya. Semakin dekat jaraknya berarti semakin mirip.
Dari tabel 3., kita bisa melihat bahwa aglomerasi melakukan pengelompokkan secara satu demi satu. Pada tahap 1 (stage 1) kasus nomor 3 (propinsi ke 3) dan 19 (propinsi ke 19) adalah yang paling mirip, maka mereka menjadi kelompok terlebih dahulu. Kemudian lihat kolom next stage pada baris pertama, yang merupakan kelanjutan stage untuk cluster. Terlihat stage 14 yang berarti stage dilanjutkan ke stage 14.
            Pada stage 14 terlihat bahwa angka 3 (propinsi 3) dan 11 (propinsi 11) hal ini berarti bahwa propinsi 11 masuk pada kelompok 1 yang terbentuk yaitu 3 dan 19. dengan demikian sudah diketahui bahwa ada 3 anggota yang sudah diketahui clusternya. Kemudian lihat next stage pada baris ke 14. dimana cluster terakhir dilakukan. Terlihat angka 17, yang berarti proses cluster dilanjutkan ke stage 17. demikian selanjutnya sampai semua cluster terbentuk.
Bila melihat keanggotaan kluster, terdapat perubahan letak propinsi dalam cluster, seperti propinsi Irian jaya yang semula berada dalam kelompok 4 manjadi kelompok 2 dalam cluster 3. Sedang untuk jumlah cluster 2 terdapat perubahan cluster untuk propinsi Jakarta yang semula ada pada cluster 3 menjadi cluster 2.


 5.. Pengelompokan propinsi propinsi untuk lansia terlantar dapat dibagi atas beberapa kelompok. Penentuan banyaknya kelompok dapat dilihat dari karakteristik masing-masing wilayah propinsi.
Melihat dari karakteristik masing-masing wilayah ada beberapa 3 pengelompokan, yaitu:

  1. Jumlah 2 Kelompok yang terdiri dari kelompok pertama meliputi propinsi Sumatera Utara, Sumatera Barat, Riau, Jambi, Bengkulu, Lampung, Jawa Tengah, DI yokyakarta, Jawa Timur, Bali, NTB, Kal Teng, Kal Sel, Sulutdan kelompok kedua meliputi propinsi Sumatera Selatan, DKI jakarta, Jawa Barat, NTT, Kal bar, Kal Tim, Sulteng, Sultra dan Irian jaya 
  2. Jumlah 3 Kelompok yang terdiri dari kelompok pertama meliputi propinsi Sumatera Utara, Sumatera Barat, Riau, Jambi, Bengkulu, Lampung, Jawa Tengah, DI yokyakarta, Jawa Timur, Bali, NTB, Kal Teng, Kal Sel, Sulut dan kelompok kedua meliputi propinsi Sumatera Selatan, Jawa Barat, NTT, Kal bar, Kal Tim, Sulteng, Sultra dan Irian jaya. Untuk Kelompok ketiga adalah propinsi DKI Jakarta.
  3. Jumlah 4 Kelompok yang terdiri dari kelompok pertama meliputi propinsi Sumatera Utara, Sumatera Barat, Riau, Jambi, Bengkulu, Lampung, Jawa Tengah, DI yokyakarta, Jawa Timur, Bali, NTB, Kal Teng, Kal Sel, Sulut dan kelompok kedua meliputi propinsi Sumatera Selatan,Jawa Barat, NTT, Kal bar, Kal Tim, Sulteng, Sultra. Kelompok Ketiga adalad DKI jakarta dan kelompok keempat adalah propinsi paling timur Irian Jaya.   

Dengan melihat hasil pengelompokan diatas maka lebih baik pengelompokan yang diambil adalah dengan jumlah 4 kelompok. Pengambilam 4 kelompok didasarkan pada karakteristik propinsi DKI Jakarta pada kelompok tiga berbeda dengan propinsi lainnya, juga perbedaan karakteristik untuk propinsi Irian Jaya pada kelompok keempat.