pertanian

pertanian
selamat bekerja

Kamis, 20 September 2012

statistik


Assalamualaikum,
Segala puja dan puji hanya milik Alloh, Sang Pemilik ilmu. Semoga setetes pengetahuan yang Alloh karuniakan kepada penulis bisa dijadikan modal sebagai amal kebajikan. Duhai Alloh, perkaya hamba dengan ilmu, hiasi hamba dengan kelembutan hati, muliakan hamba dengan taqwa, dan kuatkan hamba dengan kesehatan. Ya, Alloh, ajarkan hamba ilmu yang bermanfaat dan karuniakan kemampuan memanfaatkan apa yang telah Engkau ajarkan. Maha Suci Engkau, Tiada ilmu bagi hamba selain apa yang telah Engkau ajarkan.
Tepat satu tahun, blog ini terbilang pasif. Mengawali pengaktifan kembali blog ini, penulis postingkan makalah seputar Diskriminan Robust. Bagi yang berminat meneliti diskriminan robust lebih lanjut, referensi yang telah dimiliki penulis dapat di-share. Silakan kontak melalui email.
Wassalamualaikum.
Masih terkait dengan penghitungan Gini Ratio, pada posting kali ini, Penulis memperkenalkan penghitungan Gini Ratio dengan memanfaatkan sintaks SPSS. Menghitung Gini Ratio dengan Stata memang mudah, tetapi tidak semua pembaca mempunyai softwarenya. Karena itu, Penulis coba menghadirkan cara lain penghitungan Gini Ratio dengan menggunakan SPSS.
Ada dua cara menghitung Gini Ratio. Cara pertama dengan melakukan pengelompokkan data berdasarkan pengeluaran tertentu. Misalnya, pengeluaran penduduk atau rumah tangga dibagi menjadi 10 kelompok. Formula Gini Ratio untuk data berkelompok sebagai berikut:
Di mana
Pi = Proporsi Penduduk pada Kelompok Pengeluaran ke-;
Fi dan Fi-1 = Kumulatif Proporsi Pengeluaran pada kelompok pengeluaran ke-dan           ke – (i – 1).
Penghitungan Gini Ratio berdasarkan kelompok pengeluaran tertentu secara manual dengan memanfaatkan worksheet excell sudah Penulis posting lebih dahulu.
Cara kedua penghitungan Gini Ratio tanpa membuat pengelompokkan pengeluaran. Karena itu data pengeluaran harus disusun dari pengeluaran terkecil sampai pengeluran terbesar (Ascending). Formula Gini Ratio untuk data yang tidak dikelompokkan adalah
di mana Xi dan Xi-1 = Kumulatif Proporsi Penduduk atau Rumah Tangga pada record ke-idan ke – (i – 1).
Fi dan Fi-1 = Kumulatif Proporsi Pengeluaran pada record ke-dan ke – (i – 1).
Posting kali ini khusus membahas menghitung Gini Ratio dengan formula yang terakhir. Silakan unduh filenya pada link Program Menghitung Gini Ratio berikut ini. Bagaimana cara menggunakannya?
Buka Data Pengeluaran dalam format SPSS. Di sini, penulis menggunakan data Susenas Tahun 2011 dari Modul Konsumsi (Blok 43.sav). Dalam data tersebut, pengeluaran rumah tangga tersimpan dalam variabel expend dan pembobot rumah tangga WERT. Setelah data tersebut terbuka, buka sintaks penghitungan Gini Ratio, dan Run. Status Bar pada Pojok Kiri aplikasi SPSS akan tertulis “Transformations Pending.” Untuk menyelesaikannya, Anda hanya diminta melakukan klik Menu Transform dan pilih Runs Pending Transform atau Tekan Ctrl + G. Selamat Mencoba.
Melanjutkan posting sebelumnya dengan tema menghitung gini ratio menggunakan stata, kali ini Penulis akan share cara-cara mengatasi masalah apabila command ineqdeco tidak dikenal stata. Ada dua langkah untuk mengatasinya. Langkah pertama dengan mengetik perintah
ssc install ineqdeco.
Dengan perintah ini Anda meminta server Stata untuk menginstallkan ineqdeco ke software stata yang anda miliki. Jika langkah ini mulus, maka eksekusi perintah ineqdeco akan dikenali stata.
Jika cara pertama, tidak juga berhasil. Lakukan langkah berikut. Buka browser anda dan ketikkan
http://fmwww.bc.edu/repec/bocode/i/ineqdeco5.ado
Anda akan dibukakan page sintaks ineqdeco5. Kopi semua sintaks tersebut dan paste pada jendela ‘do-file editor’. Selanjutnya simpan di
C:\ado\personal
dengan ekstensi .ado.
Setelah langkah ini, Penulis jamin perintah ineqdeco atau ineqdeco5 Anda dikenali oleh stata dan penghitungan gini ratio bisa diselesaikan. Selamat mencoba.
Selamat bertemu kembali setelah sekian lama tidak mengupdate blog statistikaterapan. Pada posting kali ini, tema tulisan masih terkait menghitung ketimpangan pendapatan penduduk yang didekati dengan variabel pengeluaran. Pada posting sebelumnya, penulis memperkenalkan koefisien gini atau gini ratio sebagai alat ukut ketimpangan pendapatan yang dihitung secara manual. Sebagai alat bantu disediakan pula worksheet excell untuk menghitungnya.
Pada posting kali ini, berbekal dari sharing ilmu dari sahabat saya, Mas Sapta dan mas Budi Santoso (saat ini bertugas di BPS RI Direktorat Statistik Kesejahteraan rakyat), menghitung gini ratio lebih mudah dan cepat dengan menggunakan STATA. STATA menyediakan perintah ineqdeco untuk menghitung ketimpangan. Jika pembaca ingin mengetahui sintaxnya secara lengkap silakan download file ineqdeco di link berikut: http://fmwww.bc.edu/repec/bocode/i/ineqdec0.ado untuk penggunan STATA 8.2 atau lebih atau http://fmwww.bc.edu/repec/bocode/i/ineqdeco5.ado untuk pengguna STATA 5 sampai dengan 8.1.
Manfaat perintah ineqdeco, penulis kutipkan dari penemunya Mr. Stephen P. Jenkins (1999) sebagai berikut, “ineqdeco estimates a range of inequality and related indices commonly used by economists, plus optional decompositions of a subset of these indices by population subgroup. Indices estimated are: members of the single parameter Generalized Entropy class GE(a) for a = -1, 0, 1, 2; the Atkinson class A(e) for e = 0.5, 1, 2; the Gini coefficient, and the percentile ratios p90/p10 and p75/p25.” Jadi, dengan ineqdeco bukan saja gini ratio yang dihasilkan tetapi indeks-indeks ketimpangan lain juga bisa dihitungkan.
Bagaimana menggunakannya? Saya menggunakan data pengeluaran hasil Survei Sosial Ekonomi Nasional Tahun 2011 Modul Konsumsi. File yang digunakan adalah BLOK43_91.sav (format SPSS). Didalamnya terdapat data pengeluaran perkapita penduduk per rumah tangga yang disimpan dalam variabel “kapita” dan pembobot individu dalam variabel “weind.” Untuk bisa menghitung gini ratio dengan menggunakan stata, transfer file dari format SPSS  menjadi format data stata dengan ekstensi .dta. Anda bisa menggunakan StatTransfer untuk melakukannya sehingga file yang terbentuk menjadi BLOK43_91.dta.
Mari kita mulai menghitung gini ratio dengan STATA. Pertama-tama, bukalah software stata Anda. Perhatikan versi STATA yang digunakan. Selanjutnya, buka data yang sudah berbentuk format dengan ekstensi .dta. Untuk pengguna STATA 5 sd STATA 8.1 ketikkan perintah berikut di jendela STATA COMMAND:
ineqdeco5 kapita [weight=weind]
untuk menghitung gini ratio pada level provinsi. Jika Anda ingin menghitung Gini Ratio sampai tingkat kabupaten, gunakan perintah:
ineqdeco5 kapita [weight=weind], bygroup(b1r2)
di mana b1r2 adalah variabel kabupaten/kota.
Untuk pengguna STATA 8.2 ke atas, ganti perintah ineqdeco5 di atas dengan ineqdeco.
Dengan perintah-perintah di atas, maka ukuran ketimpangan tidak saja gini ratio tetapi ukuran ketimpangan yang lain dihasilkan dengan mudah. Selamat mencoba pembaca, semoga posting kali membantu menyelesaikan tugas-tugas Anda. Wassalam.

Jumat, 3 Maret 2012 lalu, penulis kedatangan konsultan UNICEF bernama Ikhtier. Selama enam hari, penulis memperoleh pengetahuan baru bagaimana proses pengolahan data dengan menggunakan CSPRo dan dilanjutkan dengan tabulasi data menggunakan SPSS. Salah satu “jurus” baru SPSS yang diajarkan adalah penggunaan syntax.
Pada posting kali ini, penulis akan membagi pengetahuan yang diperoleh dari statistics capasity building (SCB) selama enam hari itu. Pertama, bagaimana menjalankan beberapa syntax SPSS sekaligus tanpa membukanya terlebih dahulu. Kedua, bagaimana menyimpan output SPSS baik dalam format SPSS maupun dalam format excell.
Sebelum SCB dengan Mr. Ikhtier, penulis terbiasa menjalankan syntax satu per satu hingga seluruh syntax selesai dijalankan. Sebagai contoh, dalam penghitungan kemiskinan, penulis membutuhkan 8 syntax terpisah. Kedelapan syntax penghitungan kemiskinan itu terdiri dari: 1) Syntax pemilihan populasi referensi, 2) syntax pemilihan basket makanan, 3) pemilihan syntax pemilihan basket non makanan, 4) syntax penggabungan basket makanan ke populasi referensi, 5) syntax penggabungan basket non makanan ke populasi referensi, 6) syntax penghitungan garis kemiskinan makanan, 7) syntax penghitungan kemiskinan non makanan, dan terakhir syntax penghitungan garis kemiskinan. Bagaimana menjalankan kedelapan syntax tersebut sekaligus?
Ternyata, untuk menjalankan beberapa syntax SPSS, cukup menggunakan perintah “INCLUDE” dan diikuti dengan lokasi syntax yang akan dieksekusi. Untuk contoh di atas, penulis membuat file syntax baru yang berisi:
include “D:\Kemiskinan Maret 2011\1. Syntax Populasi Referensi 91.sps”.
include “D:\Kemiskinan Maret 2011\2. Syntax Basket Makanan 91.sps”.
include “D:\Kemiskinan Maret 2011\3. Syntax Basket Bukan Makanan 91.sps”.
include “D:\Kemiskinan Maret 2011\4. Syntax Gabung Basket Makanan 91 ke Pop Ref.sps”.
include “D:\Kemiskinan Maret 2011\5. Syntax Gabung Basket Bukan Makanan 91 ke Pop Ref.sps”.
include “D:\Kemiskinan Maret 2011\6. GKM 91.sps”.
include “D:\Kemiskinan Maret 2011\7. GKNM 91.sps”.
include “D:\Kemiskinan Maret 2011\8. GK 91.sps”.
Dengan perintah tersebut, penulis tidak perlu lagi membuka satu demi satu syntax penghitungan penduduk miskin.
Untuk menyimpan output SPSS, bisa menggunakan perintah “OUTPUT SAVE” untuk menyimpan file dalam format SPSS dan perintah “OUTPUT EXPORT” untuk menyimpan file output dalam format selain SPSS, misalnya excell. Contoh penggunaan kedua perintah tersebut sebagai berikut:
* Create the SPSS output.
output save outfile = “D:\Kemiskinan Maret 2011\Tabel Kemiskinan Papua Barat.spv”.
* Export Output into an excel file.
output export
/contents export = visible layers = printsetting modelviews = printsetting
/xls documentfile = “D:\Kemiskinan Maret 2011\Tabel Kemiskinan Papua Barat.xls”
operation = createfile
location = lastcolumn notescaptions = yes.
Sampai di sini dulu, sharing syntax SPSS yang baru saja penulis ketahui. Selamat mencoba dan Semoga bermanfaat.
Salah satu aplikasi statistik median untuk data berkelompok pada ukuran demografi adalah median umur. Median umur dihitung dengan rumus yang sama dengan formula median data berkelompok sebagaimana tertera pada posting sebelumnya (Bagaimana menghitung Median). Meskipun demikian, ada perbedaan mendasar antara formula median umur dan formula median secara umum. Perbedaannya terletak pada pendefinisian “L”
Secara umum, inisial L pada rumus median mengacu pada Tepi Bawah dari Kelas yang memuat Nilai Median. Itu berarti jika kelas median berada pada kelompok umur 25 – 29 tahun maka nilai L akan dihitung sebesar 24,5 yaitu 25 – 0,5. Tetapi, ahli demografi tidak mengikuti aturan tersebut. Mereka memaknai L sebagai batas bawah kelas median. Dengan demikian, pada saat menghitung median umur maka nilai L pada kasus di atas akan sama dengan 25.
Sebagai seorang statistisi, Saya tidak sependapat dengan demografer yang menetapkan L sebagai batas bawah bukan tepi bawah. Mengapa? Karena rumus median diturunkan dari proses sebagaimana telah dijabarkan penulis pada posting berjudul Menentukan Rumus Median Data Berkelompok di mana secara lugas dijabarkan asal-usul rumus median data berkelompok.

Senin, 11 Juli 2011, di tengah kesibukan mengikuti Training Of Trainers (TOT) salah satu survei berskala global, penulis ditemui salah satu mahasiswa IPB yang hendak berkonsultasi pengolahan robust discriminant analysis (rda). Program tersebut dibuat dengan menggunakan Matlab. Kendalanya adalah setiap kali running program selalu muncul error.
Usut punya usut, variabel Y sebagai variabel respon memiliki tiga kategori. Rupanya, program rda yang dibuat masih terbatas untuk respon dengan dua kategori.
Dengan temuan ini, terbuka bagi calon-calon Master Statistika untuk merumuskan bagaimana formulasi analisis diskriminan robust dengan variabel respon lebih dari dua kategori, baik untuk linear maupun quadratik. Mau mencoba?
Salah satu bagian penting dalam pengumpulan data adalah pelatihan petugas. Pelatihan petugas berperan dalam mentransfer tata cara atau prosedur pengumpulan data yang telah dirumuskan. Targetnya adalah tata cara atau prosedur pengumpulan data tersebut difahami dan dapat dipraktekkan oleh setiap petugas mulai dari pencacah, pengawas, dan supervisor. Dengan demikian bias karena kesalahan petugas dapat diminumkan.
Jika pengumpulan data dilakukan secara tim dan dilakukan untuk waktu yang lama misal dua bulan, ada aspek lain yang seringkali diabaikan dalam pelatihan petugas. Aspek tersebut adalah membangun kekompakan tim atau korsa. Belum pernah penulis mengikuti pelatihan petugas selain diisi dengan penyampaian materi saja. Padahal membangun motivasi, integritas, dan kekompakan tim sangat dibutuhkan.
Semestinya, selain materi tata cara pengumpulan data, ada sesi-sesi lain yang diisi dengan materi penguatan motivasi, integritas dan kekompakan tim. Salah satunya adalah dengan cara mengundang tim yang mengisi game-game motivasi dan kekompakan tim. Ini baru wacana, tapi untuk mengetahui efektivitasnya perlu untuk dicoba.
Visualisasi data penduduk menurut kelompok umur dan jenis kelamin digambarkan dengan Piramida Penduduk. Disebut piramida penduduk karena bentuk gambaran penduduk menurut kelompok umur dan jenis kelamin yang menyerupai piramid, lebar di kelompok umur muda tetapi menyempit pada kelompok umur tua. Sepertilah gambaran kependudukan di Indonesia saat ini.
Membuat piramida penduduk bisa dilakukan dengan berbagai media. Bila ingin instan, gunakan SPSS untuk membuatnya. Tapi, karena Piramida dari SPSS kurang dinamis, tidak banyak yang dapat kita modifikasi. Bagi yang tidak familiar dengan SPSS, gunakan media Excell untuk membuat piramida penduduk sekaligus mempercantiknya. Bagaimana caranya? Ikuti langkah-langkahnya berikut ini.(more…)
Angka kemiskinan merupakan salah satu data strategis yang di-publish oleh Badan Pusat Statistik (BPS). Disebut strategis karena berapapun angka kemiskinan yang dirilis pasti mengundang pro dan kontra. Bukan masalah pro dan kontranya yang menjadi fokus perhatian penulis dalam memuat posting bertema kemiskinan. Penulis ingin mengajak pembaca menelusuri lebih dalam apa yang bisa kita pelajari dari metode penghitungan penduduk miskin BPS.
Sebelum mengulas lebih banyak metode penghitungan penduduk miskin BPS, ada baiknya kita kenali dulu kebutuhan manusia. Salah satu teorema penting yang mengungkapkan kebutuhan manusia adalah Maslow Theory (Maslow’s Hierarchy of Needs) sebagaimana terlihat pada Gambar 1 berikut.
Gambar 1. Maslow’s Hierarchy of Needs
Sebelum memutuskan menggunakan metode penghitungan penduduk miskin ada baiknya kita menetapkan pada ranah mana dari kebutuhan Maslow yang akan diukur. BKKBN misalnya, mengelompokkan lima perkembangan keluarga, yaitu keluarga pra sejahtera, keluarga sejahtera 1, keluarga sejahtera 2, keluarga sejahtera 3 dan keluarga sejahtera 3 plus. (Silakan merefer pada file berikut untuk detil indikator masing-masing perkembangan keluarga menurut BKKBN). Selanjutnya, BKKBN mengelompokkan keluarga Pra sejahtera dan Keluarga Sejahtera I sebagai keluarga miskin. Secara tidak langsung, BKKBN memasukkan unsur Self – Actuating dari Maslow’s Hierarchy of Needs sebagai indikator penting dalam menentukan keluarga miskin.
Berbeda dengan BKKBN, BPS hanya mengukur penduduk miskin pada ranah kebutuhan dasar saja.Informasi selengkapnya dari metode penghitungan penduduk miskin BPS bisa dibaca pada referensi berikut.
Logikanya, angka kemiskinan BPS akan selalu lebih kecil daripada angka kemiskinan yang dilansir BKKBN. Dalam hal cakupan saja, BPS hanya mengukur kemiskinan dari kebutuhan dasar sementara BKKBN sudah memasukkan unsur lain di luar kebutuhan dasar. Ringkasnya, angka kemiskinan yang dipublish BPS ibarat Gunung Es di Samudra. Perlu menambahkan unsur kebutuhan selain kebutuhan dasar untuk melihat kemiskinan secara lebih luas lagi. Jadi, menyelamatkan penduduk miskin lebih baik daripada sekedar mempersoalkan jumlah penduduk miskin. Kalau dengan penduduk miskin yang sedikit saja belum teratasi bagaimana bisa mengatasi penduduk miskin yang lebih besar lagi.
Penerapan analisis diskriminan untuk mengelompokkan objek atau individu ke dalam salah satu kelompok yang telah diketahui dalam suatu populasi begitu saja tidak cukup, perlu dipertimbangkan keberadaan pengamatan outlier. Fungsi diskriminan klasik didasarkan pada estimasi vektor rata-rata dan matrik kovariansi sampel. Keduanya tidak robust terhadap keberadaan pengamatan outlier. Akibatnya fungsi diskriminan yang dihasilkan juga tidak robust. Dengan menggantikan vektor rata-rata dan matrik kovariansi sampel klasik dengan vektor rata-rata dan matrik kovariansi yang robust akan dihasilkan fungsi diskriminan yang robust juga. Selain itu, seringkali ditemukan matrik kovariansi dua kelompok berbeda. Masalah ini tidak dapat diselesaikan dengan menggunakan fungsi diskriminan linear. Sebagai solusinya diperlukan fungsi diskriminan kuadratik. Kombinasi antara fungsi diskriminan kuadratik dan fungsi diskriminan robust dapat mengatasi permasalahan perbedaan matrik kovariansi dan keberadaan pengamatan outlier dalam data. Dalam penelitian ini akan digunakan penggunaan penaksir robust MCD dan MWCD dalam analisis diskriminan kuadratik.
Untuk mengukur kinerja MCD dan MWCD dalam analisis diskriminan kuadratik digunakan data simulasi yang terdiri dari data tanpa kontaminasi outlier dan data dengan kontaminasi outlier 10, 25, dan 30 persen. Pertama, ditentukan vektor rata-rata dan matrik kovariansi dengan menggunakan MCD dan MWCD. Kedua, dihitung skor masing-masing objek berdasarkan fungsi diskriminan klasik dan fungsi diskriminan robust . Terakhir kinerja fungsi diskriminan yang dihasilkan dievaluasi dengan menggunakan metode APER. Hasil simulasi menunjukkan kinerja penaksirrobust MCD dalam analisis diskriminan kuadratik merupakan yang terbaik. Dari 100 pengulangan, rata-rata probabilita salah pengelompokkan dari fungsi diskriminan kuadratik dengan menggunakan penaksir MCD merupakan yang terkecil. Standar deviasi salah pengelompokkan terkecil dihasilkan oleh penaksir robust MWCD meskipun dalam hal rata-ratanya cenderung tidak stabil, pada kasus tertentu terkecil tetapi pada kasus lainnya terbesar.
Validitas adalah suatu ukuran yang menunjukkan tingkat-tingkat kevalidan atau kesahihan suatu instrumen (Arikunto, 1993). Instrumen survei yang baik memiliki tingkat kevalidan tinggi sebaliknya instrumen survei yang buruk memiliki tingkat kevalidan rendah. Instrumen survei yang baik akan menghasilkan data yang benar yang akan mengantarkan peneliti pada suatu kesimpulan penelitian yang sesuai dengan kenyataan. Sebaliknya, instrumen survei yang buruk akan menghasilkan data yang tidak benar sehingga menghasilkan kesimpulan yang tidak sesuai dengan kenyataan. Bermula dari instrumen yang buruklah ketetapan “garbage in garbage out” berlaku.
Pernahkah Anda mencoba menghitung korelasi data yang diukur dengan skala ordinal? Sebagai statistisi kita pasti akan langsung merujuk pada penggunaan korelasi Spearman bukan pada penggunaan korelasi Pearson. Korelasi Spearman dihitung dengan menggunakan persamaan (1):
Cobalah Anda hitung korelasi Spearman dari data berikut dengan rumus di atas:
Reformasi birokrasi harus. Kalau diperpajakan jargon reformasi birokrasi dengan slogan “PINTAR” maka di BPS jargon yang didengungkan “CERDAS”. BPS berkemauan kuat untuk Berubah (ChangE), Mereformasi diri (Reform), dan Berkembang (Development) untuk perstatistikan Indonesia (for Statistics .in Indonesia).
Lingkungan di luar BPS telah banyak berubah. Tuntutan data yang lebih berkualitas menguat di setiap lini. Jika respon BPS lambat, maka BPS akan tertinggal dan ditinggalkan user.
Reformasi birokrasi di BPS bertujuan agar data yang dihasilkan BPS berkualitas. Saat ini, data BPS dinilai cukup baik tetapi masih butuh penyempurnaan di sana sini.
Saya teringat dengan Bapak Kresnayana Yahya, pengamat statistik yang juga salah satu dosen pavorit saya.Beliau mendrill kami mahasiswa S2 kerjasama BPS-ITS untuk merubah mindset kami sebagai statistisi.
Ternyata apa yang beliau sampaikan satu pemikiran dengan Kepala BPS, Bapak DR. Rusman Heriawan. Beliau ingin agar BPS  dalam lima tahun kedepan tampil dengan paradigma baru di mana sumberdaya BPS diisi dengan mindset baru. BPS berubah dari sekedar business as usual menuju BPS penghasil data yang berkualitas. Tidak mudah mengubah mindset tetapi perubahan itu hukumnya wajib.
Selamat Hari Statistik!
Di hari jadimu…..
Ada harap data menjadi lebih berkualitas….
Ada asa data tersaji tepat waktu …
Ada doa semoga bangsa ini lebih menghargai data dan fakta.
Discriminant analysis is a statistical method concerned with classifying objects (observations) to previously defined groups. The classical approach discriminant rules are often derived from multivariate normal distribution. The parameters are estimated by MLE (maximum likelihood estimators) method. But, these estimates are highly influenced by outlying observations. The robust estimates are needed. There are two robust estimators. They are robust MCD (minimum covariance determinant) and MWCD (minimum weighted covariance determinant) estimators. The goal of this paper is comparative performance of robust MCD and MWCD estimators in quadratic discriminant analysis. The performance of discrimination functions is measured by the average of proportion of misclassification. The data simulations are generated from various conditions. The variation data consists of the number of groups, the number of outliers, and the kind of outlier: shift, scale, and radial outliers. The performance of robust MCD estimator in quadratic discriminant analysis is the best compared to MWCD and the classical. The average of misclassification proportion of quadratic discriminant function using robust MCD estimator is less than ten percent while the data contaminated by outlying observations are less than 25 percent.
Itulah cuplikan dari abstraksi Jurnal yang berjudul “Perbandingan Kinerja Penaksir Robust MCD dan MWCD dalam Analisis DiskriminanKuadratik.” Melalui blog ini, penulis ingin berbagi pengetahuan mana diantara dua penaksir robust tersebut yang lebih unggul jika diaplikasikan dalam analisis diskriminan kuadratik.
Penempatan dinas di tanah Papua memang bukan hal yang mudah. Keterbatasan akses, jaringan, referensi dan lain-lain sempat menyurutkan semangat menuntut ilmu. Belum lagi biaya akses internet yang bisa tiga kali lipat di Jawa. Bayangkan, untuk bisa surving internet selancar di Jawa harus merogoh kocek Rp. 12.000 per jam. Padahal waktu di Surabaya atau di Jakarta dulu, Rp. 4.000 sejam saja sudah banyak informasi yang didapat.
Memanfaatkan HP sebagai alat komunikasi sekaligus untuk akses internet sedikit membuka keterisoliran tanah Papua. Informasi apa saja bisa diperoleh dengan mengandalkan kekuatan si ‘jempol.’ Meskipun tidak dapat mengupload rumus-rumus, HP sedikit membantu untuk mengamati perkembangan pengunjung blog ini.
Sekarang, komunikasi bisa lebih intens lagi, pengunjung bisa memanfaatkan facebook. Silakan menginvite facebook penulis: suryana_sst@yahoo.com. Dengan mengirim pesan statistikaterapan, penulis akan mengenali bahwa ‘friends’ yang menginvite adalah pengunjung blog ini.
Semoga demam facebook bisa menggugah pemanfaatannya untuk pengembangan pengetahuan perstatistikan kita, khususnya penulis.
Data Susenas (Survei Sosial Ekonomi Nasional) merupakan data yang memuat informasi sosial ekonomi terlengkap yang diselenggarakan secara kontinyu. Penyelenggaraan Susenas dilakukan setiap tahun sejak tahun 1963.
Salah satu variabel yang dapat dibentuk dari data Susenas adalah variabel tingkat pendidikan yang ditamatkan. Bagi orang awam, variabel ini dibentuk dengan mengkopi dari variabel Ijazah tertinggi dari tingkat pendidikan tertinggi yang ditamatkan. Pada saat dilakukan tabulasi dipastikan akan terbentuk data missing yang jumlahnya tidak sedikit. Mengapa?
Selamat kepada Ririn Aimatus, Mahasiswi Universitas Brawijaya yang telah menulis skripsi dengan topik Robust PCA dengan penilaian sangat memuaskan.
Sebagai, pengasuh blog statistikaterapan.wordpress.com, Saya turut bergembira dengan kesuksesan tersebut. Sekali lagi, Selamat ya!
Posting berikut merupakan tulisan ketiga yang membahas analisis konjoin. Kali ini, tulisan difokuskan pada interpretasi output analisis konjoin. Output dapat dilihat pada posting yang berjudul, “Mengolah Analisis Konjoin dengan SPSS 15.”
SPSS 15 menghasilkan output analisis konjoin dalam beberapa bagian. Ada bagian yang menganalisis preferensi konsumen secara individu ada juga bagian yang menampilkan secara keseluruhan (overall).
Analisis konjoin adalah sebuah teknik guna mengukur preferensi konsumen terhadap atribut (spesifikasi atau fitur) sebuah produk atau jasa. Analisis konjoin berdasarkan pada subjektifitas konsumen terhadap beberapa kombinasi fitur yang ditawarkan. Subjektifitas konsumen ini diukur melalui peringkat (rank) atau skore (skala likert). Hasil analisis konjoin berupa informasi kuantitatif yang dapat memodelkanpreferensi konsumen untuk beberapa kombinasi fitur produk.
Analisis konjoin terdiri dari beberapa tahap. Pertama, memilih beberapa kombinasi atribut dan level dari masing‐masing atribut. Selanjutnya, kombinasi atribut ini diberi peringkat oleh beberapa responden (konsumen). Terakhir, analisis terhadap penilaian responden dilakukan untuk mengetahui preferensi konsumen.
SPSS 15 menggunakan pendekatan full‐profile di mana peringkat dari kombinasi produk ditentukan oleh level dari semua faktor tertentu. Masalahnya adalah meskipun telah dengan sangat selektif dipilih kombinasi fitur produk yang paling berpotensi tetapi jumlah kombinasi yang dihasilkan sangat banyak. Jika ada 4 faktor dengan 3 level akan menghasilkan 81 kombinasi produk (3x3x3x3). Seorang konsumen akan kesulitan memberi peringkat dari ke‐81 kombinasi produk tersebut selain membutuhkan waktu yang relatif lama.
Posting kali ini mengulas bagaimana mengolah Robust Principal Component Analysis (ROBPCA). Motivasi penulisan artikel ini melihat antusiasme pengunjung blog yang mulai tertarik dengan penulisan skripsi bertema ROBPCA dari Hubert (2004) danpaper ROBPCA oleh Suryana (2007).
Pengolahan ROBPCA menggunakan toolbox Matlab yang ditulis oleh Hubert (2004). ROBPCA merupakan salah satu M-File yang terdapat dalam kumpulan Toolbox Statistik robust dengan nama LIBRA. Pengunjung harus menginstall program Matlab terlebih dahulu. Di sini, penulis menggunakan program Matlab 7.01.
Klik Me If You Wanna Know More!
Pada posting kali ini, penulis mencoba menyajikan sebuah tulisan ringan mengenai bagaimana cara pintas mempelajari pemodelan statistik yang berbasis model (model based). Yang dimaksud model based di sini adalah model statistik yang telah ditentukan lebih dahulu model matematisnya sebelum karakteristik data diketahui. Sebagai contoh dalam model regresi linear peneliti mengasumsikan hubungan antara variabel bebas dan variabel terikat berbentuk lurus (linear).
Salah satu kelemahan model based adalah adanya berbagai asumsi yang menyertai model itu. Dalam model regresi misalnya meangasumsikan error harus berdistribusi normal dengan rata-rata nol dan varians tertentu. Karena error model bisa terdeteksi setelah model terbentuk maka variabel terikatlah yang disyaratkan berdistribusi normal dengan rata-rata dan varians tertentu. Permasalahannya data seperti apa yang berdistribusi normal dengan rata-rata dan varians tertentu itu?
Melalui simulasi data, kita dapat memahami pemodelan statistik yang model based tadi. Caranya?
Pada posting sebelumnya, penulis telah menghadirkan penurunan rumus modus data berkelompok. Pada posting kali ini, penulis akan menyajikan penurunan rumus median untuk data berkelompok.
Median adalah datum yang membagi data menjadi dua kelompok, 50 persen data kurang dari nilai median dan 50 persen data lebih besar dari median. Pada data tunggal, pencarian nilai median dilakukan dengan cara mengurutkan data dari nilai terkecil ke nilai terbesar. Kemudian nilai tengah data yang telah diurutkan itu merupakan nilai median.
Bagaimana menentukan nilai median dari data berkelompok? Bagaimana penurunan formula nilai median untuk data berkelompok hingga menjadi rumus sebagai berikut:
me1
Modus adalah data yang frekuensinya paling sering muncul. Sebagai contoh, modus untuk data 5 4 6 8 5 1 3 5 7 adalah 5 karena kemunculan 5 dari data tersebut yang paling sering.
Bagaimana menetukan modus data berkelompok seperti data berikut?

Class LimitsFrekuensi
19,5 – 24,55120
 24,5 – 30,55717
30,5 – 35,55677
35,5 – 40,55643
40,5 – 45,54961
45,5 – 50,53885
50,5 – 55,52721

Berdasarkan tabel di atas, modus data akan ditemukan pada class limits pertama, 24,5 – 30,5 karena memuat frekuensi terbanyak yaitu 5717. Tetapi, jika kita menginginkan satu datum yang mewakili modus, berapa bilangan di antara 24,5 – 30,5 yang paling tepat?
Dalam beberapa buku statistik, modus data berkelompok dinyatakan dengan formula:
modus 
Dengan
Mo = modus,
Lo = lower limit dari kelas modus,
fo = frekuensi dari kelas modus,
f1 = frekuensi dari kelas sebelum kelas modus,
 f2 = frekuensi dari kelas sesudah kelas modus,
c = panjang kelas (interval kelas).
Pertanyaannya, dari mana formula modus diturunkan?
Analisis konjoin merupakan salah satu teknik analisis multivariat  yang digunakan untuk mengetahui preferensi konsumen terhadap suatu produk baik berupa barang atau jasa. Teknik analisis konjoin penting karena ada banyak faktor yang mempengaruhi penilaian konsumen dalam menentukan pilihan suatu produk. Sebagai contoh, konsumen ingin membeli produk telepon selular atau HP mungkin dipengaruhi oleh harganya, merek HP, atau jaminan garansi. Dengan analisis konjoin kita dapat mengetahui preferensi konsumen dalam membeli HP apakah harga menjadi pertimbangan utama ataukah mereknya?

Untuk memahami analisis konjoin kita sebaiknya memahami konsep atribut dan levelAnattribute is a general feature of a product or service – say size, colour, speed, delivery time. Each attribute is then made up of specific levels. So for the attribute colour, levels might be red, green, blue and so on. Pada contoh HP di atas, ada tiga atribut HP yang diteliti yaitu harga, merek dan jaminan garansi. Masing-masing atribut mempunyai level. Atribut harga bisa kita beri level 1. Harga HP kurang dari satu juta rupiah, 2. Harga HP antara satu dan tiga juta rupiah, dan 3. Harga HP di atas tiga juta rupiah. Atribut Merek bisa dibagi dalam level 1. Nokia, 2. Samsung, 3. Siemen. Atribut jaminan garansi bisa dibagi dua level yaitu, 1. Garansi Pabrik, 2. Garansi Distributor.
“Wahai manusia! Sungguh, Kami telah menciptakan kamu dari seorang laki-laki dan seorang perempuan, Kemudian Kami jadikan kamu berbangsa-bangsa dan bersuku-suku agar kamu saling mengenal. Sungguh, yang paling mulia di antara kamu di sisi Alloh ialah oarng yang paling bertaqwa. Sungguh, Alloh Maha Mengetahui, Mahateliti” (Qs. 49(Al-hujrat): 12).
Mengawali pembahasan analisis kluster, ayat Al-Quran di atas sengaja penulis kutipkan. Terdapat banyak karakteristik dalam diri manusia. Kita berbeda dalam hal bahasa, warna kulit, warna bola mata, bentuk rambut, postur tubuh dan masih banyak lagi perbedaan lainnya. Untuk memudahkan identifikasi, manusia kita kelompok-kelompokkan menjadi bagian-bagian kecil. Manusia penghuni dunia bisa kita kelompokkan menurut bangsanya. Di dalam satu bangsa bisa dikelompokkan lagi menurut suku-suku dalam satu bangsa dan seterusnya. Dalam analisis multivariat, untuk pengelompokkan objek digunakan analisis kelompok atau lebih dikenal dengan analisis kluster (cluster analysis). Lebih detil.
Covariance sebuah kata yang digunakan untuk menyatakan sebuah matrik yang memuat dua informasi sekaligus. Bentuknya berupa matrik bujursangkar. Informasi yang pertama adalah variansi yang terletak pada elemen diagonal utama. Informasi yang kedua adalah kovariansi yang terletak pada elemen selain elemen diagonal utama.
Untuk kasus data sampel, estimasi matrik kovariansi biasanya dengan menggunakan metode Maximum Likelihood Estimator (atau metode MLE). Tetapi, oleh karena tidak semua data bersifat normal. Kadang kala kita dapati beberapa titik data yang sangat berbeda karakteristiknya dari kebanyakan data yang ada. Pada kasus seperti ini penggunaan metode MLE untuk mengestimasi matrik kovariansi harus lebih hati-hati. Mengapa?
Analisis diskriminan dan analisis regresi merupakan dua metode analisis yang berbeda. Perbedaan ini dapat ditinjau dari tujuan metode analisis dan jenis data respon (y). Dari sisi tujuan analisis, analisis diskriminan bertujuan untuk mengenali faktor-faktor yang dapat membedakan dua kelompok atau lebih. Faktor-faktor pembeda ini akan membentuk sebuah fungsi pembeda (disebut fungsi diskriminan). Setelah fungsi pembeda diketahui, analisis diskriminan selanjutnya dapat mengenali observasi baru dan mengelompokkan ke salah satu kelompok yang ada.
Berbeda dengan analisis diskriminan, analisis regresi bertujuan untuk membentuk sebuah fungsi yang dapat menjelaskan hubungan dua variabel, yaitu variabel penjelas/prediktor (x) dan variabel respon (y). Dalam hal ini, kita tidak mengenal pengelompokkan data sebelumnya.
Referensi Sampling:
Semoga bermanfaat.
Beberapa waktu yang lalu, salah satu shohib bertanya bagimana menghitung gini ratioatau rasio gini (tapi bukan rasio bini…). Lewat milis statistika its, ternyata menghitung gini ratio tidak sesukar teorinya. Kalau ingin jelas teori penghitungan gini ratio klik file berikut. (gini-ratio.doc)
Setelah memahami teorinya, berikut worksheet penghitungan gini ratio. Data yang digunakan hasil survei Sosial Ekonomi Nasional di Provinsi Papua Barat Tahun 2007.  Worksheet ini bisa dikerjakan di exel. Anda bisa mengunduh file ini. (gini-ratio.pdf)(more…)
Angka pengangguran dipublish Badan Pusat Statistik (BPS) dua kali dalam setahun. Semester pertama menggambarkan kondisi pengangguran di bulan Februari. Semester kedua menggambarkan situasi pengangguran di bulan agustus. Angka pengangguran merupakan salah satu “rapor” pemerintah dalam memenuhi janji kampanye menyediakan lapangan pekerjaan.
Angka pengangguran nasional (Indonesia) 8,40 persen. Sementara itu angka pengangguran di Papua Barat lebih tinggi lagi, 9,30 persen. Di bandingkan kondisi Agustus 2007, angka ini menunjukkan kenaikan 14,17 persen dan naik 2,98 persen dibandingkan kondisi Februari 2007. (more…)
Memasuki masa pemilihan umum, banyak janji ditebarkan si calon “pemimpim” baik calon presiden, calon gubernur, maupun calon walikota atau bupati. Salah dua janji yang sering dilontarkan adalah pendidikan dan kesehatan gratis. Dua sektor ini memang sangat menyentuh sebagian besar rakyat kita. Padahal secara tidak langsung, janji pendidikan dan kesehatan gratis dari calon incumbent menunjukkan ketidakberhasilannya dalam membangun manusia di tanah air selama kepemimpinannya.
Tengoklah Indeks Pembangunan Manusia (IPM) yang dilaporkan UNDP. Kita berada jauh di belakang negara-negara berpenduduk terbesar di dunia seperti China, India, dan Amerika. Kita juga masih tertinggal dibandingkan negara Singapura, Philipina, Malaysia, dan Bruney Darussalam. Rasanya, 63 tahun merdeka belum bisa membangun apa-apa, hanya keberhasilan demokrasi saja yang kita usung dengan menelan triliunan rupiah melalui pertarungan para pemimpin dalam menduduki kursi panas presiden, gubernur, atau bupati/walikota. Sementara rakyat harus berjuang sendiri mengentaskan kemiskinan yang melilitnya, berusaha sekuat tenaga agar tetap bersekolah untuk merubah nasibnya, atau mengais sejumput rezeki di tengah kekhawatiran kejaran trantib yang dipesan untuk memperindah kota agar si kaya tidak terganggu pemandangannya saat berkendara. (more…)
Principal Component Analysis (PCA) merupakan salah satu analisis multivariat yang sangat dikenal. PCA mampu mereduksi dimensi data yang besar dan saling berkorelasi menjadi dimensi yang lebih kecil yang tidak saling berkorelasi. Meskipun dimensi data diperkecil, kita tidak kehilangan banyak informasi. Variasi data tetap dipertahankan minimal 80 persen.
Analisis komponen utama (principal component analysis=PCA) merupakan teknik statistik yang telah banyak digunakan. Pembahasan materi ini dapat ditemukan pada buku-buku analisis multivariat baik teori maupun aplikasi. Pemanfaatan PCA utamanya dalam menyusutkan dimensi data yang saling berkorelasi satu sama lain.
Perkembangan PCA dimulai sejak diperkenalkan pertama kali oleh Pearson pada tahun 1901. Sejalan dengan perkembangan teknologi komputer dan kemajuan di bidang matematika, PCA hingga kini masih terus mengalami perkembangan. Perkembangan selanjutnya, diperkenalkan generalisasi dari PCA oleh Loève pada tahun 1963.(more…)
Rata-rata dan median merupakan dua ukuran pemusatan data. Keduanya mempunyai karakter yang berbeda. Rata-rata sangat baik digunakan apabila data dalam kondisi normal, tidak terdapat pencilan, tidak menceng. Rata-rata sangat dipengaruhi pengamatan pencilan. Sebagai contoh, dari 1, 3, 4 dan 2 diperoleh rata-rata 2,5. Apa yang terjadi jika kita tambahkan datum 10 pada sekumpulan data tadi? Rata-rata kini menjadi 4, berbeda dari data sebelumnya.
Berbeda dengan rata-rata, median lebih resisten terhadap pengamatan pencilan. Data di atas setelah diurutkan mejadi  1, 2, 3 dan 4. Di sini median sama dengan 2,5. Setelah ditambah datum 10, urutan data menjadi 1, 2, 3, 4, dan 10. Mediannya kini menjadi 3. Median 3 lebih dekat ke 2,5 daripada rata-rata 4. Mengapa demikian?(more…)
Mencermati angka-angka yang dipublis BPS cukup menarik. Setiap bulannya, BPS senantiasa memberi informasi pada kita tentang indikator ekonomi bangsa ini. Pertumbuhan ekonomi, angka inflasi, indeks harga konsumen dan lain-lain. Bagi masyarakat awam, apa artinya angka-angka itu? Lain halnya bagi pelaku ekonomi, angka-angka itu penuh makna. Apatah lagi bagi politikus khususnya bagi pihak oposisi. Semua data BPS difitnah ”pesanan pemerintah,” benarkah? (more…)
Analsis diskriminan merupakan analisis multivariat yang digunakan untuk mengelompokkan objek atau individu dari kelompok yang telah diketahui. Ide dasarnya adalah kombinasi linear dari variabel prediktor.
Dalam bisnis seringkali dibutuhkan aturan untuk membedakan beberapa kelompok. Misalnya, Bank akan berkepentingan untuk membedakan peminjam bermasalah dan peminjam yang sehat. Dengan fungsi diskriminan masalah itu bisa di atasi.
Menurut hasil penelitian, terdapat perbedaan ukuran (size) rumah tangga antara
pedesaan dan perkotaan. Selain itu, pendidikan ibu turut andil dalam menentukan
jumlah anggota rumah tangga. Untuk menguji kebenaran pernyataan tersebut akan
diteliti pengaruh perbedaan status tempat tinggal (kota dan desa), dan tingkat
pendidikan ibu (<=SMP, SMA, dan PT) terhadap ukuran rumah tangga. Untuk
maksud tersebut, rancangan surveinya sebagai berikut:
Unit penelitian: Rumah Tangga
Lokasi Penelitian: Kota Surabaya dan Kabupaten Sampang
1. Faktor-1: Status Tempat Tinggal
Level Faktor-1: 1 = Desa 2 = Kota
2. Faktor-2: Status Pendidikan Ibu:
Level Faktor-2: 1 = Maksimum SMP, 2 = SMA, 3 = Perguruan Tinggi.
3. Jumlah Replikasi: 5
Contoh selengkapnya dapat dibaca pada file berikut.
contoh_kasus_fixed_dan_random_model.pdf

Tidak ada komentar:

Posting Komentar