DEPARTEMEN ILMU EKONOMI
FAKULTAS EKONOMI UNIVERSITAS INDONESIA
MODUL
STATA: Basic Data Management
(Edisi:2011)
Oleh :
Akbar Suwardi
Lab. Komputasi Departemen Ilmu Ekonomi
Gedung Departemen Ilmu Ekonomi-FEUI Lt. 1, Depok
Telp. (021) 78886252
STATA – Data Management | 1
PENGANTAR STATA
PENGENALAN STATA DAN DATA MANAGEMENT 1. PENGENALAN STATA
STATA merupakan program statistik dengan fungsi statistik dan ekonometrik yang relatif lengkap dibandingkan software statistik lainnya. Selain dapat digunakan untuk data yang panel dan Times Series, STATA mampu mengolah data dengan jumlah variabel yang cukup banyak atau dengan jumlah observasi yang besar, seperti data Sensus Penduduk, SUSENAS dan SAKERNAS. STATA juga mampu mengolah data yang membutuhkan tingkat akurasi tinggi, seperti analisis ekonometrik. Kelebihan STATA diluar kemampuan analisisnya adalah tersedianya
online help untuk mencari keterangan tentang syntax yang dibutuhkan untuk sebuah
analisis ekonometrik, oleh karena itu perintah (ado) di stata dapat menambah sesuai dengan penemuan perintah terbaru. Selain itu terdapat online update dimana akan diperoleh update fungsi-fungsi statistic dan ekonometrik yang terbaru atau yang sifatnya lebih advance (tanpa harus update software).
STATA – Data Management | 2
• Software STATA kita buka dengan cara double click pada icon STATA di desktop computer.
• STATA menampilkan empat window sekaligus yang masing-masing mempunyai fungsi yang berbeda, antara lain : Review, Variables, Stata Result dan Stata Command.
Review menampilkan seluruh syntax command yang pernah dituliskan pada window Stata Command.
Variables menampilkan daftar nama variabel dari data yang sedang aktif
Stata result menampilkan syntax program, hasil proses dari syntax command.
Statacommand tempat untuk menuliskan syntax command
• Pada toolbar terdapat option File, Edit, Prefs, Data, Graphics, Statistics, Users, Windows, dan help. Graphics dan Statistics adalah dua option utama yang biasanya digunakan untuk analisis statistic dan ekonometrik.
• Untuk mendapatkan online help, pada toolbar help klik Search Search net resources (jika terhubung dengan internet).
2. MEMULAI STATA
a. Membuat & Memilih Direktori Kerja, Alokasi Memori, dan Pembuatan Catatan Kerja.
Hal awal kecil yang harus anda perhatikan sebelum bekerja dengan STATA (juga sebaiknya dengan program lainnya), adalah memastikan anda mengetahui dimana anda akan menyimpan file-file anda, baik file input maupun output, serta catatan pekerjaan anda. Direktori kerja STATA standarnya akan diletakan pada c:\data , tetapi apabila anda tidak mau menyimpan file dan catatan anda disini maka anda dapat membuat direktori kerja baru dan berpindah ke direktori
STATA – Data Management | 3 tersebut. Misalakan saya ingin membuat direktori baru di drive c, dengan nama akbar, maka saya dapat memerintah STATA untuk melakukan hal ini dengan: mkdir c:\akbar
Dan apabila saya ingin memindahkan direktori kerja saya ke alamat ini, saya dapat mengetik:
cd c:\akbar
setelah kita memindahkan alamat kerja kita ke alamat yang kita inginkan, maka kita siap bekerja dengan STATA. Tetapi sebagai peneliti, akan lebih baik apabila kita juga membuat catatan pekerjaan yang kita lakukan pada saat itu, sebagai back-up dari peristiwa-peristiwa yang tidak diinginkan, maupun dapat juga digunakan sebagai laporan maupun reminder dari apa yang kiat kerjaan waktu itu. Caranya adalah dengan perintah log :
log using c:\akbar\states.smcl
--- name: <unnamed>
log: c:\akbar\states.smcl log type: smcl
opened on: 23 Nov 2010, 22:28:39
maka mulai dari titik ini semua yang anda kerjakan di STATA akan tercatat pada laporan ini.
b. Perintah membuka file data
Sebelum membuka file data pada program STATA, terlebih dahulu dipastikan bahwa file data sudah dalam format STATA dengan file extension .dta. Jika file
mkdir = make directory
STATA – Data Management | 4 data tidak dalam format STATA, terlebih dahulu format data diubah dengan menggunakan program Stat Transfer.
Untuk membuka file pada Stata dapat dilakukan dengan perintah sebagai berikut:
use "C:\Users\Akbar Suwardi\Desktop\states.dta", clear Atau bisa dilakukan dengan mengklik ikon open file di pojok kiri atas seperti
umumnya membuka file pada program lainnya.
! Atau langsung double click file data yang ingin dibuka.
Catatan : Dalam menuliskan syntax command pada window Stata Command, hindari menulis tanda “.” titik.
c. Mengatur memori dalam STATA
Seringkali alokasi memori untuk menjalankan file data tidak mencukupi. Hal ini bisa disebabkan oleh besarnya observasi atau banyaknya jumlah variable. Bila alokasi memori tidak mencukupi maka akan tampil di window Stata Result tampilan sebagai berikut:
no room to add more observations ...
Perintah mengatur memory: set mem 128m
Maksudnya adalah memori yang dialokasikan untuk menjalankan program adalah 128 Mega Byte.
STATA – Data Management | 5 Bila kita ingin menyimpan data setelah kita melakukan manipulasi ataupun proses pada data, kita dapat menyimpan data tersebut dengan nama yang sama ataupun dengan nama yang baru.
Untuk menyimpan dengan nama yang sama, ketik: save, replace
Untuk menyimpan dengan nama yang berbeda, ketik save states.dta _new
e. Keluar dari STATA
Setelah kita selesai bekerja dan berniat keluar dari program STATA, selain dengan menutup window (meng-klik tanda silang di ujung atas kanan window), dapat juga melakukan perintah berikut:
exit
tetapi jika kita belum menyimpan file data sebelum mengetik perintah exit, maka akan muncul pada Stata Result sebagai berikut:
. exit
no; data in memory would be lost
Jika kita telah menyimpan data, atau tidak ingin menyimpan data yang telah kita olah, maka digunakan perintah sebagai berikut:
exit, clear
f. Stata Help
Kita dapat menggunakan menu Help pada stata dengan menuliskan nama lengkap dari perintah yang ingin dicari.
STATA – Data Management | 6 help sepov
Bila nama perintah tidak lengkap Stata tidak akan mengenalinya, dan akan muncul peringatan dalam Stata Result sebagai berikut:
. help mem
help for sepov not found
try help contents or search sepov
g. Mengupdate Syntax
Jika kita belum ada suatu perintah di stata, misal ada perintah terbaru, maka cara untuk mengudatenya dapat dilakukan sebagi berikut:
Contohnya:
findit sepov
Lalu ikuti perintah yang tetera dalam window tersebut (komputer harus tersambung dengan Internet)
3. BEKERJA DENGAN DATA PADA STATA
a. Menampilkan profil data
Setelah file dibuka, pada variable window akan tampak nama-nama variable yang terdapat di file tersebut. Sedangkan pada review window akan muncul rekaman perintah-perintah yang sebelumnya sudah dioperasikan.
Langkah selanjutnya adalah menggunakan perintah describe. Perintah ini digunakan untuk melihah profil data baik secara keseluruhan maupun sebagian. Perintah describe akan memberikan gambaran data secara keseluruhan meliputi nama variable, storage type ,display format, valuelabel, variable label , jumlah
STATA – Data Management | 7 observasi dan variable serta ukuran data. Untuk menampikan profil data cukup ketik : desc atau d
Untuk melihat profil umum variabel tertentu, maka perintahnya adalah : desc nama variable
Contoh :
desc csat
desc csat percent
desc csat percent expense
Pada toolbar, perintah describe dapat diakses lewat menu data -> describe
data describe variables in memory b. Menampilkan dan mengedit data:
Data pada Stata dapat ditampilkan dengan mengetikkan perintah browse. Perintah ini akan memunculkan Stata Browser yang memperlihatkan spreadsheet data.
STATA – Data Management | 8 Untuk menutup browser, tekan Alt+F4
Untuk mengedit data pada Stata Browser, gunakan perintah edit. Jika ingin mengedit beberapa variabel saja, ketikan nama variabel dibelakang perintah
edit. Spreadsheet akan muncul dan isi data dapat diubah secara manual. Contoh: edit csat
c. List data untuk variabel atau observasi terpilih
Perintah list digunakan untuk menampilkan variabel-variabel suatu observasi terpilih atau observasi untuk variabel terpilih. Mengetikkan list saja pada stata command akan menampilan nilai variabel-variabel seluruh observasi pada dataset.
Untuk menampilkan variabel-variabel pada suatu observasi tertentu, perintah list dapat ditambahkan dengan qualifier command in
Contoh :
list in 5
perintah ini akan menampilkan variabel-variabel pada observasi ke-5
list in 1/20
perintah ini akan menampilkan variabel dari observasi 1 sampai 20
d. Membuat variabel baru
Variabel baru dibuat dengan menggunakan fungsi/ekspresi tertentu dengan menggunakan perintah sebagai berikut:
STATA – Data Management | 9
Catatan:
Beberapa Relational, Logical dan Aritmetic operator yang penting dalam membuat variabel :
Relational Operators
> [ Lebih besar (greater than) ]
< [ Lebih kecil (less than)]
== [ Sama dengan (equal)]
>= [ Lebih besar atau sama dengan (greater
than or equal)]
<= [Lebih kecil atau sama dengan (less than
or equal)]
!= or ~= [Tidak sama dengan (not equal)]
Logical Operator ! / ~ (not) | (or) & (and) Aritmetic operator + penambahan - pengurangan * perkalian / pembagian ^ kuadrat Contoh:
Misal kita ingin membuat variabel expense2, yang merupakan expense kuadrat: generate expense2 =expense^2
e. Mengganti nama variabel
Penggantian nama variabel dapat dilakukan melalui perintah rename. Pada stata command ketik:
rename [nama variabel lama] [nama variabel baru] Contoh:
rename expense2 expensekuadrat
STATA – Data Management | 10 Untuk memberi label pada variabel (baik label variabel maupun label nilai), digunakan perintah : label variable
Contoh:
label variable expensekuadrat "expense dikuadratin"
Untuk memberikan label nilai pada variabel kategorik, seperti jenis kelamin atau perkotaan-pedesaan, kita dapat melakukannya dengan perintah ;
label value [varname] [valuename] label define [valuename]
Contoh:
label value sex sex1
label define sex1 1 “laki-laki” 0 “perempuan”
g. Menyimpan dan membuang variabel dan observasi
Untuk membuang sejumlah variabel, digunakan perintah drop atau keep. Contoh: drop expensekuadrat
Atau jika ingin membuang observasi berdasarkan kategori tertentu maka gunakan perintah drop if
Contoh: drop if sex==1 atau keep if sex==2
4. TABEL STATISTIKA DESKRIPTIF DAN TABULASI SILANG 1. Tabel statistika deskriptif
Analisa berdasarkan statistika deskriptif seperti jumlah observasi, rata-rata, median, standard deviasi, dan nilai maksimum dan minimum, dapat dilakukan dengan Stata.
STATA – Data Management | 11 a. Untuk memperoleh nilai statistika deskriptif sebuah variabel, gunakan
perintah summarize varname atau untuk mendapatkan nilai statistic deskriptif semua variable dalam subset cukup ketik summarize
Contoh:
summarize csat
Variable | Obs Mean Std. Dev. Min Max ---+--- csat | 51 944.098 66.93497 832 1093
b. Sedangkan untuk memperoleh nilai statistika deskriptif berdasarkan sebuah kategori tertentu, gunakan perintah table varname, contents (statistik deskriptif varname) atau tabstat varname, statistics (statistik deskriptif)
by (varname).
Contoh:
Tabulasi untuk melihat rata-rata SAT scores di region dan csat
table region, contents (mean csat) --- Geographi | cal | region | mean(csat) ---+--- West | 946.3077 N. East | 889.5555 South | 930 Midwest | 1010.083 ---
STATA – Data Management | 12
2. Tabel Frekuensi
Tabel frekuensi dalam stata akan memunculkan nilai frekuensi, persentase, dan persentase kumulatif dari masing-masing kategori atau nilai sebuah variabel.
Untuk mengeluarkan tabel frekuensi sebuah variabel, gunakan perintah tabulate.
contoh:
tabulate region
pada screen Stata Result akan muncul tabel sebagai berikut: Geographical|
region | Freq. Percent Cum. ---+--- West | 13 26.00 26.00 N. East | 9 18.00 44.00 South | 16 32.00 76.00 Midwest | 12 24.00 100.00 ---+--- Total | 50 100.00 3. Tabulasi Silang a. Dua arah
Perintah tabulate juga dapat digunakan untuk membuat tabulasi silang (frekuensi) dua arah
Contoh:
STATA – Data Management | 13 Geographic | pria n wanita
al region | perempuan laki-laki | Total ---+---+--- West | 7 6 | 13 N. East | 3 6 | 9 South | 11 5 | 16 Midwest | 6 6 | 12 ---+---+--- Total | 27 23 | 50
b. Tabulasi lebih dari dua variabel
Untuk menghasilkan tabel dua arah berdasarkan sebuah kategori tertentu, gunakan perintah:
by [varname], sort: tabulate [varname] [varname] atau table [varname1] [varname2] [varname3], contents( freq ) row col
Contoh: Kita ingin melihat perbedaan tingkat SAT scores dan expense ditiap-tiap daerah.
by region, sort: tabulate csat expense
5. GRAFIK STATISTIK a. Histogram
Pada halaman Main, isi kotak variabel dengan nama variabel yang ingin dibuat histogram. Misalnya kita ingin membuat histogram frekuensi berdasarkan jumlah pendapatan per murid (income).
STATA – Data Management | 14 histogram income, frequency
Namun, jika kita ingin melihat juga apakah data kita (income) terdistribusi secara normal apa tidak melalui histogram frequensi, kita bisa menambahkan normal pada option di histogramnya, seperti berikut:
histogram income, frequency normal
Maka garis yang seperti lonceng tersebut, adalah garis normalitas bagi data kita tersebut, normal atau tidaknya data kita ini mungkin sangat sulit jika hanya dilihat dari gambar, namun dari gambar minimal kita dapat menyimpulkan secara general apaka data kita sangat mirip pergerakannya dengan garis normal tersebut.
0 5 10 15 F req ue ncy 25 30 35 40 45 Median household income, $1,000
0 5 10 15 F req ue ncy 25 30 35 40 45 50 Median household income, $1,000
STATA – Data Management | 15
b. Bar Graph
Bar graph umumnya menampilkan grafik statistik deskriptif sebuah variabel continuous berdasarkan kategori tertentu. Misalnya kita ingin melihat perbedaan rata-rata SAT scores di berbagai region, dan antara responden laki-laki dan perempuan.
Contoh:
graph bar (mean) csat, over(region) over (sex)
c. Scatterplot
Scatterplot atau grafik sebaran sangat banyak digunakan dalam ekonometrik untuk mengidentifikasi terdapatnya pola keteraturan yang dapat mengganggu asumsi kerandoman dalam proses estimasi. Scatterplot dibuat dari nilai dua buah variabel continuous. Sebagai contoh kita ingin melihat pola antara SAT scores (csat) dan jumlah pengeluaran per murid (expense).
Contoh:
scatter csat percent
0 20 0 40 0 60 0 80 0 1, 00 0 m ea n of csa t perempuan laki-laki
STATA – Data Management | 16
d. Normal Probability Plot
Sebelum melakukan analisis ekonometrik, kita perlu mengetahui bahwa distribusi nilai sebuah variable haruslah normal. Untuk melihat normal atau tidaknya sebuah distribusi, dapat dilihat menggunakan grafik Normal probability plot.
Misalnya kita ingin membuat Normal probability plot untuk variable SAT scores (csat) pnorm csat 80 0 90 0 10 00 11 00 Me a n co mp o si te SAT sco re 0 20 40 60 80
% HS graduates taking SAT
0. 00 0. 25 0. 50 0. 75 1. 00 N o rma l F [(csa t-m)/ s] 0.00 0.25 0.50 0.75 1.00 Empirical P[i] = i/(N+1)
STATA – Data Management | 17
e. Box Plot
Jika kita ingin mengetahui apakah ada data kita yang oulier atau tidak dan dimana outlier tersebut kita dapat membuar Garik Box plot, misalnya kita ingin membuat membuar Garik Box plot untuk income dan high, maka perintahnya adalah:
graph box income high
graph box expense
20 40 60 80 10 0
Median household income, $1,000 % adults HS diploma
2, 00 0 4, 00 0 6, 00 0 8, 00 0 10 ,0 00 P er pu pil e xp e ndi tu res pr im & se c Outlier
STATA – Data Management | 18
f. Grafik Kernel Density
Daftar Pustaka:
Hamilton, L. 2006. Statistics With STATA: Updated for Version9. Belmont: Duxbury Thomson Learning.
Glick, R., and Andrew Rose. 2001. Does a Currency Union affect Trade? The Time Series Evidence. European Economic Review.
Harris, Mark and Laszlo Matyas. 1998. The econometrics of gravity models.
Melbourne Institute Working Paper no 5/98. Melbourne Institute of Applied
Economic and Social Research.
Manual Stata 11. 2009. Stata Press Publication, College Station, Texas
“Jika ada kritik dan saran atas modul ini, silahkan email ke Segala kritik dan saran sangat berharga bagi penulis. ”
0 .0 2 .0 4 .0 6 De nsi ty 20 30 40 50
Median household income, $1,000 Kernel density estimate Normal density
kernel = epanechnikov, bandwidth = 2.4518