FOR BETTER EDUCATION
Linking Freedom of Information and Open Data for
Greater Transparency and Participation in Banda Aceh
Full Report
18 December 2014
A project of World Wide Web Foundation and Kinerja funded by the USAID,
implemented by the Open Data Lab Jakarta
1. Introduction
1.1.
Background of the Activities
1.2.
Coverage of this Report
2.
Project Accomplishments
Component 1. Deining Priority Information and Data Needs
Component 2. Support to Banda Aceh City Government
Component 3. Capacitating CSOs in Open Data Usage
3.
Lessons Learned
4. Annexes
Annex 1: Activity Pictures
Annex 2: About the Open Data Lab Jakarta and the
World Wide Web Foundation
Annex 3: Modul Pelatihan Data Terbuka
With funding support from the United States Agency for International Development
through RTI International, the Web Foundation’s Open Data Lab in Jakarta implemented
the
‘Linking Freedom of Information and Open Data for Greater Transparency
and Participation in Banda Aceh’
Project (hereinafter the OD and FOI – Banda Aceh
Project).
The project was implemented from 01 November – 15 December 2014 in Banda Aceh,
Indonesia in partnership with GeRAK Aceh and the city government of Banda Aceh.
The project intended to achieve the following objectives:
•
Assess the data needs of civil society organizations (CSOs) and their constituents
to match with information disclosure practices of the city government;
•
Support the city government in understanding the key priority information and
data needs of CSOs and their constituents;
•
Increase the capacity of CSOs to understand, use, and translate government
data into actionable information for the use of citizens and disseminate these
for wider impact.
Three (3) workshops were conducted in the course of this project, each with a
distinctive set of outputs to achieve the objectives mentioned above. A summary of
the workshop speciications is presented below:
1. INTRODUCTION
1.1 BACKGROUND OF THE ACTIVITIES
Component
Activities
Speciic Outputs
Component 1:
Deining Priority Data and
Information Needs
1 day workshop with
CSOs to deine priority
information and data
needs
List of at least ten (10)
priority data needs in
the education sector that
CSOs identify as critical
Component 2:
Support to the Banda
Aceh City Government
1 day workshop on the
fundamentals of open
data with selected oicials
of the city administration
of Banda Aceh
List of meaningful data the
city government of Banda
Aceh is committed to
disclose based on the list
of priority needs
Technical support to the
concerned agency from
the Open Data Lab Jakarta
technical team to identify,
assess, clean and publish
datasets in open format
Meaningful data that
the city government is
committed to sharing is
published online
Component 3:
Capacitating CSOs on
Open Data Usage
2-3 days capacity building
workshop on ‘working
with open data for impact’:
selected intermediary
groups underwent
training on working with
open data, i.e. reading,
analysing data and
communicating the results
This document reports on the accomplishments of the project from the time it started
in November 2014 to the inal workshop in December 2014.
1. INTRODUCTION
Activity
Workshop for civil society groups to deine and prioritize data information needs.
Outputs
Output 1.1.
A total of 24 (18 male, 6 female) participants coming from 19 organizations learned about
Freedom of Information (FOI) and open data.
19 organizations were represented in the workshop. The graph below shows the
distribution of these organizations in terms of size:
COMPONENT 1. DEFINING PRIORITY INFORMATION
AND DATA NEEDS
Small organizations
Moderate organizations
Large organizations
56%
The following sectors were represented:
Sector
Count
Education
15
Health
11
Budget
11
Environment
7
Tourism
4
Agriculture
4
Women Empowerment
2
Extractives
1
Transparency / Anti-corruption
1
Note that while majority of the organizations work primarily in the education
sector, there was a high degree of interest on open data from other sectors.
One (1) of the major questions in the irst CSO workshop was the question of
why the project only focused on education when open data is also relevant in
other sectors such as budget, health, and the environment. The team informed
the participants that as a pilot project and with limited time and resources, the
Immediate Outcomes for Output 1.1
Participants increased their knowledge on FOI and open data as evidenced by
the results of the review workshop conducted in the project workshop for CSOs
in component 3.
Output 1.2.
A total of nine (9) priority data needs were identiied by the CSO participants that
they wanted the city government to proactively disclose. The list below shows the
priority data needs of CSOs within education:
1. School performance/achievement (test results, competition, acceptance
rates in the next level)
2. School facilities
3.
Teacher (number, qualiication, background, certiication, status, title)
4.
School proile (management, regulation, workplan, curriculum)
5. Students (number of male and female students, teacher to student ratio)
6. Library (collection, number of collections, visits)
7.
Non-teaching staf (number, status, qualiication)
8. Budget (budget plan, expenditure, list of scholarship grantees)
9. Sources of funding
Immediate Outcomes for Output 1.2
CSOs were able to deine what sorts of data and information mattered to them
and their constituents.
Activity
Workshop with Banda Aceh city government on proactive disclosure and FOI.
Outputs
Output 2.1.
A total of 40 civil servants (21 male, 19 female) from the city government of Banda Aceh
participated in the workshop on FOI and proactive disclosure. The oices represented
were the following:
1. Education
2. Planning
3. Information commission
4. Finance and asset management
5.
Health and sanitation
6. Sharia court
7. Public relations
8. Transportation
9. Local police
10. Social welfare and labour
Immediate Outcomes for Output 2.1
The oicials became committed to publish open datasets. The city government even
wanted to extend training support to other departments.
2. PROJECT ACCOMPLISHMENTS
Output 2.2.
A total of eight (8) participants (7 male, 1 female) from the city government of Banda Aceh
were trained in open data basics to ensure publication of open data in the web.
Output 2.3.
A total of 16 open data sets were published online by the Education Department. This is
available at http://data2.bandaacehkota.info/group/disdikpora-banda-aceh. These data
sets are as follows:
1. Graduation from senior high school
2. Graduation from junior high school
3. Graduation from vocational school
4. Awards obtained by schools
5. Budget and budget realization
6.
Teacher education and certiication (PNS)
7.
Teacher education and certiication (non-PNS)
8. Facilities / infrastructure in school
9.
School proile
10. Admission of students in schools
11.
Number of students (High School, Junior High School, Vocational)
12. Budget and budget realization - Services
13.
Budget and budget realization – High school
2. PROJECT ACCOMPLISHMENTS
14.
Budget and budget realization – Vocational
15.
Budget and budget realization – Junior High School
16. Data on disadvantaged students
Immediate Outcomes for Output 2.3
In the public event, the head of the education department committed to open all of the
department’s data to the public.
Output 2.4.
An unintended output realized was the publication of eight (8) open datasets by the
transportation and communication departments.
These are published by
http://data2.bandaacehkota.info/group/dishubkominfo-banda-aceh.
Immediate Outcomes for Output 2.4
There is strong interest from other departments within the Banda Aceh city government
to open data to the public.
Output 2.5.
Open Data Lab Jakarta produced a guide for civil servants to use in proactively disclosing
open data.
2. PROJECT ACCOMPLISHMENTS
PROJECT ACCOMPLISHMENTS
COMPONENT 3. CAPACITATING CSO
s
IN OPEN DATA USAGE
Activity Outcomes
3-day capacity building workshop on ‘working with open data for impact’.
Output
Output 3.1.
A total of 28 civil society representatives (17 male, 11 female) coming from 19 organizations
were trained in online and oline visualization as well as telling narratives from visualized
data.
Output 3.2.
A total of six (6) online and oline data visualization as well as data narratives were
developed by CSO participants, indicating increased competency in working with open
data.
Immediate Outcomes for Output 3.2
Two (2) data narratives based on visualized data were presented during the public event.
This generated reactions from the participants. In the forum, the head of the education
department welcomed these suggestions and recommendations
1highlighted in the data
narratives and committed to deal with these in order to improve education performance
in the city.
For the inal workshop, the irst presentation recommended the need to socialize and improve transparency of School Operational Assistance
“BOS” funds, while the second presentation argued the correlation between education funds and declining of school performance in Banda Aceh.
Output 3.3.
Open Data Lab Jakarta created a guide on open data basics for CSOs to use, appended
in Annex 3.
Open Data Lab Jakarta, for its own purposes, is currently conducting extensive
documentation of the processes undertaken in this project and the outcomes on the part
of people from both CSOs and city government. This is documented through narrative
documentation and taped interviews, which will be shared on the project website (http://
labs.webfoundation.org) in due time as part of the Lab’s communication materials and
research reports.
PROJECT ACCOMPLISHMENTS
The project implementation yielded the following lessons learned that will inform future
work regarding open data and its intersection with freedom of information:
On CSOs Awareness regarding FOI and Open Data
•
While access to information has improved for at least three (3) CSOs represented in
the workshop, the majority of the CSOs in Banda Aceh have not exercised their right
primarily because of lack of awareness on how to exercise or avail of their right to
information and the perception that exercising it is cumbersome.
•
There is low awareness on the part of CSOs regarding open data. They associate
open data with web applications. Only after an explanation of open data concepts
were the participants able to see its value and how it complements with freedom of
information.
On Government’s Attitude towards FOI and Open Data
•
Civil servants see the value of sharing information to the public. Most of them
expressed the commitment that if CSOs will ask for speciic information, for as long
as these are available, they will provide it.
• However, while there is interest in proactively disclosing information to
the public,
there is also a certain degree of apprehension in opening up data. Civil servants are
afraid that the data would fall into the wrong hands, that it could be misused, and that
those having access to it could modify the data to the disadvantage of government.
Nevertheless, in less than two (2) months, the project was successful in achieving the set
objectives. The relative ease by which the project was able to achieve project objectives
with limited time and resources were caused by the following:
Strong civil society organizations
While an assessment of organizations was not conducted by the project, the discussions
in the workshops and the outputs that were achieved point to a certain degree of
maturity of CSOs and the availability of requisite skills in some of the organizations
to analyze, visualize, and tell narratives from data. It was also evident that some of
the organizations (e.g. GeRAK Aceh, transparency groups and local media including
Advokasi Rakyat Aceh (PAKAR), Gerakan Aktivis Muda-Guru Bersatu (GAM-GB), Jurnalis
Warga, Sekolah Anti Korupsi (SAKA), Aliansi Jurnalis Independen (AJI), Persatuan Guru
Republik Indonesia (PGRI), Radio Elshinta, Lembaga Pembinaan dan Pengembangan
Masyarakat (LPPM) Aceh, Fakultas Ilmu Sosial dan Politik - Universitas Syiah Kuala
and Majelis Pendidikan Daerah (MPD)) already had strong relationships with the local
government and are able to inluence decisions, especially in the education sector –
the sector tested in this project.
Committed local government leaders
The key to the success of the project was the commitment of local government leaders.
Had government leaders not expressed commitment to proactively disclose data and
had their staf trained in to do so, the CSO workshop, the main intention of the project,
would not have happened.
Good working relationship of Kinerja
with Banda Aceh city government and the CSOs
The project was introduced to the local government and the CSOs through Kinerja.
Kinerja’s work and good reputation in the area hastened all processes and ensured
that key stakeholders attend the three (3) workshops scheduled.
Good project design and capable team
The relevance, efectiveness, and eiciency of the design made possible
the
achievement of the objectives. This is coupled with the competence and commitment
of the implementation team at the Open Data Lab Jakarta who made sure that activities
were completed within the time frame in partnership with GeRAK Aceh and the city
government of Banda Aceh.
Moving forward, the following recommendations are proposed:
Kinerja should continue encouraging the local government to
sustain its current eforts in proactively disclosing data.
The civil servants trained in open data through this project can already support other
departments who want to disclose their data proactively. Kinerja should also follow-up
with the city government to ensure that the beta site –
http://data2.bandaacehkota.info/
- will be inalized and publicly disseminated.
Gerak Aceh should act as a lead convenor of open data advocates
in the city and should follow through on the commitments of
trained CSO participants.
While initially, there are commitments on the part of the CSOs to implement activities
based on the things they have learned (e.g. writing a blog post, drafting an analysis
paper, informing their constituents, among others), there is a need to monitor progress
on these commitments to sustain the momentum.
Open Data Lab Jakarta is committed to support both Kinerja and Gerak Aceh in these
endeavours remotely. Appropriate contact details have already been shared to ensure
that Open Data Lab Jakarta can continuously support the city government and the CSOs.
ANNEX 1
ACTIVITY PICTURES
Participants from the1st and 2nd Workshops: Participants identiied and listed their data set demands from the education agency
ANNEX 1
ANNEX 1
ACTIVITY PICTURES
Participants from the 3rd Workshop and the public event: Participants presented their oline and online visualisations as results
of the workshop, with our partners from the Banda Aceh City Government, GeRAK Aceh and Kinerja watching their presentations.
ABOUT THE OPEN DATA LAB JAKARTA
AND WORLD WIDE WEB FOUNDATION
About the Open Data Lab Jakarta
Run by the World Wide Web Foundation and inancially supported by Ford Foundation,
the Open Data Lab Jakarta is innovating with open data for social change. By trying out
new approaches, we want to accelerate progress and ensure open data rapidly becomes
a vital tool to tackle practical problems in developing and emerging economies.
About the World Wide Web Foundation
Modul Pelatihan Data Terbuka
Daftar Isi
1.
Pengenalan Format CSV
Apa itu CSV?
Data dalam comma-separated values atau disingkat CSV merupakan data tabular disimpan dalam bentuk teks-biasa dipisahkan oleh tanda koma. Sebagai contoh, apabila Anda memiliki data tabular dalam bentuk tabel sebagai berikut:
kolom1 kolom2 kolom3 kolom4
nilai1 nilai2 nilai3 nilai4
nilai5 nilai6 nilai7 nilai8
Maka dapat disimpan dalam format CSV sebagai:
kolom1,kolom2,kolom3,kolom4 nilai1,nilai2,nilai3,nilai4
nilai5,nilai6,nilai7,nilai8
Perhatikan bahwa setiap baris dibentuk dalam jejeran baru dan setiap kolom dipisahkan oleh tanda koma. Baris pertama selalu dikhususkan untuk nama-nama kolom.
Mengapa CSV?
Terdapat dua alasan utama penggunaan format CSV untuk pertukaran data, antara lain:
1. Format CSV berbasis teks-biasa. Istilah “teks biasa”dalam teknologi informasi (TI)
diartikan sebagai cara penyimpanan informasi dalam bentuk rangkaian karakter penulisan teks. Hal ini membuat CSV mudah dibuat oleh siapapun.
2. Berkas CSV dapat dengan mudah diimpor oleh program tabular apapun atau dibuka
oleh banyak jenis aplikasi tanpa memperdulikan sistem komputer yang dipakai (baik Windows, Linux, OSX, dlsb.)
Aturan Format CSV
Secara singkat format ini diimplementasikan sebagai berikut:
■
Setiap baris data dipisahkan oleh kontrol Enter.■
Kontrol Enter di akhir baris data boleh ditiadakan.aaa,bbb,ccc <Enter> zzz,yyy,xxx
■
Baris pertama selalu dikhususkan untuk nama-nama kolom.nama_kolom,nama_kolom,nama_kolom <Enter> aaa,bbb,ccc <Enter>
zzz,yyy,xxx
■
Nama kolom dan nilai data dipisahkan oleh tanda koma. Kehadiran spasi tidak bolehdiabaikan karena dapat mempengaruhi nama kolom atau nilai data. Nama kolom atau nilai data paling terakhir tidak boleh terdapat tanda koma.
aaa,bbb,ccc
■
Tanda kutip boleh diikutsertakan dalam penulisan nama kolom atau nilai data.“nama_kolom”,”nama_kolom”,”nama_kolom”<Enter>
“aaa”,”bbb”,”ccc”
■
Nilai data yang mengandung koma atau baris baru wajib diapit oleh tanda kutip.“a,aa”,”b <Enter> bb”,”ccc”<Enter> zzz,yyy,xxx
■
Jika tanda kutip digunakan untuk mengapit nilai data maka tanda kutip yang menjadibagian nilai data wajib dibubuhi kontrol penanda backslash.
“aaa”,”\”bbb\””,”ccc”
Diagram alir di atas memperlihatkan strategi dasar untuk menghasilkan data CSV atas data-data publik milik pemerintah:
■
Data yang berasal dari berkas HTML, PDF dan gambar (misal. JPG, PNG, GIF) akandilakukan ekstraksi untuk mendapatkan data tabular. Data Excel pada dasarnya berbentuk data tabular.
■
Data tabular tersebut kemudian perlu dipersiapkan untuk memenuhi kriteria format CSVyang valid.
■
Data tersebut kemudian perlu dibersihkan untuk ditingkatkan kualitas dan keabsahanpenulisan nilai datanya,
■
Konversi data akan menyajikan data tabular dalam format CSV,■
Data CSV yang dihasilkan akan diunggah ke situs daring agar dapat diakses oleh semuaorang.
3.
Ekstraksi Data
Berikut ini adalah strategi praktis ekstraksi data menurut format asal data:
Data HTML
Beberapa metode ekstraksi yang dapat digunakan:
i. Salin-dan-Rekat
i. Persiapkan halaman situs yang berisikan tabel data,
ii. Pilih semua data yang diinginkan dan salin data-data tersebut,
i. Persiapkan halaman situs yang berisikan tabel data,
ii. Salin alamat URL situs tersebut,
iii. Buka aplikasi gSheet,
iv. Fungsi importHTML membutuhkan input isian ekstraksi sbb:
i. Alamat URL: Alamat target halaman situs yang mengandung tabel data,
ii. Jenis Data: Isi selalu jenis “table”,
iii. Indeks: Nomor urutan tabel yang ingin diekstrak dari halaman situs.
v. Apabila input ekstraksi diberikan secara benar, aplikasi gSheet akan mengekstrak data
secara otomatis dan menyimpannya di lembar spreadsheet.
Contoh penggunaan di bawah ini akan mengambil data populasi setiap negara yang terdapat di halaman situs Wikipedia.org
Data PDF
Beberapa metode ekstraksi yang dapat digunakan:
i. Salin-dan-Rekat
i. Buka berkas menggunakan program pembaca PDF seperti Acrobat Reader,
ii. Salin tabel data yang ingin diekstrak,
i. Jalankan Tabula dan secara otomatis akan membuka halaman aplikasi di web browser. Perhatikan bahwa aplikasi ini dapat berjalan tanpa koneksi Internet (luring) walaupun dijalankan di browser.
ii. Pilih Choose File untuk menentukan berkas PDF yang ingin diekstrak.
iii. Tentukan area ekstraksi di halaman PDF. Proses ekstraksi akan secara otomatis
berjalan setelah penentuan area ekstraksi tersebut atau melalui tombol Download All Data.
■
Simpan hasil ekstraksi memakai format CSV.Data Gambar (JPG, PNG, GIF)
Beberapa layanan OCR gratis dan tersedia di Internet antara lain:
■
Free OCR (http://www.free-ocr.com)■
New OCR (http://newocr.com)Pilihan lain yang dapat digunakan untuk mengekstrak data gambar adalah dengan melibatkan komunitas Internet, atau sering diistilahkan crowdsourcing. Salah satu situs penyedia layanan
pemanfaatan-massal adalah CrowdCrafting (http://crowdcrafting.org).
4.
Persiapan Data
Sering kali ditemukan bermacam variasi penyusunan data tabular. Namun tidak semua bentuk variasi tersebut memenuhi kriteria format CSV yang valid. Berikut ini adalah beberapa petunjuk praktis untuk mempersiapkan data tabular yang sesuai dengan format CSV:
■
Hilangkan judul tabelPenulisan judul tabel tidak termasuk dalam implementasi format CSV oleh karena itu perlu dihilangkan dari sumber asalnya.
■
Kepala tabel harus termuat dalam satu barisKepala tabel selalu berada di baris pertama dan terdiri dari satu baris saja. Jika terdapat beberapa kepala tabel maka perlu dilebur jadi satu atau dipisahkan dalam beberapa tabel.
secara otomatis. Oleh karena itu data majemuk perlu dipisahkan dalam beberapa kolom, jika diperlukan.
■
Pisahkan data mentah dengan data hasil analisisData harus disajikan dalam bentuk paling primer (yi. data mentah). Hal ini dikarenakan data mentah dapat dipakai berulang dalam ragam analisis yang berbeda. Data hasil analisis hendaknya disajikan terpisah dari data asli.
■
Pastikan informasi tertangkap lengkap dan unik sebagai barisAturan praktisnya, setiap baris memiliki informasi unik yang menjelaskan satu obyek atau entitas. Apabila dirasa ada informasi yang hilang maka perlu ditambahkan kolom baru. Apabila lebih dari satu baris terdapat kesamaan informasi (atau tidak unik) maka itu pertanda duplikasi.
■
Lakukan anonimisasi data yang mengandung informasi non-publikTerdapat beberapa teknik yang dapat digunakan untuk melakukan anonimisasi data. Tiga diantaranya adalah menggunakan teknik agregasi, penghapusan secara langsung dan melakukan pengkodean (hashing).
5.
Pembersihan Data
Pembersihan data penting dilakukan untuk meningkatkan kualitas data sebelum data
dipublikasikan. Pada bagian ini akan diberikan beberapa petunjuk praktis membersihkan data
menggunakan aplikasi OpenRefine (http://openrefine.org).
■
Pilih Create Project dan tentukan berkas CSV yang ingin dibersihkan,■
Data yang diunggah akan ditampilkan sebagai pra-tayang. Pastikan tabel terbaca secara■
Berikan nama proyek yang sesuai dan pilih Create Project.■
Proyek yang terbentuk akan menampilkan data yang berhasil diunggah.Berikut ini adalah beberapa isu yang berkaitan dengan pembersihan data yang dapat diatasi menggunakan aplikasi OpenRefine.
Inkonsistensi
Mendeteksi inkonsistensi dapat dikerjakan dengan menggunakan fungsi Cluster.
■
Secara otomatis OpenRefine akan mempopulasikan nilai-nilai data yang memiliki kemiripan pengisian. Sebagai contoh dari tampilan di bawah terdapat 3 macampenulisan nama Kelurahan Pal Meriam, antara lain: “Pal Meriam”, “Pal meriam”dan “PAL
Meriam”.
■
Selanjutnya pemilik data menentukan isian data yang paling tepat untuk dipakai disetiap kemiripan yang ditemukan.
Duplikasi Data
Mendeteksi duplikasi dapat dikerjakan dengan menggunakan fungsi Facet.
■
Secara otomatis OpenRefine akan mempopulasikan semua nilai data di kolom tersebut dan memberikan hasil penghitungan nilai-nilai tersebut. Dengan demikian data duplikat dapat dikenali dengan mudah.Pencacahan Ulang Data
Sering kali ditemui data-data dengan arti yang sama disusun dengan pengisian nama atau label yang berbeda. Hal ini menyebabkan pengelompokan tidak efisien dan pencacahan data tidak maksimal.
Gambar di atas memperlihatkan beragam pengisian data “korsleting listrik”yang seharusnya dapat lebih efisien pengelompokannya.
Penulisan Tidak Baku
Penulisan data yang tidak baku mengacu pada kesalahan penyajian data berdasarkan tipe data yang hendak dipakai. Kesalahan-kesalahan tersebut antara lain:
■
Pemakaian tanda finansial (seperti simbol mata uang dan pemisah desimal) di kolomdata angka,
■
Penggunaan nama bulan di kolom tanggal,■
Penulisan nama alamat yang tidak memenuhi syarat minumum.Perbaikan penulisan yang tidak baku dapat berlangsung lama karena perlu diproses satu per satu. Akan tetapi untuk perbaikan yang dapat dilakukan secara serentak dapat menggunakan fungsi Transform.
■
Kotak dialog transformasi akan muncul dimana perintah transformasi dapat diberikan untuk mengubah isian nilai data secara serentak.OpenRefine menggunakan standar perintah Google Refine Expression Language, disingkat GREL untuk menuliskan perintah transformasi. Berikut adalah beberapa perintah yang umum dipakai:
Nama Perintah Deskripsi Contoh Penggunaan
Tulis huruf kecil Mengubah teks menggunakan huruf kecil
semua.
toLowercase(value)
Tulis huruf kapital Mengubah teks menggunakan huruf
kapital semua.
toUppercase(value)
Tulis judul Mengubah teks menggunakan huruf besar
di setiap awal kata
toTitlecase(value)
Bersihkan teks Membersihkan teks dari spasi berlebih trim(value)
Hilangkan penanda desimal
Membuat tanda titik dan koma hilang dari teks
replaceChars(value, “.,”, “”)
Hilangkan simbol mata uang Rupiah
mata uang Dollar
Ubah format tanggal Membuat penulisan tanggal menjadi baku
sesuai standar.
toDate(value,
“dd/MM/yyyy”).toString(“YYYY-MM-dd”)
Untuk manual lengkap perintah-perintah GREL dapat ditemukan di alamat situs
https://github.com/OpenRefine/OpenRefine/wiki/GREL-Functions
6.
Konversi Data
Penyusunan data CSV menggunakan aplikasi komputer adalah sangat mudah dan dapat dilakukan secara instan, khususnya apabila data tersebut sudah berbentuk data tabular (misal. data Excel atau Google Sheet).
Data Excel
Mengkonversi data Excel (*.xls, *.xlsx) ke CSV sangat mudah dengan menggunakan perintah Save As. Khusus untuk versi Excel 2007 dan ke atas lakukan langkah-langkah sebagai berikut:
■
Pilih tombol Microsoft Office kemudian pilih Save As,■
Di dalam kotak dialog Save As pilih format berkas “CSV (Comma delimited) (*.csv)”.Data gSheet
Mengkonversi data gSheet ke CSV sangat mudah dengan menggunakan perintah Download As.
■
Pilih menu File diikuti Download as,■
Pilih pilihan Comma-separated values (.csv) dan sesegera data dalam spreadsheet diunduh7.
Publikasi Data
Apa itu Metadata?
Metadata diartikan sebagai data mengenai suatu data. Didalamnya terkandung spesifikasi atau penjabaran yang menjelaskan isi konten data yang dipublikasikan. Metadata sangat berguna untuk meyusun daftar koleksi data atau katalog untuk memudahkan pencarian data.
Isian Metadata
Berikut ini diberikan daftar nama isian untuk penulisan metadata dataset. Kecuali disebutkan keterangan “opsional”, semua label isian di bawah adalah bersifat wajib dan harus tercantum dalam metadata.
Nama Dataset
Nama yang diberikan untuk dataset (yi. kumpulan data). Deskripsi Dataset
Keterangan yang berisi perihal dan catatan penting mengenai dataset. Tag
Satu atau lebih kata kunci yang memberikan petunjuk perihal dataset. Organisasi
Email Kontak
Alamat email penyedia data yang bertanggung jawab terhadap dataset. Visibilitas
Keterangan tingkat pengaksesan dataset. Frekuensi Penerbitan
Keterangan frekuensi penerbitan dataset yang biasa dilakukan oleh penyedia data. Level Penyajian
Keterangan derajat perincian dataset yang disusun oleh penyedia data. Tahun
Keterangan periode, informasi tahun dari dataset. Informasi kapan dataset tersebut diproduksi atau diperoleh.
Cakupan
Keterangan nama daerah atau wilayah yang menginformasikan tempat dimana dataset berlaku atau diambil.
Nama Sumber Daya
Nama yang diberikan untuk berkas. Deskripsi Sumber Daya
Keterangan mengenai berkas atau sumber daya. Berkas
Nama berkas yang berisikan data. Format
Format berkas sesuai label ekstensi berkas. Lisensi
Nama lisensi yang mengatur izin pemakaian data. Grup
(Opsional) Label klasifikasi yang sesuai dengan tema dataset. Sumber
(Opsional) Tautan tambahan yang berisikan lokasi dataset diluar situs portal data. Rujukan
(Opsional) Tautan tambahan yang berisikan keterangan lebih detil perihal dataset. Umumnya diberikan apabila penyedia data memiliki informasi tambahan (seperti metadata yang sudah dibuat oleh pemilik data) yang disimpan di situs asalnya.
Aturan Pengisian
■
Penulisan nama dataset perlu terdapat tema tertentuBeberapa kata kunci yang dapat dijadikan tema antara lain:
1. perihal data (cth. anggaran belanja, nilai produksi, volume ekspor, tingkat
kriminalitas),
2. obyek utama data (cth. puskesmas, sekolah dasar, universitas negeri, jalan raya,
penduduk),
3. lokasi asal data (cth. Indonesia, DKI Jakarta, Jakarta Barat, Teluk Jakarta),
4. tingkat penyajian data (cth. rekapitulasi, daftar), dan sebagainya.
Jika dimungkinkan, hindari penggunaan detail periode waktu pada penulisan nama dataset. Informasi ini dapat dialihkan ke tingkat penamaan berkas data.
Contoh penulisan nama dataset yang baik:
Rekapitulasi Anggaran Pendapatan dan Belanja Daerah DKI Jakarta
Daftar Sekolah Menengah Atas Negeri Jakarta Selatan
Daftar Kasus Kriminalitas Pencurian Jakarta Pusat
Tingkat Polusi Udara Gas Berbahaya DKI Jakarta
Hindari penggunaan kata atau frase yang tidak mengandung tema, seperti “Dataset Mengenai ...”, “Data Tentang …”, “Laporan ...”, dan sebagainya.
■
Elaborasi isi dataset secara jelasGunakan isian deskripsi untuk memaparkan secara jelas dan efisien isi data-data yang terdapat dalam dataset. Cantumkan nama kolom dan penjelasan singkat untuk membantu pengguna mengerti isi data.
■
Gunakan jumlah tag secara hematJumlah maksimal yang dianjurkan adalah 4 buah. Gunakan batas maksimal ini sebagai indikator perlunya dataset dipecah menjadi beberapa bagian sub-tema. Pastikan kata kunci yang terdapat di nama dataset terdapat di isian label tag.
■
Selalu berikan rujukan kontak dari penyedia datasetDianjurkan untuk memberikan alamat email dari institusi yang bertanggung jawab terhadap dataset.
■
Perhatikan lingkup periode setiap kali menerbitkan datasetIsian tahun memberikan informasi interval waktu mengenai data yang diperoleh. Oleh karena itu selalu perhatikan isian ini untuk memastikan keabsahan informasi periode waktu yang disertakan.
2010 - 2013
Januari 2013 - April 2013
■
Berikan detail waktu di penulisan nama data, jika memungkinkanPenyusunan data selalu mengikuti periode waktu tertentu. Oleh karenanya informasi waktu tersebut perlu disertakan dalam penulisan nama data guna mempermudah pencarian.
Contoh penulisan nama dataset (cetak tebal) dan nama sumber daya:
Rekapitulasi Anggaran Pendapatan dan Belanja Daerah DKI Jakarta
APBD 2010
APDB 2011
APDB 2012
APDB 2013
Daftar Kasus Kriminalitas Pencurian Jakarta Pusat
Daftar Kasus Januari 2013
Daftar Kasus Februari 2013
Daftar Kasus Maret 2013
Daftar Kasus April 2013
■
Penulisan nama sumber daya mengikuti nama berkas dataUntuk memudahkan pemilihan nama berkas data, penulisannya dapat mengikuti nama sumber daya yang diberikan.
Contoh penulisan nama dataset (cetak tebal), nama data (kolom pertama) dan nama sumber daya (kolom kedua):
Rekapitulasi Anggaran Pendapatan dan Belanja Daerah DKI Jakarta
APBD 2010 apbd-2010.csv
apbd-2010.xlsx
APDB 2011 apbd-2011.csv
apbd-2010.xlsx
APDB 2012 apbd-2012.csv
apbd-2012.xlsx
APDB 2013 apbd-2013.csv
apbd-2013.xlsx
Daftar Kasus Januari 2013 daftar-kasus-pencurian-januari-2013.csv
Daftar Kasus Februari 2013 daftar-kasus-pencurian-februari-2013.csv
Daftar Kasus Maret 2013 daftar-kasus-pencurian-maret-2013.csv
Modul Pelatihan Keterampilan
Mengolah Data
Daftar Isi
Daftar Isi Ekstraksi Data
Data HTML Data PDF
Membersihkan Data Memulai Proyek Inkonsistensi Data
Pengelompokan Ulang Data Penulisan Angka Tidak Baku
Visualisasi Data Menggunakan Tableau Public Mengenai Tableau Public
Membuka Data
Lembar Kerja (Worksheet)
1.
Ekstraksi Data
Berikut ini adalah strategi praktis ekstraksi data menurut asal data:
Data HTML
Beberapa metode ekstraksi yang dapat digunakan:
1) Salin-dan-Rekat (atau Copy-and-Paste)
○ Persiapkan halaman situs yang berisikan tabel data,
○ Pilih semua data yang diinginkan dan salin data-data tersebut,
○ Rekatkan data ke program tabular pilihan (cth. Excel, gSheet) untuk melihat hasilnya.
2) Fungsi importHTML (khusus aplikasi Google Sheet/gSheet)
○ Persiapkan halaman situs yang berisikan tabel data,
○ Salin alamat URL situs tersebut,
○ Buka aplikasi gSheet,
○ Fungsi importHTML membutuhkan input isian ekstraksi sbb:
■ Alamat URL: Alamat target halaman situs yang mengandung tabel data,
■ Jenis Data: Isi selalu jenis table,
■ Indeks: Nomor urutan tabel yang ingin diekstrak dari halaman situs.
○ Apabila input ekstraksi diberikan secara benar, aplikasi gSheet akan mengekstrak data
terdapat di halaman situs Wikipedia.org
Data PDF
Beberapa metode ekstraksi yang dapat digunakan:
1) Salin-dan-Rekat
○ Buka berkas menggunakan program pembaca PDF seperti Acrobat Reader,
○ Salin tabel data yang ingin diekstrak,
○ Rekatkan data ke program tabular pilihan (cth. Excel, gSheet) untuk melihat hasilnya.
2) Program Tabula
○ Instalasi terlebih dahulu aplikasi ini ke komputer Anda dengan mengunduhnya di
alamat situs http://tabula.nerdpower.org.
○ Jalankan Tabula dan secara otomatis akan membuka halaman aplikasi di web browser.
Perhatikan bahwa aplikasi ini dapat bekerja tanpa koneksi Internet walaupun dijalankan menggunakan browser.
berjalan setelah penentuan area ekstraksi tersebut atau melalui tombol Download All Data.
3) Layanan PDFTables
○ Jalankan browser Anda dan pergi ke alamat situs https://pdftables.com/
○ Klik tombol hijau “Select a PDF to convert NOW!” dan pilih dokumen PDF yang ingin
diekstrak.
Membersihkan data penting dilakukan untuk meningkatkan kualitas data sebelum data digunakan. Pada bagian ini akan diberikan beberapa petunjuk praktis membersihkan data
menggunakan program OpenRefine (http://openrefine.org).
Memulai Proyek
Untuk memulai pembersihan data menggunakan OpenRefine, pertama-tama input data perlu dikenali oleh program untuk disimpan:
● Pilih Create Project dan tentukan berkas CSV yang ingin dibersihkan di pilihan Choose Files.
Alternatif lain apabila nilai-nilai data pernah terekam dalam operasi salin (atau copy)
maka pilih pilihan Clipboard. Pilih Next untuk mulai penyimpanan.
● Data yang berhasil disimpan akan diperlihatkan dalam tampilan pra-tayang. Pastikan
tabel terbaca secara benar oleh program. Gunakan opsi-opsi di bawah tampilan pra-tayang untuk mendapatkan hasil yang akurat.
● Proyek yang terbentuk akan menampilkan data yang berhasil disimpan dan pengguna dapat memulai menggunakan perintah-perintah pembersihan data.
Berikut ini adalah beberapa isu yang berkaitan dengan pembersihan data yang dapat diselesaikan menggunakan aplikasi OpenRefine.
Inkonsistensi Data
Mendeteksi inkonsistensi dapat dikerjakan dengan menggunakan fungsi Cluster.
● Pilih Edit cells diikuti oleh Cluster and edit... di kolom yang ingin diperiksa.
Kelurahan Pal Meriam, antara lain: “Pal Meriam”, “Pal meriam” dan “PAL Meriam” (lihat kolom Values in Cluster).
● Pengguna dapat menentukan nilai data yang paling tepat untuk menyelesaikan
inkonsistensi tersebut dengan mengisinya di kolom New Cell Value.
● Lakukan inspeksi secara berulang untuk nilai-nilai data lainnya. Akhiri dengan memilih
tombol Merge Selected & Close untuk mengaplikasikan semua perubahan ke dataset.
Pengelompokan Ulang Data
Gambar di atas memperlihatkan variasi pengisian data “korsleting listrik” sebagai penyebab kebakaran. Akibat kurangnya standarisasi, pengisian ini memiliki banyak nama yang membuat pengelompokan data menjadi tidak efisien.
Untuk menyelesaikan masalah ini dapat digunakan fungsi Text Facet. Berikut adalah
langkah-langkah untuk membuat Text Facet:
● Pilih Facet diikuti oleh Text Facet di kolom yang ingin diperiksa.
● Secara otomatis OpenRefine akan mempopulasikan semua variasi nilai data di kolom
tersebut berikut jumlah datanya.
● Untuk menyunting data, pilih edit dan masukkan nilai baru yang dikehendaki.
● Lakukan inspeksi secara menyeluruh untuk melihat variasi-variasi data lainnya yang
sekiranya dapat disatukan.
(seperti simbol mata uang dan pemisah ribuan) dan pemakaian tanda desimal. Untuk
memperbaikinya secara serentak di sebuah kolom dapat menggunakan fungsi Transform.
● Pilih Edit cells diikuti oleh Transform... di kolom yang ingin dibuat perbaikan.
● Kotak dialog transformasi akan muncul dimana perintah transformasi dapat diberikan
untuk mengubah isian nilai data secara serentak.
Berikut adalah beberapa perintah yang umum dipakai untuk membersihkan data numerik:
Nama Perintah Deskripsi Contoh Penggunaan
Hilangkan penanda ribuan dan desimal
Membuat tanda titik dan koma hilang dari teks
replaceChars(value, “.,”, “”)
Hilangkan simbol mata uang
Membuat simbol ‘Rp’ hilang dari teks replace(value, “Rp”, “”)
Hilangkan kelompok ribuan
Mengenai Tableau Public
● Tableau Public adalah sebuah software gratis untuk visualisasi data di internet.
● Setiap pengguna Tableau Public diwajibkan mempunyai akun Tableau Public.
● Semua hasil visualisasi yang dibuat dengan Tableau Public akan dimuat secara publik di
internet.
Membuka Data
● Pilih Jenis data yang akan dibuka. Pilih Text File untuk membuka berkas CSV, lalu pilih
berkas yang akan dibuka.
● Tableau akan menampilkan tampilan pra-tayang data agar pengguna dapat
Lembar Kerja (Worksheet)
Berikut ini adalah nama-nama panel yang perlu diketahui di dalam aplikasi Tableau Public:
● Data:
○ Menunjukan data yang sedang digunakan
○ Klik nama data untuk melihat penjabaran data.
● Dimensions:
○ Menunjukan daftar attribut data yang bersifat qualitatif, umumnya attribut data
yang berfungsi sebagai kategori.
○ Klik-kanan pada nama atribut untuk merubah nama, merubah tipe data, dan
berbagai macam opsi lainnya.
● Measures:
○ Menunjukan daftar attribut data yang bersifat quantitatif, umumnya attribut data
yang berfungsi sebagai tolak ukur.
● Columns:
○ Menunjukan attribut data terpilih yang di tampilkan sebagai kolom
● Rows:
○ Menunjukan attribut data terpilih yang di tampilkan sebagai baris.
● Filters:
○ Menunjukan pilihan attribut yang digunakan untuk menyaring data.
dalam bentuk, warna, atau ukuran.
● Show Me:
○ Pilihan bentuk visualisasi yang memungkinkan berdasarkan attribut yang sedang
dipilih dari daftar attribut dimension maupun measures.
○ Gunakan tombol CTRL + Klik untuk memilih lebih dari satu attribut
● Sheet:
○ Lembar kerja untuk membuat sebuah visualisasi.
○ Untuk membuat lembar kerja baru, tekan tombol
● Dashboard:
○ Lembar kerja untuk menampilkan beberapa visualisasi.
○ Untuk membuat lembar kerja Dashboard baru, tekan tombol
Menyimpan dan Melihat Hasil Visualisasi
● Tekan CTRL + S, lalu masukan alamat akun dan kata sandi untuk menyimpan hasil
visualisasi.
● Hasil visualisasi dapat diakses melalui link yang diberikan dibawah kalimat”Copy and
Paste link into your email message”.
● Hasil visualisasi dapat juga disematkan di dalam website dengan menggunakan kode