• Database,  Programming

    Mengolah data APBD DKI

    Berawal kekecewaan terhadap data.go.id, saya nyari-nyari data tentang DKI, khususnya tentang APBD, ketemu  di Portal Data Pemda DKI. Dan langsung saya download: 21,5 MB CSV tanpa kompresi.

    Langkah pertama: buka dengan text viewer. LTF Viewer adalah program andalan saya untuk melihat data text besar, jangankan yang puluhan MB, data text ratusan MB aja dengan cepat bisa dibuka. Setelah dibuka terlihat bahwa data csv terdiri dari 55.467 baris (termasuk header di baris pertama).

    LTF Viewer. Open big text file in less than one second.

    Langkah kedua: coba lihat dengan pivot viewer. Dengan berbekal mesin pencari google, saya dapat program pivot viewer bernama Tad. Gampang banget makenya, langsung buka file csv, abis itu tinggal klik-klik aja nentuin urutan field pivotnya.

    Pivot view dengan Tad.

    Langkah ketiga: convert menjadi SQLite. Saya menggunakan program sqlite3 di Ubuntu yang jalan di Windows 10 (WSL: Windows Subsystem for Linux). Cepet banget konversinya.

    Ubuntu @ Windows Subsystem for Linux

    Data format csv bisa dibilang format universal untuk sharing data, selain csv ada json dan xml, tapi untuk kemudahan dan kepraktisan, gak ada yang ngalahin csv. Format csv memang mudah untuk dishare (portable) tetapi susah untuk diolah, jadi lebih baik untuk diconvert ke SQLite. 

    Langkah keempat: normalisasi. Memang data hasil convert dari csv sudah bisa langsung diolah, tapi saya mau data terstruktur biar gampang buat user interfacenya. Tabel hasil konversi otomatis nanti berubah, tapi kita bisa membuat view untuk kebutuhan pivot table. Untuk mengolah database SQLite saya pakai: SQLiteStudio (Free and OpenSource).

    Program favorit untuk mengolah data SQLite.

    Mudahnya menggunakan SQLite, karena struktur table di SQLite tidak mengenal tipe data, jadi pada saat import kita tidak perlu buat tabel dengan struktur data yang pas. Kalau pake MySQL atau yang lainnya, tiap field harus pas tipe datanya, bahkan untuk varchar harus didefinisikan berapa panjang maksimal datanya. Kalau panjang maksimalnya kurang dari data yang mau diinput akan menimbulkan error dan data gagal diinsert.

    This is a long journey, brace yourself and click “Read More”

    — Blog writer —
  • Database

    Kecewa Dengan data.go.id

    Saya suka bermain dengan data, parsing-parsing html untuk ambil data, utak-atik data di web orang untuk disajikan di web sendiri, dll. Terakhir beberapa hari lalu nyedot data Badan Pengawas Obat dan Makanan (BPOM).

    Semangat saya bangkit lagi waktu ngeliat kumpulan data di Satu Data Indonesia, yang dari halaman aboutnya disebut sebagai “Portal resmi data terbuka Indonesia sebagai wujud operasionalisasi inisiatif Satu Data”.

    Bayangkan betapa angan-angan saya melambung melihat begitu banyak data untuk diparse dan dibuat interfacenya. Tapi ternyata begitu saya lihat detailnya, sungguh mengecewakan. Datanya data lama semua, gak ada yang up to date.

    Karena penasaran, akhirnya saya urutkan data berdasarkan update terakhir, yang paling terakhir diupdate datanya dimunculkan duluan. Ini 9 data terakhir (data dilihat tanggal 26 Oktober 2018):

    JudulData TahunTanggal Update
    Data Sebaran Bangunan di Kota Palu dan Kabupaten Donggala2015-201714 hari yang lalu
    Peta Lingkungan Pantai Indonesia Skala 1:25.000 Wilayah Palu2010-201423 hari yang lalu
    Peta Lingkungan Pantai Indonesia Skala 1:50.000 Wilayah Palu201523 hari yang lalu
    Peta Rupabumi Indonesia Skala 1:5000 Kawasan Industri Sebagian Wilayah Kota Palu201723 hari yang lalu
    Peta Rupabumi Indonesia Skala 1:10.000 Wilayah Palu Dan Kendari201323 hari yang lalu
    Data Fasilitas Kesehatan di Kota Pontianak2016-2017Lebih dari 1 tahun yang lalu
    Data RW di Kecamatan Pontianak Utara2017Lebih dari 1 tahun yang lalu
    Data Tanda daftar Perusahaan 
    yang diterbitkan oleh DPMTK PTSP Kota Pontianak
    Jan-Maret 2017Lebih dari 1 tahun yang lalu
    Data RW di Kecamatan Pontianak Timur2017Lebih dari 1 tahun yang lalu

    Bayangkan, data yang diupdate tahun ini cuma ada 5, itupun berkaitan dengan wilayah Palu yang baru saja terkena musibah. Kalau Palu tidak kena gempa dan tsunami mungkin tahun ini tidak ada update data.

    Memang ada data-data seperti APBD DKI sudah disediakan oleh Portal data Pemda DKI (dengan software yang sama), tapi ada baiknya kalau data.go.id juga punya datanya, minimal tautan menuju data aslinya sehingga data.go.id bisa benar-benar menjadi pusat data nasional. Semua orang bisa mencari data ke data.go.id.

  • Database

    Bank Data

    Saya mau bagi-bagi data hasil crawling di internet. Untuk sementara baru satu dulu, nanti kalo ada data yang lumayan bagus untuk di-share pasti saya update lagi.


    Kamus Besar Bahasa Indonesia

    Konon pada jaman dahulu kala, website resmi KBBI Daring masih gampang di ambil datanya, kalo yang sekarang udah susah, harus jadi member kalo mau agak bebas, itupun tetap dibatasi. Dulu saya nge-grab data pake Delphi disimpan dalam format cds binary (client data set), tapi sesudah kenal SQLite saya convert ke SQLite biar gampang diakses sama program apapun.

    Dulu saya punya website apasih.lupa-nama-domain-gratisnya.com yang isinya hasil grabbing data KBBI Daring, saya bikin sendiri karena website KBBI jaman dulu gak bisa ngasih rujukan (tautan) ke entri tertentu karena gak nyediain pencarian lewat HTTP GET.

    Databasenya terakhir udah campur isinya, ada KBBI Daring, KBBI dan TBI. Yang KBBI dan TBI saya lupa sumbernya dari mana, tapi yang pasti TBI itu singkatan dari Tesaurus Bahasa Indonesia.

    Berikut ini struktur table apasih:

    FieldKeterangan
    idInteger, sequential
    katakata dasar
    artiarti kata, dalam format html
    sumbersumber data

    Download Data

    Link download ada di halaman Bank Data SQLite.