PENGERTIAN
DATA WAREHOUSE
Menurut W.H. Inmon dan Richard D.H., data warehouse adalah koleksi data yang
mempunyai sifat berorientasi subjek,terintegrasi,time-variant, dan bersifat
tetap dari koleksi data dalam mendukung proses pengambilan keputusan
management. Sedangkan Vidette Poe, data
warehouse
merupakan database yang bersifat analisis dan read only yang digunakan sebagai fondasi dari sistem penunjang keputusan. Data warehouse juga bisa diartikan
sebagai database relasional yang didesain lebih kepada query dan analisa dari pada proses transaksi,
biasanya mengandung history data dari proses transaksi
dan bisa juga data dari sumber lainnya.
Data
warehouse
memisahkan beban kerja analisis dari beban kerja transaksi dan memungkinkan
organisasi menggabung/konsolidasi data dari berbagai macam sumber. Jadi, data warehouse merupakan metode dalam
perancangan database, yang menunjang DSS(Decission Support System) dan EIS
(Executive Information System). Secara fisik data warehouse adalah database, tapi perancangan data warehouse dan database
sangat berbeda. Dalam perancangan database tradisional menggunakan normalisasi,
sedangkan pada data
warehouse
normalisasi bukanlah cara yang terbaik.
Sedangkan Karakteristik
data warehouse menurut Inmon, yaitu :
a.
Subject Oriented (Berorientasi subject)
Tabel 5. Data Operasiaonal dan Data Warehouse
Data Operasional
|
Data Warehouse
|
Dirancang berorientasi hanya pada aplikasi dan fungsi tertentu
|
Dirancang berdasar pada subjek-subjek tertentu(utama)
|
Focusnya pada desain database dan proses
|
Focusnya pada pemodelan data dan desain data
|
Berisi rincian atau detail data
|
Berisi data-data history yang akan dipakai dalam proses
analisis
|
Relasi antar table berdasar aturan terkini(selalu mengikuti
rule(aturan) terbaru)
|
Banyak aturan bisnis dapat tersaji antara tabel-tabel
|
Data warehouse berorientasi subject
artinya data warehouse didesain untuk menganalisa data berdasarkan
subject-subject tertentu dalam organisasi,bukan pada proses atau fungsi
aplikasi tertentu. Data warehouse diorganisasikan disekitar subjek-subjek utama
dari perusahaan(customers,products dan sales) dan tidak diorganisasikan
pada area-area aplikasi utama(customer invoicing,stock control dan product
sales). Hal ini dikarenakan kebutuhan dari data warehouse untuk menyimpan
data-data yang bersifat sebagai penunjang suatu keputusan, dari pada aplikasi
yang berorientasi terhadap data. Jadi dengan kata lain, data yang disimpan
adalah berorientasi kepada subjek bukan terhadap proses.
b.Integrated
(Terintegrasi)
Data
Warehouse
dapat menyimpan data-data yang berasal dari sumber-sumber yang terpisah kedalam
suatu format yang konsisten dan saling terintegrasi satu dengan lainnya. Dengan
demikian data tidak bisa dipecah-pecah karena data yang ada merupakan suatu
kesatuan yang menunjang keseluruhan konsep data warehouse itu sendiri. Syarat
integrasi sumber data dapat dipenuhi dengan berbagai cara sepeti konsisten
dalam penamaan variable,konsisten dalam ukuran variable,konsisten dalam
struktur pengkodean dan konsisten dalam atribut fisik dari data. Contoh pada
lingkungan operasional terdapat berbagai macam aplikasi yang mungkin pula
dibuat oleh developer yang berbeda. Oleh karena itu, mungkin dalam
aplikasi-aplikasi tersebut ada variable yang memiliki maksud yang sama tetapi
nama dan format nya berbeda. Variable tersebut harus dikonversi menjadi nama
yang sama dan format yang disepakati bersama. Dengan demikian tidak ada lagi
kerancuan karena perbedaan nama, format dan lain sebagainya. Barulah data
tersebut bisa dikategorikan sebagai data yang terintegrasi karena
kekonsistenannya.
c. Time-variant (Rentang Waktu)
Seluruh data pada data warehouse dapat dikatakan akurat atau
valid pada rentang waktu tertentu. Untuk melihat interval waktu yang digunakan
dalam mengukur keakuratan suatu data warehouse, kita dapat menggunakan cara
antara lain :
•
Cara yang paling sederhana adalah menyajikan data warehouse pada
rentang waktu tertentu, misalnya antara 5 sampai 10 tahun ke depan.
•
Cara yang kedua, dengan menggunakan variasi/perbedaan waktu yang
disajikan dalam data warehouse baik implicit maupun explicit secara explicit
dengan unsur waktu dalam hari, minggu, bulan dsb. Secara implicit misalnya pada
saat data tersebut diduplikasi pada setiap akhir bulan, atau per tiga bulan.
Unsur waktu akan tetap ada secara implisit didalam data tersebut.
•
Cara yang ketiga,variasi waktu yang disajikan data warehouse
melalui serangkaian snapshot yang panjang. Snapshot merupakan tampilan dari
sebagian data tertentu sesuai keinginan pemakai dari keseluruhan data yang ada
bersifat read-only.
d.
Non-Volatile
Karakteristik keempat dari data warehouse adalah
non-volatile,maksudnya data pada data warehouse tidak di-update secara real time tetapi di refresh dari sistem operasional
secara reguler. Data yang baru selalu ditambahkan sebagai suplemen bagi
database itu sendiri dari pada sebagai sebuah perubahan. Database tersebut
secara kontinyu menyerap data baru ini, kemudian secara incremental disatukan
dengan data sebelumnya.
Berbeda dengan database operasional yang dapat melakukan
update,insert dan delete terhadap data yang mengubah isi dari database
sedangkan pada data warehouse hanya ada dua kegiatan memanipulasi data yaitu
loading data (mengambil data) dan akses data (mengakses data warehouse seperti
melakukan query atau menampilan laporan yang dibutuhkan, tidak ada kegiatan
updating data).
Data warehouse merupakan pendekatan untuk menyimpan data dimana
sumber-sumber data yang heterogen(yang biasanya tersebar pada beberapa database
OLTP) dimigrasikan untuk penyimpanan data yang homogen dan terpisah. Keuntungan
yang didapatkan dengan menggunakan data warehouse tersebut dibawah ini
(Ramelho).
Sedangkan kombinasi data mining verifikasi dan penemuan merupakan
perkembangan data mining di masa depan akan
mengkombinasikan pendekatan hipotesis dan penemuan. Perkembangan ini
menggunakan penalaran yang sama yang mendasari konsep Sistem Pendukung
Keputusan (Decision
Support System
– DSS). Konsep tersebut memungkinkan pemakai dan komputer bekerja sama untuk
memecahkan suatu masalah. Pemakai menerapkan keahliannya dalam hal masalah, dan
komputer melakukan analisis data yang canggih untuk memilih data yang tepat dan
menempatkannya dalam format yang tepat untuk pengambilan keputusan. Menurut
Fayyad Usama (1996), proses KDD secara garis besar dapat dijelaskan sebagai
berikut:
1.
Data
Selection
Pemilihan
(seleksi) data daru sekumpulan data operasional perlu dilakukan sebelum tahap
penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan
untuk proses data mining, disimpan dalam suatu
berkas, terpisah dari basis data operasional.
1.
Pre-processing/
Cleaning
Sebelum proses data mining dapat dilaksanakan, perlu
dilakukan proses cleaning pada data yang menjadi
fokus KDD.
Proses cleaning mencakup antara lain
membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki
kesalahan pada data, seperti kesalahan cetak (tipografi).
Juga dilakukan
proses enrichment, yaitu proses “memperkaya”
data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan
untuk KDD, seperti data atau informasi eksternal.
1.
Transformation
Coding adalah proses transformasi
pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif dan sangat
tergantung pada jenis atau pola informasi yang akan dicari dalam basis data
1.
Data
mining
Data mining adalah proses mencari pola
atau informasi menarik dalam data terpilih dengan menggunakan teknik atau
metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi.
Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan
proses KDD secara keseluruhan.
1.
Interpretation/
Evaluation
Pola informasi
yang dihasilkan dari proses data
mining
perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang
berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut dengan interpretation. Tahap ini mencakup
pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta
atau hipotesa yang ada sebelumnya.
Proses KDD
secara garis besar memang terdiri dari 5 tahap seperti yang telah dijelaskan
sebelumnya. Akan tetapi, dalam proses KDD yang sesungguhnya, dapat saja terjadi
iterasi atau pengulangan pada tahap tahap tertentu. Pada setiap tahap dalam
proses KDD, seorang analis dapat saja kembali ke tahap sebelumnya. Sebagai
contoh, pada saat coding atau data mining, analis menyadari proses cleaning belum dilakukan dengan
sempurna, atau mungkin saja analis menemukan data atau informasi baru untuk
“memperkaya” data yang sudah ada.
KDD mencakup keseluruhan
proses pencarian pola atau informasi dalam basis data, dimulai dari pemilihan
dan persiapan data sampai representasi pola yang ditemukan dalam bentuk yang
mudah dimengerti oleh pihak yang berkepentingan. Data mining merupakan salah satu
komponen dalam KDD yang difokuskan pada penggalian pola tersembunyi dalam basis
data.
PERMASALAHAN
PEMROSESAN FILE
1.
Data Berlebihan dan Simpang-Siur
Data berlebihan memunculkan duplikasi data
dalam beberapa file data. Data berlebihan terjadi sewaktu beberapa divisi,
wilayah fungsional, dan kelompok-kelompok dalam organisasi secara independen
mengumpulkan sekelompok informasi yang sama. Akibatnya adalah terjadi
kesimpangsiuran informasi yang menyebabkan kesulitan bagi perusahaan untuk
menciptakan manajemen hubungan pelanggan, manajemen rantai persediaan, atau system
enterprise yang seharusnya mengintegrasikan data dari berbagai sumber.
Misalnya diberikan contoh : Apabila terjadi
perubahan jumlah sks mata kuliah, sedangkan perubahan hanya diperbaiki pada
file mata kuliah dan tidak diperbaiki pada file mahasiswa. Hal ini dapat
mengakibatkan kesalahan dalam laporan nilai mahasiswa.
2.
Ketergantungan Program Data
Ketergantungan program data berhubungan
erat antara data yang tersimpan dalam file dengan program tertentu yang
dibutuhkan oleh data untuk melakukan proses pembaruan dan pemeliharaan
file-file. Hal ini berarti setiap perubahan dalam pengaturan data atau
formatnya juga mengakibatkan perubahan pada semua program yang terkait dengan
file-file tersebut. Perubahan
pemrograman ini sangatlah tidak efisien, karena mungkin memerlukan investasi
dana dalam jumlah cukup besar.
3.
Kurang Fleksibel
Sistem file tradisional bisa menimbulkan
banyak laporan rutin terjadwal setelah dilakukan banyak perubahan pemrograman,
sebab pengguna tidak bias membuat laporan yang bersifat instan atau merespon
prasyaratprasyarat informasi yang tak terantisipasi sebelumnya secara cepat.
4.
Keamanannya Kurang Terjamin
Oleh karena kurang bisa mengendalikan atau
mengelola data, maka aktivitas akses dan penyebaran informasinya tidak bisa
terkuasai dengan baik. Manajemen tidak
bisa mengetahui dengan pasti siapa yang mengakses atau bahkan membuat perubahan
pada data organisasi.
Misalnya diberikan contoh : Tidak semua
pemakai diperbolehkan mengakses seluruh data. Bagian Mahasiswa hanya boleh
mengakses file mahasiswa. Bagian Mata kuliah hanya boleh mengakses file mata
kuliah, tidak boleh mengakses file mahasiswa. Tetapi sejak program-program
aplikasi ditambahkan secara ad-hoc maka sulit melaksanakan pengamanan seperti
yang diharapkan.
5.
Kurang Mampu Berbagi Pakai Data
Akses data yang tidak fleksibel dalam
sebuah sistem yang simpang siur membuat orang kesulitan untuk mendapatkan
informasi. Informasi tidak bias mengalir dengan lancar ke semua wilayah
fungsional atau ke bagian-bagian dalam organisasi.
Misalnya di berikan contoh, seorang manajer
menginginkan data mengenai tunjangan karyawan. Tentu sang manajer akan
kesulitan mengingat data tunjangan dan karyawan berada dalam file yang berbeda.
KEUNTUNGAN DAN KELEMAHAN
PEMROSESAN DATABASE
A.
Keuntungan Pemrosesan Database
A.1.
Mengurangi Redundancy Data
Terkontrolnya kerangkapan data, setiap data
hanya mencantumkan satu kali saja field yang sama yang dapat dipakai oleh semua
aplikasi yang memerlukannya.
A.2.
Dapat Menyimpan Data Secara Terpisah
Data disimpan secara terpisah yang
dihubungkan dengan relasi. Misalnya nama, NIM dan alamat mahasiswa cukup dibuat
satu kali saja di dalam database. Kemudian dari data umum ini dapat dihubungkan
ke data lain misalnya pembayaran uang kuliah, daftar nilai, beasiswa dan sebagainya.
Dengan menggunakan database ini maka masing-masing bagian yang mengangani mahasiswa,
msalnya bagian keuangan dan bagian akademik, tidak perlu memiliki file
sendiri-sendiri, yang mengandung record nama, alamat, NIM.
A.3.
Dapat Mengintegrasikan Data dari Berbagai File
Integrasi data merupakan proses
mengkombinasikan dua atau lebih set data agar mempermudah dalam berbagi dan
analisis, dalam rangka mendukung manajemen informasi di dalam sebuah lingkungan
kerja. Integrasi data menggabungkan data dari berbagai sumber database yang
berbeda ke dalam sebuah penyimpanan seperti gudang data (data warehouse).
Syarat integrasi data dapat dipenuhi dengan berbagai cara seperti konsisten
dalam penamaan variabel, konsisten dalam ukuran variabel, konsisten dalam struktur
pengkodean dan konsisten dalam atribut fisik dari data. Masalah-masalah yang
ada pada integrasi data yaitu heterogenitas data, otonomi sumber data, kebenarandankinerjaquery/permintaan.
Contoh:
-
Data yang sama (misalnya: data penduduk) dapat dipakai bersama antar
bagian
organisasi(antarinstansi).
-
Data suatu instansi dapat dipakai bersama oleh instansi-instansi lain yang
memerlukan (tidak perlu ada duplikasi data dalam suatu lingkungan organisasi).
A.4.
Dapat Melakukan Pengambilan Data dan Informasi Secara Lebih Cepat
Misalnya sistem pada sebuah bank
memungkinkan seorang nasabah dapat melakukan transaksi perbankan tanpa harus
berada di kantor banknya.
A.5.
Meningkatkan Keamanan Data
Database Administrator (DBA) dapat
memberikan batasan-batasan pengaksesan data, misalnya dengan memberikan
password dan pemberian hak akses bagi pemakai (misal : modify, delete, insert,
retrieve) sehingga keamanan data tetap terjaga.
B.
Kelemahan Pemrosesan Database
B.1.
Membutuhkan Software Khusus dan Umumnya Biaya Mahal
Hal ini disebabkan sangat sulit untuk
membuat software khusus database ini, sehingga diperlukan biaya yang mahal
untuk membangun software tersebut.
B.2.
Membutuhkan Perangkat Keras yang Spesifikasinya Tinggi
Untuk pemrosesan data yang sangat banyak
dengan cepat dan akurat maka diperlukan software yang membutuhkan spesifikasi
hardware yang tinggi untuk mengoprasikannya. Maka diperlukan biaya yang mahal
untuk mendapatkan tingkat pemrosesan data terbaik.
B.3.
Membutuhkan Tenaga Khusus untuk Melakukan Maintenance
Untuk merawat sofware diperlukan tenaga
khusus dengan biaya yang tidak sedikit dan hal itu dilakukan rutin dengan
priode tertentu, ini diperlukan apabila software tersebut mengalami perubahan
ataupun kerusakan.
Lihat dan download document disini:
https://docs.google.com/document/d/17sftLfxIxY8rZFs9ye1gYK9bJucPTaJnX4X7dhK3WoA/edit
Lihat dan download document disini:
https://docs.google.com/document/d/17sftLfxIxY8rZFs9ye1gYK9bJucPTaJnX4X7dhK3WoA/edit
1 komentar:
Casino Hotel, Henderson, NV - Mapyro
Casino 태백 출장안마 Hotel, Henderson, NV. Find reviews, hours, directions, read 2554 reviews, and offers for 삼척 출장안마 Casinos 제주도 출장샵 & Gambling in 진주 출장마사지 Henderson, NV. Rating: 3.1 · 2554 reviews · Price range: 원주 출장안마 $$
Posting Komentar