Kompresi Audio dan Video

Pengertian Kompresi 

Kompresi adalah suatu teknik untuk memperkecil ukuran bit pada suatu data baik data video, audio ataupun gambar agar lebih mudah dalam menyimpannya. Kompresi terbagi menjadi 2 jenis yaitu kompresi tanpa kehilangan (lossless data compression) dan kompresi dengan kehilangan (Lossy data compression)

1. Lossless Data Compression

Pada Kompresi jenis ini data yang akan diperkecil akan mempertahankan isi dari data tersebut, hanya saja ukuran datanya yang diperkecil.

2. Lossy Data Compression

Pada kompresi jenis ini data yang akan diperkecil akan dihilangkan sebagian dari isinya. Akan tetapi biasanya data yang dihilangkan tidak terlalu berpengaruh, dan juga jenis kompresi ini lebih efektif dibandingkan dengan lossless data compression karena ukuran data yang dihasilkan jauh lebih kecil.

Kompresi Audio 

Pada kompresi ini dapat dikurangi bandwith transmisi dan juga syarat penyimpanan audio dengan membedakannya dari dynamic range compression. Pada kompresi audio biasanya akan menggunakan jenis Algoritma psychoacoustic yang juga merupakan jenis dari kompresi lossy data compression dikarenakan biasanya dilakukan pemangkasan data pada kompresi audio. Dibawah ini adalah penjelasan mengenai teknik kompresi Audio:

1. Lossy Audio Compression

Inovasi kompresi audio lossy adalah menggunakan psychoacoustics mengakui bahwa tidak semua data dalam aliran audio dapat dirasakan oleh sistem pendengaran manusia. Kebanyakan kompresi lossy mengurangi redundansi persepsi dengan terlebih dahulu mengidentifikasi suara perseptual yang relevan, yaitu, suara yang sangat sulit untuk didengar. Contoh umum termasuk frekuensi tinggi atau suara yang terjadi pada saat yang sama dengan suara keras. Suara-suara dikodekan dengan akurasi menurun atau tidak sama sekali.

2.  Kompresi Audio MP3

– Asal-usul MP3 dimulai dari penelitian IIS-FHG (Institut Integriette Schaltungen-Fraunhofer Gesellschaft), sebuah lembaga penelitian terapan di Munich, Jerman dalam penelitian coding audio perceptual.

– Penelitian tersebut menghasilkan suatu algoritma yang menjadi standard sebagai ISO-MPEG Audio Layer-3 (MP3)

berikut adalah beberapa penting dalam kompresi audio dengan MP3 :

a)  Model psikoakustik

Model psikoakustik adalah model yang menggambarkan karakteristik pendengaran manusia.

Salah satu karakteristik pendengaran manusia adalah memiliki batas frekuensi 20 Hz s/d 20 kHz, dimana suara yang memiliki frekuensi yang berada di bawah ambang batas ini tidak dapatdidengar oleh manusia, sehingga suara seperti itu tidak perlu dikodekan.

b)  Auditory masking

Manusia tidak mampu mendengarkan suara pada frekuensi tertentu dengan amplitudo tertentu jika pada frekuensi di dekatnya terdapat suara dengan amplitudo yang jauh lebih tinggi.

c)  Critical band

Critical band merupakan daerah frekuensi tertentu dimana pendengaran manusia lebih peka pada frekuensi-frekuensi rendah, sehingga alokasi bit dan alokasi sub-band pada filter critical band lebih banyak dibandingkan frekuensi lebih tinggi.

3.  Speech encoding

Kategori yang penting dari kompresi data audio. Model persepsi digunakan untuk memperkirakan apa telinga manusia dapat mendengar nada-nada musik seperti umumnya. Rentang frekuensi yang diperlukan untuk menyampaikan suara-suara manusia biasanya jauh lebih sempit daripada yang dibutuhkan untuk musik, dan suara biasanya kurang kompleks. Akibatnya, speech dapat dikodekan pada kualitas tinggi menggunakan bit rate yang relatif rendah.

Jika data yang akan dikompresi adalah analog (seperti tegangan yang bervariasi dengan waktu), kuantisasi digunakan untuk mendigitalkan ke nomor (biasanya bilangan bulat). Hal ini disebut sebagai analog-ke-digital (A / D) konversi. Jika bilangan bulat yang dihasilkan oleh kuantisasi adalah 8 bit masing-masing, maka seluruh rentang sinyal analog dibagi menjadi 256 interval dan semua nilai-nilai sinyal dalam selang waktu yang terkuantisasi ke nomor yang sama. Jika 16-bit bilangan bulat yang dihasilkan, maka jangkauan sinyal analog dibagi menjadi 65.536 interval.

Hubungan ini menggambarkan kompromi antara resolusi tinggi (sejumlah besar interval analog) dan kompresi tinggi (bilangan bulat kecil yang dihasilkan). Aplikasi ini kuantisasi digunakan oleh beberapa metode kompresi pidato. Hal ini dilakukan, secara umum.

Speech menggunakan estimasi parameter pidato khusus menggunakan teknik pemrosesan sinyal audio untuk model sinyal suara, dikombinasikan dengan algoritma kompresi data generik untuk mewakili parameter model yang dihasilkan dalam bitstream, teknik-teknik yang digunakan dalam speech sama dengan psychoacoustics, digunakan untuk mengirimkan data yang relevan saja dengan system pendengaran manusia. Misalnya, dalam suara dan speech coding, hanya informasi pada pita frekuensi 400 Hz sampai 3500 Hz yang ditransmisikan, namun sinyal yang direkonstruksikan masih memadai untuk untuk didengar dengan jelas.

4.  Dynamic range compression (DRC)

Dynamic range compression disebut juga kompresi tingkat audio, dimana rentang dinamis, perbedaan antara keras dan tenang. teknik ini mengurangi gelombang audio. Unit efek elektronik yang mengurangi volume suara keras atau menguatkan suara yang tenang dengan mempersempit atau “mengompresi” dynamic range sinyal audio itu. Kompresi umumnya digunakan dalam rekaman suara dan reproduksi, penyiaran, suara live di konser musik dan di beberapa amplifier instrumen (biasanya amp bass). teknik ini mengontrol suara tenang dan suara keras, suara keras diambang batas akan di kompresi ke bawah sedangkan suara tenang akan tetap (tidak terpengaruh), sehingga kompresi ini menghasilkan suara tenang yang lebih terdengar tanpa adanya suara keras yang terlalu keras.

Teknologi Kompresi Video


Video dengan resolusi 720 x 576 piksel (PAL), dengan refresh rate 25 fps dan kedalaman warna

8-bit, akan membutuhkan Bandwidth :

720 x 576 x 25 x 8 + 2 x (360 x 576 x 25 x 8) = 1,66 Mb / s (luminance + chrominance)

Sedangkan untuk High Definition Televition (HDTV) :

1920 x 1080 x 60 x 8 + 2 x (960 x 1080 x 60 x 8) = 1,99 Gb / s

Bahkan dengana system komputer yang kuat (penyimpanan, daya prosesor, Bandwidth) data tersebut menyebabkan tuntutan komputasi yang tinggi (ekstrim) untuk mengelola data. Namun sebuah video digital memiliki banyak redudansi data sehingga sangat cocok untuk kompresi untuk menangani masalah ini secara signifikan. Teknik kompresi lossy akan sangat cocok karena memberikan ratio kompresi yang tinggi untuk data video, namun yang harus di ingat akan selalu ada trade-off, semakin tinggi ration kompresi akan semakin buruk pula kualitas data yang dihasilkan.

Standar Kompresi Video

1.  Kompresi MPEG

Pada algoritma kompresi MPEG ini mengkodekan data dalam 5 langkah :

1.  Pengurangan resolusi

Mata manusia memiliki sensibilitas yang lebih rendah untuk menerima warna kontras gelap-terang, konversi dari RGB-color-space dalam komponen warna YUV membantu untuk menggunakan efek ini untuk kompresi, sehingga komponen chrominance U dan V dapat dikurangi.

2.  Kompensasi gerak untuk mengurangi redudansi temporal

Video MPEG dapat dipahami sebagai urutan frame. Karena 2 atau lebih urutan frame hanya memiliki perbedaan kecil (kecuali perubahan adegan), maka dari itu MPEG menawarkan cara mengurangi redudansi data sementara ini. Menggunakan tiga jenis frame, yaitu : I-Frame (intra), P-Frame (diprediksi) dan B-Frame (bidirectional).

P-frame dan B-frame disebut frame antar kode, sedangkan I-Frame dikenal sebagai frame intra kode.



a)  I-Frame merupakan “kunci-frame” yang tidak memiliki referesi frame lain dan kompresi mereka tidak dapat tinggi.

b)  P-Frame dapat diprediksi dari awal I-Frame atau P-Frame, P-Frame tidak dapat dibangun tanpa bingkai referensi merekan, tetapi mereka hanya membutuhkan ruang kurang dari I-Frame, karena hanya perbedaannya saja yang disimpan.

c)  B-Frame adalah 2 versi arah dari P-Frame, mengacu pada kedua arah (satu frame dan satu frame ke belakang), B-Frame tidak dapat di referensikan oleh P lainnya ataupun B-Frame, karena B-Frame ini diinterpolasi dari maju dan mundurnya frame

3.  Transformasi Discrete Cosine (DCT) .

4.  Kuantisasi seperti yang digunakan untuk kompresi JPEG; ini mengurangi redundansi spasial (mengacu pada visual manusia persepsi).

5. Langkah terakhir adalah entropi pengkodean menggunakan Encoding Run Length dan Huffman coding algoritma.



Komentar