1
MPEG Musical Slide Show Application Format untuk Format Penyimpanan dan Pengayaan Data Multimedia
Houari Sabirin
1, Munchurl Kim
21
Department of Information and Communications Engineering, Korea Advanced Institute of Science and Technology
2
Department of Electrical Engineering, Korea Advanced Institute of Science and Technology
1
[email protected],
1[email protected],
2[email protected],
2
[email protected]
Abstrak
Makalah ini memberikan tinjauan teknis dari salah satu produk standardisasi terbaru di badan standardisasi internasional, yakni ISO/IEC 23000-4 Musical Slide Show Application Format. Standar ini memberikan spesifikasi bagaimana data multimedia berupa audio MP3, citra JPEG, teks terwaktu 3GPP dan metadata dapat disimpan secara terstruktur serta memberikan spesifikasi bagaimana sinkronisasi pemutaran MP3, JPEG dan teks 3GPP dapat dilakukan. Selain itu, standar ini juga memberikan spesifikasi untuk melindungi dan melakukan tata kelola terhadap konten multimedia tersebut untuk mendukung pendistribusian konten secara legal bagi model bisnis baru di bidang multimedia.
Kata Kunci : MPEG, MPEG-A, Multimedia Application Format, Slide Show, MP3
Abstract
This paper provides technical overview of one of the latest standardization product from ISO called ISO/IEC 23000-4 Musical Slide Show Application Format. This standard specifies how multimedia data of MP3 audio, JPEG images, 3GPP timed texts and metadata can be stored in structured way as well as to provide the method of playing the MP3, JPEG and 3GPP timed texts in synchronized manner. In addition, this standard also specifies the method to protect and govern the multimedia contents to support legal content distribution in new multimedia business model.
Keywords : MPEG, MPEG-A, Multimedia Application Format, Slide Show, MP3 1. Pendahuluan
Format kompresi MP3 (MPEG-1/2 Audio Layer III) saat ini sangat populer digunakan seiring dengan makin banyaknya pemutar MP3 dengan harga yang terjangkau. MP3 merupakan format kompresi yang memungkinkan suatu data audiodisimpan dengan ukuran yang sangat ringkas.
Selain data audio, suatu file MP3 juga menampung data tambahan (metadata) yang berisi informasi tentang konten yang terkandung dalam data audio misalnya judul lagu, nama penyanyi, judul album, tahun diterbitkan dan lain-lain, melalui metadata ID3.Di dalam metadata ID3 tersebut dapat pula disimpan data citra yang berkaitan dengan data audio, misalnya ilustrasi sampul atau foto sang artis.
Namun saat ini, spesifikasi metadata tersebut hanya dapat menampung satu buah data citra.
Untuk memperkaya pemanfaatan data MP3 tidak hanya sebatas sebagai penyimpan data audio, MPEG telah mengembangkan sebuah format penyimpanan standar baru yang tidak hanya memberikan spesifikasi untuk data audio. Standar ini, yang diberi nama MPEG-A Part 4: Musical Slide Show Application Format (MSS AF), merupakan format penyimpanan data yang memungkinkan data audio MP3 disimpan bersama-sama dengan
kumpulan data citra JPEG, teks terwaktu (timed text) dalam format 3GPP, serta spesifikasi metadata untuk menyimpan informasi tentang konten audio, perlindungan dan pengelolaan data [1].
Dalam standar tersebut ditentukan bagaimana caranya data MP3 disimpan bersama-sama dengan data JPEG, 3GPP serta metadata pendukung agar dapat digunakan secara sinkron. Selain itu, ditentukan pula mekanisme pengelolaan dan perlindungan data berdasarkan MPEG-21 Multimedia Framework.
Pembahasan MSS AF pada makalah ini
disusun sebagai berikut: bagian ke-2 akan
memberikan tinjauan sekilas mengenai standardisasi
MPEG-A; pada bagian ke-3 akan diuraikan format
penyimpanan yang digunakan pada standar MSS AF
dan mekanisme penyimpanan dan pemutaran file
MSS AF. Bagian ke-4 akan menguraikan
pemanfaatan teknologi MPEG-7 untuk deskripsi
konten dan MPEG-21 untuk pengelolaan dan
perlindungan konten. Bagian ke-5 memberikan
contoh kasus pemanfaatan MSS AF dan bagian ke-
6memberikan kesimpulan dari makalah ini.
2 2. Sekilas Tentang MPEG-A
MPEG (Moving Picture Experts Group) adalah bagian dari badan standardisasi internasional (ISO) yang menangani masalah teknologi informasi, tepatnya untuk menentukan standar kompresi dan transmisi audio dan video. Beberapa standar dari MPEG yang telah banyak digunakan selain MP3 diantaranya adalah MPEG-1 Video yang umum digunakan pada VCD, MPEG-2 Video yang digunakan sebagai format kompresi video pada DVD, dan MPEG-4 AVC yang umum digunakan untuk video streaming.
ISO/IEC 23000 MPEG-A Multimedia Application Format (MAF) adalah salah satu produk standar terbaru dari MPEG yang bertujuan untuk menentukan format penyimpanan bagi beragam jenis data digital (audio, video, citra, teks, dokumen, metadata, dll.) dalam satu file [2]. Format digital data yang didukung dalam MAF dapat berupa teknologi MPEG seperti MP3 atau MPEG-4 Video maupun dari luar MPEG seperti JPEG atau 3GPP.
Standar MAF terdiri dari 12 bagian yang 11 diantaranya mengatur format penyimpanan data sesuai dengan aplikasi targetnya, misalnya album foto, sistem pengarsipan, konten penyiaran digital, dll. (bagian pertama dari MAF memberikan tunjauan teknis dari MAF).
Tujuan dari dikembangkannya MAF adalah untuk memungkinkan format penyimpanan yang mendukung interoperabilitas, pertukaran (exchange) serta manajemen beragam konten multimedia.
Dengan demikian, konten multimedia untuk suatu aplikasi tertentu yang dibuat oleh suatu pengembang atau pengguna dapat digunakan oleh pengguna lain yang menggunakan perangkat yang berbeda.
Contohnya, untuk MSS AF ini, produser konten dapat membuat file MSS AF yang dapat digunakan oleh pengguna-pengguna yang menggunakan PC maupun perangkat portable.
3. Format File
Format penyimpanan data pada MSS AF mengikuti aturan yang ditetapkan pada standar ISO Base Media File Format (ISO FF). Dalam spesifikasi ISO FF, semua data disimpan dalam suatu struktur berorientasi objek yang diberi nama “box”. Suatu box memiliki sintaks dan semantik yang menentukan data apa yang disimpan dan bagaimana cara menggunakannya. Spesifikasi ISO FF menentukan beragam jenis box yang dapat digunakan sesuai dengan kebutuhan suatu aplikasi.
Setiap box memiliki struktur sebagai berikut: 4 bytes pertama digunakan untuk menyimpan ukuran (dalam bytes) suatu box, 4 bytes kedua digunakan untuk menyimpan identitas suatu box dalam 4 karakter, dan sisanya terstruktur sesuai dengan jenis suatu box.
Suatu box dapat pula mengandung lebih dari satu jenis box lain sesuai dengan kebutuhannya.
Dalam struktur file berbasis ISO FF, suatu file umumnya disusun atas tiga jenis box utama: file type
box (diberi identitas ‘ftyp’), movie presentation box (‘moov’), dan media data box (‘mdat’). Box ‘ftyp’
digunakan untuk menentukan jenis data dan struktur penyimpanan data yang digunakan pada file tersebut.
Aplikasi pemutar file berbasis ISO FF dapat mengetahui kegunaan dan cara menggunakan file tersebut dengan melihat tipe file-nya.
Box ‘moov’ digunakan untuk menyimpan metadata berupa informasi pewaktu (timing information) yang digunakan untuk menentukan bagaimana suatu data dapat diputar (playback). Pada box ini tersimpan informasi yang menentukan kapan dan untuk berapa lama suatu sampel data harus diputar. Adapun data fisik dari suatu konten pada file berbasis ISO FF disimpan pada box ‘mdat’. Pada umumnya data kontent disimpan dalam partisi yang diberi nama chunk. Satu chunk memiliki informasi pewaktu pada satu tabel waktu di box ‘moov’. Untuk mengetahui lebih detil dari penggunaan box pada ISO FF, pembaca dapat mengacu pada [3].
Struktur box pada file MSS AF dapat dilihat pada Gambar 1. Di sana terlihat, selain tiga box utama, terdapat pula box-box lain di dalam box utama. Pada box ‘moov’ terdapat: metadata box (‘meta’) yang berfungsi untuk menyimpan metadata berupa lokasi dan informasi konten data yang tersimpan pada file, dan juga instansiasi metadata tekstual dalam bentuk XML; dan tiga buah track box (‘trak’) yang berfungsi untuk menyimpan informasi pewaktu bagi setiap konten data, di mana masing- masing box ‘trak’ berisi media information box (‘mdia’) untuk menyimpan informasi pewaktu tersebut, dan sebuah box ‘meta’ untuk menyimpan metadata khusus bagi konten yang dirujuk oleh box
‘trak’ tersebut. Box ‘mdat’ pada file MSS AF digunakan untuk menyimpan sampel MP3, kumpulan citra JPEG serta kumpulan teks berformat 3GPP.
ftyp moov
trak 1 mdia meta
iloc xml trak 2
mdia
mdat
Konten MP3
Konten koleksi JPEG
Konten teks 3GPP trak 2
mdia
Gambar 1.Struktur box pada file MSS AF.
Garismerahmenunjukkanrujukan data fisikpada metadata informasipresentasi data
3.1 PenyimpananKonten MSS AF
Berdasarkan struktur file yang telah dijelaskan,
konten-konten MSS AF disimpan berdasarkan
aturan yang ditentukan pada ISO FF. Data MP3
disimpan pada box ‘mdat’ dengan mempartisi data
tersebut ke dalam unit akses. Setiap unit akses
3 memiliki relasi dengan satu entri informasi pewaktu di box ‘trak’ untuk MP3. Penjelasan lebih lanjut tentang penyimpanan data MP3 pada ISO FF (lebih dikenal dengan MP3onMP4) dapat dirujuk pada [1].
Pada MSS AF, lebih dari satu buah citra JPEG digunakan pada slide show. Setiap citra JPEG akan ditampilkan pada waktu dan durasi yang dapat ditentukan pada saat file MSS AF dibuat. Untuk itu, satu data JPEG direlasikan dengan satu entri informasi pewaktu di box ‘trak’ untuk JPEG. Hal yang sama juga berlaku untuk teks berformat 3GPP, di mana satu sampel teks dan informasi rendering- nya direlasikan dengan satu entri informasi pewaktu pada box ‘trak’ untuk 3GPP.
Teks berformat 3GPP disimpan sesuai dengan aturan yang telah ditentukan pada [4]. Pada box
‘mdat’, urutan karakter untuk teks disimpan pada sebuah array bersama dengan format tampilannya, misalnya warna tulisan, jenis huruf, dan ukuran huruf. Sedangkan pada box ‘trak’ untuk 3GPP, selain informasi pewaktu, disimpan pula format tampilan default dari suatu teks, termasuk informasi bagaimana suatu teks harus ditampilkan. Misalnya, posisi teks pada layar, ukuran area penampilan teks, jenis huruf, cara menayangkan teks, dan lain-lain.
Agar perangkat pemutar MSS AF dapat mengetahui lokasi dan besarnya suatu chunk dari sampel data konten, informasi lokasi dan ukuran data konten disimpan pada item location box (‘iloc’) dan item information box (‘iinf’) pada box ‘meta’ di dalam box ’moov’. Satu entri pada box ‘iloc’ dan
‘iinf’ merepresentasikan masing-masing satu data MP3, satu data JPEG, dan satu data teks 3GPP.
Contohnya, jika suatu file MSS AF berisi satu data MP3, lima buah citra JPEG, dan teks 3GPP, maka box ‘iloc’ dan ‘iinf’ akan mengandung tujuh buah entri data.
Untuk memperkaya penampilan citra JPEG, MSS AF mendukung penggunaan MPEG-4 Lightweight Application Scene Representation (LASeR). MPEG-4 LASeR merupakan metadata yang menyimpan deskripsi bagaimana suatu data visual ditampilkan di layar. Pada MSS AF, MPEG-4 LASeR digunakan untuk menentukan bagaimana citra JPEG di-render pada saat berpindah dari satu citra ke citra berikutnya. Misalnya dengan pembesaran atau pengecilan (zoom in, zoom out), pemutaran (rotation) atau pergeseran (translation).
Data MPEG-4 LASeR disimpan pada file MSS AF dalam bentuk instansiasi XML dan disimpan pada xml box (‘xml') pada box ‘meta’ di dalam box
‘moov’.
3.2 Pemutaran Konten MSS AF
Sebuah perangkat pemutar MSS AF dapat memutar konten MSS AF sesuai dengan mekanisme berikut ini. Pertama-tama informasi jenis file pada box ‘ftyp’
harus terlebih dahulu diverifikasi. Jika jenis file yang tercantum pada box ‘ftyp’ sesuai dengan
spesifikasi MSS AF, maka pembacaan file MSS AF dapat dilanjutkan.
Selanjutnya, entri konten pada box ‘iloc’ dan
‘iinf’ dibaca untuk menentukan lokasi dan ukuran data konten-konten MSS AF yang tersimpan.
Setelah suatu konten data ditemukan, misalnya data MP3, maka data tersebut akan diputar sesuai dengan informasi pewaktu yang disimpan pada box ‘moov’.
Pemutaran konten-konten MSS AF mengikuti aturan sinkronisasi di mana citra JPEG dan teks 3GPP akan ditampilkan di layar sesuai dengan waktu (timestamp) dari MP3.
Ketika tampilan citra JPEG berpindah dari satu citra ke citra berikutnya, pemutar MSS AF akan memeriksa apakah data MPEG-4 LASeR tersedia pada file MSS AF dan apakah perangkat pemutar mendukung format penyajian menggunakan MPEG- 4 LASeR. Jika kedua syarat tersebut terpenuhi, maka penyajian citra JPEG di layar pada saat transisi akan ditampilkan menggunakan animasi sesuai yang dideskripsikan pada MPEG-4 LASeR. Gambar 2 mengilustrasikan pengsinkronisasian konten-konten pada MSS AF.
· · ·
animasi animasi animasi animasi
waktu MP3
Teks 1 Teks 2 Teks 3
· · ·0det 0det
5det 12det 20det
10det 14det
Teks 4
22detGambar 2.Sinkronisasianimasi, citra JPEG, danteks 3GPP sesuaiwaktupemutaran MP3
4. Metadata
Penggunaan metadata pada MSS AF memanfaatkan kerangka kerja yang telah ditentukan pada MPEG-7 dan MPEG-21. Pada intinya, teknologi MPEG-7 menyediakan standar bagi struktur instantiasi metadata dalam bentuk XML yang dapat digunakan untuk menyimpan deskripsi suatu konten, misalnya deskripsi informasi penciptaan (creation information description), deskripsi informasi pembuat konten (creator/author information description), deskripsi visual (visual description), deskripsi audio (audio description), deskripsi semantik (semantic description), riwayat penggunaan konten (usage history), dan lain-lain. Sedangkan teknologi MPEG- 21 menyediakan standar bagi tata kelola konten sebagai suatu item digital yang dapat memiliki struktur deklarasi (digital item declaration), perlindungan (intellectual property management and protection), lisensi (rights expression language), dan lain-lain. Spesifikasi MSS AF memanfaatkan sebagian spesifikasi yang ada pada MPEG-7 dan MPEG-21 sesuai dengan kebutuhannya.
4.1 Penggunaan MPEG-7
4 Spesifikasi MSS AF mensyaratkan penggunaan MPEG-7 Multimedia Description Scheme (MDS) [5]
untuk penyimpan deskripsi konten secara umum dan MPEG-7 Visual [6] untuk penyimpanan deskripsi konten visual. MPEG-7 memberikan spesifikasi set- set elemen-elemen XML yang digunakan untuk mendeskripsikan informasi umum yang berkaitan dengan konten multimedia. Elemen-elemen dalam MPEG-7 diberi istilah description tools.
Description tools pada MPEG-7 MDS menyediakan sarana untuk mendeskripsikan organisasi konten, interaksi pengguna, deskripsi konten, metadata konten dan elemen-elemen dasar dalam pendeskripsian tersebut. Pada MSS AF, MPEG-7 MDS digunakan untuk mendeskripsikan deskripsi penciptaan konten (misalnya nama pembuat konten, waktu pembuatan konten, judul konten, dll.) dan profil konten (misalnya jenis file, ringkasan dalam bentuk teks mengenai konten, media yang digunakan, dll.) [1].
Description tools pada MPEG-7 Visual menyediakan sarana untuk mendeskripsikan konten berdasarkan konteks visual misalnya warna, tekstur, bentuk objek, arah gerak objek dalam konten, dll.
Pada MSS AF, MPEG-7 Visual digunakan untuk mendeskripsikan konteks visual pada citra JPEG dalam bentuk informasi struktur dan susunan warna (color description dan color layout).
Gambar 3 menampilkan contoh instansiasi MPEG-7 pada MSS AF untuk mendeskripsikan konten yang terkandung dalam sebuah file MSS AF.
<?xml version="1.0" encoding="UTF-8"?>
<Mpeg7 xmlns="urn:mpeg:mpeg7:schema:2004"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="urn:mpeg:mpeg7:schema:2004 version2schema_unbounded_stillregionfix.xsd">
<DescriptionMetadata>
<LastUpdate>2006-11-06T19:20:25+00:00</LastUpdate>
<Creator>
<Role href="urn:mpeg:mpeg7:cs:RoleCS:2001:AUTHOR">
<Name>Pembuat</Name>
</Role>
<Agent xsi:type="PersonType">
<Name>
<GivenName>Budi</GivenName>
<FamilyName>Surachman</FamilyName>
</Name>
</Agent>
</Creator>
<CreationTime>2006-11-06T19:20:25+00:00</CreationTime>
</DescriptionMetadata>
<DescriptionUnit xsi:type="ContentCollectionType" name="Foto liburan">
<TextAnnotation>
<FreeTextAnnotation>Koleksi foto liburan semester</FreeTextAnnotation>
</TextAnnotation>
<Content xsi:type="ImageType" id="photo1">
<Image>
<MediaInformation>
<MediaProfile>
<MediaFormat>
<Content href="urn:mpeg:mpeg7:cs:ContentCS:2001:4.1">
<Name>Image</Name>
</Content>
<FileFormat href="urn:mpeg:mpeg7:cs:FileFormatCS:2001:1">
<Name>jpeg</Name>
</FileFormat>
<FileSize>138474</FileSize>
<VisualCoding><Frame height="320" width="240"/></VisualCoding>
</MediaFormat>
<MediaInstance>
<InstanceIdentifier></InstanceIdentifier>
<MediaLocator>
<MediaUri>#ffp(item_ID=1)</MediaUri>
</MediaLocator>
</MediaInstance>
</MediaProfile>
</MediaInformation>
<CreationInformation>
<Creation>
<Title>Kota Bandung</Title>
<CreationCoordinates>
<Date>
<TimePoint>2010-11-05T15:20:37+07:00</TimePoint>
</Date>
</CreationCoordinates>
</Creation>
</CreationInformation>
</Image>
</Content>
</DescriptionUnit>
</Mpeg7>
Gambar 3. Contoh instansiasi MPEG-7 untuk sebuah koleksi foto liburan
4.2 Penggunaan MPEG-21
Spesifikasi MSS AF mensyaratkan penggunaan MPEG-21 Multimedia Framework untuk sebagai description tools untuk mengelola dan melindungi konten. Secara spesifik, MSS AF menggunakan MPEG-21 Digital Item Declaration (DID) [7], MPEG-21 Intellectual Property Manajement and Protection (IPMP) Components [8], MPEG-21 Rights Expression Language (REL) [9] dan MPEG- 21 Fragment Identification [10]. Sebagaimana halnya MPEG-7, MPEG-21 diinstansiasikan di dalam file dalam bentuk elemen-elemen XML.
MPEG-21 DID memberikan spesifikasi untuk menentukan struktur organisasi konten di dalam suatu file. Di dalam struktur MPEG-21 DID, semua konten dideskripsikan sebagai digital item, sebagaimana dicontohkan pada Gambar XX.
Dengan adanya MPEG-21 DID, pemutar MSS AF dapat dengan mudah mengetahui konten apa saja yang ada di dalam file MSS AF dan bagaiman konten tersebut dikelola.
MPEG-21 IPMP Components dan MPEG-21
REL menyediakan deskripsi perlindungan dan
pengaturan lisensi konten yang ada pada file MSS
AF. Perlindungan dan pengaturan lisensi konten
yang dimaksud dapat dijelaskan secara ringkas
sebagai berikut. Sebuah konten pada file MSS AF,
misalnya sebuah citra JPEG, dapat diatur agar hanya
5 dapat ditampilkan sesuai dengan lisensi yang berlaku pada konten tersebut. Secara fisik, konten tersebut dapat diberi enkripsi sehingga tidak dapat dibuka secara langsung. Konten tersebut hanya dapat didekripsi apabila pada saat konten dibaca, lisensi yang berlaku pada konten tersebut terpenuhi. Lisensi yang dimaksud dapat berupa identitas pengguna, masa berlaku (rentang waktu), atau cara penggunaan (dibuka, ditampilkan, dimainkan, dsb.).
MPEG-21 DID IPMPGeneralInfo
Perangkat pelindung Lisensi (REL) Item 1
Resource IPMPDIDL Item 2
Resource
· · ·
meta mdat
Konten 1 (terlindungi)
Item 3 Resource IPMPDIDL Item 4
Resource IPMPDIDL
· · ·