KACAMATA PINTAR BERTAKARIR DENGAN MENGGUNAKAN LIP READING DAN SPEECH RECOGNITION

(1)

KACAMATA PINTAR BERTAKARIR DENGAN MENGGUNAKAN LIP READING DAN SPEECH

RECOGNITION

Untuk Memenuhi Salah Satu Tugas Mata Kuliah Sistem Multimedia Dosen Pembimbing : Irawan Afrianto M.T.

Disusun Oleh :

Kelas Sismul-8

Alrian Yusuf Andriana (10115303)

PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS TEKNIK DAN ILMU KOMPUTER

UNIVERSITAS KOMPUTER INDONESIA

Oktober 2018

(2)

i

Daftar Isi

BAB I PENDAHULUAN ... 1

1.1 Latar Belakang Masalah ... 1

1.2 Identifikasi Masalah ... 3

1.3 Maksud dan Tujuan ... 3

BAB II PEMBAHASAN ... 4

2.1 Perangkat Kacamata Pintar ... 4

2.2 Lip Reading ... 5

2.3 Speech Recognition ... 6

2.4 Perbandingan Lip Reading dan Speech Recognition ... 7

2.5 Pro dan Kontra Kacamata Pintar ... 9

BAB III PENUTUP ... 11

3.1 Kesimpulan ... 11

DAFTAR PUSTAKA ... 12

(3)

ii

Daftar gambar

Gambar 1 Bagian-bagian Google Glass ... 4

Gambar 2 Lip reading ... 5

Gambar 3 Speech-to-text ... 7

(4)

1 BAB I

PENDAHULUAN

1.1 Latar Belakang Masalah

Orang-orang menggunakan kacamata untuk berbagai macam hal seperti misalnya untuk membantu penglihatan penggunanya atau hanya untuk sekedar aksesoris wajah. Orang yang menggunakan kacamata sebagai aksesoris wajah biasanya memakai kacamata yang tidak memiliki lensa kaca, jika pun memakai kacamata berlensa, lensa kaca yang terpasang di kacamata tersebut tidak memiliki lensa cembung atau cekung yang dapat memengaruhi penglihatan seseorang. Ada juga orang yang menggunakan kacamata dengan terpasang lensa kaca gelap yang disebut sunglasses untuk melindungi mata mereka dari sinar matahari secara langsung.

Perangkat bernama kacamata pintar atau dalam bahasa inggrisnya

smart glasses mirip dengan kacamata pada umumnya tetapi ada sedikit

perbedaan diantara mereka. Fungsi yang masih terdapat pada kacamata

pintar dari kacamata biasa yaitu fungsinya yang dapat dijadikan sebagai

aksesoris wajah. Perbedaan yang membedakan antara kacamata pintar

dengan kacamata yang lain yaitu jika kacamata biasa digunakan untuk

membantu penglihatan penggunanya, kacamata pintar tidak hanya dapat

melakukan hal tersebut tetapi juga dapat melakukan hal-hal lain yang lebih

hebat lagi. Karena kacamata pintar sejatinya merupakan komputer yang

berbentuk seperti kacamata. Jadi kita memasang komputer di wajah kita

layaknya seperti memakai kacamata biasa. Teknologi ini disebut dengan

sebutan wearable computing.

(5)

2 Dengan adanya perangkat canggih seperti kacamata pintar, inovasi- inovasi yang dapat diwujudkan oleh perangkat tersebut pun semakin banyak. Salah satu contoh dari inovasi tersebut yaitu kacamata pintar yang dapat menampilkan takarir atau subtitle pada tampilan antarmuknya disaat penggunanya sedang menonton film di bioskop atau di teater. Kebanyakan kasus ini terjadi pada teater-teater dan bioskop-bioskop yang memang menyediakan layanan takarir pada penonton yang menggunakan kacamata pintar, atau menyewakan kacamata pintar kepada penonton yang ingin menggunakan kacamata pintar untuk menonton film di bioskop atau teater tersebut dengan menggunakan takarir.

Inovasi menonton film dengan takarir kacamata pintar diatas dapat mewujudkan inovasi baru lainnya. Ide yang diperoleh dari kasus tersebut yaitu kacamata pintar mungkin dapat membantu seseorang dalam memahami apa yang dikatakan oleh orang lain, misalnya dengan orang asing yang menggunakan bahasa berbeda dengan si pengguna kacamata.

Atau jika didorong lagi satu langkah kedepan, kacamata dengan fungsi seperti ini mungkin dapat membantu para tuna rungu untuk dapat memahami apa yang dikatakan oleh lawan bicaranya sehingga tidak dibatasi hanya orang-orang yang mengerti bahasa isyarat saja yang dapat berkomunikasi dengan tuna rungu. Dan tentu saja para tuna rungu tidak memerlukan seorang penerjemah bahasa isyarat untuk dapat berkomunikasi dengan orang lain.

Untuk dapat mewujudkan hal diatas, dibutuhkan metode

memperoleh inputan bagi kacamata pintar agar dapat memproses input-

input tersebut untuk dijadikan sebagai output berupa takarir yang

ditampilkan pada antarmuka kacamata pintar milik pengguna. Metode

input yang dapat digunakan yaitu dengan menggunakan lip reading atau

membaca bibir seseorang dan atau menggunakan speech recognition untuk

menerima suara lawan bicara yang nantinya akan dijadikan sebagai takarir.

(6)

3

1.2 Identifikasi Masalah

Dari latar belakang diatas, maka dapat diperoleh identifikasi masalah sebagai berikut :

1. Kacamata pintar dapat membantu memahami perkataan orang yang menggunakan bahasa yang berbeda

2. Kacamata pintar dapat membantu para tuna rungu untuk memahami lawan bicaranya tanpa menggunakan bahasa isyarat

3. Menggunakan kacamata pintar untuk menangkap perkataan seseorang, menterjemahkan perkataan seseorang jika lawan bicara menggunakan bahasa asing, lalu menampilkan takarir perkataan seseorang pada antarmuka kacamata pintar secara real-time

4. Menggunakan lip reading dan atau speech recognition untuk menangkap perkataan seseorang

1.3 Maksud dan Tujuan

Maksud dibuatnya makalah ini yaitu untuk menampilkan ide tentang inovasi baru yang menggunakan sistem multimedia.

Sedangkan tujuan dibuatnya makalah ini yaitu sebagai berikut :

1. Untuk menjelaskan inovasi yang telah terpikirkan

2. Untuk menyebutkan pro dan kontra dari inovasi yang terpikirkan

(7)

4 BAB II PEMBAHASAN

2.1 Perangkat Kacamata Pintar

Jika membicarakan tentang kacamata pintar, yang terlintas pada pikiran adalah produk kacamata pintar milik Google yaitu Google Glass.

Google Glass adalah pioneer dalam inovasi teknologi wearable computing yang berbentuk kacamata. Google Glass menggunakan sistem operasi Android dan menggunakan perangkat pendamping berupa smartphone yang terhubung dengan koneksi wireless ataupun Bluetooth.[1]

Gambar 1 Bagian-bagian Google Glass

Kemampuan yang dimiliki Google Glass pun bermacam-macam

seperti memotret gambar dan merekam video menggunakan kamera juga

(8)

5 merekam suara menggunakan mikrofon yang terpasang di kacamata lalu mengupload gambar, video, dan audio tersebut ke internet atau membagikannya ke media sosial. Kemampuan lain yang dapat dilakukan oleh Google Glass yaitu melakukan video call yang menggabungkan penggunaan kamera, mikrofon, dan speaker yang terpasang.

2.2 Lip Reading

Mendeteksi pergerakan bibir manusia merupakan pekerjaan sensitif yang tidak hanya secara visual mengenali perubahan bentuk bibir dari satu bentuk ke bentuk lain, tetapi juga mengenali kata untuk memprediksi kata yang akan dikatakan dan juga untuk mengenali elemen yang lebih spesifik dalam memprediksi suatu kalimat. Jika diterima oleh kamera, pergerakan bibir merupakan gambar yang bergerak dari satu gambar ke gambar lain.

Maka mungkin bisa dikatakan bahwa lip reading merupakan metode yang dilakukan oleh sistem untuk membaca video real-time tentang pergerakan bibir untuk memahami apa arti pergerakan bibir yang terjadi. Membaca pergerakan bibir merupakan pekerjaan yang sangat sulit untuk ekstraksi fitur visual.[2]

Gambar 2 Lip reading

(9)

6 Teknik mendeteksi gerak bibir melalui image dengan ekstraksi fitur visual memerlukan metode untuk mendeteksi pergerakan bibir pembicara melalui urutan image. Deteksi gerak bibir dipengaruhi oleh variabilitas pembicara dari segi warna kulit, warna bibir, lebar bibir, dan jumlah pergerakan bibir selama berbicara, serta variabilitas terhadap lingkungan seperti kondisi pencahayaan. Setiap metode yang digunakan untuk mendeteksi gerakan bibir saat berbicara, bibir harus sesuai dari image ke image, agar stabil dan tidak terpengaruh oleh penampilan dari gigi dan lidah.[2]

2.3 Speech Recognition

Suara adalah metode komunikasi dasar, umum, dan efisien bagi

orang untuk berinteraksi satu sama lain. Teknologi pidato saat ini biasanya

tersedia untuk rentang tugas yang terbatas namun menarik. Teknologi ini

memungkinkan mesin untuk merespon dengan benar dan dapat diandalkan

untuk suara manusia dan memberikan layanan yang bermanfaat dan

berharga. Karena berkomunikasi dengan komputer lebih cepat

menggunakan suara daripada menggunakan keyboard, sehingga orang

akan lebih menyukai sistem tersebut. Komunikasi di antara manusia

didominasi oleh bahasa lisan, oleh karena itu wajar bagi orang untuk

mengharapkan antarmuka suara dengan komputer.

(10)

7

Gambar 3 Speech-to-text

Ini dapat dicapai dengan mengembangkan sistem pengenalan suara: speech-to-text yang memungkinkan komputer untuk menerjemahkan permintaan suara dan dikte ke dalam teks. Sistem pengenalan suara: speech-to-text adalah proses mengubah sinyal akustik yang ditangkap menggunakan mikrofon ke sekumpulan kata. Data yang direkam dapat digunakan untuk persiapan dokumen.

2.4 Perbandingan Lip Reading dan Speech Recognition

Berikut adalah perbandingan lain antara lip reading dan speech recognition :

1. Perbandingan antara lip reading dan speech recognition yang paling

signifikan adalah masalah akurasi tepat atau tidaknya input yang

didapatkan sebelum terjadi pemrosesan untuk dijadikan output berupa

takarir. Metode Speech recognition cenderung memiliki akurasi yang

(11)

8 lebih tinggi dibandingkan dengan metode lip reading dikarenakan bentuk input yang berbeda. Input yang berupa suara dapat diterima dengan lebih akurat dan tepat oleh suatu sistem dibandingkan dengan pergerakan bibir. Dijelaskan sebelumnya bahwa pergerakan bibir dapat dikatakan sebagai video real-time, maka terlihat bahwa membaca sebuah video untuk pergerakan bibir lebih sulit untuk mendapatkan hasil yang akurat jika dibandingkan dengan menggunakan speech recognition untuk membaca suara yang diterima. Tetapi bukan berarti lip reading tidak dapat digunakan untuk menerima inputan, yang menjadi masalahnya yaitu tingkat akurasinya yang lebih rendah dari menggunakan speech recognition.

2. Lingkungan menentukan keefektifan kedua metode yang disebutkan.

Jika lingkungannya berintensitas cahaya yang rendah, maka metode lip reading akan mengalami kesulitan tambahan berupa gambar dengan tingkat kecerahan yang kurang yang dapat mengalami ketidakakuratan hasil yang diperoleh. Untuk metode speech recognition, ia akan mengalami kesulitan jika lingkungannya berisik atau memiliki banyak noise yang berasal dari lingkungannya, dikarenakan noise yang didapatkan dapat memengaruhi gelombang yang diterima oleh sistem yang dapat menyebabkan ketidakakuratan hasil.

Dapat juga dilakukan kombinasi antara lip reading dengan speech

recognition untuk mendapatkan hasil yang lebih akurat. Speech

recognition dapat menutupi kekurangan lip reading dan menambah

persentasi keakuratan, lip reading juga dapat membantu speech

recognition dengan cara melakukan hal yang tidak bisa dilakukan oleh

speech recognition. Tetapi jika kedua metode tersebut digabung untuk

menterjemahkan perkataan lawan bicara ke dalam bentuk takarir, maka

akan membutuhkan energi dan waktu yang lebih besar. Sedangkan yang

(12)

9 harus menjadi fitur utama kacamata pintar bertakarir ini yaitu kecepatan real-time untuk menterjemahkan perkataan seseorang ke dalam bentuk takarir untuk ditampilkan pada antarmuka pengguna kacamata pintar.

Maka cara yang efektif untuk dilakukan yaitu untuk memilih salah satu metode untuk melakukan terjemahan.

2.5 Pro dan Kontra Kacamata Pintar

Berikut merupakan pro atau hal yang mendukung dibuatnya kacamata pintar bertakarir :

1. Selain dapat digunakan untuk berkomunikasi dengan orang asing, takarir juga dapat digunakan untuk mempelajari bahasa asing tersebut.[4] Karena salah satu cara yang paling efektif untuk belajar bahasa asing yaitu dengan cara berkomunikasi langsung dengan pengguna bahasa asing tersebut. Dengan adanya kacamata pintar bertakarir, proses belajar bahasa asing menjadi lebih mudah.

2. Para tuna rungu dapat memahami siapapun lawan bicaranya asalkan penggunanya (tuna rungu) adalah orang yang terpelajar yaitu dapat membaca huruf, kata, dan kalimat.

3. Google Translate adalah salah satu aplikasi penterjemah bahasa yang

paling baik yang ada saat ini. Menurut Li[5], hasil terjemahan Google

Translate cukup masuk akal untuk dibaca meskipun terdapat sedikit

tatabahasa yang kurang tepat. Oleh karena itu, maka memungkinkan

untuk menggunakan Google Translate untuk menterjemahkan inputan

yang didapat dari lawan bicara untuk dirubah ke dalam bentuk takarir

yang cukup masuk akal dan dapat dimengerti.

(13)

10 Sedangkan berikut merupakan kontra atau hal yang menentang dibuatnya kacamata pintar bertakarir :

1. Kamera yang terpasang untuk melakukan lip reading terhadap lawan bicara dapat dianggap sebagai pelanggaran privasi terhadap seseorang di publik. Orang yang menggunakan kacamata pintar dapat memotret dan merekam video tanpa sepengetahuan orang yang dipotret atau direkamnya. Karena alasan diatas, terdapat tempat-tempat yang melarang penggunaan kacamata pintar dengan alasan yang disebutkan.

2. Kacamata pintar tidak dapat melakukan komunikasi secara penuh,

tetapi hanya dapat memahami apa yang dikatakan lawan bicara. Oleh

karena itu pengguna tidak memiliki cara untuk memberikan balasan

yang dapat dipahami oleh lawan bicara. Kecuali jika lawan bicara juga

menggunakan kacamata pintar yang memiliki fungsi yang sama. Jadi

hanya menggunakan kacamata pintar tidak dapat memungkinkan

penggunanya untuk melakukan komunikasi secara dua arah, hanya

dapat memungkingkan untuk memahami komunikasi satu arah dari

lawan bicara menuju pengguna kacamata pintar bertakarir.

(14)

11 BAB III PENUTUP

3.1 Kesimpulan

Kacamata pintar bertakarir dapat diwujudkan dengan teknologi pada saat ini. Dengan menggunakan teknologi lip reading dan speech reconition dapat didapatkan hasil perkataan yang cukup akurat dari apa yang dikatakan oleh lawan bicara pengguna kacamata pintar bertakarir.

Lalu perkataan yang didapatkan dari hasil lip reading dan speech recognition dapat diterjemahkan dengan aplikasi penterjemah misalnya Google Translate ke dalam bahasa yang diinginkan atau ke dalam bahasa yang dimengerti. Maka akan muncul takarir hasil terjemahan tersebut pada antarmuka kacamata pintar.

Kacamata pintar bertakarir memiliki banyak pro dan keuntungan

bagi masyarakat, umumnya pada orang yang tidak mengerti bahasa asing

dan khususnya untuk seorang tuna rungu. Tetapi dibalik pro yang

dimilikinya, kacamata pintar bertakarir juga memiliki kontra yang akan

menghambat perkembangan dan aktualisasi kacamata tersebut. Oleh

karena itu, diperlukan inovasi-inovasi atau ide-ide baru lain yang dapat

membuat kacamata ini lolos dari pelanggaran moral dan peraturan publik

yang ada.

(15)

12 DAFTAR PUSTAKA

[1] Schweizer, H. (2014). Smart Glasses : Technology and Applications.

Ubiquitous Computer Seminar FS2014.

[2] Suhendra, A., & Lakuary R. P. (2017). Aplikasi Deteksi Gerak Bibir Menggunakan Kurva Bezier dengan EMGUCV.

Jurusan Sistem Informasi, Fakultas Ilmu Komputer

Universitas Gunadarma.

[3] Prerana, D., et al. (2015). Voice Recognition System : Speech-to Text.

Journal of Applied and Fundamental Sciences, 1(2), 191-195.

[4] Patricia, A. A., & Patricia D. C. (2014). Foreign Language Acquisition : The Role of Subtitling. Procedia - Social and Behavioral Sciences, 141, 1234-1238.

[5] Li, H., et al. (2014).Comparison of Google Translation with Human

Translation. International Florida Artificial Intelligence Research Society

Conference, 27, 190-195.

(16)

Smart glasses:

technology and applications

Student report

Ubiquitous computing seminar FS2014 Hermann Schweizer

[email protected]

ABSTRACT

The maturing field of wearable computing aims to inter- weave computing devices into everyday life. This report focuses on smart glasses, one of the categories of wearable computing devices which is very present in the media and expected to be a big market in the next years. It analyses the differences from smart glasses to other smart devices, in- troduces many possible applications for different target au- diences and gives an overview of the different smart glasses which are available now or should be available in the next few years. Interesting technological features of the smart glasses are highlighted and explained.

INTRODUCTION

Smart glasses are computing devices worn in front of the eyes. Evidently their displays move with the users head, which leads to the users seeing the display independently of his or her position and orientation. Therefore smart glasses or lenses are the only devices which can alter or enhance the wearer’s vision no matter where he/she is physically located and where he/she looks. There are three different paradigms of how to alter the visual information a wearer perceives.

Those three are introduced here.

• Virtual reality: The goal is to create a fully virtual world for the user to see, interact with and immerse into. The user sees this virtual world only, any other light sources are not affecting the eye. One significant difference to a simple screen is that the actions of the user affect the virtual world. In example movement affects what virtual content the user sees. A famous fictional example of a device creating a virtual world is the Holodeck from Star Trek.

• Augmented reality: The world is enhanced or augmented by virtual objects as seen in figure 1. The user can see the real world but also perceives virtual content created by a computing device and displayed by an additional light source which doesn’t prohibit the perception of the real world. Interaction with those virtual objects is a way of communicating with the computing devices.

• Diminished reality: Objects are subtracted from scenes by filtering the light reflected or emitted by those objects to- wards the eye. This is most often used in combination with augmented reality to replace the diminished objects by some virtual objects.

Like other smart devices, smart glasses will often also have a camera. Significant differences to other camera devices are

Figure 1: Reality is augmented with a virtual objec [7].

that the pictures or videos are taken from the users point of view, there is no need for the user to hold the device in his hands and the vision of the user is not occluded. This camera can see what the wearer sees at any time. In combination with eye tracking technology the devices can determine exactly what the wearer is looking at. This allows the device to get crucial information about the users interests, activities, surroundings and occupation.

Those fundamental differences to other computing devices are what makes smart glasses unique and interesting. They enable new applications which couldn’t be as easily realized with other devices.

DEVICES

All the applications in the world are useless without the right hardware to run on. That is why an overview of different smart glasses which have been released recently or should be released in the next few years is provided. Those glasses are developed by different companies and often trying to achieve different goals and appeal to different consumer mar- kets. Therefore they do not all stand in direct competition and should not be compared as such.

Devices with one display

There are smart glasses with a single display which is placed in the peripheral vision of the user. Those displays can be used to display information to the user. Unfortunately they can not be used to create a diminished or virtual reality because sight on one eye is not affected. They also can not be used to create an interactive augmented reality because virtual objects can only be seen in peripheral vision.

(17)

Google Glass

One example of smart glasses with one display is Google Glass which runs the Android operating system. Its specifi- cations are the following

• Weight: 50g

• Processing: 1.2 GHz Dual-core ARM Cortex-A9 CPU, PowerVR SGX540 GPU, 16GB storage, 682MB RAM.

That’s roughly equivalent to the hardware of an IPhone 4

• Camera: 5MP still (2528x1856 pixels) or 720p video.

There is no flash

• Display: It is a color prism projector with a resolution of 640x360 pixels. See figure 3.

• Sensors: microphone, accelerometer, gyroscope and com- pass.

• Interaction: There is a long an narrow touch pad which supports swipe and tap gestures. The camera can be trig- gered by a button.

• Audio: There is a bone conduction transducer for audio.

Sound reaches the inner ear in form of vibrations on the scull. Note that this technology is audible by the hearing impaired as well as persons with normal hearing.

• Communication: It has no cellular modem which means it can not make phone calls on its own. It does have Blue- tooth and WLAN 802.11b/g

Google Glass is supposed to be used in combination with a smartphone and one of its main uses is to display notifications in a convenient and quick way. It is supposed to be priced similarly to a high end smartphone but there are no official announcements concerning the exact price or release date.

Br ¨uckner TRAVIS

It is visible in figure 2 that Google Glass does not have a very sturdy design and that it is made for consumers. It is not made for rough environments such as industrial sites or facto- ries. One example of industrial smart glasses is the Br¨uckner TRAVIS shown in figure 4. This device is a lot heavier than Google Glass because the processing is done in a embedded PC worn in a vest. It is controlled with six hardware buttons and its main applications are streaming video and displaying manuals to employees.

Reckon MOD

There are also many devices designed for use during sports.

Similar to Br¨uckner Travis they need to function in a rough environment but also should not be heavy. One example of dedicated sports smart glasses are the Reckon MOD seen in figure 5. The Reckon MOD are snow sports smart glasses.

They can operate at temperatures from−20^◦to 30^◦, weigh approximately 65g and are water resistant. Interaction is done through a wrist remote. The main use of Reckon MOD is displaying maps and performance statistics.

Devices with two displays

Smart glasses with two displays can affect everything the wearer sees and could display 3 dimensional content. This makes it possible to create a virtual, augmented or diminished reality.

Both systems with two displays presented in this section need to be connected to a PC with a cable by which the virtual ob-

Figure 2: Google Glass developer version [8]

Figure 3: Google Glass display: A mini projector projects onto a semi reflective mirror which only affects light stemming from the projector [9].

Figure 4: Br ¨uckner TRAVIS [10]

Figure 5: Reckon MOD [11]

(18)

Figure 6: Cast AR [12]

jects are created. In the future similar devices could be wireless and worn outside. Those devices are interesting because they do not focus on displaying information but rather try to create an exciting visual experience.

Cast AR

An exciting new technology which is used to create a augmented indoor reality is Cast AR. It has a projector above each eye which projects onto a retro reflector with 120hz each creating a 3D image. A retro reflector is a surface that reflects light back to its source with a minimum of scatter- ing. Nevertheless some of the light of each projector will reach the eye it is not destined for. To deal with this, Cast AR has active shutter lenses. The projectors are active in disjoint small time intervals. While the projector above one eye is not active the active shutter lens of that eye will stop any light from reaching that eye. This happens at such a high speed that the human eye can not notice. The result is a stereoscopic 3D image.

Cast AR tracks head movement and orientation using an infrared camera and infrared LEDs inside the retro reflector.

The exact position is calculated by triangulation in hardware on the glasses. This makes it possible to adjust the orientation of the virtual objects with only a few millisecond delay to head movement. Many people can share one retro reflector each seeing a different scene or the same scene from different angles.

Another advantage of Cast AR compared to other smart glasses is that the eye focuses on items in a distance rather than a screen in front of the eyes. This makes it possible to use Cast AR for long time periods without eye strain.

One of the disadvantages is that the active shutter glasses fil- ter a lot of light which makes the scenes appear darker. By in- creasing the brightness of the projectors its possible to make the virtual objects brighter, but it is not possible to make any real objects in the room brighter without changing lighting of the room which might disturb others.

Another disadvantage is the need for a retro reflective surface. Although these are very flexible, lightweight and not expensive they take up space and you can’t see any virtual objects or scenes without one in the background. The price of Cast AR is expected to be around 200$

Oculus Rift

The Oculus Rift is a virtual reality solution which uses two displays placed in front of lenses close to the eyes of the wearer. There is one display in front of each eye, together they have a 1920x1080 pixel resolution on the newer proto-

Figure 7: Oculus Rift Crystal cove prototype [13]

types. For Oculus Rift it is very simple to create 3D scenes because each display is only visible by one eye. Also brightness is not a problem because it only depends on the brightness of the display which may be adjusted. Oculus Rift tracks head movement using infrared LEDs like Cast AR but it also relies on a gyroscope and accelerometer. The advantage of tracking with a gyroscope and accelerometer is a very low latency, the disadvantage compared to the infrared solution is that over time errors accumulate and there might be orientation drift.[6] By combining both methods Oculus Rift implements precise low latency head tracking. As already mentioned Oculus Rift is used to create a virtual reality. No light from the environment reaches the eye. The advantage is that there is no need for any display surface in the room and the whole field of vision can be occupied by a virtual scene.

Many users experienced a series of problems with the early prototypes of the Oculus Rift. Those problems and the solution approaches implemented by the newer prototypes are explained here.

• When the resolution of a display is not large enough the user might see spaces between pixels creating a view similar to seeing through a mosquito net. Because the displays of Oculus Rift are very close to the eye the screen door effect was a big problem with the early prototypes. Because the resolution of the newer prototypes is higher the screen door effect became less disturbing. It is to be expected that this will not be a significant issue in future iterations or the final product.

• Because of the delay from the moment the user moves his head until the images adjust to the movement and because of imprecision in head tracking, some users experience motion sickness. This happens when there exists a dis- agreement between the visually perceived movement and the inner ear’s sense of movement. People react very dif- ferently to this problem and even with the newest prototypes with very little latency some people still experience motion sickness depending on which scene they are seeing.

• When looking at a screen for a long time many people ex- perience eye strain. This happens when the eyes get tired of focusing on near objects. This problem is still present with newer prototypes.

• Graphical glitches, software bugs and lags are disturbing no matter what display technology used. However with Oculus Rift they are much more uncomfortable for the

(19)

user. With lags or loading screens the user looses the abil- ity to affect his vision by turning his head which might lead to immediate motion sickness and disorientation. Those problems are very difficult to solve because software will always have bugs and hardware will always fail at some point.

• Even the newest Oculus Rift prototypes weigh around 0.5 kg which is not very comfortable for the user.

Although there are many problems with the prototypes of Oculus Rift it is a very promising technology which for many people creates very enjoyable experience even at prototype state. At least for those who are not very prone to motion sickness and the other issues mentioned above. The price of Oculus Rift is expected to be below 400 $ in the US.

We have reviewed different smart glasses and have seen some advantages and disadvantages each pair has. The choice of which smart glasses are more valuable to a user depends on the environment they will be used in and the applications that are supposed to run on them.

APPLICATIONS

In this section different possible applications that we can categorize as documentation, productivity, universal remote control, medical, education, entertainment, commerce and sports. The goal is to show how useful smart glasses could be. It is assumed that hardware to realize the applications will exist in the future.

Documentation

Pictures and videos taken by smart glasses are taken from the point of view of the user and can be taken hands-free without occluded sight. This is ideal to capture personal experiences of the wearer. In addition to pictures taken manually a device could also take pictures automatically. It could realize when the user is agitated or excited and take more pictures or even videos in those times automatically. All the pictures could be uploaded to create a documentation of the person’s life.[4] This documentation could be used positively in many different ways. It could be used as a memory aid, to in- crease safety by creating visual evidence of crimes, as proof in court or simply for personal use. If many people used such a device for documentation, information of catastrophes and other major events would spread even faster due to the in- crease of pictures and videos taken in situations where the user might not have time to manually take pictures like an earthquake.

Productivity

Although there are already many solutions used for navigation, smart glasses could be used to create a better experience. In cars they could be used to highlight the way and propose a speed for the driver. In warehouses they could be used to navigate employees to the objects they need to trans- port highlighting those with some color.

Video streams could be used to ask experts or support ques- tions while doing work. Imagine having to do a difficult maintenance task once a year. This could be done while being connected to an expert from that products company seeing exactly what you do, giving advice and in case something

goes wrong maybe even being liable for damages. This is a lot cheaper than having an expert travel to once location.

Smart glasses could be used to track eye movement of employees. Analysing this data could help determine when a employee is overworked and needs a break or when a employee runs out of work and starts working slower.

Another possible application would be to augment construc- tion sites with architectural plans helping in finding mistakes made in the planing phase and also preventing accidents like drilling through a water pipe.

Universal remote control

Smart glasses could be used as universal remote control. The user could spawn an augmented control of any compatible device at any time and use this to interact with the device through gestures. Examples would be an augmented tele- vision remote, music, heat, light, oven, security system or camera control. It would also be possible to remote control any computing device with a virtual display and a virtual or physical keyboard and mouse or touch interface. This could be realized by streaming video to the glasses and control information to the device. If the device which should be controlled has little computational power or the bandwidth is limited it would also be possible to only send the information to be displayed to the glasses and let the glasses create the visualization. Of course this would not be as convenient as using an actual desktop PC but it would enable the user to use the PC from remote location and use computing devices which do not have a screen or any physical interfaces. [1, 2]

Medical

At first the use of smart glasses for blind or visually impaired people might seem pointless. But they could be very useful in assisting those people as a sighted companion. Many blind people use a cane to get information about their surroundings. This method only gives information about items below the waist which doesn’t prevent collisions with objects placed higher like tree branches. Smart glasses could warn blind people from such collisions. They could also be used for navigation by giving them information about the distance to predefined landmarks.[3] Another possible application would be to use the smart glasses as a seeing aid to create night vision or show objects in a distance.

Virtual reality has been used in physical therapy. Studies prove that the subjective pain sensation of patients during exercises can be reduced by distracting them with a virtual reality set up.

It would also be possible to have subtitles for deaf people.

Speech recognition would have to improve and the glasses would have to be able to distinguish different voices. It would however be relatively easy to only recognize certain noises like a vehicle horn, somebody screaming: Watch out!

or simple commands like turn around or come to me.

Education

Virtual reality glasses could be used to teach history by al- lowing the students to view historical sites not only through textbooks but in a virtual 3D world in which they could move around freely.

(20)

Those glasses could also be used to create simulations for training. Examples would be driving simulations, flight simulations, military training or surgery training. It is beneficial to be skilled in those activities in a safe environment where nobody can be hurt until the skills required to perform are acquired.

Entertainment

In 3D cinemas users wear glasses. By replacing those glasses with smart glasses the cinema experience could be improved.

Personal subtitles could be introduced in the language of choice. Smart glasses could also be used for a virtual reality cinema experience. The users could determine what they see depending on their head position. The environment might be adjusted according to the conditions in the movie. For example when it is windy in a scene there could be a ventilator in the cinema creating similar conditions. Such a system would be very hard to recreate for someone at home therefore pirate copies would not create a similar experience to a cinema.

This could help the industry in creating a lot more revenue.

Another big market would be virtual and augmented reality games. Especially augmented reality games could reach a broad audience than the people who play games today because they can be played outside and be based on interaction with other people in addition to augmented virtual objects.

One example of such a game would be tennis with a virtual ball.

Commerce

Commercial billboards and advertisement posters could be enhanced with video. A movie billboard for example could be enhanced with a trailer of the movie if the user is wearing a compatible smart glass. Smart glasses with facial recognition software could help employees recognize customers and display information about them. Customers in stores could be given smart glasses to display information about products and to help them navigate through the stores quicker. At the same time the glasses could track their eyes gathering data about where they look. This data could be used to determine the value of advertising space. This data would then be used to sell the space at a more appropriate and maybe higher price.

Sports

During most sports one does not have a lot of time to de- vote to a computing device and it is impossible to use one’s hands to interact with the device. These limitations make use of smart phones during sports very impractical. This is even true for endurance sports where you would have the mental capacity to interact with a smart device. Smart glasses are perfect for displaying information during a sport activity. The information that is useful for a person doing sports would be performance measurement, performance comparison, maybe navigation, notifications about weather or mes- sages and so forth. The information can be displayed to the wearer in his peripheral vision without disturbing the sports activity.[5] The smart glasses could also be used to take pictures or video during sports activated by a speech command.

Custom software and sometimes hardware for each sport would be necessary as smart glasses for surfers would dif-

fer a lot from smart glasses for snow sports.

Conclusion

There are a lot of interesting applications which can only or a lot easier be implemented with smart glasses than with traditional computing devices. It is probable that there will be large investments into research and development of smart glasses because the entertainment industry, military and busi- nesses can benefit from smart glasses and there might be a high consumer demand for them soon. The hardware that will be available in the near future still has its pitfalls and will probably need a few years and iterations to be fixed. Never- theless the prototypes available today are very promising and it might happen that smart glasses will be a part of our future everyday life. Be it in cinemas, at the workplace, in our entertainment systems or as always connected companion device.

REFERENCES

1. Andrea Colaco et al. Mime: compact, low power 3D ges- ture sensing for interaction with head mounted displays.

In Proceedings of the 26th annual ACM symposium on User interface software and technology (UIST ’13), 2013.

2. Valentin Heun et al. Smarter objects: using AR technol- ogy to program physical objects and their interactions. In CHI ’13 Extended Abstracts on Human Factors in Com- puting Systems (CHI EA ’13), 2013.

3. Roberto Manduchi, James Coughlan. (Computer) vision without sight. ACM Communications, Volume 55, Issue 1, Pages 96-104, January 2012

4. Steve Mann. Continuous lifelong capture of personal ex- perience with EyeTap. In Proceedings of the the 1st ACM workshop on Continuous archival and retrieval of personal experiences, (CAPRE), 2004.

5. Gábor Sörös, Florian Daiber, and Tomer Weller. Cyclo:

a personal bike coach through the glass. Proceedings of SIGGRAPH Asia 2013 Symposium on Mobile Graphics and Interactive Applications, 2013.

6. Feng Zhou et al. Trends in augmented reality tracking, in- teraction and display: A review of ten years of ISMAR. In Proceedings of the 7th IEEE/ACM International Sympo- sium on Mixed and Augmented Reality, 2008.

7. http:// media.smashingmagazine.com/ wp-content/

uploads/ 2012/ 11/ MIS Ch05-028.jpg

8. http:// www.catwig.com/ google-glass-teardown/

teardown/ glass-clearshade-isometric.jpg 9. http:// www.dailymail.co.uk/ sciencetech/

article-2306382/

10. http:// www.brueckner.com/ en/ brueckner-servtec/

services/ remote-services/ remote-service-tools/

11. http:// www.techradar.com/ reviews/ gadgets/

recon-instruments-mod-live-hud-1141185/ review 12. http:// www.glassappsource.com/ castar

13. http:// www.gizmag.com/ oculus-rift-hands-on-2014/

30396/

(21)

1 APLIKASI DETEKSI GERAK BIBIR MENGGUNAKAN KURVA BEZIER DENGAN EMGUCV

Dr. –Ing, Adang Suhendra *), Ratna Purwati Lakuary **)

Jurusan Sistem Informasi, Fakultas Ilmu Komputer

Universitas Gunadarma

Jl. Margonda Raya No. 100 Pondok Cina, Depok 16424, Indonesia Email: [email protected]

*) Dosen Teknik Informatika Universitas Gunadarma

**) Mahasiswa Sistem Informasi Universitas Gunadarma

Abstraksi

Sistem pendeteksi gerak bibir terdiri dari beberapa tahapan, yaitu akuisisi citra, deteksi objek, segmentasi wilayah bibir, dan deteksi pergerakan bibir. Pada tahapan segmentasi cukup penting, karena dapat mensegmentasi bagian citra wilayah bibir dari suatu objek.

Pada penelitian ini, penulis mencoba suatu alternatif mendeteksi objek dengan memanfaatkan EmguCV sebagai library image processing. Image pertama dari urutan input bibir pembicara berada pada posisi netral dalam kondisi mulut tertutup, menghadap depan dan posisinya berada ditengah. Proses pendeteksian gerak bibir dipengaruhi oleh wana kulit dan kondisi pencahayaan. Semakin tinggi warna kulit dan tingginya kondisi pencahayaan maka semakin sulit pendeteksian antara wilayah kulit bibir dan kulit wajah dan rata – rata waktu proses yang didapat dari pergerakan bibir oleh kurva Bezier adalah 3 detik.

Implementasi penelitian ini dibuat dengan menggunakan Microsoft Visual Studio 2008 dengan bahasa pemrograman C# (Csharp) dan EmguCV yang merupakan lintas platform yang berisi library pengolahan gambar (library image processing) yang dapat dipanggil pada .Net.

Kata Kunci : Deteksi gerak bibir, kurva Bezier, EmguCV.

1. PENDAHULUAN

Wajah manusia dapat diidentifikasi berdasarkan ciri, antara lain terdiri dari mata, hidung, bibir, dikarenakan tiap manusia memiliki karakterisitik yang berbeda untuk mengenali ciri dari wajah seseorang.

Salah satu ciri primer dari wajah adalah bentuk bibir dilihat dari variasi perbedaan bentuk.

Mendeteksi pergerakan bibir manusia merupakan pekerjaan sensitif terhadap konteks, tidak hanya secara visual mengenali bentuk mulut, tetapi juga mengenali kata kunci untuk memprediksi kata dan juga untuk mengenali elemen kunci yang lebih

spesifik dalam memprediksi suatu kalimat. Maccka, membaca gerak bibir merupakan pekerjaan yang sangat sulit untuk ekstraksi fitur visual.

Teknik mendeteksi gerak bibir

melalui image dengan ekstraksi fitur

visual memerlukan metode untuk

mendeteksi pergerakan bibir pembicara

melalui urutan image. Deteksi gerak

bibir dipengaruhi oleh variabilitas

pembicara dari segi warna kulit, warna

bibir, lebar bibir, dan jumlah pergerakan

bibir selama berbicara, serta variabilitas

terhadap lingkungan seperti kondisi

pencahayaan. Setiap metode yang

digunakan untuk mendeteksi gerakan

bibir saat berbicara, bibir harus sesuai

(22)

2 dari image ke image, agar stabil dan tidak terpengaruh oleh penampilan dari gigi dan lidah.

Beberapa metode yang telah disajikan untuk mendeteksi kontur bibir adalah metode watershed segmentation, active shape model atau snakes, dan lain – lain. Dari beberapa metode tersebut salah satu metode dari ekstraksi fitur visual untuk mendeteksi pergerakan bibir yaitu menggunakan perbedaan warna kulit wajah dan kulit bibir (skin color segmentation) menggunakan EmguCV sebagai library image processing dengan kurva Bezier, dimana pergerakan bibir yang terdeteksi oleh web camera akan diinterpretasikan oleh kurva Bezier. Model kontur awal bibir diperoleh dari daerah mulut yang dipilih secara manual dari image pertama.

Pada penelitian ini, Penulis membuat suatu aplikasi deteksi gerak bibir menggunakan kurva Bezier dengan EmguCV menggunakan Microsoft Visual Studio 2008 dan bahasa pemrograman CSharp.

2. TINJAUAN PUSTAKA 2.1 Pengenalan Anatomi Bibir

Bibir tersusun dari otot rangka (orbicularis mulut) dan jaringan ikat.

Organ ini berfungsi untuk menerima makanan dan produksi wicara. Bibir terdiri dari tiga daerah, pertama permukaan luar bibir dilapisi kulit yang mengandung folikel rambut, kelenjar keringat, serta kelenjar sebasea. Kedua area transisional memiliki epidermis transparan, bagian ini tampak merah karena dilewati oleh banyak kapiler yang dapat terlihat. Ketiga permukaan dalam bibir adalah membrane mukosa, bagian frenulum labia yang melekatkan membrane mukosa pada gusi di garis tengah.

Bibir bagian atas disusun 3 unit yaitu 2 lateral dan 1 medial. Cupid bow adalah proyeksi ke bawah dari unit philtrum yang memberi bentuk bibir yang khas. Proyeksi linier tipis yang

memberi batas bibir atas dan bawah secara melingkar pada batas kutaneus dan vermilion disebut white roll.

Bibir bagian bawah yaitu pada bagian mental crease yang memisahkan bibir dengan dagu. Vermilion merupakan bagian bibir yang paling penting.

Lapisan sagital bibir dari luar ke dalam yaitu epidermis, dermis, jaringan subkutaneus, m. orbicularis, submukosa dan mukosa.

Gambar 2.1 Anatomi bibir

2.2 Otot Wajah

Otot – otot wajah seperti lembaran elastis yang membentang di lapisan atas tengkorak, tulang wajah, dan tulang rawan, lemak, dan jaringan lain kepala yang merupakan otot – otot ekspresi wajah yang bertindak secara tunggal. Gambar 2.2 menunjukkan pandangan sederhana bagaimana mengenai otot – otot wajah. Sebagian besar otot menggambarkan penampilan yang dihasilkan ketika bertindak.

Persarafan dan pasokan darah juga ditunjukkan.

Gambar 2.2 Otot Wajah

2.3 Ektraksi Ciri Bibir

Ciri spesifik wajah sangat

berperan untuk pengenalan wajah jika

informasi yang dimiliki tentang wajah

seseorang terbatas. Wajah tiap orang

(23)

3 memiliki karakteristik tertentu yang dibentuk oleh ciri – ciri utama yang salah satunya adalah bibir. Bibir memiliki bearagam bentuk yang dapat dijadikan tolak ukur pembeda antara satu orang dengan yang lain.

Ciri bibir dapat diekstraksi menggunakan basis ruang warna (color space) dan bentuk (shape) bibir. Ruang warna mengenali ciri wajah dengan cara membedakan antara warna ciri yang dicari dengan warna kulit sedangkan bentuk bibir mendeteksi dengan mencari ciri pada wajah dengan bentuk yang sesuai dengan bentuk ciri yang dicari.

Tentunya ekstraksi ciri menjadi faktor yang sangat berperan dalam keberhasilan deteksi ciri wajah.

2.3.1 Ciri Bibir

Deteksi bibir pada citra wajah didasarkan pada ciri bibir yang dapat dijadikan tolak ukur perbedaan antara ciri bibir dengan ciri wajah yang lain.

Sejumlah ciri dari bibir terlebih dahulu harus dikenali untuk kemudian diekstrak menggunakan metode yang dengan tepat mengenali bibir berdasarkan ciri tersebut. Selain untuk pengenalan wajah, ciri bibir juga digunakan untuk pembacaan pergerakan bibir dan ekspresi wajah. Sejumlah metode deteksi bibir telah dikembangkan berdasarkan ciri bibir berikut ini :

a. Lengkung Bibir (Lips Contour) Bibir memiliki lengkung pada bagian dalam (inner) dan luar (outer) yang membentuknya berbeda dengan ciri wajah yang lain. Untuk mengekstrak batas bibir merupakan pekerjaan yang sangat sulit karena lengkung bibir memiliki tingkat perubahan yang cukup tinggi (highly variabel). Bentuk bibir diklasifikasikan menjadi 6 (enam), yaitu bagian atas menonjol, bagian bawah menonjol, biasa, sumbing, tebal, dan tipis.

Secara matematis lengkung bibir dapat digambarkan sebagai segmen elips atau kombinasi dari dua buah elips yang

tidak beraturan. Ciri lengkung bibir dapat dideskripsikan seperti pada Gambar 2.3 di bawah ini,

A2

B₂ A₁

B₁ W

H

Gambar 2.3 Ciri Lengkung Bentuk

Bibir

dimana A1 dan A2 adalah titik pojok bibir, H adalah tinggi dari lengkung bibir, W adalah lebar lengkung bibir, B1 dan B2 adalah titik tengah bibir bagian atas dan bagian bawah yang semuanya merupakan ciri penting dari bibir.

b. Warna Bibir (Lips Color) Warna yang berbeda dengan warna kulit merupakan ciri lain dari bibir. Perbedaanya dapat ditunjukan untuk tiap komponen warna RGB.

Warna banyak digunakan pada analisis wajah salah satunya untuk segmentasi.

2.4 Web Camera

Web camera (web cam) adalah sebuah alat yang terhubung ke komputer yang berfungsi untuk mengambil citra dari lensa teleskoptik yang terdapat pada alat tersebut. Web camera saat ini dipergunakan secara luas pada aplikasi online video conference, pemantauan, sebagai kamera digital, dan banyak lagi.

resolusi (ketajaman) maksimum citra hasil dari web camera adalah 640x480 piksel.

2.5 Segmentasi Citra

Segmentasi merupakan proses mempartisi citra menjadi beberapa daerah atau objek. Segmentasi citra pada umumnya berdasar pada sifat diskontinuitas atau kesamaan (similarity) dari intensitas piksel.

Segmentasi citra merupakan suatu

proses pengelompokkan citra menjadi

beberapa region berdasarkan kriteria

tertentu. Berdasarkan pengertiannya,

(24)

4 segmentasi memiliki tujuan menemukan karakteristik khusus yang dimiliki suatu citra. Oleh karena itulah, segmentasi sangat diperlukan pada proses pengenalan pola. Semakin baik kualitas segmentasi maka semakin baik pula kualitas pengenalan polanya.

Secara umum ada beberapa pendekatan yang banyak digunakan dalam proses segmentasi antara lain :

a. Teknik threshold, yaitu pengelompokan citra sesuai dengan distribusi properti pixel penyusun citra.

b. Teknik region-based, yaitu pengelompokkan citra kedalam region-region tertentu secara langsung berdasar persamaan karakteristik suatu area citranya.

c. Edge-based methods, yaitu pengelompokkan citra kedalam wilayah berbeda yang terpisahkan karena adanya perbedaan perubahan warna tepi dan warna dasar citra yang mendadak.

2.6 EmguCV

OpenCV (Open Source Comput er Vision) adalah sebuah library fungsi pemrograman real time untuk computer vision. Emgu CV adalah wrapper .Net untuk OpenCV. Dengan EmguCV, fungsi – fungsi dalam OpenCV bisa dipanggil melalui bahasa pemrograman yang compatible dengan .NET seperti C#, VB, dan VC++. Selain itu, Emgu CV juga cross platform sehingga dapat di-compile lewat Mono dan dijalankan di atas sistem operasi Linux atau Mac OS.

Dari pengertian di atas telah diberikan deskripsi dari kedua open source tersebut. OpenCV merupakan library yang cukup terkenal di dunia Computer Vision. Computer Vision adalah salah satu bidang di teknologi informasi yang fokus pada pemrosesan images atau gambar yang diperoleh dari

dunia nyata untuk diekstrak dan diinterpretasikan informasinya. Untuk mempermudah developer dalam mengembangkan aplikasi yang menggunakan teknologi computer vision, digunakanlah library seperti VXL, Camellia, OpenCV, dan lainnya.

Maka dari itu EmguCV berperan untuk menjembatani C# dan OpenCV. EmguCV adalah wrapper .Net untuk OpenCV. Keuntungan menggunakan EmguCV yang paling utama adalah library ini sepenuhnya ditulis dengan bahasa pemrograman C#

yang mana lebih aman karena pembuatan object atau pun reference di- manage oleh garbage collector.

Ada dua konsep penting yang perlu diketahui terlebih dahulu sebelum menggunakan EmguCV. Pertama mengenai layer pada EmguCV.

EmguCV terdiri dari 2 layer, yaitu basic layer dan second layer. Basic layer mengandung fungsi, struktur, dan enumerasi yang secara langsung merefleksikan apa yang ada di OpenCV.

Dengan adanya layer inilah kita bisa memanggil fungsi-fungsi pada OpenCV dengan bahasa pemrograman C#.

Sedangkan second layer mengandung kelas – kelas yang memanfaatkan keunggulan teknologi .NET.

Konsep kedua yang perlu dipahami yaitu mengenai code mapping, yaitu bagaimana kode-kode dalam OpenCV dipetakan ke dalam EmguCV.

Ada 3 tipe mapping kode, yaitu function mapping, structure mapping, dan enumeration mapping.

2.7 Kurva Bezier

Kurva Bezier didefinisikan oleh titik – titik kontrol poligon seperti ditunjukan pada Gambar 2.4. Kurva Bezier menggunakan fungsi blending yang juga adalah basis Berstein sehingga beberapa macam dari kurva Bezier dapat diketahui. Beberapa definisi dari kurva Bezier yaitu :



Fungsi basis adalah real.

(25)

5



Tingkat definisi polinominal segmen kurva adalah satu lebih kecil dari jumlah definisi titik – titik poligon.



Titik – titik awal dan akhir dari kurva tepat sama dengan titik awal dan akhir dari definisi poligon.



Arah vektor di ujung – ujung dari kurva mempunyai arah yang sama dengan awal dan akhir dari bentuk poligon.



Kurva didalam convex hull dari definisi poligon.

Pada Gambar 2.5 ditunjukan contoh untuk empat titik poligon Bezier dan kurva yang dihasilkan. Sehingga cepat dipelajari dan diperkirakan bentuk kurva yang dihasilkan oleh suatu poligon Bezier. Kurva Bezier dengan suatu parameter t memiliki persamaan matematika yang di definisikan sebagai berikut :

(1)

B₁ B₂

B₃ B₄

Gambar 2.4 Kurva Bezier dengan

Definisi Poligon

Gambar 2.5 Beberapa Kurva Bezier

dengan Empat titik Kontrol Poligon

3. ANALISIS DAN

PERANCANGAN

Ada beberapa tahapan yang harus dilakukan untuk mendeteksi pergerakan bibir. Tahapan ini dapat dilihat dalam langkah – langkah sebagai berikut:

Akuisisi Citra

Deteksi Gerak Bibir Segmentasi

Wilayah Bibir Deteksi

Objek

Gambar 3.1 Model Sistem Deteksi

Gerak Bibir

Tahapan – tahapan perancangan untuk setiap bagian dari proses deteksi bibir dijelaskan pada tahapan berikut.

3.1 Akuisisi Citra

Proses akuisisi citra digital

merupakan proses yang paling penting

pada pencitraan karena proses ini sangat

menentukan kualitas dari citra digital

yang akan diperoleh. Agar proses

akuisisi citra digital dapat terjadi

diperlukan tiga komponen utama yang

harus dipenuhi yaitu sumber cahaya,

objek atau benda yang akan diamati dan

sensor peka cahaya atau kamera itu

sendiri. Sedangkan proses akuisisi citra

digital tersebut dapat dijelaskan sebagai

berikut, cahaya yang akan mengenai

permukaan suatu benda atau obyek 3

dimensi akan dipantulkan ke segala

arah. Pantulan cahaya ini sebagian

(26)

6 ditangkap oleh sensor peka cahaya pada kamera. Intensistas cahaya yang diterima oleh sensor merepresentasikan kondisi obyek tersebut. Sehingga citra digital yang diperoleh merupakan informasi tentang obyek yang terbentuk dari pantulan cahaya atau refleksi pada permukaan obyek.

Citra yang didapat pada proses deteksi gerak bibir dalam penelitian ini di ambil dari media web camera yang dipengaruhi oleh kondisi pencahayaan.

Citra berada pada posisi netral dalam kondisi bibir tertutup, menghadap depan dan berada di tengah tanpa terhalang benda. Di bawah ini merupakan contoh dari citra yang tertangkap oleh web camera.

Gambar 3.2a Citra yang Tertangkap

Web Camera Pada Siang Hari di Dalam

Ruangan

Gambar 3.2b Citra yang Tertangkap

Web Camera Pada Malam Hari di

Dalam Ruangan

3.2 Deteksi Objek Menggunakan EmguCV

Deteksi objek bertujuan untuk mendeteksi wilayah dari wajah dan wilayah bibir pada suatu objek. Dalam penelitian ini deteksi wajah dan bibir

dilakukan oleh EmguCV. EmguCV berperan sebagai library image processing. Pada EmguCV yang telah terinstall sudah tersaji database untuk proses pengenalan wilayah wajah dan wilayah bibir dalam bentuk xml yang berada pada C:\Program Files\emgucv 2.1.0.793\opencv\data\haarcascades.

Ada

beberapa cara untuk mendeteksi fitur wajah dalam hal analisa citra. Sebuah titik awal yang baik pada suatu citra akan menjadi contoh FaceDetection pada folder Emgu.CV.

Metode ini mengunakan fitur deteksi yang disebut Haar Classification.

Lokasi Haar classification yang disertakan dengan Emgu terletak di folder ...\OpenCV\ data\haarcascades, pada direktori installasi yang dipilih, pada penelitian ini lokasi Haar classification untuk wajah dan bibir berada pada C:\Program Files\emgucv 2.1.0.793\opencv\data\haarcascades.

mengimport file – file .dll pada EmguCV langkah selanjutnya adalah menginisialisasi objek. Inisialisasi berfungsi agar suatu method dapat dipanggil saat method tersebut diperlukan. Dalam program ini yang harus diinisialisasikan adalah:

 Inisialisasi

cap untuk penangkapan objek dengan menggunakan web camera.

 Inisialisai haarFace untuk

pendeteksian wilayah wajah yang tertangkap oleh web camera.

 Inisialisai haarMouth untuk

pendeteksian wilayah bibir yang tertangkap oleh web camera.

 Inisialisai

btnPlayBezier_Click untuk memulai web camera untuk dijalankan.

Selanjutnya mengambil objek dari web camera dan memanggil database .xml pada EmguCV yang berada di C:\Program Files\emgucv 2.1.0.793\opencv\data \haarcascades.

cap berfungsi untuk mengambil objek

(27)

7 yang tertangkap oleh web camera, setelah itu akan distimulasikan ke dalam database haarFace dan haarMouth.

Objek yang ditangkap web camera akan dibandingkan oleh database tersebut, setelah terdeteksi maka perolehan image untuk haarFace untuk wilayah wajah akan terdeteksi oleh kotak biru dan perolehan citra untuk haarMouth untuk wilayah bibir akan terdeteksi oleh kotak hijau. Di bawah ini merupakan gambar dari hasil deteksi wilayah wajah dan deteksi wilayah bibir.

Gambar 3.3a Hasil Deteksi Wajah dan Bibir (Kotak biru hasil deteksi wilayah wajah, kotak hijau hasil deteksi wilayah bibir), Pada siang hari di dalam ruangan

Gambar 3.3b Hasil Deteksi Wajah dan

Bibir (Kotak biru hasil deteksi wilayah wajah, kotak hijau hasil deteksi wilayah

bibir), Pada malam hari di dalam ruangan

3.3

Segmentasi Wilayah Bibir Segmentasi merupakan proses mempartisi objek menjadi beberapa daerah. Segmentasi objek merupakan suatu proses pengelompokkan objek menjadi beberapa region berdasarkan

kriteria tertentu. Data objek yang diambil dari web camera pada timerSnake_Tick disimpan pada memori sementara. Objek yang ditangkap dari web camera, image dari nextFrame akan dikonversikan menjadi skala ke abu – abuan (grayscale).

Setelah mendapatkan wilayah wajah dan wilayah bibir, deteksi objek wilayah bibir ditampilkan ke dalam pictureBerzier1 dengan resolusi 100 x 50 piksel.

Proses segmentasi wilayah bibir diberikan batasan, fungsinya agar deteksi bibir tidak diasumsikan pada daerah mata, karena bentuk dan kontur bibir menyerupai bentuk dan kontur mata. Umumnya bibir manusia berada pada setengah dari keseluruhan wajah yang ditangkap dan posisinya berada di bawah mata dan di atas dagu. Pada proses segmentasi ini dibagi menjadi beberapa proses yaitu:

 mouth original, yaitu deteksi

wilayah bibir yang dikonversi menjadi skala keabu – abuan.

 skin color BW (Black White),

yaitu deteksi wilayah bibir yang dikonversi ke dalam citra biner (Black White).

Ukuran dari wilayah bibir yaitu 100 x 50 piksel, diambil dari ukuran bibir manusia pada umumnya. Berikut ini adalah gambar hasil deteksi wilayah bibir.

Gambar 3.4 Citra hasil deteksi (Mouth

Original dan Skin Color Black and

White)

3.4 Deteksi Gerak Bibir

(28)

8 Mouth original atau bagian dari bibir asli dikonversikan ke skala abu – abu (grayscale). Pada dasarnya semua pemprosesan citra digital dilakukan dalam bentuk black and white atau citra biner sehingga citra berwarna harus dikonversikan terlebih dahulu ke bentuk grayscale kemudian dilakukan proses theresholding untuk mendapatkan citra biner.

Pada kotak deteksi wilayah bibir yang berwarna hijau, warna kulit bibir lebih gelap dari warna kulit wajah, untuk warna kulit wajah menjadi piksel putih dan warna kulit bibir menjadi piksel hitam. Beberapa piksel yang sama dengan piksel kulit wajah dikonversikan ke piksel putih, jika dua piksel RGB nilainya kurang dari atau sama dengan 10 piksel maka disebut piksel serupa (skin similar). Untuk mencari jarak antara nilai rata – rata RGB yang lebih rendah dan nilai rata – rata RGB yang lebih tinggi tergantung pada kualitas gambar, jika kualitas gambar tinggi digunakan 7 piksel untuk mencari piksel yang sama dan jika kualitas gambar rendah digunakan 10 piksel.

Selanjutnya merepresentasikan kedua hasil citra binner tersebut pada kurva Bezier. Pada citra biner, wilayah yang berwarna hitam pada bibir, hidung dan beberapa bagian kecil lainnya yang sedikit berbeda dari warna kulit diterapkan big region untuk menemukan daerah piksel hitam yang mengandung warna kulit bibir dalam citra biner. Big region tersebut berada dalam kotak hijau pada wilayah bibir. Warna kulit bibir berbeda dengan warna kulit wajah, dikarenakan warna kulit bibir lebih gelap dari warna kulit wajah.

Kemudian menerapkan citra bibir biner ke dalam kurva Bezier, untuk menerapkan pada kurva tersebut, cari titik awal dan akhir dari citra bibir pada posisi horizontal, lalu menggambar dua garis singgung pada bagian bibir bagian atas dari titik awal dan akhir, serta menemukan dua titik pada garis

singgung yang bukan bagian dari bibir. Untuk bibir bagian bawah, ditemukan dua proses titik yang sama dengan proses bibir bagian atas, selanjutnya gunakan kotak dari wilayah bibir untuk menggambar kurva Bezier dari bibir, yaitu satu untuk bibir bagian atas dan satu untuk bibir bagian bawah.

Berikut adalah hasil pergerakan bibir oleh kurva Bezier.

Gambar 3.5 Hasil Deteksi Pergerakan

Bibir Kurva Bezier

4. PENGUJIAN DAN HASIL

Dari hasil uji coba beberapa objek keseluruhan citra yang terdeteksi pergerakan bibirnya diperoleh kesimpulan sebagai berikut:



Terbentuknya aplikasi pendeteksi gerak bibir.



Pendeteksian wajah

tersegmentasi dengan cukup baik, masih ada bagian dari objek yang terdeteksi sebagai wajah.



Pendeteksian gerak wilayah bibir tersegmentasi dengan cukup baik. Semakin tinggi warna kulit dan tingginya kondisi pencahayaan maka semakin sulit pendeteksian antara wilayah kulit bibir dan kulit wajah. Rata – rata waktu proses yang didapat adalah 3 detik.



Besar kecil resolusi kamera

mempengaruhi cepat lambatnya

pergerakan yang di tangkap web

camera oleh suatu objek. Selain

itu, tingkat pencahayaan

(29)

9 mempengaruhi penangkapan wilayah bibir.



Kelebihan EmguCV yaitu, memiliki beberapa database image processing yang memudahkan programmer.

Berikut adalah tampilan GUI dari hasil pergerakan bibir yang diinterpretasikan oleh kirva Bezier.

Gambar 4.1a GUI Hasil Deteksi Gerak

Bibir

Gambar 4.1b GUI Hasil Deteksi Gerak

Bibir

5. KESIMPULAN DAN SARAN

Kesimpulan yang dapat diambil dalam tugas akhir ini adalah penelitian ini telah berhasil membangun aplikasi deteksi gerak bibir menggunakan kurva Bezier dengan EmguCV.

Penulis menyadari bahwa tugas akhir ini masih belum sempurna, mengingat keterbatasan kemampuan yang dimiliki Penulis. Karena sistem pendeteksian gerak bibir yang telah dibuat ini masih banyak kekurangan.

Penulis mengharapkan saran dan kritik agar program ini dapat berguna bagi semua orang.

DAFTAR PUSTAKA

[1] A. Caplier, “Lip Detection and Tracking”, Proceedings of The IEEE Computer Society Conference on Image Analysis and Processing, 2001.

[2] Chin. Siew. Wen, Seng. Kah.

Phooi, Ang. Li-Minn, and Lim.

King. Hann, “New Lips

(30)

10 Detection and Tracking System”, Proceedings of the International Multiconference of Engineers and Computer Scientists, Maret 2009.

[3] Fadlisyah, Computer Vision &

Pengolahan Citra, Andi, Yogyakarta, 2007.

[4] Lasijo. R.S, “Fitting Kurva dengan Menggunakan Spline Kubik”, Oktober 2001.

[5] Lina, “Aplikasi Pendeteksi gerakan menggunakan C#”, Jakarta, 2010.

[6] M. Harshit, A. Gaurav, and Srivastava. M.C., “Automatic Lip Contour Tracking and Visual Character Recognition for Computerized Lip Reading”, 2009.

[7] Shdaifat. I, Grigat. R, and Langman. D, “A System for Automatic Lip Reading”, International Conference on Audio-Visual Speech Processing, September 2003.

[8] URL : http://www.emgu.com, situs mengenai EmguCV, tanggal 28 Juli 2010.

[9] URL

:

http://www.emgu.com/forum/vi ewtopic.php?f=7&t=97,

situs mengenai EmguCV diunduh pada tanggal 28 juli 2010.

[10] URL :

http://grafcit200906.blog.ittelko m.ac.id/blog/2009/10/01/08- kurva-bezier/ , situs mengenai

kurva Bezier, diunduh pada tanggal 19 Agustus 2010.

[11] URL :

http://www.bedahugm.net/anato mi-bibir/,

situs mengenai anatomi bibir, diunduh pada tanggal 19 Agustus 2010.

[12] URL :

http://face-and- emotion.com/dataface/anatomy/

anatomy.jsp,