Princess Gladys Ingrid: SPEECH RECOGNITION

PENGERTIAN SPEECH RECOGNITION

Pengenalan ucapan atau pengenalan wicara—dalam istilah bahasa Inggrisnya, automatic speech recognition (ASR)—adalah suatu pengembangan teknik dan sistem yang memungkinkan komputer untuk menerima masukan berupa kata yang diucapkan. Teknologi ini memungkinkan suatu perangkat untuk mengenali dan memahami kata-kata yang diucapkan dengan cara digitalisasi kata dan mencocokkan sinyal digital tersebut dengan suatu pola tertentu yang tersimpan dalam suatu perangkat. Kata-kata yang diucapkan diubah bentuknya menjadi sinyal digital dengan cara mengubah gelombang suara menjadi sekumpulan angka yang kemudian disesuaikan dengan kode-kode tertentu untuk mengidentifikasikan kata-kata tersebut. Hasil dari identifikasi kata yang diucapkan dapat ditampilkan dalam bentuk tulisan atau dapat dibaca oleh perangkat teknologi sebagai sebuah komando untuk melakukan suatu pekerjaan, misalnya penekanan tombol pada telepon genggam yang dilakukan secara otomatis dengan komando suara.

Speech Recognition yang juga dikenal sebagai Automatic Speech Recognition atau Computer Speech Recognition, dapat mengkonversikan kata-kata lisan menjadi teks. Istilah “pengenalan suara” terkadang digunakan untuk merujuk kepada sistem pengenalan yang harus dilatih untuk pembicara tertentu, sebagai suatu kasus khusus untuk kebanyakan pengenalan perangkat lunak desktop. Mengenali pembicara dapat menyederhanakan tugas menerjemahkan pembicaraan.

Speech recognition adalah solusi yang lebih luas yang mengacu pada teknologi yang dapat mengenali pembicaraan tanpa ditargetkan pada pembicara tunggal seperti sistem call center yang dapat mengenali suara dengan sendirinya.
Aplikasi speech recognition mencakup voice user interface seperti voice dialing, call routing, pengendali alat domotic, pencarian, memasukkan data sederhana, persiapan dokumen terstruktur, pemrosesan speech-to-text, dan pesawat.

Speech Recognition adalah proses konversi sebuah sinyal akustik, yang ditangkap oleh microphone atau telepon, untuk merangkai kata kata. Kata - kata yang dikenali bisa jadi sebagai hasil akhir, untuk sebuah aplikasi seperti command & control, penginputan data, dan persiapan dokumen. Speech Recognition adalah proses identifikasi suara berdasarkan kata yang diucapkan dengan melakukan konversi sebuah sinyal akustik, yang ditangkap oleh audio device (perangkat input suara).

Alat pengenal ucapan, yang sering disebut dengan speech recognizer, membutuhkan sampel kata sebenarnya yang diucapkan dari pengguna. Sampel kata akan didigitalisasi, disimpan dalam komputer, dan kemudian digunakan sebagai basis data dalam mencocokkan kata yang diucapkan selanjutnya. Sebagian besar alat pengenal ucapan sifatnya masih tergantung kepada pembicara. Alat ini hanya dapat mengenal kata yang diucapkan dari satu atau dua orang saja dan hanya bisa mengenal kata-kata terpisah, yaitu kata-kata yang dalam penyampaiannya terdapat jeda antar kata. Hanya sebagian kecil dari peralatan yang menggunakan teknologi ini yang sifatnya tidak tergantung pada pembicara. Alat ini sudah dapat mengenal kata yang diucapkan oleh banyak orang dan juga dapat mengenal kata-kata kontinu, atau kata-kata yang dalam penyampaiannya tidak terdapat jeda antar kata.

Pengenalan ucapan dalam perkembangan teknologinya merupakan bagian dari pengenalan suara (proses identifikasi seseorang berdasarkan suaranya). Pengenalan suara sendiri terbagi menjadi dua, yaitu pengenalan pembicara (identifikasi suara berdasarkan orang yang berbicara) dan pengenalan ucapan (identifikasi suara berdasarkan kata yang diucapkan).

Speech Recognition juga merupakan sistem yang digunakan untuk mengenali perintah kata dari suara manusia dan kemudian diterjemahkan menjadi suatu data yang dimengerti oleh komputer. Pada saat ini, sistem ini digunakan untuk menggantikan peranan input dari keyboard dan mouse.

Keuntungan dari sistem ini adalah pada kecepatan dan kemudahan dalam penggunaannya. Kata – kata yang ditangkap dan dikenali bisa jadi sebagai hasil akhir, untuk sebuah aplikasi seperti command & control, penginputan data, dan persiapan dokumen. Parameter yang dibandingkan ialah tingkat penekanan suara yang kemudian akan dicocokkan dengan template database yang tersedia. Sedangkan sistem pengenalan suara berdasarkan orang yang berbicara dinamakan speaker recognition. Pada makalah ini hanya akan dibahas mengenai speech recognition karena kompleksitas algoritma yang diimplementasikan lebih sederhana daripada speaker recognition. Algoritma yang akan diimplementasikan pada bahasan mengenai proses speech recognition ini adalah algoritma FFT (Fast Fourier Transform), yaitu algoritma yang cukup efisien dalam pemrosesan sinyal digital (dalam hal ini suara) dalam bentuk diskrit. Algoritma ini mengimplementasikan algoritma Divide and Conquer untuk pemrosesannya. Konsep utama algoritma ini adalah mengubah sinyal suara yang berbasis waktu menjadi berbasis frekuensi dengan membagi masalah menjadi beberapa upa masalah yang lebih kecil. Kemudian, setiap upa masalah diselesaikan dengan cara melakukan pencocokan pola digital suara.

Speech recognition atau pengenalan pembicaraan (juga dikenal sebagai pengenalan suara otomatis atau pengakuan komputer pidato) mengkonversi diucapkan kata-kata untuk teks. The "pengenalan suara" istilah kadang-kadang digunakan untuk merujuk kepada sistem pengakuan yang harus dilatih untuk kasus-speaker tertentu seperti untuk perangkat lunak pengenal yang paling desktop.Menyadari pembicara dapat menyederhanakan tugas menerjemahkan pidato. Pengenalan pembicaraan adalah solusi yang lebih luas yang mengacu pada teknologi yang dapat mengenali pidato tanpa ditargetkan pada pembicara tunggal seperti sistem call center yang dapat mengenali suara sewenang-wenang.

Aplikasi pengenalan pembicaraan termasuk user interface seperti suara panggilan suara (misalnya, "Call home"), call routing (misalnya, "Saya ingin membuat collect call"), kontrol alat domotic, pencarian (misalnya, menemukan podcast di mana tertentu Kata-kata itu diucapkan), sederhana entri data (misalnya, memasukkan nomor kartu kredit), persiapan dokumen terstruktur (misalnya, sebuah laporan radiologi), pengolahan pidato-ke-teks (misalnya, kata prosesor atau email), dan pesawat udara (biasanya disebutInput langsung suara).

Secara umum, speech recognizer memproses sinyal suara yang masuk dan menyimpannya dalam bentuk digital. Hasil proses digitalisasi tersebut kemudian dikonversi dalam bentuk spektrum suara yang akan dianalisa dengan membandingkan dengan template suara pada database sistem. Sebelumnya, data suara masukan dipilah-pilah dan diproses satu per satu berdasarkan urutannya. Pemilahan ini dilakukan agar proses analisis dapat dilakukan secara paralel.

Speech recognition merupakan salah satu jenis biometric recognition,yaitu proses komputer mengenali apa yang diucapkan seseorang berdasarkan intonasi suara yang dikonversi ke dalam bentuk digital print.

Pengenalan pola suara adalah salah satu aplikasi yang berkembang saat ini. Sistem ini mengijinkan kita untuk berkomunikasi antara manusia dengan memasukkan data ke komputer. Salah satu fungsinya adalah untuk meningkatkan efisiensi industri manufaktur, mengontrol mesin dengan berbicara pada mesin itu. Algoritma yang diimplementasikan untuk masalah pengenalan suara ini adalah algoritma divide and conquer. Proses awalnya adalah mengkonversi data spektrum suara ke dalam bentuk digital dan mengibah dalam bentuk diskrit.

SEJARAH SPEECH RECOGNITION

Sejak tahun 1940, perusahaan American Telephone and Telegraph Company (AT&T) sudah mulai mengembangkan suatu perangkat teknologi yang dapat mengidentifikasi kata yang diucapkan manusia. Sekitar tahun 1960-an, para peneliti dari perusahaan tersebut sudah berhasil membuat suatu perangkat yang dapat mengidentifikasi kata-kata terpisah dan pada tahun 1970-an mereka berhasil membuat perangkat yang dapat mengidentifikasi kata-kata kontinu. Alat pengenal ucapan kemudian menjadi sangat fungsional sejak tahun 1980-an dan masih dikembangkan dan terus ditingkatkan keefektifannya hingga sekarang.

Biometrik, termasuk di dalamnya speech recognition, secara umum digunakan untuk identifikasi dan verifikasi. Identifikasi ialah mengenali identitas subyek, dilakukan perbandingan kecocokan antara data biometric subyek dalam database berisi record karakter subyek. Sedangkan verifikasi adalah menentukan apakah subyek sesuai dengan apa yang dikatakan terhadap dirinya.

Biometrik merupakan suatu metoda untuk mengenali manusia berdasarkan pada satu atau lebih ciri-ciri fisik atau tingkah laku yang unik. Biometric Recognition atau biasa disebut dengan Sistem pengenalan biometric mengacu pada identifikasi secara otomatis terhadap manusia berdasarkan psikological atau karakteristik tingkah laku manusia. Ada beberapa jenis teknologi biometric antara lain suara (speech recognition). Speech recognizer yang pertama keluar di tahun 1952. Salah satu perangkat speech recognizer adalah IBM Shoebox, yang dikeluarkan pada 1963 melalui New York World's Fair.

Metode Hidden Markov Model mulai diperkenalkan dan dipelajari pada akhir tahun 1960, metode yang berupa model statistik dari rantai Markov ini semakin banyak dipakai pada tahun-tahun terakhir terutama dalam bidang speech recognition, seperti dijelaskan oleh Lawrence R. Rabiner dalam laporannya yang berjudul “A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition”

Proses dalam dunia nyata secara umum menghasilkan observable output yang dapat dikarakterisasikan sebagai signal. Signal bisa bersifat diskrit (karakter dalam alfabet) maupun kontinu (pengukuran temperatur, alunan musik). Signal bisa bersifat stabil (nilai statistiknya tidak berubah terhadap waktu) maupun nonstabil (nilai signal berubah-ubah terhadap waktu). Dengan melakukan pemodelan terhadap signal secara benar, dapat dilakukan simulasi terhadap sumber dan pelatihan sebanyak mungkin melalui proses simulasi tersebut. Sehingga model dapat diterapkan dalam sistem prediksi, sistem pengenalan, maupun sistem identifikasi. Secara garis besar model signal dapat dikategorikan menjadi 2 golongan yaitu : model deterministik dan model statistikal. Model deterministik menggunakan nilai-nilai properti dari sebuah signal seperti :amplitudo, frekuensi, fase dari gelombang sinus. Sedangkan model statistikal menggunakan nilai-nilai statistik dari sebuah signal seperti: proses Gaussian, proses Poisson, proses Markov, dan proses Hidden Markov.

SKEMA UTAMA DAN ALGORITMA SPEECH RECOGNITION

Terdapat 4 langkah utama dalam sistem pengenalan suara:

Penerimaan data input
Ekstraksi, yaitu penyimpanan data masukan sekaligus pembuatan database untuk template.
Pembandingan / pencocokan, yaitu tahap pencocokan data baru dengan data suara (pencocokan tata bahasa) pada template.
Validasi identitas pengguna.

Secara umum, speech recognizer memproses sinyal suara yang masuk dan menyimpannya dalam bentuk digital. Hasit proses digitalisasi tersebut kemudian dikonversi dalam bentuk spektrum suara yang akan dianalisa dengan membandingkannya dengan template suara pada database sistem.

Sebelumnya, data suara masukan dipilah-pilah dan diproses satu per satu berdasarkan urutannya. Pemilahan ini dilakukan agar proses analisis dapat dilakukan secara paralel. Proses yang pertama kali dilakukan ialah memproses gelombang kontinu spektrum suara ke dalam bentuk diskrit. Langkah berikutnya ialah proses kalkulasi yang dibagi menjadi dua bagian :

Transformasi gelombang diskrit menjadi array data.
Untuk masing-masing elemen pada aiTay data, hitung "ketinggian" gelombang (frekuensi). Objek permasaiahan yang akan dibagi adalah masukan berukuran n, berupa data diskrit gelombang suara.

Ketika mengkonversi gelombang suara ke dalam bentuk diskrit, gelombang diperlebar dengan cara memperinci berdasarkan waktu. Hal ini dilakukan agar proses algontma seianjutnya (pencocokan) lebih mudah diiakukan. Namun, efek buruknya ialah array of array data yang terbentuk akan lebih banyak.

Dari tiap elemen array data tersebut, dikonversi ke dalam bentuk bilangan biner. Data biner tersebut yang nantinya akan dibandingkan dengan template data suara.
Proses divide and conquer:

Pilih sebuah angkaN, dimana N merupakan bilangan bulat kelipatan 2.Bilangan ini berfungsi untuk menghitung jumlah elemen transformasi FFT.
Bagi dua data diskrit secara (dengan menerapkan algoritma divide and conquer) menjadi data diskrit yang lebih kecii berukuran N = N,.N2.
Objek data dimasukkan ke dalam table (sebagai elemen tabel).
Untuk setiap eiemen data, dicocokkan dengan data pada template (pada data template juga dilakukan pemrosesan digitaiisasi menjadi data diskrit, dengan cara yang sama dengan proses digitaiisasi data masukan bam yang ingin dicocokkan).
Setiap masalah disatukan kembali dan dianalisis secara keseluruhan, kecocokan dari segi tata bahasa dan apakah data yang diucapkan sesuai dengan kata yang tersedia pada template data.
Verifikasi data. Jika sesuai, proses iebih lanjut, sesuai dengan aplikasi yang mengimplementasikan algoritma ini.

JENIS-JENIS SPEECH RECOGNITION

Berdasarkan kemampuan dalam mengenal kata yang diucapkan, terdapat 5 jenis pengenalan kata, yaitu :

Kata-kata yang terisolasi : Proses pengidentifikasian kata yang hanya dapat mengenal kata yang diucapkan jika kata tersebut memiliki jeda waktu pengucapan antar kata
Kata-kata yang berhubungan : Proses pengidentifikasian kata yang mirip dengan kata-kata terisolasi, namun membutuhkan jeda waktu pengucapan antar kata yang lebih singkat
Kata-kata yang berkelanjutan : Proses pengidentifikasian kata yang sudah lebih maju karena dapat mengenal kata-kata yang diucapkan secara berkesinambungan dengan jeda waktu yang sangat sedikit atau tanpa jeda waktu. Proses pengenalan suara ini sangat rumit karena membutuhkan metode khusus untuk membedakan kata-kata yang diucapkan tanpa jeda waktu. Pengguna perangkat ini dapat mengucapkan kata-kata secara natural
Kata-kata spontan : Proses pengidentifikasian kata yang dapat mengenal kata-kata yang diucapkan secara spontan tanpa jeda waktu antar kata
Verifikasi atau identifikasi suara : Proses pengidentifikasian kata yang tidak hanya mampu mengenal kata, namun juga mengidentifikasi siapa yang berbicara.

PROSES KERJA ALAT SPEECH RECOGNITION

Alat pengenal ucapan memiliki empat tahapan dalam prosesnya, yaitu :

Tahap penerimaan masukan : Masukan berupa kata-kata yang diucapkan lewat pengeras suara.
Tahap ekstraksi : Tahap ini adalah tahap penyimpanaan masukan yang berupa suara sekaligus pembuatan basis data sebagai pola. Proses ekstraksi dilakukan berdasarkan metode Model Markov Tersembunyi atau Hidden Markov Model (HMM), yang merupakan model statistik dari sebuah sistem yang diasumsikan oleh Markov sebagai suatu proses dengan parameter yang tidak diketahui. Tantangan dalam model statistik ini adalah menentukan parameter-parameter tersembunyi dari parameter yang dapat diamati. Parameter-parameter yang telah kita tentukan kemudian digunakan untuk analisis yang lebih jauh pada proses pengenalan kata yang diucapkan. Berdasarkan HMM, proses pengenalan ucapan secara umum menghasilkan keluaran yang dapat dikarakterisasikan sebagai sinyal. Sinyal dapat bersifat diskrit (karakter dalam abjad) maupun kontinu (pengukuran temperatur, alunan musik). Sinyal dapat pula bersifat stabil (nilai statistiknya tidak berubah terhadap waktu) maupun nonstabil (nilai sinyal berubah-ubah terhadap waktu). Dengan melakukan pemodelan terhadap sinyal secara benar, dapat dilakukan simulasi terhadap masukan dan pelatihan sebanyak mungkin melalui proses simulasi tersebut sehingga model dapat diterapkan dalam sistem prediksi, sistem pengenalan, maupun sistem identifikasi. Secara garis besar model sinyal dapat dikategorikan menjadi dua golongan, yaitu: model deterministik dan model statistikal. Model deterministik menggunakan nilai-nilai properti dari sebuah sinyal seperti: amplitudo, frekuensi, dan fase dari gelombang sinus. Model statistikal menggunakan nilai-nilai statistik dari sebuah sinyal seperti: proses Gaussian, proses Poisson, proses Markov, dan proses Markov Tersembunyi. Suatu model HMM secara umum memiliki unsur-unsur sebagai berikut:

N, yaitu jumlah bagian dalam model. Secara umum bagian tersebut saling terhubung satu dengan yang lain, dan suatu bagian bisa mencapai semua bagian yang lain, serta sebaliknya (disebut dengan model ergodik). Namun hal tersebut tidak mutlak karena terdapat kondisi lain dimana suatu bagian hanya bisa berputar ke diri sendiri dan berpindah ke satu bagian berikutnya. Hal ini bergantung pada implementasi dari model.
M, yaitu jumlah simbol observasi secara unik pada tiap bagiannya, misalnya: karakter dalam abjad, dimana bagian diartikan sebagai huruf dalam kata.
Probabilita Perpindahan Bagian { } = ij A a
Probabilita Simbol Observasi pada bagian j, { } () = j Bb k
Inisial Distribusi Bagian i p p . Dengan memberikan nilai pada N, M, A, B, dan p , HMM dapat digunakan sebagai generator untuk menghasilkan urutan observasi. dimana tiap observasi t o adalah salah satu simbol dari V, dan T adalah jumlah observasi dalam suatu sequence.
Setelah memberikan nilai N, M, A, B, dan p , maka proses ekstraksi dapat diurutkan. Berikut adalah tahapan ekstraksi pengenalan ucapan berdasarkan HMM :

Tahap ekstraksi tampilan : Penyaringan sinyal suara dan pengubahan sinyal suara analog ke digital
Tahap tugas pemodelan : Pembuatan suatu model HMM dari data-data yang berupa sampel ucapan sebuah kata yang sudah berupa data digital
Tahap sistem pengenalan HMM : Penemuan parameter-parameter yang dapat merepresentasikan sinyal suara untuk analisis lebih lanjut.

Tahap pembandingan : Tahap ini merupakan tahap pencocokan data baru dengan data suara (pencocokan tata bahasa) pada pola. Tahap ini dimulai dengan proses konversi sinyal suara digital hasil dari proses ekstraksi ke dalam bentuk spektrum suara yang akan dianalisa dengan membandingkannya dengan pola suara pada basis data. Sebelumnya, data suara masukan dipilah-pilah dan diproses satu per satu berdasarkan urutannya. Pemilihan ini dilakukan agar proses analisis dapat dilakukan secara paralel. Proses yang pertama kali dilakukan ialah memproses gelombang kontinu spektrum suara ke dalam bentuk diskrit. Langkah berikutnya ialah proses kalkulasi yang dibagi menjadi dua bagian :

Transformasi gelombang diskrit menjadi data yang terurut : Gelombang diskrit berbentuk masukan berukuran n yang menjadi objek yang akan dibagi pada proses konversi dengan cara pembagian rincian waktu
Menghitung frekuensi pada tiap elemen data yang terurut
Selanjutnya tiap elemen dari data yang terurut tersebut dikonversi ke dalam bentuk bilangan biner. Data biner tersebut nantinya akan dibandingkan dengan pola data suara dan kemudian diterjemahkan sebagai keluaran yang dapat berbentuk tulisan ataupun perintah pada perangkat.

Tahap validasi identitas pengguna: Alat pengenal ucapan yang sudah memiliki sistem verifikasi/identifikasi suara akan melakukan identifikasi orang yang berbicara berdasarkan kata yang diucapkan setelah menerjemahkan suara tersebut menjadi tulisan atau komando.

IMPLEMENTASI SPEECH RECOGNITION

Hardware yang dibutuhkan dalam implementasi Speech Recognition :

Sound card : Merupakan perangkat yang ditambahkan dalam suatu Komputer yang fungsinya sebagai perangkat input dan output suara untuk mengubah sinyal elektrik, menjadi analog maupun menjadi digital.
Microphone : Perangkat input suara yang berfungsi untuk mengubah suara yang melewati udara, air dari benda orang menjadi sinyal elektrik.
Komputer atau Komputer Server : Dalam proses suara digital menterjemahkan gelombang suara menjadi suatu simbol biasanya menjadi suatu nomor biner yang dapat diproses lagi kemudian diidentifikasikan dan dicocokan dengan database yang berisi berkas suara agar dapat dikenali.

APLIKASI ALAT SPEECH RECOGNITION

Bidang Komunikasi

Komando Suara: Komando Suara adalah suatu program pada komputer yang melakukan perintah berdasarkan komando suara dari pengguna. Contohnya pada aplikasi Microsoft Voice yang berbasis bahasa Inggris. Ketika pengguna mengatakan “Mulai kalkulator” dengan intonasi dan tata bahasa yang sesuai, komputer akan segera membuka aplikasi kalkulator. Jika komando suara yang diberikan sesuai dengan daftar perintah yang tersedia, aplikasi akan memastikan komando suara dengan menampilkan tulisan “Apakah Anda meminta saya untuk ‘mulai kalkulator’?”. Untuk melakukan verifikasi, pengguna cukup mengatakan “Lakukan” dan komputer akan langsung beroperasi.

Pendiktean : Pendiktean adalah sebuah proses mendikte yang sekarang ini banyak dimanfaatkan dalam pembuatan laporan atau penelitian. Contohnya pada aplikasi Microsoft Dictation yang merupakan aplikasi yang dapat menuliskan apa yang diucapkan oleh pengguna secara otomatis.
Telepon : Pada telepon, teknologi pengenal ucapan digunakan pada proses penekanan tombol otomatis yang dapat menelpon nomor tujuan dengan komando suara.

Bidang Kesehatan

Alat pengenal ucapan banyak digunakan dalam bidang kesehatan untuk membantu para penyandang cacat dalam beraktivitas. Contohnya pada aplikasi Antarmuka Suara Pengguna atau Voice User Interface (VUI) yang menggunakan teknologi pengenal ucapan dimana pengendalian saklar lampu misalnya, tidak perlu dilakukan secara manual dengan menggerakkan saklar tetapi cukup dengan mengeluarkan perintah dalam bentuk ucapan sebagai saklarnya. Metode ini membantu manusia yang secara fisik tidak dapat menggerakkan saklar karena cacat pada tangan misalnya. Penerapan VUI ini tidak hanya untuk lampu saja tapi bisa juga untuk aplikasi-aplikasi kontrol yang lain.
Peralatan elektronik yang menyimpan riwayat kesehatan atau Electronic Medical Records(EMR) dapat digunakan secara lebih efektif bila menggunakan teknologi speech recognition. Proses pencarian, pertanyaan dan pencarian akan lebih mudah bila menggunakan suara daripada menggunakan keyboard.

Bidang Militer

Pelatihan Penerbangan : Aplikasi alat pengenal ucapan dalam bidang militer adalah pada pengatur lalu lintas udara atau yang dikenal dengan Air Traffic Controllers (ATC) yang dipakai oleh para pilot untuk mendapatkan keterangan mengenai keadaan lalu-lintas udara seperti radar, cuaca, dan navigasi. Alat pengenal ucapan digunakan sebagai pengganti operator yang memberikan informasi kepada pilot dengan cara berdialog.
Helikopter : Aplikasi alat pengenal ucapan pada helikopter digunakan untuk berkomunikasi lewat radio dan menyesuaikan sistem navigasi. Alat ini sangat diperlukan pada helikopter karena ketika terbang, sangat banyak gangguan yang akan menyulitkan pilot bila harus berkomunikasi dan menyesuaikan navigasi dengan terlebih dahulu memencet tombol tertentu.
Lain-Lain : Teknologi ini digunakan pada pengoperasian berbagai peralatan pesawat tempur seperti penentuan frekuensi radio, pengaktifan sistem autopilot, penentuan koordinat tuas kendali, parameter peluncuran senjata, pengaktifan sistem navigasi, dan pengaturan tampilan status penerbangan.

Entertainment

Pada beberapa games komputer,voice recognition digunakan untuk menyelesaikan misi-misi tertentu seperti pada game Tom Clancy’s End war dan LIfeline. Selain itu teknologi ini juga dapat digunakan untuk membantu proses pengetikan pada orang yang memiliki cacat pada bagian tangan.
Beberapa software yang menggunakan sistem teknologi speech recognition antara lain Microsoft Voice Command, Nuance Voice Control, VITO Voice2Go, Speereo Voice translator dan SVOX.

Contoh Implementasi teknologi Speech Recognition :

Saat ini pada tahun 2010 Microsoft windows vista dan windows 7 , speech recognition telah disertakan dalam system operasinya . sebagaimana fungsi dari speech recognition menterjemahkan pengucapan kata – kata kedalam bentuk teks digital. Salah satu implementasi speech recognition adalah pada konfrensi PBB dimana seluruh Negara tergabung dalam keanggotaan nya , fungsi speech recognition dalam hal ini menterjemahkan bahasa pembicara dari suatu Negara kedalam bahasa yang dipahami pendengar . Contoh penggunaan lain speech recognition adalah Perawatan kesehatan.

Dalam perawatan kesehatan domain, bahkan di bangun meningkatkan teknologi pengenalan suara, transcriptionists medis (MTs) belum menjadi usang. Layanan yang diberikan dapat didistribusikan daripada diganti. Pengenalan pembicaraan dapat diimplementasikan di front-end atau back-end dari proses dokumentasi medis. Front-End SR adalah salah satu alat untuk mengidentifikasi kata-kata yang ucapkan dan ditampilkan tepat setelah mereka berbicara Back-End SR atau SR tangguhan adalah di mana penyedia menentukan menjadi sebuah sistem dikte digital, dan suara yang diarahkan melalui pidato-mesin pengakuan dan draft dokumen diakui dirutekan bersama dengan file suara yang asli ke MT / editor, yang mengedit draft dan memfinalisasi laporan. Ditangguhkan SR sedang banyak digunakan dalam industri saat ini.

Banyak aplikasi Electronic Medical Records (EMR) dapat menjadi lebih efektif dan dapat dilakukan lebih mudah bila digunakan dalam hubungannya dengan pengenalan-mesin bicara. Pencarian, query, dan pengisian formulir semua bisa lebih cepat untuk melakukan dengan suara dibandingkan dengan menggunakan keyboard.

Kelebihan

Kelebihan dari peralatan yang menggunakan teknologi ini adalah :

Cepat

Teknologi ini mempercepat transmisi informasi dan umpan balik dari transmisi tersebut. Contohnya pada komando suara. Hanya dalam selang waktu sekitar satu atau dua detik setelah kita mengkomandokan perintah melalui suara, komputer sudah memberi umpan balik atas komando kita.

Mudah digunakan

Kemudahan teknologi ini juga dapat dilihat dalam aplikasi komando suara. Komando yang biasanya kita masukkan ke dalam komputer dengan menggunakan tetikus atau papan ketik kini dapat dengan mudahnya kita lakukan tanpa perangkat keras, yakni dengan komando suara.

Kekurangan

Kekurangan dari peralatan yang menggunakan teknologi ini adalah :

Rawan terhadap gangguan

Hal ini disebabkan oleh proses sinyal suara yang masih berbasis frekuensi. Ketika sebuah informasi dalam sinyal suara mempunyai komponen frekuensi yang sama banyaknya dengan komponen frekuensi gangguannya, akan sulit untuk memisahkan gangguan dari sinyal suara

Jumlah kata yang dapat dikenal terbatas

Hal ini disebabkan pengenal ucapan bekerja dengan cara mencari kemiripan dengan basis data yang dimiliki.

Kesimpulan:

Suatu pengembangan sistem yang memungkinkan komputer untuk menerima masukan berupa kata yang diucapkan. Alat pengenal ucapan atau yang sering disebut dengan Speech Recognizer, membutuhkan sampel kata sebenarnya yang diucapkan dari pengguna. Penggunaan speech recognicition telah berkembang di berbagai sistem device seperti pada OS Windows dengan Speech Recognition, smartphone Android, dan yang paling terkenal adalah aplikasi Siri pada iPhone.

Sumber:

http://nda-kamal.blogspot.com/2011/11/speech-recognition.html

http://iindraconcept.blogspot.com/2012/11/speech-recognition-pengertian-speech_23.html

http://id.wikipedia.org/wiki/Pengenalan_ucapan

http://11109313.blogspot.com/2012/10/speech-recognition.html

Princess Gladys Ingrid

SPEECH RECOGNITION

1 comment:

UNIVERSITAS GUNADARMA

BLOG ARCHIVE

CLOCK

MY PROFILE

CALENDAR