Você está na página 1de 31

SPEECH CODING

Oleh : Fahmi Nurhuda

Speech Coding mengacu pada teknik yang digunakan untuk mengkodekan isyarat tutur analog menjadi kode-kode biner. Tujuan dari semua sistem pengkodean tutur adalah untuk mengirimkan tutur dengan kualitas tertinggi yang mungkin, dengan menggunakan kapasitas kanal paling sedikit yang mungkin. Ini harus diselesaikan ketika tentu saja memerlukan tingkat kompleksitas implementasi dan tunda komunikasi. Secara umum, terdapat hubungan yang setara diantara efisiensi pesat-bit pengkode dan kekompleksan algoritma yang diperlukan untuk mencapainya, dimana semakin kompleks sebuah algoritma, semakin besar tunda pemrosesannya dan biaya implementasinya. Tanpa low data rate speech coding, skema modulasi digital menawarkan sedikit efisiensi melalui efisiensi spektral untuk trafik suara. Untuk membuat praktis pengkodean tutur, implementasi harus memakan sedikit daya dan menyediakan toleransi jika kualitas tutur tidak baik sekali. Kemampuan dari suatu pengkode tutur menentukan kualitas dari tutur yang dipulihkan kembali dan juga menentukan kapasitas dari sistem. Dalam sistem komunikasi bergerak, bandwidth adalah komoditas yang berharga dan serice providers seringkali dipertemukan dengan tantangan untuk menampung lebih banyak pengguna dalam alokasi bandwidth terbatas. Low bit-rate speech coding menawarkan sebuah cara untuk menjumpai tantangan ini. Semakin rendah pesat bit, semakin banyak kanal tutur yang dapat

dikompres dalam bandwidth yang diberikan. Untuk alasan ini, manufaktur dan service providers secara terus-menerus dalam penelitian terhadap pengkode tutur yang akan memberikan pesat bit yang semakin rendah. Pengkode tutur berbeda secara luas dalam pendekatannya untuk mencapai pengkompresan isyarat. Didasarkan pada cara yang mana mereka mencapai pengkompresan, pengkode tutur secara luas dikategorikan ke dalam dua kelompok: Waveform Coders dan Source Coders. Pengkode bentuk gelombang pada dasarnya berusaha menciptakan bentuk-gelombang waktu dari isyarat tutur semirip mungkin. Pengkode bentuk gelombang tersebut, secara prinsip, dirancang untuk menjadi sumber yang independent dan karenanya dapat mengkodekan secara sama dengan baik, variasi dari isyarat. Pengkode tersebut mempunyai kemanfaatan untuk menjadi handal untuk karakteristik tutur dengan jangkauan yang luas dan untuk lingkungan yang berderau. Semua kemanfaatan ini dipelihara dalam kompleksitas yang minimal dan secara umum pengkode kelas ini mencapai tingkat keekonomian menengah dalam pengiriman pesat bit. Contoh dari pengkode bentuk gelombang meliputi pulse code modulation (PCM), differential pulse code modulation (DPCM), adaptive differential pulse code modulation (ADPCM), delta modulation (DM), continuously variable slope delta modulation (CVSDM), dan adaptive predictive coding (APC). Source Coders di lain pihak mencapai tingkat keekonomian sangat tinggi dalam pengiriman pesat bit dan secara umum lebih kompleks. Source Coders didasarkan pada penggunaan pengetahuan pengutamaan tentang isyarat yang akan dikodekan dan untuk alasan ini, Source Coders, secara umum, signal spesific.

Makalah Speech Coding (Penyandian Tutur) Sistem Komunikasi Bergerak 2007/2008

SPEECH CODING

2.1

Pentingnya Speech Coding Speech Coding sangat diperlukan dalam teknologi telekomunikasi dewasa

ini. Hal tersebut mengingat kondisi sistim telekomunikasi saat ini yang merupakan sistim digital. Oleh karenanya, untuk menyesuaikan dengan karakteristik kanal yang bersifat digital, isyarat analog dari tutur harus terlebih dahulu diubah ke dalam bentuk digital. Selain itu, dalam komunikasi seluler saat ini, dimana bandwidth merupakan komoditas yang paling mahal, maka semakin efisien perepresentasian suatu tutur dalam kode-kode biner, semakin banyak tutur yang dapat dilewatkan dalam kanal dengan bandwidth tertentu yang terbatas, yang menyatakan bahwa semakin banyak layanan yang dapat diberikan oleh service providers dalam bandwidth tersebut.

2.2

Jenis-Jenis Speech Coding Hierarki dari pengkode tutur digambarkan dalam gambar 2.1. Prinsip yang

digunakan untuk merancang dan mengimplementasikan teknik pengkodean tutur dalam gambar 2.1 diceritakan diseluruh bab dua ini.

Makalah Speech Coding (Penyandian Tutur) Sistem Komunikasi Bergerak 2007/2008

Gambar 2.1 Hierarki speech coding

Perbandingan unjuk kerja dari jenis-jenis speech coding secara umum diperlihatkan dalam gambar 2.2, dimana kualitas tutur yang dihasilkan sering diukur melalui mean opinion score (MOS), yaitu: 5 = excellent; 4 = good; 3 = fair; 2 = poor; 1 = bad.

Gambar 2.2 Perbandingan unjuk kerja dari jenis-jenis speech coding secara umum

Makalah Speech Coding (Penyandian Tutur) Sistem Komunikasi Bergerak 2007/2008

2.3

Karakteristik Isyarat Tutur Bentuk gelombang tutur mempunyai sejumlah sifat yang dapat dieksploitasi

ketika merancang pengkode yang efisien. Beberapa sifat yang paling sering digunakan dalam perancangan pengkode meliputi the nonuniform probability distribution of speech amplitude, the nonzero autocorrelation between successive speech samples, the nonflat nature of the speech spectra, the existence of voiced and unvoiced segment in speech, and quasiperiodicity of voiced speech signals (distribusi peluang yang tidak uniform dari amplitude tutur, korelasi diri yang tidak nol diantara hasil pencuplikan tutur yang berurutan, sifat tidak-rata pada rapat spectral daya dari tutur, keberadaan dari bagian suara dan tidak ada suara dalam tutur, dan periodisitas-semu dari isyarat tutur bagian suara). Sifat-sifat tersebut antara lain mengijinkan kuantisasi untuk dilakukan dengan efisiensi yang semakin besar. Sifat dasar isyarat tutur yang paling banyak dieksploitasi oleh seluruh pengkode tutur adalah bahwa isyarat tutur itu bandlimited. Sifat tersebut menyebabkan isyarat tutur dapat dicuplik, dengan besar frekuensi pencuplikan sama dengan atau lebih besar dari dua kali komponen frekuensi tertingginya dalam isyarat low pass nya. Fungsi rapat peluang (pdf) yang tidak samarata dari amplitude tutur adalah dimana pdf dari isyarat tutur secara umum disifatkan oleh probabilitas yang sangat tinggi dari amplitude yang mendekati nol, probabilitas yang penting dari amplitude yang sangat tinggi, dan fungsi yang menurun secara begitu-begitu saja dari amplitude diantara nilai frekuensi ekstremnya. Pengkuantisasi non-uniform,

Makalah Speech Coding (Penyandian Tutur) Sistem Komunikasi Bergerak 2007/2008

termasuk pengkuantisasi vector, mencoba untuk mencocokkan distribusi dari level kuantisasi terhadap pdf dari isyarat tutur masukan, dengan mengalokasikan level kuantisasi yang lebih banyak di daerah dari probabilitas tinggi dan level yang lebih sedikit di daerah dimana peluangnya rendah. Autocorrelation Function (ACF) dari isyarat tutur adalah dimana disana terdapat korelasi yang besar diantara hasil pencuplikan yang berdekatan dari segmen tutur. Ini berarti bahwa dalam setiap hasil pencuplikan isyarat tutur, sejumlah besar bagian-bagiannya dapat diperkirakan dari nilai-nilai hasil pencuplikan sebelumnya, dengan kesalahan acak yang kecil. Korelasi diri (ACF) memberikan ukuran kuantitatif dari kedekatan atau seberapa sama diantara samples dari isyarat tutur sebagai fungsi dari waktu pemisahnya. Fungsi Rapat Spektral Daya (PSD) dari isyarat tutur adalah nonflat dimana typical long-term averaged PSD (PSD rerata dalam jangka waktu yang lama yang khas) dari isyarat tutur menunjukkan bahwa komponen frekuensi tinggi menyumbang sangat kecil kepada energi tutur total. Ini memungkinkan untuk memperoleh significant compression (tingkat pengkompresan yang berarti) bagi pengkodean tutur dalam kawasan frekuensi. Kealamiahan yang nonflat dari PSD tersebut pada dasarnya merupakan perwujudan dalam kawasan frekuensi dari sifat tidak-nol dari korelasi diri.

Makalah Speech Coding (Penyandian Tutur) Sistem Komunikasi Bergerak 2007/2008

2.4 2.4.1

Teknik Kuantisasi Uniform Quantization Kuantisasi adalah proses pemetaan susunan kontinyu dari amplitude isyarat

ke kumpulan yang terbatas dari amplitude diskret. Tidak sama dengan pencuplikan, kuantisasi menghasilkan distorsi. Distorsi yang dihasilkan oleh setiap operasi kuantisasi berbanding lurus secara langsung pada nilai pangkat dua dari ukuran langkah kuantisasinya, yang juga berarti berbanding terbalik terhadap jumlah dari tingkatan kuantisasi untuk sebuah jangkauan amplitude. Performa dari

pengkuantisasi diukur melalui signal-to-quantization noise ratio (SQNR).

2.4.2

Nonuniform Quantization Performa dari pengkuantisasi dapat ditingkatkan dengan mendistribusikan

level kuantisasi dalam cara yang lebih efisien. Pengkuantisasi non-uniform mendistribusikan level kuantisasinya sesuai dengan pdf dari bentuk-gelombang masukan. Sesuai persamaan mean square distortion, total distorsi dapat dikurangi dengan mengurangi derau kuantisasi, ketika p(x), pdf dari isyarat masukan, adalah besar. Ini berarti bahwa level kuantisasi perlu untuk difokuskan dalam daerah amplitude yang memiliki probabilitas tinggi. Implementasi sederhana dan handal dari pengkuantisasi non-uniform yang digunakan dalam telepon komersial adalah pengkuantisasi logaritmis. Pengkuantisasi ini menggunakan langkah kuantisasi yang sangat baik untuk amplitude rendah yang sering terjadi dalam tutur dan langkah yang sangat kasar (lebar jarak antar langkahnya) untuk yang jarang terjadi, yaitu untuk penyimpangan amplitude yang besar. Teknik companding (compressing

Makalah Speech Coding (Penyandian Tutur) Sistem Komunikasi Bergerak 2007/2008

and expanding) yang berbeda dikenal sebagai -law dan A-law digunakan secara berturut-turut di U.S dan Eropa. Pengkuantisasian secara non-uniform diperoleh dengan pertama melewatkan isyarat tutur analog melalui penguat kompresi (logaritmis) dan kemudian melewatkan isyarat yang terkompresi tersebut kedalam pengkuantisasi uniform standar. Pada teknik companding, isyarat tutur yang lemah dikuatkan sedangkan isyarat tutur yang kuat dikompresi.

2.4.3

Adaptive Quantization Terdapat perbedaan diantara pdf jangka waktu lama dan jangka waktu

singkat dari bentuk-gelombang tutur. Sifat berubah terhadap waktu dari isyarat suara menghasilkan dynamic range sebesar 40dB atau lebih. Cara yang efisien untuk menampung dynamic range yang besar tersebut adalah dengan mengadopsi teknik pengkuantisasian yang berubah terhadap waktu. Pengkuantisasi adatif merubah ukuran langkahnya sesuai dengan daya isyarat tutur masukan. Karakteristik pengkuantisasi adaptif ini menyusut dan mengembang dalam waktu seperti akordeon (harmonika tangan). Sebuah strategi adaptasi sederhana, yaitu: membuat ukuran langkah dari pengkuantisasi pada tiap instant pencuplikan yang diberikan, sebanding dengan keluaran pengkuantisasi pada instant pencuplikan yang terdahulu. Oleh karena penyesuaian mengikuti keluaran pengkuantisasi daripada masukan, informasi ukuran langkah tidak perlu secara eksplisit dikirimkan tetapi dapat ditimbulkan ulang pada penerima. 2.4.4 Vector Quantization

Makalah Speech Coding (Penyandian Tutur) Sistem Komunikasi Bergerak 2007/2008

Shannons Rate-Distortion Theorem menetapkan bahwa terdapat pemetaan dari bentuk-gelombang sumber ke kata sandi keluaran yaitu untuk distorsi yang diberikan D, R(D) bit per sampel mencukupi untuk merekonstruksi bentukgelombang dengan distorsi rerata berubah-ubah dekat dengan D. Oleh karena itu, pesat yang nyata R harus lebih besar dari R(D). Fungsi R(D), disebut fungsi pesatdistorsi, mewakili batasan fundamental/pokok pada suatu pesat yang dapat dijangkau untuk sebuah nilai distorsi yang diberikan (atau berarti nilai minimal pesat untuk sebuah nilai distorsi yang diberikan). Pengkuantisasi skalar tidak mencapai performa mendekati batasan teoritis informasi ini. Shannon memperkirakan bahwa performa yang lebih baik dapat dicapai dengan mengkodekan banyak samples pada sebuah waktu daripada satu sample pada sebuah waktu. Vector Quantization (VQ) adalah teknik keputusan pengkodean-tertunda yang memetakan sekelompok samples masukan (secara khas disebut speech frame), yang disebut vektor (vector), ke daftar suatu buku kode (code book). Buku kode diatur terdiri dari sekumpulan terbatas dari vectors yang mencakup seluruh range yang diantisipasi dari nilai-nilai amplitude isyarat tutur. Dalam tiap interval pengkuantisasian (intervalnya berarti setara dengan interval beberapa kali pencuplikan), nilai dalam buku kode dicari dan index dari entry yang memberikan kecocokan terbaik ke frame isyarat masukan dipilih. Pengkuantisasi vektor dapat menghasilkan performa yang lebih baik bahkan ketika samples adalah independent satu dengan lainnya. Performa meningkat secara hebat jika terdapat korelasi yang kuat diantara samples dalam kelompok samples masukan tersebut. Jumlah dari samples dalam sebuah blok (vektor), disebut dimensi L dari pengkuantisasi vektor. Pesat R dari pengkuantisasi vektor didefinisikan sebagai: R = log2n / L bits/sample (2.1) n adalah ukuran buku kode VQ. R bisa berupa nilai pecahan pula. Semua prinsip pengkuantisasian yang digunakan dalam pengkuantisasian scalar diaplikasikan ke pengkuantisasian vektor sebagai sebuah perluasan secara langsung. Sebagai ganti level kuantisasi, kita memiliki vektor kuantisasi, dan

Makalah Speech Coding (Penyandian Tutur) Sistem Komunikasi Bergerak 2007/2008

10

distorsi diukur sebagai akar dari jarak Euclidean diantara vektor kuantisasi dan vektor masukan (istilah untuk sekelompok samples masukan). 2.5 2.5.1 Jenis-Jenis Waveform Coders Time Domain PCM termasuk pengkode tutur waveform coder dalam kawasan waktu dan bersifat non-diferensial. Secara umum, pengkode tutur mempunyai langkah-langkah seperti pada PCM, yaitu: 1. Penapisan Penapisan ini dimaksudkan untuk membuat isyarat tutur yang akan dikodekan bersifat bandlimited. Selain itu melalui penapisan ini, gangguan yang dialami isyarat tutur diminimalkan, dimana gangguan yang dilewatkan hanyalah gangguan yang berada dalam kawasan frekuensi tutur yang dilewatkan oleh penapisan ini. Penapisan dilakukan dengan melewatkan isyarat tutur ke filter bandpass dengan frekuensi rendah dan tinggi dari filter sesuai karakteristik frekuensi isyarat tutur yang akan dilewatkan. 2. Pencuplikan Pencuplikan ini merupakan operasi yang mengambil nilai isyarat tutur hanya pada waktu-waktu tertentu, yaitu secara periodis di tiap suatu interval waktu tertentu. Melalui operasi ini, isyarat tutur menjadi diskret dalam kawasan waktu. Besar frekuensi pencuplikan ini harus memenuhi syarat Nyquist, dimana frekuensi pencuplikan harus sama dengan atau lebih besar dari dua kali frekuensi isyarat yang dicuplik. 3. Kuantisasi Kuantisasi menyebabkan isyarat tutur diskret pada nilai amplitudenya. Nilai amplitude isyarat tutur diwakili dengan nilai aras tertentu yang jumlahnya disebut jumlah aras pengkuantisasi dan ukuran langkah antar nilai aras tersebut disebut langkah kuantisasi. Kuantisasi menyebabkan derau kuantisasi 4. Penjamakan/Pemultipleksan

2.5.1.1 Pulse Code Modulation (PCM)

Makalah Speech Coding (Penyandian Tutur) Sistem Komunikasi Bergerak 2007/2008

11

Pemultipleksan dapat dilakukan setelah kuantisasi ataupun sebelum kuantisasi, sama. 5. Penyandian Penyadian merupakan pewakilan nilai hasil kuantisasi ke dalam nilai-nilai bit biner, yaitu 0 dan 1. Jumlah bit yang diperlukan bergantung pada jumlah aras kuantisasi pada pengkuantisasian, yaitu: Jumlah bit kode = log2 jumlah aras kuantisasi (2.2) yaitu setelah pencuplikan. Melalui pemultipleksan ini, dimungkinkan dilewatkan beberapa isyarat tutur pada sebuah kanal yang

Pada skema PCM, jika kuantisasi adalah linier, diperlukan 12 bit untuk tiap sampel agar rekonstruksi isyarat tutur cukup baik, sehingga memerlukan pesat bit 96 kbit/s. Namun, ketika kuantisasi adalah non-linier, melalui penguat logaritmis dengan teknik companding -law atau A-law, 8 bit per sampel telah mencukupi sehingga pesat bit adalah 64 kbit/s. 2.5.1.2 Adaptive Differential Pulse Code Modulation Sistem pulse code modulation tidak mencoba untuk menghilangkan redundancies (pengulangan yang tidak perlu) dalam isyarat tutur. Adaptive pulse code modulation (ADPCM) adalah skema pengkodean yang lebih efisien yang mengeksploitasi suatu rendundancy yang hadir dalam isyarat tutur. ADPCM merupakan pengkode tutur waveform coder dalam kawasan waktu dan bersifat diferensial. Sebagaimana disebutkan sebelumnya, samples yang berdekatan dari bentukgelombang tutur seringkali terkorelasi secara tinggi. Ini berarti bahwa varians dari perbedaan diantara amplitude tutur yang berdekatan jauh lebih kecil dari variasi isyarat tutur sendiri. ADPCM mengijinkan tutur untuk dikodekan pada pesat bit 32 kbps, yang merupakan setengah dari standard pesat PCM, yaitu 64 kbps, ketika
Makalah Speech Coding (Penyandian Tutur) Sistem Komunikasi Bergerak 2007/2008

12

memelihara kualitas suara yang sama. Algoritma yang efisien untuk DPCM telah dibangun dan distandarisasi. Standar algoritma ADPCM CCITT G.721 untuk pengkodean tutur 32 kbps digunakan di sistem telepon cordless seperti CT2 dan DECT. Dalam skema Differential Pulse Code Modulation (DPCM), pengkode mengkuantisasi sebuah rangkaian dari perbedaan sample yang berdekatan, dan pendekode memulihkan sebuah pendekatan terhadap isyarat tutur asli yang pada dasarnya meng-integralkan beda sample berdekatan yang ter-kuantisasi. Karena varians kesalahan kuantisasi untuk jumlah yang diberikan dari bits/sample R, berbanding lurus secara langsung terhadap varians masukan, pengurangan yang diperoleh dalam varians masukan pengkuantisasi menuntun secara langsung kepada pengurangan dari reconstruction error variance untuk nilai R yang diberikan (atau berarti varians kesalahan rekonstruksi DPCM jauh lebih kecil dari PCM, karena varians masukan DPCM, yaitu perbedaan sample berdekatan, jauh lebih kecil dari PCM). Dalam praktiknya, pengkode ADPCM diimplementasikan menggunakan teknik pemrediksi isyarat. Daripada mengkodekan perbedaan diantara samples yang berdekatan, sebuah pemrediksi linier digunakan untuk memprediksi sample yang sedang terjadi. Perbedaan diantara sample yang diprediksi dan sample yang sebenarnya disebut kesalahan prediksi kemudian dikodekan untuk pengiriman. Pemrediksian adalah didasarkan pada pengetahuan dari sifat korelasi diri dari tutur. Blok diagram suatu ADPCM diperlihatkan pada gambar 2.3

Makalah Speech Coding (Penyandian Tutur) Sistem Komunikasi Bergerak 2007/2008

13

Gambar 2.3 Blok diagram Adaptive Differential Pulse Code Modulation (ADPCM)

2.5.2

Frequency Domain Pengkode kawasan frekuensi adalah kelas pengkode tutur yang mengambil

manfaat dari model tanggapan dan pembangkitan tutur tanpa membuat algoritma seluruhnya bergantung pada model yang digunakan. Dalam kelas pengkode ini, isyarat tutur dibagi kedalam sekumpulan komponen frekuensi yang dikuantisasikan dan dikodekan terpisah. Dalam cara ini pita frekuensi yang berbeda dapat secara istimewa dikodekan berdasarkan beberapa criteria penanggapan untuk tiap pita frekuensi dan karenanya derau kuantisasi dapat diisikan ke dalam pita dan dicegah dari penciptaan distorsi harmonis diluar pita. Skema ini mempunyai manfaat bahwa jumlah dari bits yang digunakan untuk mengkodekan tiap komponen frekuensi dapat secara dinamis diubah dan dishare diantara pita yang berbeda. Kebanyakan algoritma pengkodean kawasan frekuensi, yang tersusun dari sederhana sampai kompleks adalah tersedia. Tipe penkodean kawasan frekuensi yang paling umum meliputi sub-band coding (SBC) dan block transform coding. Ketika pengkode sub-band membagi isyarat tutur ke dalam sub-bands yang lebih kecil dan mengkodekan tiap sub-band terpisah berdasarkan beberapa criteria tanggapan, pengkode transform mengkodekan transformasi waktu-pendek dari
Makalah Speech Coding (Penyandian Tutur) Sistem Komunikasi Bergerak 2007/2008

14

urutan terjendela dari samples dan mengkodekan mereka dengan sejumlah bit sebanding dengan keberartian penanggapan samples tersebut.

2.5.2.1 Sub-band Coding (SBC) Pengkodean sub-band dapat dipikirkan sebagai cara untuk mengendalikan dan mendistribusikan derau kuantisasi sepanjang spektrum isyarat.

Pengkuantisasian adalah operasi non-linier yang menghasilkan produk distorsi yang secara khas lebar dalam spektrum. Telinga manusia tidak mengenali distorsi kuantisasi pada semua frekuensi dengan sama baik. Ini oleh karena itu bisa untuk mencapai perbaikan yang kokoh dalam kualitas dengan mengkodekan isyarat dalam band yang lebih rendah. Dalam pengkode sub-band, tutur biasanya dibagi kedalam empat atau delapan sub-bands oleh sebuah bank tapis, dan tiap-tiap sub-band dicuplik pada sebuah bandpass Nyquist rate (bandpass pesat Nyquist) yang mana lebih rendah dari pesat pencuplikan aslinya dan dikodekan dengan keakuratan yang berbeda dalam kaitannya dengan kriteria seberapa baik penanggapan telinga manusia pada band tersebut. Pemecahan band dapat dilakukan dengan banyak cara. Satu pendekatan dapat untuk membagi seluruh band tutur kedalam sub-bands yang tidak sama besar, tetapi berkontribusi secara sama besar ke nilai articulation index. Articulation Index (AI) adalah sebuah sarana yang digunakan oleh audiologists untuk meramalkan jumlah dari tutur yang dapat didengar oleh pasien dengan rugi-rugi pendengaran tertentu. Pembacaan AI untuk pasien yang diberikan dapat menjangkau dari nol

Makalah Speech Coding (Penyandian Tutur) Sistem Komunikasi Bergerak 2007/2008

15

sampai 1.0 yang mewakili proporsi dari rerata isyarat tutur yang dapat didengar. Semakin dekat AI ke 1.0, atau 100 persen, semakin baik orang akan mampu mendengar tutur. AI seringkali digunakan sebagai alat konseling karena ini menghadirkan sebuah rugi pendengaran individu dalam hubungan dari persentase dari tutur yang hilang selama percakapan satu-satu yang khas. AI dapat juga digunakan untuk mengukur keefektifan dari alat-bantu dengar dan dari peralatan penguat bentuk lainnya. Sebuah pem-partisian dari pita tutur berkaitan dengan cara ini yang disarankan oleh Crochiere, et al, diberikan dibawah. Tabel 2.1 Pemecahan pita tutur sesuai Crochiere, et al Nomor Sub-band 1 2 3 4 Jangkauan Frekuensi (Hz) 200-700 700-1310 1310-2020 2020-3200

Cara lainnya untuk memecah band tutur adalah membaginya kedalam subband dengan lebar yang sama dan menetapkan untuk tiap sub-band jumlah dari bit setara dengan keberartian penanggapan ketika mengkodekannya. Terdapat bermacam-macam cara untuk memproses isyarat sub-band. Satu cara yang nyata untuk membuat penterjemahan low-pass dari isyarat sub-band ke frekuensi nol adalah dengan proses modulasi yang ekuivalen dengan modulasi single sideband. Jenis penterjemahan ini memfasilitasi pengurangan pesat pencuplikan dan memiliki keuntungan lainnya melalui pengkodean isyarat lowpass. Isyarat masukan di-filter dari bandpass filter dengan lebar n untuk band ke-n. 1n adalah tepi bawah dari band dan 2n adalah tepi atas dari band. Sinyal
Makalah Speech Coding (Penyandian Tutur) Sistem Komunikasi Bergerak 2007/2008

16

yang dihasilkan sn(t) dimodulasi dengan gelombang cosinus cos (1n t) dan di-filter menggunakan tapis low pass hn(t) dengan bandwidth (0-n). Sinyal hasilnya rn(t) sama dengan versi terterjemahkan low pass dan dinyatakan sebagai rn(t) = [sn(t) cos (1n t)] x hn (t) dimana (2.3)

menunjukkan operasi konvolusi. Isyarat rn(t) dicuplik dengan

pesat 2 n. Isyarat ini kemudian dikodekan secara digital dan dimultiplex dengan isyarat terkodekan dari kanal lainnya. Pada penerima data di-demultiplex kedalam kanal-kanal yang terpisah, di-dekode, dan dilakukan penterjemahan bandpass untuk memberikan perkiraan dari rn(t) untuk kanal ke-n.

2.5.2.2 Adaptive Transform Coding Adaptive transform coding (ATC) adalah teknik dalam kawasan frekuensi lainnya yang telah secara sukses digunakan untuk mengkodekan tutur pada pesat bit dalam range 9.6 kbps sampai 20 kbps. Ini adalah teknik yang lebih kompleks yang melibatkan pen-transformasi blok dari segmen-segmen masukan yang terjendelakan dari bentuk-gelombang tutur. Tiap segmen diwakili oleh sekumpulan koefisienkoefisien transformasi, yang secara terpisah dikuantisasikan dan dikirimkan. Pada penerima, koefisien-koefisien transformasi di-invers transform untuk menghasilkan tiruan dari segmen masukan aslinya. Satu dari transform yang paling menarik dan sering digunakan untuk mengkodekan isyarat adalah discrete cosine transform (DCT). DCT dari rangkaian N-titik x(n) didefinisikan sebagai (2.4)

Makalah Speech Coding (Penyandian Tutur) Sistem Komunikasi Bergerak 2007/2008

17

dimana g(0) = 1 dan g(k) =

k = 1, 2, , N-1

Inverse DCT didefinisikan sebagai (2.5)

Dalam situasi praktik DCT dan IDCT tidak dinilai secara langsung menggunakan persamaan di atas, tetapi melalui fast algorithm (algoritma secara cepat). Fast algorithm yang dibangun untuk menghitung DCT dalam cara komputasi yang efisien. Kebanyakan dari skema pengkodean transform memvariasikan alokasi bit diantara-koefisien-koefisien-transformasi-yang-berbeda secara adaptif dari frame ke frame bersamaan dengan penjagaan jumlah total bit yang tetap. Alokasi bit secara dinamis ini dikendalikan oleh statistik berubah waktu yang harus dikirimkan yaitu sebagai informasi samping. Informasi samping ini merupakan sebuah overhead sekitar 2 kbps. Frame dari N buah samples yang ditransformasikan atau inverstransform dikumpulkan dalam buffer di pengirim dan penerima secara berurutan. Informasi samping juga digunakan untuk menentukan ukuran langkah dari berbagai macam koefisien kuantisasi. Dalam sistem praktis, informasi samping yang dikirimkan adalah gambaran kasar dari spektrum energi-log. Ini biasanya terdiri dari L titik frekuensi, dimana L adalah dalam range 15-20, yang dihitung dengan merata-ratakan kumpulan dari N/L nilai terkuadrat yang berdekatan dari koefisien

Makalah Speech Coding (Penyandian Tutur) Sistem Komunikasi Bergerak 2007/2008

18

transformasi X(k). Pada penerima, sebuah N-titik spektrum direkonstruksi dari Ltitik spektrum oleh interpolasi geometris dalam kawasan-log. Jumlah dari bit-bit yang ditetapkan untuk tiap koefisien transformasi sebanding dengan nilai energi spectral terkaitnya. Gambar 2.4 menunjukkan blok dasar dari suatu transform coding.

Gambar 2.4 Blok dasar dari transform coding

2.6

Source Coders Source coder adalah kelas dari sistem pengkodean tutur yang

menganalisa/menguraikan isyarat suara di pengirim, mengirimkan parameterparameter yang didapatkan dari analisa tersebut, dan kemudian

mensintesa/menyatukan isyarat suara di penerima menggunakan parameter tersebut. Semua sistem source coder mencoba untuk memodelkan proses pembangkitan tutur sebagai sebuah sistem yang dinamis dan berusaha mengukur pembatas fisik tertentu dari sistem. Pembatas-pembatas fisik ini digunakan untuk menyediakan deskripsi yang sangat hemat dari isyarat tutur. Source coder secara umum jauh lebih kompleks daripada pengkode bentuk-gelombang dan mencapai keekonomisan yang

Makalah Speech Coding (Penyandian Tutur) Sistem Komunikasi Bergerak 2007/2008

19

sangat tinggi dalam pesat bit pengiriman. Namun, source coder kurang handal, dan kinerjanya cenderung untuk bergantung pada yang bercakap-cakap. Jenis source coder yang paling terkenal adalah linier predictive coder (LPC). Skema source coder lainnya meliputi channel vocoder, formant vocoder, cepstrum vocoder, dan voice excited vocoder.

2.6.1

Mekanisme Pembangkitan Tutur Manusia Mekanisme pembangkitan tutur membentuk sumber dan adalah secara linier

terpisah dari intelligence modulating vocal tract filter yang membentuk sistem. Isyarat tutur diasumsikan menjadi dua jenis: voiced dan unvoiced (bersuara dan tanpa bersuara). Bunyi voiced (seperti pada pengucapan m, n, v) adalah hasil dari getaran periodis-semu dari vocal chord (nada vokal) dan bunyi unvoiced (seperti pada pengucapan f, s, sh) adalah bunyi desah yang dihasilkan oleh pergolakan aliran udara melalui sebuah penyempitan. Parameter yang terkait dengan model ini adalah voice pitch (pola titi nada, tanggapan terhadap frekuensi fundamental), pole frequencies (frekuensi-frekuensi kutub), dan parameter amplitude yang bersesuaian. Pitch dalam musik dan tutur berarti derajat tinggi atau kedalaman sebuah nada atau suara, bergantung pada kecepatan relatif dari getaran yang mana ia dihasilkan. Frekuensi pitch untuk kebanyakan pembicara-pembicara adalah di bawah 300 Hz. Frekunsi-frekuensi kutub sesuai dengan frekuensi resonan dari vocal tract (saluran di sistem pengucapan) dan seringkali disebut formants dari isyarat tutur. Untuk pembicara-pembicara adalah orang dewasa, formants terpusat disekitar

Makalah Speech Coding (Penyandian Tutur) Sistem Komunikasi Bergerak 2007/2008

20

500Hz, 1500Hz, 2500Hz, dan 3500Hz. Melalui pengaturan secara teliti dari parameter-parameter model pembangkitan tutur, tutur berkualitas baik dapat disintesa. Prinsip pembuatan tutur manusia dapat dideskripsikan sebagai berikut:

Tutur dihasilkan oleh kerjasama dari paru-paru, glottis, pita suara dan

sistem pengucapan (mulut dan lubang hidung).

Untuk produksi suara voiced, paru-paru menekan udara melewati epiglotis,

pita suara bergetar, mereka menginterup aliran udara dan menghasilkan gelombang tekanan periodis- semu.

Impuls tekanan (karena menginterup) umum disebut pitch impulses dan

frekuensi dari isyarat tekanan adalah pitch frequency atau fundamental frequency. Gambar 2.5 memperlihatkan organ tutur pada manusia.

Gambar 2.5 Organ tutur manusia

Di gambar 2.6 urutan impulse khas (fungsi tekanan suara) yang dihasilkan

oleh pita suara untuk suara voiced ditunjukkan. Ini bagian dari isyarat voice yang menetapkan nyanyian tutur (speech melody).

Makalah Speech Coding (Penyandian Tutur) Sistem Komunikasi Bergerak 2007/2008

21

Gambar 2.6 Urutan impulse khas dari fungsi tekanan suara

Ketika kita berbicara dengan frekuensi pitch tetap, tutur terdengar monoton.

Bagaimana frekuensi pitch berubah dilukiskan dalam gambar 2.7.

Gambar 2.7 Variasi dari Frekuensi Pitch

Pitch impulses menstimulasi udara dalam mulut dan untuk bunyi tertentu

(bunyi sengau) juga rongga hidung. Ketika rongga-rongga beresonansi, mereka meradiasikan gelombang bunyi yang merupakan isyarat tutur. Kedua (mulut dan hidung) berperan sebagai resonator dengan karakteristik frekuensi resonans tertentu yang disebut formant frequency. Karena rongga mulut dapat berubah secara luas, kita mampu mengucapkan sangat banyak bunyi yang berbeda.

Dalam kasus bunyi unvoiced, eksitasi dari sistem vokal lebih menyerupai

derau. Gambar 2.8 menunjukkan perbedaan bentuk dan posisi dari organ pengucapan secara jelas untuk bunyi voice (bunyi m) dan unvoiced (bunyi t)
Makalah Speech Coding (Penyandian Tutur) Sistem Komunikasi Bergerak 2007/2008

22

Gambar 2.8 Perbedaan bentuk dan posisi pembuatan bunyi untuk voice dan unvoice

Bunyi voiced cenderung untuk secara kuat bersifat periodis sedangkan

bunyi unvoiced cenderung untuk lebih menyerupai derau. Gambar 2.9 memperlihatkan bentuk gelombang ketika dibangkitkan bunyi voiced dan unvoiced.

Gambar 2.9 Perbedaan bentuk gelombang voiced dan unvoiced

2.6.2

Vocoder

2.6.2.1 Channel Vocoder Channel vocoder adalah yang pertama diantara sistem analis-sintesis dari tutur yang dipertunjukkan secara praktis. Channel vocoder adalah vocoder dalam kawasan frekuensi yang menentukan envelope dari isyarat tutur dari sejumlah pita frekuensi dan kemudian mencuplik, mengkodekan, dan memultipleks samples ini

Makalah Speech Coding (Penyandian Tutur) Sistem Komunikasi Bergerak 2007/2008

23

dengan keluaran terkode dari filter lainnya. Pencuplikan dilakukan secara sinkron setiap 10ms sampai 30ms. Bersamaan dengan informasi energi tentang tiap band, penentuan voiced/unvoiced dan frekuensi pitch untuk tutur voiced adalah juga dikirimkan. Gambar 2.10 memperlihatkan blok diagram dari suatu channel vocoder.

Gambar 2.10 Blok diagram dasar dari channel vocoder

2.6.2.2 Formant Vocoder Formant vocoder mempunyai konsep yang sama dengan channel vocoder. Secara teoritis, formant vocoder dapat beroperasi pada pesat bit yang lebih rendah daripada channel vocoder karena formant vocoder menggunakan isyarat kendali yang lebih sedikit. Daripada mengirimkan sampel-samper dari power spectrum envelope, formant vocoder mencoba untuk mengirimkan posisi puncak (formant) dari spectral envelope. Secara khas, formant vocoder harus mampu untuk mengenali sedikitnya tiga formants untuk memisalkan suatu suara tutur, dan ia juga harus mampu mengendalikan intensitas dari formants tersebut. Formant vocoder dapat menghasilkan kembali tutur pada pesat bit kurang dari 1200 bits/s. Namun, karena kesulitan dalam secara akurat memperhitungkan lokasi dari formants dan peralihan-peralihan formant dari tutur manusia, jenis vocoder ini tidak terlalu sukses.

Makalah Speech Coding (Penyandian Tutur) Sistem Komunikasi Bergerak 2007/2008

24

2.6.2.3 Cepstrum Vocoder Cepstrum vocoder memisahkan spektrum eksitasi dan spektrum vocal tract dengan invers fourier transform dari log magnitude spectrum untuk menghasilkan cepstrum dari isyarat. Koefisien frekuensi rendah dalam cepstrum sama dengan vocal tract spectral envelope, dengan koefisien eksitasi frekuensi tinggi membentuk rentetan pulsa periodis pada perkalian periode pencuplikan. Hal ini diperlihatkan dalam gambar 2.11.

Gambar 2.11 Bentuk isyarat tutur di kawasan cepstrum

Tapis linier dikinerjakan untuk memisahkan vocal tract cepstral coefficients dari excitation coefficients. Di penerima, vocal tract cepstral coefficients ditransformasikan Fourier untuk menghasilkan vocal tract impulse response. Dengan mengkonvolusikan tanggapan impuls ini dengan isyarat eksitasi hasil sintesis (yaitu derau acak atau rentetan pulsa periodis), tutur asli dapat dibangunkembali. Gambar 2.12 memperlihatkan blok diagram dari cepstrum vocoder.

Makalah Speech Coding (Penyandian Tutur) Sistem Komunikasi Bergerak 2007/2008

25

Gambar 2.12 Blok diagram cepstrum vocoder

Bentuk gelombang hasil keluaran dari tiap-tiap blok pada diagram cepstrum vocoder di gambar 2.12 diperlihatkan dalam gambar 2.13.

Gambar 2.12 Bentuk isyarat saat proses pengkodean pada cepstrum vocoder

2.6.2.4 Voice-excited Vocoder Voice-excited vocoder membatasi kebutuhan untuk operasi voicing detection dan pitch extraction. Sistem ini menggunakan kombinasi hybrid dari

Makalah Speech Coding (Penyandian Tutur) Sistem Komunikasi Bergerak 2007/2008

26

pengiriman PCM untuk tutur yang memiliki pita frekuensi rendah, dikombinasikan dengan channel vocoding untuk tutur yang memiliki pita frekuensi yang lebih tinggi. Isyarat pitch dibangkitkan pada pensintesa dengan rectify-ing, bandpass filtering, dan clipping terhadap isyarat bidang dasar (baseband signal). Voice excited vocoders telah dirancang untuk operasi pada 7200 bits/s sampai 9600 bits/s dan kualitasnya secara khas, lebih unggul dibanding hasil yang diperoleh oleh pitch excited vocoders (vocoders yang hanya mendasarkan pada parameter pitch di semua komponen frekuensi). 2.6.3 Linear Predictive Coders (LPC)

2.6.3.1 LPC Vocoders Linier predictive coders (LPC) termasuk dalam kelas vocoder kawasan waktu. Kelas vocoder ini mencoba untuk mengekstrak ciri-ciri yang penting dari tutur dari bentuk gelombang waktu. Komputasi pada pengkode-pengkode LPC bersifat intensif. Dengan LPC ini memungkinkan untuk mengirimkan suara kualitas baik pada 4.8 kbps. Sistem pengkodean linier predictive memodelkan vocal tracts (saluran pada sistim pengucapan) sebagai sebuah all pole linear filter dengan transfer function yaitu

(2.6)

dengan G adalah gain dari filter dan z-1 mewakili operati tunda satuan.

Makalah Speech Coding (Penyandian Tutur) Sistem Komunikasi Bergerak 2007/2008

27

Pengeksitasian terhadap filter ini adalah berupa pulsa pada frekuensi pitch untuk bunyi voice atau derau putih acak untuk bunyi unvoiced. Koefisien dari seluruh kutub filter diperoleh dalam kawasan waktu, yaitu menggunakan teknik prediksi linier. Prinsip prediksi yang digunakan sama dengan di pengkode ADPCM. Namun, daripada mengirimkan nilai terkuantisasi dari kesalahan isyarat yang mewakili perbedaan diantara bentuk gelombang prediksi dan bentuk gelombang yang sebenarnya, sistem LPC hanya mengirimkan ciri-ciri yang dipilih dari kesalahan isyarat. Parameter-parameternya meliputi faktor penguatan, informasi pitch, dan informasi keputusan voice/unvoice, yang mengijinkan pendekatan dari isyarat salah secara tepat. Pada penerima, informasi yang diterima tentang kesalahan isyarat digunakan untuk menentukan eksitasi yang tepat untuk filter pensintesa, atau berarti isyarat salah berfungsi sebagai pengeksitasi di pendekode. Filter pensintesa dirancang pada penerima menggunakan koefisien pemprediksi yang diterima. Dalam praktik, kebanyakan pengkode LPC mengirimkan koefisien filter yang mewakili isyarat salah yang baru saja terjadi dan kemudian dapat secara langsung disintesis oleh penerima. Berbagai jenis skema LPC berbeda dalam cara mereka menciptakan kembali isyarat salah di penerima. Tiga alternatif dari jenis LPC, yaitu:
1.

Jenis LPC yang paling terkenal, yang menggunakan dua sumber di penerima, satu untuk derau putih dan lainnya terkait deretan pulsa-pulsa pada pesat pitch tertentu. Pemilihan apakah metode eksitasinya didasarkan keputusan voiced/unvoiced adalah dibuat di pengirim dan dikirimkan ke penerima

Makalah Speech Coding (Penyandian Tutur) Sistem Komunikasi Bergerak 2007/2008

28

bersama dengan informasi lainnya. Teknik ini memerlukan bahwa pengirim mengekstrak informasi frekuensi pitch yang seringkali sangat sulit.
2. 3.

Jenis Multi-pulse excited LPC Jenis Stochastic atau code excited LPC

Dalam kaitannya untuk mengilustrasikan pembuatan tutur oleh LPC, ini dapat dikaitkan dengan pembuatan tutur oleh manusia. Gambar 2.13

memperlihatkan blok diagram pembuatan tutur oleh manusia (a) dan oleh mesin secara sederhana dalam hal ini LPC sederhana (b).

Gambar 2.13 Proses pembangkitan tutur a) Oleh manusia b) Oleh LPC sederhana

Dalam pembangkitan tutur oleh mesin, paru-paru digantikan oleh sebuah sumber DC, pita suara oleh pembangkit impuls dan sistem pengucapan oleh sistem tapis linier. Pembangkit nada menghasilkan eksitasi voiced dan pembangkit derau menghasilkan eksitasi unvoiced. Dalam praktik, semua bunyi mempunyai eksitasi

Makalah Speech Coding (Penyandian Tutur) Sistem Komunikasi Bergerak 2007/2008

29

campuran, yang berarti bahwa eksitasi terdiri dari porsi voice dan unvoice. Hubungan dari porsi-porsi ini berubah-ubah secara kuat ketika bunyi dibangkitkan. Dalam model ini, porsi diatur oleh dua buah potensiometer, tetapi penyederhanaan lebih lanjut dapat dibuat, sesuai gambar pembangkitan tutur oleh mesin pembuat tutur tersebut. Sebagai ganti dua buah potensiometer, kita menggunakan saklar yang hanya memilih diantara voiced and unvoiced excitation. Filter, mewakili sistem pengucapan, adalah sebuah tapis digital rekursif sederhana, watak resonansinya (tanggapan frekuensinya) didefinisikan oleh sekumpulan koefisien-koefisien tapis. Karena penghitungan dari koefisien-koefisien tersebut didasarkan pada tatacara optimisasi secara matematis dari Linier Prediction Coding, maka koefisienkoefisien tersebut disebut Linear Prediction Coding Coefficients atau koefisien LPC dan model keseluruhannya disebut LPC Vocoder. Manfaat yang utama dari LPC Vocoder adalah pesat bit yang sangat rendah untuk pengiriman tutur (sekitar 3 kbit/s) yang dibandingkan dengan PCM (64 kbit/s).

2.7 Perbandingan Standar-Standar Telephone-Band-Speech-Coding Pada tabel 2.2 diperlihatkan standar-standar yang terkenal untuk pengkodean tutur dalam sistim telekomunikasi dewasa ini.

Makalah Speech Coding (Penyandian Tutur) Sistem Komunikasi Bergerak 2007/2008

30

Tabel 2.2 Perbandingan standar-standar pengkodean tutur di beberapa sistim telekomunikasi

Makalah Speech Coding (Penyandian Tutur) Sistem Komunikasi Bergerak 2007/2008

31

Makalah Speech Coding (Penyandian Tutur) Sistem Komunikasi Bergerak 2007/2008

Você também pode gostar