ChatGPT dengan Suara: Apa Itu AudioGPT dan Bagaimana Cara Kerjanya
Teknologi | 2023-04-28 14:35:51Pendahuluan
Audio adalah cara yang bagus untuk berkomunikasi dengan orang lain. Kita bisa menggunakan audio untuk berbicara, mendengar, bernyanyi, bermain, dan lain-lain. Tapi sistem AI yang ada sekarang seperti ChatGPT tidak dapat menggunakan audio. Mereka hanya bisa menggunakan teks untuk berkomunikasi. Mereka tidak bisa menggunakan audio untuk berkomunikasi.
Dalam artikel ini, penulis akan memperkenalkan pembaca tentang sistem AI baru yang bernama AudioGPT. AudioGPT bisa menggunakan audio untuk berkomunikasi. AudioGPT juga bisa menggunakan audio untuk melakukan banyak hal. AudioGPT bisa membuat dan menggunakan suara, musik, dan bunyi. Penulis akan memberi tahu pembaca bagaimana AudioGPT bekerja dan apa yang bisa dilakukannya. Kami juga akan memberi tahu Anda mengapa AudioGPT penting dan bagaimana AudioGPT bisa membantu kita membuat dan menggunakan konten audio lebih baik.
Apa itu AudioGPT dan apa bedanya dengan ChatGPT?
AudioGPT adalah sistem AI baru yang bisa menggunakan audio untuk berbicara dan mengerti. AudioGPT didasarkan pada paper yang ditulis oleh Rongjie Huang, et al. [1]-[4]. AudioGPT terdiri dari tiga bagian:
1. ChatGPT
Ini adalah sistem AI yang bisa menggunakan teks untuk berbicara dan mengerti. ChatGPT bisa membuat respons teks berdasarkan input teks. ChatGPT adalah bagian utama dari AudioGPT. ChatGPT bermanfaat untuk mengolah data teks yang akan dimanfaatkan oleh AudioGPT itu sendiri.
2. Model dasar
Ini adalah sistem AI yang bisa menggunakan audio untuk melakukan banyak hal. Mereka bisa mengubah audio dari satu bentuk ke bentuk lain. Misalnya, mereka bisa melakukan proses automatic speech recognition (ASR), text to speech (TTS), music to text (MTT), text to audio (TTA), sound detection (SD), singing synthesis (SS), dan masih banyak lagi. Model dasar adalah dasar dari AudioGPT. Model ini dapat menggunakan audio untuk tugas yang berbeda.
3. Antarmuka input/output
Ini adalah bagian yang bisa mengubah input teks menjadi input audio dan output audio menjadi output teks menggunakan automatic speech recognition (ASR) dan text to speech (TTS). Antarmuka input/output membantu AudioGPT berkomunikasi dengan pengguna menggunakan audio.
AudioGPT berbeda dengan ChatGPT dalam beberapa hal:
Pertama, AudioGPT bisa menggunakan teks dan audio untuk berkomunikasi, tapi ChatGPT hanya bisa menggunakan teks.
Kedua, AudioGPT bisa membuat dan menggunakan berbagai jenis konten audio seperti suara, musik, bunyi, dan wajah bicara, tapi ChatGPT hanya bisa membuat dan menggunakan konten teks.
Ketiga, AudioGPT bisa berpikir tentang berbagai jenis konten audio bersama-sama menggunakan ChatGPT dan model dasar, tapi ChatGPT hanya bisa berpikir tentang konten teks sendiri-sendiri.
Bagaimana AudioGPT menggunakan audio untuk melakukan banyak hal?
AudioGPT menggunakan model dasar dan antarmuka input/output dengan menggunakan audio untuk melakukan banyak hal secara fleksibel. AudioGPT bisa menggunakan bagian-bagian yang berbeda dari ChatGPT untuk input atau output yang dibutuhkan oleh pengguna yang berkaitan dengan audio.
Misalnya, jika pengguna mengetik "Apa lagu favoritmu?", AudioGPT bisa menggunakan ChatGPT untuk membuat respons teks seperti "Lagu favoritku adalah Imagine oleh John Lennon." Lalu, AudioGPT bisa menggunakan text to speech (TTS) atapun text to audio (TTA) untuk membuat respons audio yang dapat memainkan lagunya.
Jika pengguna mengatakan "Bisakah kamu menyanyikan Selamat Ulang Tahun untukku?", AudioGPT bisa menggunakan automatic speech recognition (ASR) untuk mengubah input audio menjadi input teks seperti "Bisakah kamu menyanyikan Selamat Ulang Tahun untukku?" Lalu, AudioGPT bisa menggunakan ChatGPT untuk membuat respons teks seperti "Tentu saja, aku bisa menyanyikan Selamat Ulang Tahun untukmu." Terakhir, AudioGPT bisa menggunakan text to speech (TTS) atapun text to audio (TTA) untuk membuat respons audio yang menyanyikan lagu Selamat Ulang Tahun.
Secara umum, AudioGPT bisa menggunakan model dasar dan antarmuka input/output untuk menggunakan audio apa pun untuk melakukan banyak hal.
Mengapa AudioGPT penting dan bagaimana AudioGPT bisa membantu kita?
AudioGPT penting karena bisa membantu kita lebih mengerti dan menggunakan konten audio. AudioGPT juga bisa membantu kita menguji dan meningkatkan sistem AI seperti ChatGPT dan model dasar. AudioGPT juga bisa membantu kita membuat dan menggunakan konten audio lebih baik.
Beberapa cara yang bisa AudioGPT bantu kita adalah:
Pertama, AudioGPT bisa membantu kita menguji seberapa baik ChatGPT dan model dasar bekerja dengan berbagai jenis konten audio dan tugas. Misalnya, kita bisa melihat apakah AudioGPT bisa menjaga dialog yang baik dengan kita saat kita menggunakan suara, musik, bunyi, dan wajah bicara.
Kedua, AudioGPT bisa membantu kita melakukan banyak hal dengan konten audio yang tidak bisa kita lakukan sebelumnya. Misalnya, kita bisa menggunakan AudioGPT untuk menerjemahkan suara, membuat musik, dan mengklasifikasikan bunyi.
Ketiga, AudioGPT bisa membantu kita membuat konten audio yang lebih baik dengan umpan balik atau optimasinya. Misalnya, kita bisa menggunakan AudioGPT untuk memperbaiki suara, musik, dan bunyi kita dengan tips dan suntingannya.
AudioGPT bisa membantu kita menguji seberapa baik ChatGPT dan model dasar bekerja dengan berbagai jenis konten audio. Misalnya, kita bisa melihat apakah AudioGPT bisa menjaga dialog yang baik dengan kita saat kita menggunakan suara, musik, dan bunyi.
Kesimpulan
AudioGPT adalah sistem AI baru dan menarik yang bisa memberi kita cara baru untuk membuat dan menggunakan konten audio. AudioGPT juga bisa memberi kita wawasan baru tentang bagaimana sistem AI seperti ChatGPT dan model dasar bekerja. Penulis harap pembaca telah belajar sesuatu dari artikel ini dan penulis akan mencoba AudioGPT sendiri.
Tahukah kamu kalau di Universitas Airlangga terdapat program studi yang mempelajari sistem kerja dibalik AudioGPT? Yap, program studi tersebut adalah Teknik Robotika dan Kecerdasan Buatan. Di Teknik Robotika dan Kecerdasan Buatan, mahasiswa akan diajarkan bagaimana merancang sistem AI yang baik seperti AudioGPT.
Referensi
[1] Rongjie Huang et al., "AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head," arXiv preprint arXiv:2304.12995 (2023).
[2] "AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head | Papers With Code," https://paperswithcode.com/paper/audiogpt-understanding-and-generating-speech.
[3] "[2304.12995] AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head," https://arxiv.org/abs/2304.12995.
[4] "AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head," https://www.semanticscholar.org/paper/AudioGPT%3A-Understanding-and-Generating-Speech%2C-and-Huang-Li/8bc617c9139648d7a92991d70c671230bac7b2e2/figure/1.
Penulis: Zinadine Zidan Alsyahana (Mahasiswa Teknik Robotika dan Kecerdasan Buatan Universitas Airlangga)
Disclaimer
Retizen adalah Blog Republika Netizen untuk menyampaikan gagasan, informasi, dan pemikiran terkait berbagai hal. Semua pengisi Blog Retizen atau Retizener bertanggung jawab penuh atas isi, foto, gambar, video, dan grafik yang dibuat dan dipublished di Blog Retizen. Retizener dalam menulis konten harus memenuhi kaidah dan hukum yang berlaku (UU Pers, UU ITE, dan KUHP). Konten yang ditulis juga harus memenuhi prinsip Jurnalistik meliputi faktual, valid, verifikasi, cek dan ricek serta kredibel.