OpenAI Mampu Mengkloning Suara Manusia Hanya dengan Sampel Audio Berdurasi 15 Detik
Teknologi | 2024-04-01 15:49:20MODEL bahasa baru yang diperkenalkan oleh pembuat ChatGPT, OpenAI, dapat mengkloning suara seseorang hanya dengan menggunakan audio dalam hitungan detik. Demikian ungkap perusahaan tersebut saat berbagi wawasan awal dari mempelajari kemampuan teknologi tersebut.
Model kecerdasan buatan, yang diberi nama Voice Engine, hanya memerlukan satu sampel audio berdurasi 15 detik untuk menghasilkan ucapan yang meniru ucapan pembicara aslinya. Begitu OpenAI mengumumkan dalam sebuah postingan blog pada hari Jumat (29/3/2024) lalu. Teknologi ini pertama kali dikembangkan pada akhir tahun 2022 dan telah digunakan untuk mendukung suara preset yang tersedia di API text-to-speech serta fitur ChatGPT Voice dan Read Aloud.
Teknologi ini telah diuji bersama mitra korporat OpenAI dengan hasil yang inovatif. Misalnya, perusahaan tersebut membagikan audio yang mengharukan tentang seorang gadis muda yang mengucapkan terima kasih kepada dokter Fatima Mirza, Rohaid Ali, dan Konstantina Svokos kepada Norman Prince Neurosciences Institute.
Gadis itu kehilangan kemampuannya untuk berbicara secara normal karena tumor otak pembuluh darah. Meski masih bisa membentuk kata dan kalimat, suaranya tidak terdengar sama seperti dulu. Para dokter menggunakan klip audio yang dia rekam untuk proyek sekolah guna mengembalikan suara normalnya sehingga tidak lagi terdengar terganggu saat dia berbicara.
“Kami mengambil pendekatan yang hati-hati dan terinformasi terhadap rilis yang lebih luas karena potensi penyalahgunaan suara sintetis,” kata perusahaan itu. “Kami berharap dapat memulai dialog mengenai penerapan suara sintetis yang bertanggung jawab, dan bagaimana masyarakat dapat beradaptasi dengan kemampuan baru ini.”
OpenAI, yang belum merilis model tersebut sebagai produk mandiri atau alat yang lebih luas, mengatakan pihaknya mulai menguji kemampuannya secara terbatas dengan “sekelompok kecil mitra tepercaya” dan telah “terkesan dengan penerapannya”. Namun, perusahaan mengatakan mereka terus melakukan pembicaraan mengenai apakah dan bagaimana menerapkan teknologi tersebut dalam skala besar.
Di antara aplikasi praktisnya, OpenAI mengatakan bahwa Voice Engine dapat digunakan untuk memberikan bantuan membaca kepada non-pembaca dan anak-anak. Perusahaan telah bermitra dengan Age of Learning, sebuah perusahaan teknologi pendidikan, yang telah menggunakan teknologi tersebut untuk menghasilkan konten pendidikan bernaskah.
OpenAI membagikan sampel audio asli berdurasi 15 detik yang direkam oleh perusahaan di mana narator laki-laki mendefinisikan "kekuatan" dalam konteks fisika. Model tersebut kemudian diterapkan pada tema lain, memungkinkan AI menghasilkan audio yang berkaitan dengan biologi, kimia, membaca, dan matematika.
HeyGen, pengguna teknologi lainnya, adalah platform penyampaian cerita visual AI yang bekerja dengan perusahaan lain untuk menciptakan avatar mirip manusia untuk pemasaran produk dan demonstrasi penjualan. Mereka menggunakan Voice Engine untuk menerjemahkan audio dalam video mereka.
“Saat digunakan untuk penerjemahan, Voice Engine mempertahankan aksen asli penutur aslinya. Misalnya, menghasilkan bahasa Inggris dengan sampel audio dari penutur bahasa Prancis akan menghasilkan ucapan dengan aksen Prancis,” kata OpenAI.
Perusahaan tersebut membagikan audio seorang wanita bersuara Amerika yang berbicara dalam bahasa Inggris sebagai klip sumber, yang kemudian diterjemahkan ke dalam bahasa Spanyol, Mandarin, Jerman, Prancis, dan Jepang -- semuanya dalam suara wanita aslinya.
Dan, alat tersebut telah digunakan untuk mendukung orang-orang non-verbal melalui Livox, sebuah perusahaan Brasil dengan aplikasi komunikasi alternatif AI yang memungkinkan pengguna non-verbal berbicara dengan suara yang didukung oleh Voice Engine.
“Jadi misalnya orang non-verbal bisa punya suara unik yang tidak seperti robot dan terdengar sama persis dalam beberapa bahasa,” kata Livox lewat kanal media sosialnya. "Kami berharap pengguna Livox dapat segera mengakses suara-suara ini!"***
Sumber: United Press International
--
Disclaimer
Retizen adalah Blog Republika Netizen untuk menyampaikan gagasan, informasi, dan pemikiran terkait berbagai hal. Semua pengisi Blog Retizen atau Retizener bertanggung jawab penuh atas isi, foto, gambar, video, dan grafik yang dibuat dan dipublished di Blog Retizen. Retizener dalam menulis konten harus memenuhi kaidah dan hukum yang berlaku (UU Pers, UU ITE, dan KUHP). Konten yang ditulis juga harus memenuhi prinsip Jurnalistik meliputi faktual, valid, verifikasi, cek dan ricek serta kredibel.