AI Mendengarkan Suara Rakyat. Kemudian Menghasilkan Wajah Mereka.

Pin
Send
Share
Send

Pernahkah Anda membangun citra mental seseorang yang belum pernah Anda lihat, hanya berdasarkan suara mereka? Kecerdasan buatan (AI) sekarang dapat melakukan itu, menghasilkan gambar digital dari wajah seseorang hanya menggunakan klip audio singkat untuk referensi.

Bernama Speech2Face, jaringan saraf - komputer yang "berpikir" dengan cara yang mirip dengan otak manusia - dilatih oleh para ilmuwan pada jutaan video pendidikan dari internet yang menunjukkan lebih dari 100.000 orang berbicara.

Dari dataset ini, Speech2Face belajar hubungan antara isyarat vokal dan fitur fisik tertentu dalam wajah manusia, tulis para peneliti dalam sebuah studi baru. AI kemudian menggunakan klip audio untuk memodelkan wajah fotorealistik yang cocok dengan suara.

Temuan ini dipublikasikan secara online 23 Mei di preprint jounral arXiv dan belum ditinjau oleh rekan sejawat.

Syukurlah, AI belum (belum) tahu persis seperti apa individu tertentu berdasarkan suara mereka sendiri. Jaringan saraf mengenali penanda tertentu dalam pembicaraan yang menunjuk pada jenis kelamin, usia dan etnis, fitur yang dimiliki oleh banyak orang, penulis studi melaporkan.

"Dengan demikian, model itu hanya akan menghasilkan wajah yang tampak rata-rata," tulis para ilmuwan. "Itu tidak akan menghasilkan gambar individu tertentu."

AI telah menunjukkan bahwa ia dapat menghasilkan wajah manusia yang sangat akurat, meskipun interpretasinya tentang kucing terus terang sedikit menakutkan.

Wajah-wajah yang dihasilkan oleh Speech2Face - semua menghadap ke depan dan dengan ekspresi netral - tidak persis cocok dengan orang-orang di belakang suara. Tetapi gambar itu biasanya menangkap rentang usia yang benar, etnis dan jenis kelamin individu, menurut penelitian.

Namun, interpretasi algoritma itu jauh dari sempurna. Speech2Face menunjukkan "kinerja campuran" ketika dihadapkan dengan variasi bahasa. Misalnya, ketika AI mendengarkan klip audio seorang pria Asia yang berbicara bahasa Cina, program tersebut menghasilkan gambar wajah orang Asia. Namun, ketika pria yang sama berbicara dalam bahasa Inggris dalam klip audio yang berbeda, AI menghasilkan wajah seorang pria kulit putih, para ilmuwan melaporkan.

Algoritme juga menunjukkan bias gender, mengaitkan suara bernada rendah dengan wajah laki-laki dan suara bernada tinggi dengan wajah perempuan. Dan karena set data pelatihan hanya mewakili video pendidikan dari YouTube, itu "tidak mewakili secara merata seluruh populasi dunia," tulis para peneliti.

Kekhawatiran lain tentang dataset video ini muncul ketika seseorang yang muncul di video YouTube terkejut mengetahui bahwa kemiripannya telah dimasukkan ke dalam penelitian, Slate melaporkan. Nick Sullivan, kepala kriptografi dengan perusahaan keamanan internet Cloudflare di San Francisco, tiba-tiba melihat wajahnya sebagai salah satu contoh yang digunakan untuk melatih Speech2Face (dan algoritma yang direproduksi agak kira-kira).

Sullivan tidak setuju untuk muncul dalam penelitian ini, tetapi video YouTube dalam set data ini secara luas dianggap tersedia bagi para peneliti untuk digunakan tanpa memperoleh izin tambahan, menurut Slate.

Pin
Send
Share
Send