WellSaid Labs là một công ty khởi nghiệp có trụ sở tại Seattle chuyên cung cấp tiếng nói AI cho khách hàng. Họ mô tả tám diễn viên lồng tiếng kỹ thuật số mới của mình là Tobin “tràn đầy năng lượng và sâu sắc”, Paige “đĩnh đạc và biểu cảm”, Ava “thanh nhã, tự tin và chuyên nghiệp.”
Dĩ nhiên, mỗi nhân vật này đều dựa trên một diễn viên lồng tiếng thực sự mà cách nói chuyện và giọng điệu của họ đã được bảo tồn trên AI. Các khách hàng giờ đây chỉ cần đưa một văn bản bất kì vào công cụ giọng nói và sẽ thu được clip âm thanh sắc nét, đậm chất tự nhiên.
Một loạt công ty khởi nghiệp khác cũng đang tạo tiếng nói tự nhiên cho những trợ lý ảo (chatbot), tổng đài chăm sóc khách hàng (call centre), bài giảng điện tử (e-learning), sách nói (audiobook) và thậm chí là nhân vật trong trò chơi điện tử của mình.
Cách đây không lâu, những giọng nói AI giống người như vậy đã mang tiếng xấu vì một số người dùng chúng để giả mạo cuộc gọi và lừa đảo trên Internet. Nhưng nhờ sự cải thiện chất lượng giọng nói AI, ngày càng nhiều công ty quan tâm đến ứng dụng thương mại của chúng. Giọng nói AI đã có thể tái tạo được những nét tinh tế trong lời nói của con người, từ những đoạn nhấn nhá, dừng lại lấy hơi, đến những cung bậc lên xuống hoặc phong cách nói chuyện.
Công nghệ đằng sau giọng nói
Giọng nói tổng hợp đã xuất hiện từ những năm 80, nhưng chúng chỉ thực sự bắt đầu giống người trong vòng 5 năm qua. Những giọng nói ban đầu của Siri, Alexa hoặc Deepmind chỉ đơn giản là dán các từ ngữ và âm thanh với nhau để đạt được hiệu ứng câu. Để giọng nói nghe có vẻ tự nhiên hơn, các kỹ sư cần làn rất nhiều nhiệm vụ thủ công công sức. Họ thậm chí thuê những chuyên gia ngôn ngữ để xác định cách mà ngôn ngữ đó được ghép lại với nhau, từ đó hướng dẫn cho máy học.
Tuy nhiên, công nghệ học sâu (deep learning) đã thay đổi tất cả. Giờ đây, các nhà phát triển giọng nói không cần phải ra lệnh điều chỉnh nhịp độ, cách phát âm hoặc ngữ điệu chính xác của bài nói. Thay vào đó, họ chỉ cần đưa một vài giờ ghi âm vào một thuật toán và để thuật toán đó tự học.
Các thuật toán đã “tự học” theo đúng nghĩa đen, nghĩa là chúng phát hiện ra những khuôn mẫu lặp lại trong dữ liệu đầu vào và tự tái tạo được những đặc điểm đó trong giọng nói của mình mà không cần ai can thiệp. Trên thực tế, công nghệ giọng nói AI là sự kết hợp của 3 kỹ năng khác nhau: nhận dạng giọng nói, xử lý ngôn ngữ tự nhiên và tạo giọng nói. Mỗi kỹ năng này đều đặt ra những thách thức rất lớn vì chúng gần như phải tạo lại trí thông minh ở cấp độ con người.
Con người vẫn có thể phát hiện ra những thủ thuật đó nếu AI nói quá lâu, nhưng trong những clip âm thanh ngắn, một số AI đã trở nên không thể phân biệt. Dĩ nhiên, việc học của AI cũng đồng nghĩa với việc nó sẽ lặp lại các mô hình tìm thấy trong dữ liệu cũ, bao gồm cả những thiên kiến và quyết định tồi tệ mà con người đã tạo ra.
Giọng nói riêng biệt
Giọng nói AI đã trở nên đặc biệt phổ biến khi các thương hiệu tìm cách tiết kiệm chi phí hoặc duy trì âm thanh nhất quán trong hàng triệu lượt tương tác với khách hàng. Vì loa thông minh và những dịch vụ khách hàng có thể truy cập từ trong ô tô, thiết bị thông minh, website, platform ngày càng trở nên phổ biến nên các thương hiệu sẽ có nhu cầu sản xuất hàng trăm giờ âm thanh mỗi tháng. Ước tính thị trường toàn cầu về công nghệ giọng nói sẽ đạt gần 185 tỷ USD trong năm nay.
Nhưng các hãng không còn muốn sử dụng giọng nói chung từ những công nghệ chuyển văn bản thành giọng nói truyền thống. “Nếu tôi là Pizza Hut, tôi chắc chắn không thể giống như Domino, và tôi chắc chắn không thể giống như Papa John. Những thương hiệu này đã nghĩ về màu sắc của họ, phông chữ của họ. Bây giờ họ cũng phải bắt đầu suy nghĩ về cách giọng nói của họ phát ra”, Giáo sư Rupal Patel tại Đại học Northeastern và là người sáng lập công ty khởi nghiệp VocaliD nhận xét.
Trong khi các công ty từng phải thuê diễn viên lồng tiếng khác nhau cho từng thị trường thì một số công ty AI đã có thể sửa đổi giọng vùng miền hoặc ngôn ngữ của một giọng nói theo nhiều cách khác nhau. Nó mở ra khả năng điều chỉnh quảng cáo trên những nền tảng phát trực tiếp. Chẳng hạn, một quảng cáo bia phát ở New York và Bắc Kinh có thể cùng nói một thông điệp với hai chất giọng khác nhau và nhắc người nghe dừng chân tại một quán bar cụ thể gần đó.
Resemble.ai, công ty thiết kế giọng nói cho quảng cáo và trợ lý thông minh ở Canada cho biết họ đang làm việc với khách hàng để tung ra các quảng cáo âm thanh được cá nhân hóa như vậy trên Spotify và Pandora.
Ngành công nghiệp trò chơi và giải trí cũng đang nhìn thấy những lợi ích từ giọng nói AI. Sonantic là một công ty ở Anh chuyên về giọng nói cảm xúc (cười, khóc, thì thầm, la hét..) hiện đang làm việc với các nhà sản xuất trò chơi điện tử và hãng phim hoạt hình để cung cấp giọng nói cho nhân vật của họ.
Nhiều khách hàng của startup này mới chỉ sử dụng giọng nói tổng hợp trong khâu tiền sản xuất và chuyển sang dùng diễn viên lồng tiếng thực sự cho sản phẩm cuối cùng, nhưng Sonantic cho biết một vài người đã bắt đầu sử dụng giọng nói AI với những nhân vật ít lời thoại hơn trong suốt quá trình. Sonantic cùng một số startup tương tự đang làm việc với các chương trình TV và phim ảnh để vá lại cảnh diễn mà diễn viên bị cắt xén lời thoại hoặc phát âm sai.
Còn ở Mỹ, dự án nổi tiếng của Microsoft mang tên HereAfter đang hướng tới việc lưu giữ ký ức của những người thân yêu bằng cách tạo ra các phiên bản giọng nói số của những người đã mất, những người quen, người nổi tiếng hoặc một nhân vật lịch sử để chúng ta có thể trò chuyện và tương tác với họ như với một người bạn bên cạnh.
AI có thể đi bao xa
Nhưng hiện nay, giọng nói AI vẫn còn khó để duy trì cảm giác “thực” nếu nói trong khoảng thời gian dài, ví dụ như cho cả một quyển sách nói (audiobook) hoặc podcast. Chúng cũng chưa hiệu quả trong những tình huống đòi hỏi sự ứng biến giống như cách mà một diễn viên có thể nghe theo chỉ đạo của đạo diễn để thay đổi cung bậc cảm xúc giọng nói khi diễn những cảnh khác nhau.
Zohaib Ahmed, người sáng lập của Resemble.ai, nhận xét rằng: “Chúng ta vẫn đang trong những ngày đầu của giọng nói tổng hợp”. Để so sánh, anh ví nó như công nghệ mô phỏng hình ảnh bằng máy tính (CGI) thời đầu - chỉ có thể sơn sửa những thứ nho nhỏ xung quanh và chưa tạo cảm giác ăn khớp. Giờ đây, CGI đã đạt đến mức có thể tạo ra một thế giới hoàn toàn mới chỉ từ tấm phông xanh.
Sự thay đổi của công nghệ có thể diễn ra trong nhiều năm. Nói cách khác, các diễn viên lồng tiếng con người vẫn chưa biến mất. Họ vẫn cần trong những dự án dài, đầy tính biểu cảm và sáng tạo. Thêm vào đó, mỗi diễn viên lồng tiếng cũng cần cung cấp dữ liệu đào tạo ban đầu để tạo ra một giọng nói tổng hợp cho AI.
Nhưng nhiều diễn viên và nhân viên công ty đang lo lắng cho sinh kế của mình. Mặc dù giọng nói của AI không hoàn hảo nhưng nó đã bắt đầu được sử dụng ở những công việc đòi hỏi ít tinh tế hơn. Nếu con người không sợ bị AI tự động hóa, họ cũng sẽ lo lắng về việc không nhận được khoản bù đắp công bằng hoặc mất quyền kiểm soát giọng nói của mình khi các công ty sử dụng chúng và ảnh hưởng đến thương hiệu, danh tiếng cá nhân của họ.
Nhiều năm trước đó, Susan Bennett, giọng nói ban đầu của Siri cũng chia sẻ rằng cô đã bất ngờ khi nghe một người bạn nói về giọng nói của cô trong smartphone. Rõ ràng, Apple đã không đánh cắp giọng nói của Susan Bennett vì cô đã làm công việc lồng tiếng trong nhiều thập kỷ và để lại nhiều bản ghi âm kì lạ thúc đẩy sự phát triển của Siri. Bennett đã được trả tiền cho những bản ghi âm ban đầu, nhưng không được chi trả cho việc tiếp tục sử dụng giọng nói đó trên hàng triệu thiết bị Apple sau này.
Giờ đây, một số công ty đang tìm cách tiếp cận công bằng hơn khi tham gia vào ngành công nghiệp giọng nói. Một số hiện đang sử dụng mô hình chia sẻ lợi nhuận để trả tiền cho các diễn viên mỗi khi khách hàng được cấp phép sử dụng giọng nói tổng hợp của họ. Nhiều nghiệp đoàn cũng đang thúc đẩy luật pháp để bảo vệ con người khỏi các bản sao bất hợp pháp giọng nói đó.