Người đam mê công nghệ dịch tiếng nói

Thứ ba, 25/08/2015

TS. Vũ Tất Thắng nghiên cứu viên của Viện Công nghệ thông tin, chủ nhân Giải thưởng KHKT Thanh niên Quả Cầu Vàng năm 2012


Đó là TS.Vũ Tất Thắng, nghiên cứu viên của Viện Công nghệ thông tin (Viện
Hàn lâm Khoa học và Công nghệ Việt
Nam), chủ nhân của Giải thưởng khoa học kỹ thuật thanh niên Quả cầu vàng năm 2012.


TS. Vũ Tất Thắng (đứng thứ 3 từ phải sang) chụp ảnh lưu niệm cùng bạn bè và đồng nghiệp
sau khi nhận giải thưởng Quả Cầu Vàng năm 2012 (Ảnh ST)

Hệ thống dịch tiếng nói hai chiều Việt - Anh, Anh - Việt

Công nghệ dịch tiếng nói cho phép con người dù sử dụng các ngôn ngữ khác nhau vẫn có thể giao tiếp được với nhau. Vì vậy nó là mong ước từ lâu của con người, có ý nghĩa rất lớn cả về mặt khoa học, giao lưu văn hóa, trao đổi thương mại... Theo TS.Thắng, Bộ Quốc phòng Mỹ phải bỏ ra hàng triệu đô la để xây dựng hệ thống dịch tiếng Anh với tiếng Ả Rập, nhằm trợ giúp cho các giao tiếp đơn giản của quân lính hay chuyên gia Mỹ với lính Iraq. Liên minh châu Âu cũng đã nỗ lực triển khai dự án C-STAR của liên minh châu Âu nhằm xóa bỏ rào cản ngôn ngữ của các nước trong khối.

Ở Việt Nam, các vấn đề cơ bản như nhận dạng tiếng nói, tổng hợp tiếng nói tiếng Việt mới chỉ được bắt đầu nghiên cứu từ những năm 2001-2002 bởi các nhà khoa học ở Viện Công nghệ Thông tin (Viện Khoa học và công nghệ Việt Nam). Theo đà phát triển của công nghệ trên thế giới, việc TS.Thắng và các cộng sự tiếp tục nghiên cứu phát triển trên nền tảng đã có lên mức một hệ thống dịch tiếng nói giữa tiếng Việt và các ngôn ngữ khác (đặc biệt là tiếng Anh) cũng là dễ hiểu. TS.Thắng bắt đầu định hướng nghiên cứu này từ những năm 2008, tuy có chậm hơn so với các nước châu Âu, châu Mỹ nhưng cũng đã nhanh chóng hội nhập được xét về mặt công nghệ cốt lõi.

Khi đó, Vũ Tất Thắng vừa bảo vệ thành công luận án tiến sỹ chuyên ngành khoa học máy tính tại Viện Khoa học và công nghệ tiên tiến Nhật Bản. Và trong hơn 2 năm làm việc ở xứ sở hoa anh đào, TS.Thắng đầu quân, làm việc tại Viện Nghiên cứu viễn thông tiên tiến quốc tế (ATR) của Tập đoàn NTT-Docomo và Viện Công nghệ thông tin và truyền thông quốc gia Nhật Bản (NICT), những nơi được Chính phủ Nhật Bản đầu tư rất nhiều tiền để nghiên cứu, thử nghiệm công nghệ dịch tiếng nói tự động. Tại đó, TS.Thắng đảm nhận việc nghiên cứu, xử lý dữ liệu dịch cho cặp ngôn ngữ Việt - Nhật. Trong quá trình nghiên cứu, TS.Thắng nhận thấy và luôn trăn trở về việc tiếng mẹ đẻ vẫn chỉ là ngôn ngữ được quan tâm thứ yếu và tự nhủ với bản thân, bằng năng lực của chính mình, sẽ cố gắng làm được một việc gì đó có ích cho tiếng Việt, góp phần đưa tiếng Việt ra thế giới. Thế nên, khi đã "nạp" được nền tảng cơ bản, phương pháp nghiên cứu về công nghệ dịch tiếng nói, TS.Thắng quyết định rời Nhật Bản mang theo khát khao sáng chế ra phần mềm thông minh ứng dụng trong xã hội, phục vụ người Việt Nam.

Trở về Việt Nam, TS.Thắng đầu quân tại Viện Công nghệ thông tin và tập hợp quanh mình nhiều bạn trẻ cùng chí hướng, lập nên nhóm iSolar chuyên nghiên cứu và phát triển giải pháp, ứng dụng trong công nghệ xử lý tiếng nói và xử lý văn bản, chọn tiếng Việt làm ngôn ngữ trung tâm. Theo TS.Thắng, công nghệ dịch tiếng nói của nhóm iSolar xây dựng dựa trên ba nền tảng công nghệ: (1) nhận dạng tiếng nói (speech-to-text)+ (2) là dịch sang ngôn ngữ đích (text-to-text) + (3) tổng hợp tiếng nói (text-to-speech).

TS. Vũ Tất Thắng (ngoài cùng bên trái) tại lễ ra mắt nhóm iSolar (Ảnh ST)

Sau vài năm nghiên cứu, TS.Thắng và các đồng nghiệp giới thiệu và công bố nhiều phần mềm hữu ích, ứng dụng vào đời sống như: hệ thống biến báo điện tử thành báo nói, nhằm nghe bản tin bằng tiếng nói một cách tự động từ các bài viết trên internet; phần mềm hỗ trợ người khiếm thị khi tương tác với máy tính bằng tiếng Việt; phần mềm dịch tiếng nói hai chiều Anh - Việt, Việt - Anh trên hệ điều hành Android; phần mềm nhận dạng tiếng Việt và điều khiển điện thoại di động... Trong đó, hệ thống dịch tiếng nói hai chiều Việt - Anh, Anh - Việt chính là ứng dụng công nghệ dịch tiếng nói, tập trung cho một cặp ngôn ngữ cụ thể. "Vấn đề lớn nhất với chúng tôi chính là cần thiết phải có những cơ sở dữ liệu thật lớn. Mô hình thống kê là hạt nhân của các hệ thống học máy, và nó đòi hỏi phải thật nhiều những dữ liệu huấn luyện. Việc phát triển các cơ sở dữ liệu này đòi hỏi rất nhiều chi phí, dữ liệu thu được phải lớn và phải được cập nhật thường xuyên với những dữ liệu của người dùng thực tế", TS.Thắng cho biết.

Gần đây nhất, nhóm iSolar tiếp tục giới thiệu phiên bản thử nghiệm phần mềm dịch tiếng nói hai chiều Việt - Anh, Anh - Việt trên hệ điều hành iOS và Android. Theo TS.Thắng, phần mềm dịch tự động được tích hợp và huấn luyện dựa trên 320.000 cặp câu song ngữ Anh - Việt, Việt - Anh dùng trong lĩnh vực du lịch. Khi được cài đặt vào thiết bị cầm tay chạy hệ điều hành iOS như điện thoại iPhone, các thiết bị iPad, iPod, điện thoại smartphone chạy hệ điều hành Android... người sử dụng chỉ cần nói vào thiết bị, phần mềm sẽ tự động nhận dạng dưới dạng văn bản, chuyển ngữ sang văn bản tiếng Anh, và kết quả dịch mỗi câu nói từ tiếng Việt sang tiếng Anh ở dạng âm thanh hoặc theo chiều ngược lại chỉ mất thời gian từ 1 - 2 giây. Hiện tại, phần mềm dịch tiếng nói hai chiều Việt - Anh, Anh - Việt này đang được nhóm nghiên cứu cho chạy thử nghiệm và khắc phục các khiếm khuyết. Khi đưa vào sử dụng, phần mềm sẽ giúp cho khách nước ngoài đến du lịch tại Việt Nam dễ dàng vượt qua rào cản ngôn ngữ, có thể giao tiếp dễ dàng với người dân Việt Nam bởi phần mềm được thu âm với gần 500 giọng nói khác nhau đại diện cho các miền Bắc, Trung, Nam.

Với mục đích san lấp rào cản ngôn ngữ khi giao tiếp, sản phẩm phần mềm dịch nói hai chiều cho phép hai người dùng thuộc hai quốc gia khác nhau có thể nói chuyện với nhau bằng ngôn ngữ riêng của mỗi người thông qua thiết bị di động thông minh. Sản phẩm này của nhóm iSolar đã được xã hội ghi nhận bằng Giải vàng Công nghệ Techmart 2012.


TS. Vũ Tất Thắng (ngoài cùng bên phải) giới thiệu công nghệ dịch tiếng nói
với Phó Thủ tướng Nguyễn Thiện Nhân (Ảnh ST)

Trước đó, hệ thống dịch tiếng nói hai chiều Viêt - Anh, Anh - Việt cũng đã được giới thiệu với bạn bè quốc tế tại thế vận hội Olympic London 2012. Tại thế vận hội vừa qua, phần mềm của TS.Thắng và các cộng sự đã được Cộng đồng dịch tự động U-STAR (do Viện Công nghệ thông tin và truyền thông quốc gia Nhật Bản - NICT khởi xướng từ năm 2008, hiện đã có trên 20 quốc gia thành viên) cài đặt vào thiết bị di động dịch tự động giữa 23 ngôn ngữ khác nhau, giúp du khách, cổ động viên đến từ nhiều quốc gia dễ dàng giao tiếp với người dân bản địa, hỏi đường và tìm kiếm thông tin du lịch. Theo thống kê của U-STAR, tiếng Việt luôn nằm trong nhóm ngôn ngữ có tần suất sử dụng nhiều trong suốt thời gian diễn ra thế vận hội và cả thời gian sau đó. Sau thành công tại thế vận hội London, nhiều đơn vị nghiên cứu tại Nhật Bản, Mỹ đã liên hệ thường xuyên với nhóm iSolar trong vai trò đối tác xử lý và đưa dữ liệu tiếng Việt vào công cụ dịch tự động hay các sản phẩm công nghệ đa ngôn ngữ họ nghiên cứu, ứng dụng. Bằng cách này, Thắng và các đồng nghiệp đang góp phần tích cực quảng bá và đưa tiếng Việt vào các sản phẩm công nghệ đa ngôn ngữ lưu hành trên toàn cầu.

Bằng nghiên cứu của mình, TS.Thắng và các đồng nghiệp đang góp phần tích cực quảng bá và đưa tiếng Việt vào các sản phẩm công nghệ đa ngôn ngữ lưu hành trên toàn cầu.

"Hô biến" báo điện tử thành báo nói

TS.Thắng còn được biết đến với tư cách là tác giả chính của hệ thống tổng hợp tiếng nói tiếng Việt: VieTalk. Đây được coi là một trong những mốc son trên con đường nghiên cứu khoa học và sáng tạo vì cộng đồng của nhà khoa học trẻ đất Hà thành, sinh năm 1979 này.

Theo TS.Thắng, hệ thống tổng hợp tiếng nói tiếng Việt: VieTalk là dựa trên công nghệ số (3) trong số các công nghệ nền tảng của iSolar, được nhắc đến ở phần trên. TS.Thắng đã tiến hành tích hợp các hệ điều hành Windows trong đề tài "Phát triển Engine tổng hợp tiếng Việt tích hợp vào phần mềm đọc màn hình cho người khiếm thị". Hiện có khá nhiều các phần mềm dạng này trên thị trường, và ở Việt Nam thì JAWS là một phần mềm được dùng phổ biến nhất. TS.Thắng đã tích hợp thêm cho phần mềm này khả năng đọc/nói được tiếng Việt cho người dùng, giúp người khiếm thính có thêm một phương tiện đắc lực để "nhìn" thế giới.

TS.Thắng và các cộng sự cũng đã xây dựng thành công hệ thống biến báo điện tử thành báo nói ViNAS. Đây là tiện ích giúp cho người dùng có thể "nghe" báo điện tử trên máy tính PC hoặc các thiết bị di động ngay sau khi bài báo được đăng trên các trang tin tức tiếng Việt phổ cập hiện nay như dantri, vnexpress, vietnamnet.... Theo đánh giá của người sử dụng, ứng dụng ViNAS rất phù hợp với nhu cầu nghe tin tức trên các thiết bị di động cỡ nhỏ, khi thao tác để duyệt và đọc trang tin tức gặp nhiều trở ngại. Hệ thống biến báo điện tử thành báo nói ViNAS sau đó đã "ẵm" giải thưởng Nhân Tài Đất Việt 2012.

Bình tĩnh giải quyết, rồi thì sẽ ổn cả

Vũ Tất Thắng đến với công nghệ thông tin, cụ thể hơn là với công nghệ dịch tiếng nói như là một sự tình cờ. Hồi còn học phổ thông, Thắng là dân chuyên Toán, từng đạt giải ba Olympic Toán học quốc gia, lên đại học thì chọn điện tử viễn thông, "rinh" được giải nhì Olympic chuyên Tin học sinh viên quốc gia. Năm 2000, Thắng là sinh viên khoa Điện tử viễn thông - ĐH Bách khoa Hà Nội, tập tành nghiên cứu khoa học theo "tiếng gọi" của phong trào "sinh viên nghiên cứu khoa học". Nhóm của Vũ Tất Thắng đã tìm ra một chủ đề rất hay, ý tưởng liên quan tới các nghiên cứu xử lý, nhận dạng tiếng nói và dịch ra dạng thức ngôn ngữ khác nhau.

Khởi đầu bằng đề tài khoa học cấp trường, Thắng như bị dẫn dụ đi theo con đường nghiên cứu công nghệ xử lý ngôn ngữ. Niềm đam mê nghiên cứu và tự trọng nghề nghiệp khiến Thắng không chịu đầu hàng, bỏ cuộc trước rất nhiều vấn đề nảy sinh trong nghiên cứu. Chinh phục hết khó khăn này đến thử thách khác, Thắng khám phá công nghệ xử lý ngôn ngữ là lĩnh vực ẩn chứa nhiều điều thú vị, thêm nữa môi trường ứng dụng công nghệ này còn rộng lớn và đặc biệt cần thiết cho cuộc sống con người.

Những thành quả có được ngày hôm nay của TS.Thắng là rất đáng trân trọng với một nhà khoa học năm nay mới ngoài 30 tuổi. Đằng sau những thành công đó chắc chắn là bao nhiêu những giọt mồ hôi, bao nhiêu những khó khăn thách thức. Và điều gì đã giúp nhà khoa học trẻ tuổi này gặt hái được những thành công đó? "Cứ bình tĩnh, dần dần giải quyết từng phần, thì rồi mọi thứ sẽ ổn cả", TS.Thắng nói về bí kíp vượt khó trong nghiên cứu khoa học, cụ thể hơn là lĩnh vực tương đối mới và khó như công nghệ xử lý ngôn ngữ. Nhưng, theo TS.Thắng, nếu không có một niềm say mê cháy bỏng, một khát khao cống hiến, chắc chắn, khi đụng phải khó khăn, nhất là những lúc thất bại trong các thực nghiệm, rồi anh sẽ có lúc không có đủ tự tin, kiên nhẫn để bước tiếp. "Phải sống chết với mơ ước của mình, cháy hết mình với niềm đam mê bạn mới có thể đi đến thành công. Sự thành công trong nghiên cứu khoa học sẽ không tìm đến với những người hời hợt với công việc mình đã lựa chọn", TS.Thắng chia sẻ.

Sẽ có thêm nhiều phát minh có tính thực tiễn cao

"Có thật nhiều thành quả, phát minh khoa học và gắn được với nhu cầu thực tiễn của xã hội". Những dòng chữ ngắn ngủi TS. Vũ Tất Thắng viết tại mục "ước mơ đạt được trong cuộc sống/sự nghiệp" trong hồ sơ tham dự Giải thưởng Khoa học kỹ thuật thanh niên Quả cầu vàng năm 2012.

Những thành quả, phát minh trong tương lai, theo TS.Thắng sẽ tiếp tục liên quan đến công nghệ xử lí tiếng nói và xử lí ngôn ngữ tự nhiên mà anh đang đeo đuổi bằng một niềm đam mê lớn. TS.Thắng nói rằng, để đạt được độ chính xác ngày một cao hơn, công nghệ dịch tiếng nói đang và sẽ luôn là một vấn đề thách thức cho các nhà nghiên cứu. Để gọi là nghiên cứu thành công, hay triển khai được cho ứng dụng thực tế, thì nó mới dừng được ở mức "dịch có định hướng lĩnh vực". Nghĩa là, TS.Thắng và các cộng sự đang phải cố gắng để từng bước làm gia tăng độ chính xác của chất lượng hệ thống.

Hiện nay, TS.Thắng và các cộng sự đang bắt tay chinh phục một thách thức mới: hợp tác với Công ty FPT trong việc tích hợp công nghệ tiếng nói và chuẩn bị ra mắt Robot FPT có nhiều tính năng, đặc biệt là khả năng tương tác, điều khiển bằng tiếng Việt.

TS.Thắng cũng đang nỗ lực trong việc phát triển các hệ thống tích hợp trên các tổng đài viễn thông để có khả năng cung cấp các dịch vụ tương tác tự động bằng tiếng nói với khách hàng. "Nhúng" vào các thiết bị Smartphone để người dùng có thể đọc SMS, đọc sách điện tử, thay vì phải căng mắt nhìn một màn hình quá bé.

"Phát triển ứng dụng mà từ một máy tính, điện thoại di động, hay website, người dùng gõ text để gửi Voice SMS tới một hoặc vài thuê bao di động khác, thay vì SMS dạng text thông thường cũng điều mà chúng tôi ấp ủ và đang cố gắng triển khai nghiên cứu", TS.Thắng bật mí.

Một ngày không xa, những ý tưởng nêu trên sẽ trở thành hiện thực. TS.Thắng và các cộng sự có một niềm tin rất lớn về những "dự án" nghiên cứu của mình.

Và, với niềm đam mê lớn, một mơ ước cháy bỏng về những sản phẩm trí tuệ có tính thực tiễn cao, chắc chắn, vị tiến sỹ trẻ tuổi này sẽ còn gặp hái thêm nhiều thành công trên con đường nghiên cứu khoa học, sẽ có thêm nhiều phần mềm, nhiều sản phẩm được áp dụng rộng rãi trong đời sống, đem lại nhiều lợi ích cho xã hội.

 Hải Linh (Theo Hương Thu - Gương tài năng trẻ KHCN tiêu biểu)


Bình luận


Tiêu điểm

Video nổi bật

×