Kiến trúc vi mạch cho nhận dạng tiếng nói tiếng Việt thiết kế theo quy trình ASIC, trên nền công nghệ 130 nm TSMC
Từ khóa:
dãy cổng lập trình được (FPGA), hàm phân bố xác suất Gauss, hệ thống nhận dạng giọng nói tự động (ASR), mô hình Markov ẩn (HMM), trích đặc trưng thang tần số mel (MFCC)Tóm tắt
Nhận dạng tiếng nói đã được nghiên cứu từ hơn 60 năm qua. Những nỗ lực đầu tiên được thực hiện từ những năm 50 đến đầu những năm 70 của thế kỷ trước, hệ thống nhận dạng tiếng nói được thiết kế để nhận dạng phát âm rời rạc trong môi trường nhiễu thấp, chủ yếu là các hệ thống với bộ từ vựng nhỏ (10-100 từ), trong trường hợp người nói cũng là người huấn luyện. Ngày nay, các hệ thống nhận dạng với số từ vựng lớn được xây dựng trên nền tảng hệ thống máy tính với tốc độ xử lý cao. Khi mật độ tích hợp vi mạch tăng, việc tiếp cận ứng dụng nhận dạng trên phần cứng hay các thiết bị cầm tay trở nên khả thi. Trong nghiên cứu này, nhóm tác giả trình bày một kiến trúc vi mạch được thiết kế theo quy trình ASIC, trên nền công nghệ 130 nm TSMC, ứng dụng trong nhận dạng giọng nói tiếng Việt, để đáp ứng yêu cầu khắt khe về hiệu năng nhận dạng và tính thời gian thực trong các ứng dụng thực tế.Chỉ số phân loại
1.2
Tải xuống
Đã xuất bản
2015-10-25
Ngày nhận bài: 19/03/2015; ngày chuyển phản biện: 25/03/2015; ngày nhận phản biện: 21/04/2015; ngày chấp nhận đăng: 26/04/2015
Cách trích dẫn
Hoàng Trang*, Phạm Đăng Lâm, Trần Văn Hoàng. (2015). Kiến trúc vi mạch cho nhận dạng tiếng nói tiếng Việt thiết kế theo quy trình ASIC, trên nền công nghệ 130 nm TSMC. Bản B của Tạp Chí Khoa học Và Công nghệ Việt Nam, 57(10). Truy vấn từ https://b.vjst.vn/index.php/ban_b/article/view/689
Số
Lĩnh vực
Khoa học Tự nhiên