본문 바로가기

음성인식2

Mini-batch sample selection strategies for deep learning based speech recognitio 논문 출처 : Y Dokuz, Z Tufekci - Applied Acoustics, 2021 - Elsevier1. 요약 RNN 은 순환 신경망이라고 부르며, 자연어 처리나 음성 인식처럼 순서가 있는 데이터를 처리하는데 강점이 있는 신경망이다. 앞 단계에 입력된 값에 대해 처리한 결과를 다음 단계에서 참조해 나가는 형태로 처리하며 이를 통해 입력된 순서에 따라 단계별로 출력을 발생시킨다. 그러나 이 단계가 길어지는 경우 맨 앞의 정보에 대해 맨 뒤에서 기억하지 못하는 한계가 발생하게 되는데 이러한 한계를 보완한 것이 LSTM 이다. 또한 음성 데이터를 입력 받았을 때 어디서부터 어디까지가 하나의 음소인지 각각 라벨링 처리를 진행해주지 않으면 인식률이 떨어지게 되기 때문에 라벨링을 진행해 줘야 하나 MF.. 2023. 5. 2.
딥러닝 기반 음성인식 논문출처 : 김지환 (2019), 딥러닝 기반 음성인식, 정보과학회지 37(2), 2019.2, 9-15 1. 요약 본 논문에서는 음성인식에 필요한 특징 파라미터 추출 방법 및 딥러닝을 이용한 음향모델 구현 방법에 대해서 기술하며, 알파고와의 비교분석을 통해서 음성인식 기술의 현 위치를 분석한다. 음성신호 저장 시 결정해야 하는 파라미터는 sampling rate 와 sample 당 바이트 수이다. sampling rate 는 단일 시간(1초) 당 sampling 횟수로써, 음성신호의 음질을 결정한다. Nyquist 이론에 따르면, 모든 신호는 그 신호에 포함된 가장 높은 진동수의 2배에 해당하는 빈도로 일정한 간격으로 샘플링 하면 원래의 신호를 완벽하게 기록할 수 있다. 사람의 가청 주파수 대역은 일번.. 2023. 5. 1.