본문 바로가기

음성인식3

LibriSpeech 기반 ResNet, DenseNet, 그리고 앙상블 모델 개발기 서론: 음성 데이터를 활용한 딥러닝 프로젝트 이 프로젝트는 지난 2021년에 진행한 프로젝트이다. 당시 대학원 졸업 논문 주제를 고민하다가 LibriSpeech 데이터셋을 사용하여 음성 데이터를 기반으로 하는 ResNet, DenseNet 모델을 학습시키고, 이를 앙상블하여 성능을 향상하는 프로젝트를 진행하기로 결정했다.이번 포스팅에서는 (매우 늦은 감이 있지만) 당시 프로젝트를 진행하며 겪은 다양한 오류와 해결 과정을 정리하고자 한다. 딥러닝 기반 음성 인식 모델을 구현하는 과정에서 발생하는 문제들을 어떻게 해결했는지 공유하기 위함이다.1. LibriSpeech 데이터셋과 전처리 과정1.1 LibriSpeech 데이터셋LibriSpeech는 읽기 음성 데이터를 포함한 대규모 ASR(Auto Speech.. 2025. 1. 30.

Mini-batch sample selection strategies for deep learning based speech recognitio 논문 출처 : Y Dokuz, Z Tufekci - Applied Acoustics, 2021 - Elsevier1. 요약 RNN 은 순환 신경망이라고 부르며, 자연어 처리나 음성 인식처럼 순서가 있는 데이터를 처리하는데 강점이 있는 신경망이다. 앞 단계에 입력된 값에 대해 처리한 결과를 다음 단계에서 참조해 나가는 형태로 처리하며 이를 통해 입력된 순서에 따라 단계별로 출력을 발생시킨다. 그러나 이 단계가 길어지는 경우 맨 앞의 정보에 대해 맨 뒤에서 기억하지 못하는 한계가 발생하게 되는데 이러한 한계를 보완한 것이 LSTM 이다. 또한 음성 데이터를 입력 받았을 때 어디서부터 어디까지가 하나의 음소인지 각각 라벨링 처리를 진행해주지 않으면 인식률이 떨어지게 되기 때문에 라벨링을 진행해 줘야 하나 MF.. 2023. 5. 2.

딥러닝 기반 음성인식 논문출처 : 김지환 (2019), 딥러닝 기반 음성인식, 정보과학회지 37(2), 2019.2, 9-15 1. 요약 본 논문에서는 음성인식에 필요한 특징 파라미터 추출 방법 및 딥러닝을 이용한 음향모델 구현 방법에 대해서 기술하며, 알파고와의 비교분석을 통해서 음성인식 기술의 현 위치를 분석한다. 음성신호 저장 시 결정해야 하는 파라미터는 sampling rate 와 sample 당 바이트 수이다. sampling rate 는 단일 시간(1초) 당 sampling 횟수로써, 음성신호의 음질을 결정한다. Nyquist 이론에 따르면, 모든 신호는 그 신호에 포함된 가장 높은 진동수의 2배에 해당하는 빈도로 일정한 간격으로 샘플링 하면 원래의 신호를 완벽하게 기록할 수 있다. 사람의 가청 주파수 대역은 일번.. 2023. 5. 1.

이전 1 다음

티스토리툴바