본문 바로가기

deeplearning13

Mini-batch sample selection strategies for deep learning based speech recognitio 논문 출처 : Y Dokuz, Z Tufekci - Applied Acoustics, 2021 - Elsevier1. 요약 RNN 은 순환 신경망이라고 부르며, 자연어 처리나 음성 인식처럼 순서가 있는 데이터를 처리하는데 강점이 있는 신경망이다. 앞 단계에 입력된 값에 대해 처리한 결과를 다음 단계에서 참조해 나가는 형태로 처리하며 이를 통해 입력된 순서에 따라 단계별로 출력을 발생시킨다. 그러나 이 단계가 길어지는 경우 맨 앞의 정보에 대해 맨 뒤에서 기억하지 못하는 한계가 발생하게 되는데 이러한 한계를 보완한 것이 LSTM 이다. 또한 음성 데이터를 입력 받았을 때 어디서부터 어디까지가 하나의 음소인지 각각 라벨링 처리를 진행해주지 않으면 인식률이 떨어지게 되기 때문에 라벨링을 진행해 줘야 하나 MF.. 2023. 5. 2.
딥러닝 기반 음성인식 논문출처 : 김지환 (2019), 딥러닝 기반 음성인식, 정보과학회지 37(2), 2019.2, 9-15 1. 요약 본 논문에서는 음성인식에 필요한 특징 파라미터 추출 방법 및 딥러닝을 이용한 음향모델 구현 방법에 대해서 기술하며, 알파고와의 비교분석을 통해서 음성인식 기술의 현 위치를 분석한다. 음성신호 저장 시 결정해야 하는 파라미터는 sampling rate 와 sample 당 바이트 수이다. sampling rate 는 단일 시간(1초) 당 sampling 횟수로써, 음성신호의 음질을 결정한다. Nyquist 이론에 따르면, 모든 신호는 그 신호에 포함된 가장 높은 진동수의 2배에 해당하는 빈도로 일정한 간격으로 샘플링 하면 원래의 신호를 완벽하게 기록할 수 있다. 사람의 가청 주파수 대역은 일번.. 2023. 5. 1.
CTRL CTRL(Conditional Transformer Language Model)은 Salesforce에서 개발한 언어 모델로, 특정 조건(Condition)에 따라 텍스트를 생성하는 데 특화된 모델이다. CTRL 모델은 기본적으로 Transformer 아키텍처를 사용한다. Transformer 아키텍처는 인코더-디코더 구조를 기반으로 하며, 입력 토큰을 임베딩한 후 여러 층의 트랜스포머 블록을 거쳐 출력 토큰을 생성한다. CTRL 모델은 Transformer 아키텍처를 확장하여, 조건(Condition)을 입력으로 받고, 해당 조건에 따라 텍스트를 생성할 수 있도록 하고 있다. CTRL 모델의 구체적인 구조는 다음과 같다. 1. 입력 임베딩 레이어 입력 토큰을 임베딩한 후, 조건 토큰과 함께 인코더-디코.. 2023. 3. 26.
DeBERTa DeBERTa(Decoding-enhanced BERT with Disentangled Attention)는 2020년에 발표된 언어 모델로, BERT 모델의 구조와 기능을 개선하여 자연어 처리 작업에서 높은 성능을 보이고 있다. 구조 DeBERTa 모델은 Transformer 아키텍처를 기반으로 한다. 이전의 BERT 모델과 달리, DeBERTa 모델은 다양한 디코딩 방법을 사용하여, 언어 모델의 성능을 향상시킨다. DeBERTa 모델은 Disentangled Attention, Relative Positional Encoding, 그리고 Stochastic Depth를 사용하여 성능을 개선한다. Disentangled Attention은 어텐션 메커니즘을 개선하여, 입력 문장의 다양한 관계를 파악하고.. 2023. 3. 25.
Electra Electra(Effective-Learning-based and Computationally-Efficient Language Representation Learning)는 2019년에 Google에서 발표한 언어 모델로, 기존의 언어 모델과는 다른 구조와 작동 원리를 가지고 있다. 구조 Electra 모델은 GAN(Generative Adversarial Network) 구조를 기반으로 한다. GAN은 생성자(Generator)와 판별자(Discriminator)로 구성되어 있으며, 생성자는 실제와 유사한 데이터를 생성하고, 판별자는 생성자가 생성한 데이터와 실제 데이터를 구분한다. Electra 모델은 이와 유사하게, 생성자와 판별자로 구성된다. 생성자는 입력 문장의 일부 단어를 마스킹하고, 해당 .. 2023. 3. 24.
XLM XLM(Extensible Language Model)은 Facebook AI Research(Facebook AI)에서 개발한 언어 모델이다. XLM은 다국어 학습 데이터를 이용하여 학습된 다국어 언어 모델로 Transformer 아키텍처에 기반하며, 다양한 언어의 텍스트를 이해하고 생성할 수 있다. XLM 모델은 BERT와 같은 pre-training 및 fine-tuning 접근 방식을 사용하지만, XLM 모델은 BERT와는 달리 다국어 pre-training과 fine-tuning을 모두 지원한다. 이를 통해 한 번의 학습으로 다양한 언어에 대한 일반화 성능을 높일 수 있다. XLM 모델은 입력 임베딩, Transformer 인코더 및 디코더 레이어, 그리고 출력 레이어로 구성된다. XLM 모델에.. 2023. 3. 17.