AI15 Deep residual learning for image recognition 논문 출처 : K. He, X. Zhang, S. Ren, J. Sun, Deep residual learning for image recognition, Proceedings of the IEEE conference on computer vision and pattern recognition (2016), pp. 770-778 딥러닝의 성능을 좌우하는 요소는 여러가지가 있다. 특히 통제 가능한 변수들을 하이퍼파라미터라고 하는데, 하이퍼파라미터의 최적값을 찾아가는 것이 딥러닝의 본질이기도 하다. 그러나 이러한 하이퍼파라미터를 조정하는 것 외에도, 신경망의 깊이 또한 딥러닝의 성능과 연관이 있다. 다만 한 가지 중요한 지점은 단순히 신경망의 깊이가 깊어진다고 해서 성능이 개선되지는 않는다는 것이다. 출처 .. 2023. 5. 3. DenseNet 앞서 살펴본 ResNet이 이전 layer 들의 feature 를 다음 layer 에 더해주는 방식이었다면, DenseNet은 전체 layer 를 모두 누적하여 쌓는 (concat) 방식이라고 할 수 있다. 출처 : Densely Connected Convolutional Networks DenseNet의 목적은 ResNet과 마찬가지로 기울기 소실 방지 및 파라미터의 수를 절약하여 연산 속도를 빠르게 하는 데 있다. DenseNet 에 활용되는 개념에는 아래와 같은 것이 있다. 1. Growth Rate DenseNet 또한 여러개의 feature 가 누적되는 개념이다 보니 channel 의 개수가 많은 경우 계속해서 channel 이 늘어날 수 있다. 따라서 DenseNet 에서는 각 layer fe.. 2023. 4. 30. CTRL CTRL(Conditional Transformer Language Model)은 Salesforce에서 개발한 언어 모델로, 특정 조건(Condition)에 따라 텍스트를 생성하는 데 특화된 모델이다. CTRL 모델은 기본적으로 Transformer 아키텍처를 사용한다. Transformer 아키텍처는 인코더-디코더 구조를 기반으로 하며, 입력 토큰을 임베딩한 후 여러 층의 트랜스포머 블록을 거쳐 출력 토큰을 생성한다. CTRL 모델은 Transformer 아키텍처를 확장하여, 조건(Condition)을 입력으로 받고, 해당 조건에 따라 텍스트를 생성할 수 있도록 하고 있다. CTRL 모델의 구체적인 구조는 다음과 같다. 1. 입력 임베딩 레이어 입력 토큰을 임베딩한 후, 조건 토큰과 함께 인코더-디코.. 2023. 3. 26. DeBERTa DeBERTa(Decoding-enhanced BERT with Disentangled Attention)는 2020년에 발표된 언어 모델로, BERT 모델의 구조와 기능을 개선하여 자연어 처리 작업에서 높은 성능을 보이고 있다. 구조 DeBERTa 모델은 Transformer 아키텍처를 기반으로 한다. 이전의 BERT 모델과 달리, DeBERTa 모델은 다양한 디코딩 방법을 사용하여, 언어 모델의 성능을 향상시킨다. DeBERTa 모델은 Disentangled Attention, Relative Positional Encoding, 그리고 Stochastic Depth를 사용하여 성능을 개선한다. Disentangled Attention은 어텐션 메커니즘을 개선하여, 입력 문장의 다양한 관계를 파악하고.. 2023. 3. 25. Electra Electra(Effective-Learning-based and Computationally-Efficient Language Representation Learning)는 2019년에 Google에서 발표한 언어 모델로, 기존의 언어 모델과는 다른 구조와 작동 원리를 가지고 있다. 구조 Electra 모델은 GAN(Generative Adversarial Network) 구조를 기반으로 한다. GAN은 생성자(Generator)와 판별자(Discriminator)로 구성되어 있으며, 생성자는 실제와 유사한 데이터를 생성하고, 판별자는 생성자가 생성한 데이터와 실제 데이터를 구분한다. Electra 모델은 이와 유사하게, 생성자와 판별자로 구성된다. 생성자는 입력 문장의 일부 단어를 마스킹하고, 해당 .. 2023. 3. 24. ALBERT ALBERT( A Lite BERT)는 구글에서 발표한 언어 모델로, BERT 모델의 파라미터 수를 대폭 줄이고 효율적인 학습을 가능하게 하는 기법을 사용한다. ALBERT은 더 작은 모델 크기와 더 높은 정확도를 동시에 달성하는 것을 목표로 하고 있다. ALBERT의 구조는 BERT 모델과 비슷하지만, 몇 가지 중요한 변경 사항이 있는데 아래와 같은 방법으로 파라미터 수를 줄이게 된다. 1. Parameter Sharing ALBERT에서는 입력 임베딩과 출력 임베딩의 차원 수를 줄이는 것이 첫 번째 단계이다. 이를 위해, ALBERT은 두 개의 임베딩 행렬을 공유하는데, 이는 BERT와 달리 입력과 출력의 차원이 다르기 때문이다. 이 방법으로 인해 ALBERT는 BERT보다 18배 더 작은 파라미터 .. 2023. 3. 19. 이전 1 2 3 다음