본문 바로가기

MachineLearning11

CTRL CTRL(Conditional Transformer Language Model)은 Salesforce에서 개발한 언어 모델로, 특정 조건(Condition)에 따라 텍스트를 생성하는 데 특화된 모델이다. CTRL 모델은 기본적으로 Transformer 아키텍처를 사용한다. Transformer 아키텍처는 인코더-디코더 구조를 기반으로 하며, 입력 토큰을 임베딩한 후 여러 층의 트랜스포머 블록을 거쳐 출력 토큰을 생성한다. CTRL 모델은 Transformer 아키텍처를 확장하여, 조건(Condition)을 입력으로 받고, 해당 조건에 따라 텍스트를 생성할 수 있도록 하고 있다. CTRL 모델의 구체적인 구조는 다음과 같다. 1. 입력 임베딩 레이어 입력 토큰을 임베딩한 후, 조건 토큰과 함께 인코더-디코.. 2023. 3. 26.
DeBERTa DeBERTa(Decoding-enhanced BERT with Disentangled Attention)는 2020년에 발표된 언어 모델로, BERT 모델의 구조와 기능을 개선하여 자연어 처리 작업에서 높은 성능을 보이고 있다. 구조 DeBERTa 모델은 Transformer 아키텍처를 기반으로 한다. 이전의 BERT 모델과 달리, DeBERTa 모델은 다양한 디코딩 방법을 사용하여, 언어 모델의 성능을 향상시킨다. DeBERTa 모델은 Disentangled Attention, Relative Positional Encoding, 그리고 Stochastic Depth를 사용하여 성능을 개선한다. Disentangled Attention은 어텐션 메커니즘을 개선하여, 입력 문장의 다양한 관계를 파악하고.. 2023. 3. 25.
Electra Electra(Effective-Learning-based and Computationally-Efficient Language Representation Learning)는 2019년에 Google에서 발표한 언어 모델로, 기존의 언어 모델과는 다른 구조와 작동 원리를 가지고 있다. 구조 Electra 모델은 GAN(Generative Adversarial Network) 구조를 기반으로 한다. GAN은 생성자(Generator)와 판별자(Discriminator)로 구성되어 있으며, 생성자는 실제와 유사한 데이터를 생성하고, 판별자는 생성자가 생성한 데이터와 실제 데이터를 구분한다. Electra 모델은 이와 유사하게, 생성자와 판별자로 구성된다. 생성자는 입력 문장의 일부 단어를 마스킹하고, 해당 .. 2023. 3. 24.
ALBERT ALBERT( A Lite BERT)는 구글에서 발표한 언어 모델로, BERT 모델의 파라미터 수를 대폭 줄이고 효율적인 학습을 가능하게 하는 기법을 사용한다. ALBERT은 더 작은 모델 크기와 더 높은 정확도를 동시에 달성하는 것을 목표로 하고 있다. ALBERT의 구조는 BERT 모델과 비슷하지만, 몇 가지 중요한 변경 사항이 있는데 아래와 같은 방법으로 파라미터 수를 줄이게 된다. 1. Parameter Sharing ALBERT에서는 입력 임베딩과 출력 임베딩의 차원 수를 줄이는 것이 첫 번째 단계이다. 이를 위해, ALBERT은 두 개의 임베딩 행렬을 공유하는데, 이는 BERT와 달리 입력과 출력의 차원이 다르기 때문이다. 이 방법으로 인해 ALBERT는 BERT보다 18배 더 작은 파라미터 .. 2023. 3. 19.
DistilBERT DistilBERT는 Hugging Face에서 개발한 경량화된 버전의 BERT(Bidirectional Encoder Representations from Transformers) 모델이다. BERT는 대규모 모델이기 때문에, 작은 디바이스나 컴퓨팅 자원이 한정된 환경에서는 사용하기 어려워 Hugging Face에서는 BERT 모델의 크기를 대폭 축소한 DistilBERT 모델을 개발하였다. DistilBERT의 개념 DistilBERT는 BERT 모델의 아키텍처를 유지하되, 불필요한 파라미터를 제거하고, 파라미터를 공유하여 모델 크기를 대폭 축소하였다. 이를 통해, BERT 모델의 성능을 대폭 저하시키지 않으면서도, 작은 디바이스에서도 사용할 수 있는 모델을 제공한다. DistilBERT의 구조 Di.. 2023. 3. 12.
Zero-shot learning Zero-shot learning의 개념 Zero-shot learning은 기존의 supervised learning과는 달리, 새로운 클래스에 대한 학습 데이터가 주어지지 않았을 때도 새로운 클래스를 인식하고 분류하는 능력을 가진 기계 학습 방식이다. 이를 통해 모델이 기존에 학습하지 않은 새로운 클래스에 대해 예측하는 능력을 가지게 된다. Zero-shot learning은 특히, 새로운 클래스가 계속해서 추가되는 동적인 환경에서 유용하게 사용될 수 있으며 이를 통해 새로운 데이터셋에 대한 학습을 반복할 필요 없이, 새로운 클래스를 인식하고 분류할 수 있다. Zero-shot learning의 구조 Zero-shot learning의 구조는 대부분의 기계 학습 모델과 유사하지만, Zero-shot .. 2023. 3. 11.