언어모델9 Zero-shot learning Zero-shot learning의 개념 Zero-shot learning은 기존의 supervised learning과는 달리, 새로운 클래스에 대한 학습 데이터가 주어지지 않았을 때도 새로운 클래스를 인식하고 분류하는 능력을 가진 기계 학습 방식이다. 이를 통해 모델이 기존에 학습하지 않은 새로운 클래스에 대해 예측하는 능력을 가지게 된다. Zero-shot learning은 특히, 새로운 클래스가 계속해서 추가되는 동적인 환경에서 유용하게 사용될 수 있으며 이를 통해 새로운 데이터셋에 대한 학습을 반복할 필요 없이, 새로운 클래스를 인식하고 분류할 수 있다. Zero-shot learning의 구조 Zero-shot learning의 구조는 대부분의 기계 학습 모델과 유사하지만, Zero-shot .. 2023. 3. 11. GPT-3 GPT-3 모델은 OpenAI에서 개발한 대규모 자연어 처리 모델이다. 이 모델은 Transformer 아키텍처를 기반으로 하며, 175억 개의 파라미터를 가진 모델로서, 이전 모델에 비해 더욱 복잡한 자연어 처리 태스크를 수행할 수 있다. GPT-3 모델의 구조 GPT-3 모델은 다양한 크기의 Transformer 블록으로 구성된다. 이 모델은 총 96개의 Transformer 블록을 가지며, 각 블록은 서로 다른 크기의 Multi-Head Attention 레이어와 Feed-Forward 레이어로 구성된다. 또한, 입력 데이터의 길이에 상관없이 유연하게 대응할 수 있는 Absolute Positional Encoding 기법을 사용하여 위치 정보를 인코딩한다. GPT-3 모델 구조를 간략하게 샘플로 .. 2023. 3. 10. BERT 언어모델 BERT (Bidirectional Encoder Representations from Transformers)는 Transformer 아키텍처를 기반으로 한 양방향 언어 모델이다. 이 모델은 대규모의 텍스트 데이터로 사전 학습(pre-training)된 후, 다양한 자연어 처리 작업에서 미세 조정(fine-tuning)을 통해 사용된다. BERT 모델의 구조 BERT 모델은 Transformer의 인코더(Encoder)를 여러 개 쌓아 올린 구조로, 각 인코더는 다음과 같은 두 개의 서브 레이어(sub-layer)로 이루어져 있다. Self-Attention Layer Feed-Forward Layer Self-Attention Layer는 입력 문장의 각 단어에 대해 문맥을 파악하고, 문장 내에서 다.. 2023. 3. 4. 이전 1 2 다음