본문 바로가기

LLM6

DistilBERT DistilBERT는 Hugging Face에서 개발한 경량화된 버전의 BERT(Bidirectional Encoder Representations from Transformers) 모델이다. BERT는 대규모 모델이기 때문에, 작은 디바이스나 컴퓨팅 자원이 한정된 환경에서는 사용하기 어려워 Hugging Face에서는 BERT 모델의 크기를 대폭 축소한 DistilBERT 모델을 개발하였다. DistilBERT의 개념 DistilBERT는 BERT 모델의 아키텍처를 유지하되, 불필요한 파라미터를 제거하고, 파라미터를 공유하여 모델 크기를 대폭 축소하였다. 이를 통해, BERT 모델의 성능을 대폭 저하시키지 않으면서도, 작은 디바이스에서도 사용할 수 있는 모델을 제공한다. DistilBERT의 구조 Di.. 2023. 3. 12.
Zero-shot learning Zero-shot learning의 개념 Zero-shot learning은 기존의 supervised learning과는 달리, 새로운 클래스에 대한 학습 데이터가 주어지지 않았을 때도 새로운 클래스를 인식하고 분류하는 능력을 가진 기계 학습 방식이다. 이를 통해 모델이 기존에 학습하지 않은 새로운 클래스에 대해 예측하는 능력을 가지게 된다. Zero-shot learning은 특히, 새로운 클래스가 계속해서 추가되는 동적인 환경에서 유용하게 사용될 수 있으며 이를 통해 새로운 데이터셋에 대한 학습을 반복할 필요 없이, 새로운 클래스를 인식하고 분류할 수 있다. Zero-shot learning의 구조 Zero-shot learning의 구조는 대부분의 기계 학습 모델과 유사하지만, Zero-shot .. 2023. 3. 11.
GPT-3 GPT-3 모델은 OpenAI에서 개발한 대규모 자연어 처리 모델이다. 이 모델은 Transformer 아키텍처를 기반으로 하며, 175억 개의 파라미터를 가진 모델로서, 이전 모델에 비해 더욱 복잡한 자연어 처리 태스크를 수행할 수 있다. GPT-3 모델의 구조 GPT-3 모델은 다양한 크기의 Transformer 블록으로 구성된다. 이 모델은 총 96개의 Transformer 블록을 가지며, 각 블록은 서로 다른 크기의 Multi-Head Attention 레이어와 Feed-Forward 레이어로 구성된다. 또한, 입력 데이터의 길이에 상관없이 유연하게 대응할 수 있는 Absolute Positional Encoding 기법을 사용하여 위치 정보를 인코딩한다. GPT-3 모델 구조를 간략하게 샘플로 .. 2023. 3. 10.
BERT 언어모델 BERT (Bidirectional Encoder Representations from Transformers)는 Transformer 아키텍처를 기반으로 한 양방향 언어 모델이다. 이 모델은 대규모의 텍스트 데이터로 사전 학습(pre-training)된 후, 다양한 자연어 처리 작업에서 미세 조정(fine-tuning)을 통해 사용된다. BERT 모델의 구조 BERT 모델은 Transformer의 인코더(Encoder)를 여러 개 쌓아 올린 구조로, 각 인코더는 다음과 같은 두 개의 서브 레이어(sub-layer)로 이루어져 있다. Self-Attention Layer Feed-Forward Layer Self-Attention Layer는 입력 문장의 각 단어에 대해 문맥을 파악하고, 문장 내에서 다.. 2023. 3. 4.
P-Tuning P-tuning(Prompt-tuning)은 다운스트림 태스크에 대해 좋은 성능을 낼 수 있는 연속적인 프롬프트를 학습하기 위한 방법으로, 모델에 대한 입력이 주어졌을 때, 이를 일련의 토큰으로 구성된 프롬프트와 연결하여 조건부 언어 모델을 만든다. 예를 들어, "Paris is the [MASK] of France" 라는 프롬프트가 주어졌을 때, 모델은 "capital"이라는 단어를 생성할 수 있다. P-tuning은 연속 프롬프트를 학습하여 일반적인 이산 프롬프트보다 더 나은 결과를 얻을 수 있는데, 이산 프롬프트 대신 각 프롬프트 토큰에 대해 훈련 가능한 연속 임베딩을 사용한다. 이를 통해 프롬프트가 더 유연해지며, 원래 언어 모델의 어휘를 넘어선 단어를 생성할 수 있다. P-tuning은 훈련 데.. 2023. 2. 22.
LSTM LSTM( Long Short-Term Memory )은 순환 신경망(recurrent neural network)의 일종으로, 시계열 데이터를 처리하는데 특화된 네트워크이다. 시계열 데이터는 각각의 입력이 시간에 따라 변화하는 데이터를 의미한다. 예를 들어, 주식 가격, 기온, 음성 데이터 등이 시계열 데이터에 속한다. LSTM은 이러한 데이터의 장기적인 의존성(long-term dependency)을 학습할 수 있도록 고안되었다. 기존의 순환 신경망에서는 일정 시간 이상의 의존성을 갖는 데이터를 처리하는 것이 어려운 경우가 있었다. 이에 비해 LSTM은 cell state라는 기억 상태를 사용하여 데이터의 장기적인 의존성을 기억할 수 있으며 이를 통해, 긴 시퀀스 데이터를 처리하는데 우수한 성능을 보.. 2023. 2. 21.