본문 바로가기

AI15

XLM XLM(Extensible Language Model)은 Facebook AI Research(Facebook AI)에서 개발한 언어 모델이다. XLM은 다국어 학습 데이터를 이용하여 학습된 다국어 언어 모델로 Transformer 아키텍처에 기반하며, 다양한 언어의 텍스트를 이해하고 생성할 수 있다. XLM 모델은 BERT와 같은 pre-training 및 fine-tuning 접근 방식을 사용하지만, XLM 모델은 BERT와는 달리 다국어 pre-training과 fine-tuning을 모두 지원한다. 이를 통해 한 번의 학습으로 다양한 언어에 대한 일반화 성능을 높일 수 있다. XLM 모델은 입력 임베딩, Transformer 인코더 및 디코더 레이어, 그리고 출력 레이어로 구성된다. XLM 모델에.. 2023. 3. 17.
RoBERTa RoBERTa는 Facebook AI Research(Facebook AI)에서 개발한 언어 모델로 Transformer 아키텍처에 기반하며, BERT 모델의 성능을 대폭 향상시켰다. RoBERTa 모델의 구조는 BERT 모델과 매우 유사하지만, RoBERTa는 BERT에서 사용된 pre-training 데이터셋에 대한 전처리를 다시 수행하여 모델 학습에 사용한다. 예를 들어, RoBERTa는 문장을 뒤섞는 방식 대신 문장을 연속적으로 나열하는 방식을 사용한다. 이를테면, "I like to eat apples"와 "Apples are my favorite fruit"라는 두 문장이 있을 경우, BERT는 "I like to eat apples" 다음에 "Apples are my favorite frui.. 2023. 3. 16.
Zero-shot learning Zero-shot learning의 개념 Zero-shot learning은 기존의 supervised learning과는 달리, 새로운 클래스에 대한 학습 데이터가 주어지지 않았을 때도 새로운 클래스를 인식하고 분류하는 능력을 가진 기계 학습 방식이다. 이를 통해 모델이 기존에 학습하지 않은 새로운 클래스에 대해 예측하는 능력을 가지게 된다. Zero-shot learning은 특히, 새로운 클래스가 계속해서 추가되는 동적인 환경에서 유용하게 사용될 수 있으며 이를 통해 새로운 데이터셋에 대한 학습을 반복할 필요 없이, 새로운 클래스를 인식하고 분류할 수 있다. Zero-shot learning의 구조 Zero-shot learning의 구조는 대부분의 기계 학습 모델과 유사하지만, Zero-shot .. 2023. 3. 11.
GPT-3 GPT-3 모델은 OpenAI에서 개발한 대규모 자연어 처리 모델이다. 이 모델은 Transformer 아키텍처를 기반으로 하며, 175억 개의 파라미터를 가진 모델로서, 이전 모델에 비해 더욱 복잡한 자연어 처리 태스크를 수행할 수 있다. GPT-3 모델의 구조 GPT-3 모델은 다양한 크기의 Transformer 블록으로 구성된다. 이 모델은 총 96개의 Transformer 블록을 가지며, 각 블록은 서로 다른 크기의 Multi-Head Attention 레이어와 Feed-Forward 레이어로 구성된다. 또한, 입력 데이터의 길이에 상관없이 유연하게 대응할 수 있는 Absolute Positional Encoding 기법을 사용하여 위치 정보를 인코딩한다. GPT-3 모델 구조를 간략하게 샘플로 .. 2023. 3. 10.
ChatGPT 에 대한 단상 이번 주 일주일은 열일 제쳐두고 ChatGPT 를 만지작 거리며 시간을 보냈다. ChatGPT 에 대한 사람들의 관심은 대단해서, 단 5일만에 사용자 100만명이라는 역대 최단 기간 신기록을 갱신하며 세상을 놀라게 하고 있다. 직접 이것저것 테스트를 해보니 아이언맨의 자비스가 머지 않았다는 느낌이 들 정도로 놀라운 퍼포먼스를 만들어 내는 것도 사실이지만 한편으로는 아직 갈 길이 멀었다는, 아니 오히려 AI 의 한계가 명확해 보인다는 생각이 든다. 가끔 영재들이 나오는 프로그램을 보면 만 서너살의 어린 아이들이 무언가를 빠르게 외우고 답하는 모습을 보며 천재성을 보인다고 말하곤 하지만, 암기력과 사고력은 별개의 문제이다. ChatGPT 또한 인간의 기준으로 본다면 엄청나게 빠른 학습 속도를 보이지만 이것은.. 2023. 1. 16.
Metric Learning and Triplet Loss 1. Transfer Learning Transfer Learning 은 하나의 task 를 해결하기 위해 학습된 모델을 다른 task 해결을 위해 재사용 하는 것을 의미한다. 이는 사람이 새로운 지식을 습득하는 과정에서 기존에 습득한 지식들을 활용하는 것과 비슷한 개념이다. 참조 : https://towardsdatascience.com/a-comprehensive-hands-on-guide-to-transfer-learning-with-real-world-applications-in-deep-learning-212bf3b2f27a A Comprehensive Hands-on Guide to Transfer Learning with Real-World Applications in Deep Learnin.. 2021. 3. 28.