본문 바로가기

Dev34

DenseNet 앞서 살펴본 ResNet이 이전 layer 들의 feature 를 다음 layer 에 더해주는 방식이었다면, DenseNet은 전체 layer 를 모두 누적하여 쌓는 (concat) 방식이라고 할 수 있다. 출처 : Densely Connected Convolutional Networks DenseNet의 목적은 ResNet과 마찬가지로 기울기 소실 방지 및 파라미터의 수를 절약하여 연산 속도를 빠르게 하는 데 있다. DenseNet 에 활용되는 개념에는 아래와 같은 것이 있다. 1. Growth Rate DenseNet 또한 여러개의 feature 가 누적되는 개념이다 보니 channel 의 개수가 많은 경우 계속해서 channel 이 늘어날 수 있다. 따라서 DenseNet 에서는 각 layer fe.. 2023. 4. 30.
[maven] This build requires at least…, update your JVM, and run the build again 메이븐 프로젝트를 빌드 하다보면 아래와 같은 오류가 발생할 때가 있다.보통 이런 경우 메이븐에 설정된 자바 jdk 버전과 내 개발환경의 jdk 버전이 맞지 않는 것이 원인일 가능성이 높다. 이 경우 아래의 명령어를 통해 내가 원하는 jdk 버전으로 설정한 뒤 다시 빌드해보면 정상적으로 빌드가 완료된다. (나의 경우에는 jdk 17 버전으로 변경하였다.) export JAVA_HOME=$(/usr/libexec/java_home -v 17) 2023. 4. 24.
[Node.js] Error: listen EADDRINUSE: address already in use 127.0.0.1:8080 Node.js 서버를 실행했을 때, Error: listen EADDRINUSE: address already in use 127.0.0.1:8080 에러가 발생하는 경우가 있다. 이 경우 실행한 포트를 이미 다른 서비스가 점유하고 있을 가능성이 높다. Error: listen EADDRINUSE: address already in use 127.0.0.1:8080 at Server.setupListenHandle [as _listen2] (net.js:1320:16) at listenInCluster (net.js:1368:12) at doListen (net.js:1505:7) at processTicksAndRejections (internal/process/task_queues.js:83:21) .. 2023. 4. 23.
CTRL CTRL(Conditional Transformer Language Model)은 Salesforce에서 개발한 언어 모델로, 특정 조건(Condition)에 따라 텍스트를 생성하는 데 특화된 모델이다. CTRL 모델은 기본적으로 Transformer 아키텍처를 사용한다. Transformer 아키텍처는 인코더-디코더 구조를 기반으로 하며, 입력 토큰을 임베딩한 후 여러 층의 트랜스포머 블록을 거쳐 출력 토큰을 생성한다. CTRL 모델은 Transformer 아키텍처를 확장하여, 조건(Condition)을 입력으로 받고, 해당 조건에 따라 텍스트를 생성할 수 있도록 하고 있다. CTRL 모델의 구체적인 구조는 다음과 같다. 1. 입력 임베딩 레이어 입력 토큰을 임베딩한 후, 조건 토큰과 함께 인코더-디코.. 2023. 3. 26.
DeBERTa DeBERTa(Decoding-enhanced BERT with Disentangled Attention)는 2020년에 발표된 언어 모델로, BERT 모델의 구조와 기능을 개선하여 자연어 처리 작업에서 높은 성능을 보이고 있다. 구조 DeBERTa 모델은 Transformer 아키텍처를 기반으로 한다. 이전의 BERT 모델과 달리, DeBERTa 모델은 다양한 디코딩 방법을 사용하여, 언어 모델의 성능을 향상시킨다. DeBERTa 모델은 Disentangled Attention, Relative Positional Encoding, 그리고 Stochastic Depth를 사용하여 성능을 개선한다. Disentangled Attention은 어텐션 메커니즘을 개선하여, 입력 문장의 다양한 관계를 파악하고.. 2023. 3. 25.
Electra Electra(Effective-Learning-based and Computationally-Efficient Language Representation Learning)는 2019년에 Google에서 발표한 언어 모델로, 기존의 언어 모델과는 다른 구조와 작동 원리를 가지고 있다. 구조 Electra 모델은 GAN(Generative Adversarial Network) 구조를 기반으로 한다. GAN은 생성자(Generator)와 판별자(Discriminator)로 구성되어 있으며, 생성자는 실제와 유사한 데이터를 생성하고, 판별자는 생성자가 생성한 데이터와 실제 데이터를 구분한다. Electra 모델은 이와 유사하게, 생성자와 판별자로 구성된다. 생성자는 입력 문장의 일부 단어를 마스킹하고, 해당 .. 2023. 3. 24.