Seminars | ISoftLab — 지능소프트웨어 연구실

SKILL

2024.11.08

Antropic computer use

Inbum Heo

1. Topic Antropic computer use(Beta)

2. Overview 베타 서비스로 오픈된 Antropic의 3.5 버전 모델과, 이를 활용한 UI 조작 프레임워크인 computer-use를 소개한다. LLM을 활용한 새로운 형태의 UI를 체험하는 것도 주목할 포인트.

PAPER

2024.11.08

LLM 추가 훈련 기법 현행화

Jeesu Jung, Taewook Hwang

1. Topic LLM 추가 훈련 기법 현행화

2. Overview 데이터 정제부터 평가까지 대표적으로 활용 가능한 검증된 기술들을 수집 및 정리하였다. 대규모 모델에 대한 논문을 작성할 때, 각 파트별로 소개된 기술들이 비교군으로 들어가야 신뢰도 있다고 평가받는다.

PAPER SKILL

2024.11.08

Paper 관련 최신 툴 정리 및 Pipeline 구축

Hyein Seo, Jeesu Jung, Taewook Hwang

1. Topic Paper 관련 최신 툴 정리 및 Pipeline 구축

2. Overview 논문 작성을 위한 다양한 LLM 활용 도구 소개 및 추천. 대규모 언어모델을 활용한 다양한 형태의 UI/UX에 대해서도 주목해볼 필요가 있다.

PAPER

2023.10.26

Think before you speak: Training Language Models With Pause Tokens

Hyeunseok Kang

1. Topic Think before you speak: Training Language Models With Pause Tokens

2. Overview

본 발표에서는 Decoder-Only Model의 훈련 및 추론에서 제한적인 Vector metirx 사용으로 Prediction을 수행하는 구조적 한계를 보완하는 방법으로 Pause Token의 사용을 제안하였다.
K+1번째 예측을 위해 이전 토큰까지의 Vector Metrix를 사용하는 기본 구조에 Pause Token을 추가하여 얻어진 Vector Metrix를 사용하여 Prediction에 사용되는 정보량을 키우는 방법을 제안하였다.
논문에서 소개된 Pause Token이 모델 훈련과 추론에서 어떻게 사용되었는지 아이디어와 구조에 대해 알아보고, Standard Decoder-Only model과 성능 비교 결과를 통해 실험적으로 확인된 훈련 및 추론에서 Pause Token의 영향에 분석하였다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Paper [link]

PAPER

2023.10.24

To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis

Hyein Seo

1. Topic To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis

2. Overview 최근 언어 모델 확장에서 데이터셋 크기의 중요성이 강조되고 있으나, large language models (LLMs)를 사전학습 하는 동안 token-hungry 현상이 발생하며, 웹에서 얻을 수 있는 고품질 텍스트 데이터는 LLMs 확장에 한계가 있을 것으로 예상된다.

LLM을 향상시키기 위한 간단한 방법으로는 사전 학습 데이터를 추가적인 에폭에 걸쳐 반복하는 multi-epoch training으로, 본 연구에서는 이 방법에 대한 세 가지 측면을 경험적으로 조사하였다.

사전 학습 데이터를 반복하는 결과를 탐구한 결과, 모델이 오버피팅에 취약하여 multi-epoch degradation으로 이어질 수 있음
multi-epoch degradation 기여하는 주요 요인 조사하여 데이터셋 크기, 모델 파라미터, training objectives가 중요한 요인임을 밝힘
relularization 기술이 multi-epoch 저하를 완화할 수 있는지 탐구

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Paper [link]

PAPER

2023.10.19

Google DeepMind Introduces Direct Reward Fine-Tuning (DRaFT): An Effective Artificial Intelligence Method for Fine-Tuning Diffusion Models to Maximize Differentiable Reward Functions

Hyuk Namgoong

1. Topic Direct Reward Fine-Tuning (DRaFT):DIRECTLY FINE-TUNING DIFFUSION MODELS ON DIFFERENTIABLE REWARDS

2. Overview Direct Reward Fine-Tuning (DRaFT)는 Stable Diffusion 모델을 fine tunig 하는 방법이다. RLHF와 같이 Reward Function을 사용하며 sampling procedure에 Truncated backpropagation 방법을 적용한 Direct Reward Fine-Tuning (DRaFT)를 제안한다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Paper [link]

PAPER

2023.10.11

DEMix Layers: Disentangling Domains for Modular Language Modeling

Hyein Seo

1. Topic DEMix Layers: Disentangling Domains for Modular Language Modeling

2. Overview 기존 언어 모델(Language model) 학습 방식인 dense training은 data homogeneity (데이터 동질성)으로 학습하며, 모든 데이터의 loss를 최소화하기 위해 모든 파라미터를 업데이트 한다는 특징이 있다.

이는 훈련 데이터가 여러 도메인에서 수집되더라도 접근 용이성에 따라 드물게 나타나는 도메인에 대해 일반화를 제한할 수 있고, 모델 사이즈가 커지면 파라미터 업데이트 비용이 증가하여 fine-tuning이나 domain adaptation을 수행하기 어렵다는 단점이 있다.

이러한 dense training의 한계를 해결하기 위해 본 논문에서는 LM에 modularity (모듈성)을 도입한 **domain expert mixture layer (DEMIX layer)**를 제안한다.

Transformer LM (GPT-3)의 feedforward layer를 DEMIX layer로 대체하여 각 도메인마다 특화된 버전의 레이어(experts)를 생성한다.

도메인 메타데이터를 사용하여 document(sequence)-level에서 expert를 학습하도록 하였으며, 추론 시 expert를 mix, add, remove 하는 모듈성을 제공한다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Paper [link]

PAPER

2023.10.04

Flamingo: a Visual Language Model for Few-Shot Learning

Hyuk Namgoong

1. Topic Flamingo: a Visual Language Model for Few-Shot Learning

2. Overview Flamingo라는 Multimodal 모델에 대해 소개한다. 해당 모델은 이미지, 비디오와 텍스트를 입력받아 새로운 텍스트를 생성하는 모델이다. Visual Language Model로 few-shot learning으로 좋은 성능을 보여준 모델이다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Paper [link] Reference [link]

PAPER

2023.09.20

Textbooks Are All You Need

Hyein Seo

1. Topic Textbooks Are All You Need

2. Overview Code generation task를 위한 언어모델 phi-1 제안 Textbook quality(교과서 수준)의 데이터가 언어 모델의 성능을 크게 향상시키고, 모델 크기나 데이터셋 크기가 작아도 SOTA 성능 달성함을 보임

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Paper [link] Huggingface [link]

PAPER

2023.09.19

Knowledge Graphs in Natural Language Processing

Jeesu Jung

1. Topic Knowledge Graphs in Natural Language Processing

2. Overview 자연어 처리 분야에서의 Knowledge Graph의 사용 방법들과, 대규모 언어모델의 등장 이후 어떻게 변화하고 있는가에 대한 연구들을 소개한다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌

PAPER

2023.09.18

DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models

SungRyeol Kim

1. Topic DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models

2. Overview LLM의 hallucination을 줄이기 위해 early exiting과 이를 통해 얻은 두 레이어 값의 contrast를 활용하는 방법

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Paper [link] Researchers from MIT and Microsoft Introduce DoLa: A Novel AI Decoding Strategy Aimed at Reducing Hallucinations in LLMs [link]

PAPER

2023.09.15

Retentive Network: A Successor to Transformer for Large Language Models

Hyuk Namgoong

1. Topic Retentive Network: A Successor to Transformer for Large Language Models

2. Overview RetNet은 트랜스포머의 병렬화와 RNN의 시퀀스 길이에 따라 확장되지 않는 구조를 참고하여 병렬화 및 추론 비용 + 메모리 복잡성의 장점을 보여주었습니다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Paper [link] Retnet Mircosoft [https://github.com/microsoft/unilm/tree/master/retnet] Retnet torchscale [https://github.com/microsoft/torchscale/blob/main/torchscale/architecture/retnet.py] Retentive Networks (RetNet) Explained: The much-awaited Transformers-killer is here [https://medium.com/ai-fusion-labs/retentive-networks-retnet-explained-the-much-awaited-transformers-killer-is-here-6c17e3e8add8]

PAPER

2023.09.14

Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback

Chihyeon Lee

1. Topic Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback

2. Overview External knowledge와 automated feedback 방식을 활용하여 거대 언어 모델의 fact에 대한 halluciation 경향을 줄이는 연구

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Paper [link]

PAPER

2023.09.13

Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies

Hyeunseok Kang

1. Topic Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies

2. Overview 본 발표에서는 LLM의 Correction Mecanism에 대해 구조와 방법에 대해 소개하는 Survey 성격의 논문이다. 논문에서 소개하는 주요 내용으로, 하나는 Automatically Correcting LLM의 컨셉과 구조화를 소개하는 것이고, 다른 하나는 Correction를 방식에 따라 세부 카테고리로 분류하는 내용으로 구성되어있다. 논문에서는 Correction 과정을 크게 3가지로 구조화하였는데, LLM에 의한 오류의 발생 부분, Critic model에 의한 진단 부분, 그리고 Refine model에 의한 수정 부분으로 구조화하였다. 논문에서 소개된 각각 Correction 과정에서 사용되는 모델들의 입출력 구조와 Feedback으로 수정이 이뤄지는 Refine model들의 대표 아이디어에 대해 확인하였으며, Correction 과정과 관련된 대표 논문들을 확인하였다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Paper [link]

SKILL

2023.07.24

Why it is time to start thinking of games as databases

Hyuk Namgoong

1. Topic Why it is time to start thinking of games as databases

2. Overview 게임 내 NPC, 플레이어, 도시 등 다양한 Entity의 관계를 구성하고 활용하기 위한 데이터베이스 쿼리 구축 및 활용에 대한 내용입니다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌

PAPER

2023.07.17

LLM-Blender: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion

SungRyeol Kim

1. Topic (제목)

2. Overview (내용)

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌

SKILL

2023.07.10

On Prompt Engineering

Jeesu Jung

1. Topic On Prompt Engineering

2. Overview 최근 대규모 언어모델(Large Langauge Models, LLMs)를 적절하게 활용하기 위해, 입력 형태를 잘 구성하는 것이 하나의 연구 분야로써 자리잡고 있다. 이러한 분야를 일컫는 말로, Prompt Engineering이라 부른다. Prompt Engineering의 시작과 응용 테크닉들에 대해 간단히 소개한다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌

SKILL

2023.06.26

Vector DB

Taewook Hwang

1. Topic Vector DB

2. Overview 딥러닝 임베딩 모델의 벡터 결과값을 저장하고 검색할 수 있는 Vector DB

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌

PAPER

2023.06.14

DeBERTa-V3: Improving DeBERTa Using ELECTRA-Style Pre-Training with Gradient Disentangled Embedding Sharing

Hyeunseok Kang

1. Topic DeBERTa-V3: Improving DeBERTa Using ELECTRA-Style Pre-Training with Gradient Disentangled Embedding Sharing

2. Overview 본 발표에서는 훈련 속도와 성능 면에서 Parameter 크기를 키우는 검증된 방법이 외에도 효율적인 Pretraining 방법을 통해 성능을 개선할 수 있는 방법을 DeBERTa 모델의 개선한 DeBERTaV3 모델을 통해 소개하였다. ELECTRA model의 Training 방법인 replaced token detection (RTD)를 적용하며, 기존의 Vanilla ELECTRA model이 가진 Tug-of-war effect를 개선할 수 있는 gradient-disentangled embedding sharing method를 제안하였다. 논문에서 소개된 gradient-disentangled embedding sharing method이 모델 학습에서 어떻게 성능을 개선할 수 있었는지 보고, 실험을 통해 다른 모델 및 Large model과의 성능 비교를 통해 효율적인 Pretraining method 연구의 중요성을 확인하였다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 DeBERTa [link] DeBERTaV3 [link]

PAPER

2023.05.22

Zipit! Merging Models from Different Tasks without Training

Chihyeon Lee

1. Topic Zipit! Merging Models from Different Tasks without Training

2. Overview 서로 다른 작업을 훈련한 두 가지 모델을 함께 병합할 때 생기는 잊혀짐 문제나, 도메인 일반화를 하지 못하는 경우를 해결하고자함. 기존에 병합 방식보다 성능 향상을 보여주고 앙상블 방식보다 계산량을 감소시켜 비용을 줄이는 Zipit 방식을 소개함.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Paper [link] Github [link]

PAPER

2023.05.08

Reward Design with Language Models

Hyuk Namgoong

1. Topic The Idea of Using Large Language Models LLMs as a Proxy Reward Function

2. Overview ChatGPT와 같은 Large Language Model을 사용하여 강화학습의 Agent Model을 학습하는 것으로 Large Language Model을 Proxy Reward Function으로 Agent Model의 행동을 평가하는데 사용한다. Large Language Model은 적은 데이터로도 균일하교 효과적인 Proxy Reward Function이 되었으며 Agent Model을 학습하는데 좋은 효과를 보였다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Paper [link] Github [link]

PAPER

2023.05.03

APEACH: Attacking Pejorative Expressions with Analysis on Crowd-Generated Hate Speech Evaluation Datasets

SungRyeol Kim

1. Topic APEACH: Attacking Pejorative Expressions with Analysis on Crowd-Generated Hate Speech Evaluation Datasets

2. Overview 기존 데이터셋 제작 방법으로 데이터셋을 제작 시 주제가 한정되거나, test 데이터와 pre-train 데이터의 potential token overlap, 저작권 이슈 등의 이슈가 있음. 이로 인해 test 데이터셋 만큼은 기존과 다른 방법으로 제작이 필요하다고 주장. 이를 해결하고자 APEACH라는 새로운 데이터셋 제작 방법을 통해 데이터셋 제작. 기존의 potential token overlap 해결

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Paper [link] Github [link]

PAPER

2023.04.24

Keywords and Instances: A Hierarchical Contrastive Learning Framework Unifying Hybrid Granularities for Text Generation

Jeesu Jung

1. Topic Keywords and Instances: A Hierarchical Contrastive Learning Framework Unifying Hybrid Granularities for Text Generation

2. Overview 문장 혹은 문서 단위의 instance 기준의 학습은 exposure bias, 즉 중요한 요점보다 노출 정도에 대해 더 학습을 하게 된다는 문제가 있다. 이러한 문제를 해결하기 위해, 본 연구는 keyword graph를 활용한 keyword & instance constrastive learning을 제안한다. 이러한 keyword에 대한 반영도를 높인 방식은 정확한 문장 생성에 도움이 된다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Paper [link]

PAPER

2023.04.10

Black-Box Tuning for Language-Model-as-a-Service

Hyein Seo

1. Topic Black-Box Tuning for Language-Model-as-a-Service

2. Overview GPT-3와 같이 최근 선학습 언어모델이 서비스로 제공됨에 따라 사용자는 Black-Box API를 통해 접근하는 방식이 대중화되고 있다. 사용자는 task-specific한 prompts를 입력으로 넣고, API를 통해 language task를 수행하게 되는 Language-Model-as-a-Service(LMaaS)가 제공되고 있으며, 논문에서는 선학습 언어모델의 inference API만 활용하여 prompt를 최적화하는 방법을 연구한다. 일반적으로 gradients를 사용할 수 없기 때문에 derivative-free optimization(DFO)를 통해 최적화를 수행할 수 있는 black-box tuning 프레임워크를 제안한다. 전통적인 고차원 prompt space에서 최적화하는 것이 아닌, 대규모 언어모델의 low intrinsic dimensionality로 인하여 랜덤으로 생성된 subspace에서 최적화 수행하는 연구를 진행한다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Paper [link] Github [link]

PAPER

2023.03.20

Neural Turing Machine

Taewook Hwang

1. Topic Neural Turing Machine

2. Overview Neural Network와 외부 메모리를 함께 사용하는 구조로, 앨런 튜링의 Turing Machine의 구조를 차용하였다. 역전파를 위해 모든 과정은 미분 가능해야하므로, 메모리 읽기/쓰기 과정에서 미분 가능함을 위한 여러 연산이 활용되었다. 기억력이 필요한 태스크에서 우수한 성능을 보였으나, 메모리의 활용성이 부족하고 다양한 태스크에 적용하기 쉽지 않은 구조이다. 최근 역전파없이 학습 가능한 Forward-Forward 알고리즘 등을 활용하여 개선할 여지가 있다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Paper [link]

SKILL

2023.03.06

LoRA For Efficient Stable Diffusion Fine-Tuning

Hyuk Namgoong

1. Topic LoRA For Efficient Stable Diffusion Fine-Tuning

2. Overview Large Language Model에 적용한 LoRA에 대한 소개와 Stable Diffusion Fine-Tuning에 적용하여 얻는 장점에 대해 대해 다루고 있다. HuggingFace 에서 공개한 LoRA Scripts를 활용해 Stable Diffusion Fine-Tuning을 진행하는 것과 얻는 장점에 대해 소개한다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Paper : LoRA: Low-Rank Adaptation of Large Language Models [link] Using LoRA for Efficient Stable Diffusion Fine-Tuning [link]

PAPER

2023.03.01

The Forward-Forward Algorithm (FF)

Jeesu Jung

1. Topic Forward-Forward Algorithm

2. Overview Nips에 발표된 Geoffrey Hinton 교수의 논문 Forward-Forward Algorithm과 그 실험에 대한 간략한 내용을 리뷰한다. 또한, 이 아이디어가 성숙해지면 자연어처리 딥러닝의 경우, 어떠한 도움을 받을 수 있을까 예상해본다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Paper- The Forward-Forward Algorithm [link] Deep Learning Pioneer Geoffrey Hinton Publishes New Deep Learning Algorithm [link] Github [link]

SKILL

2023.02.22

6 Dimensionality Reduction Techniques

Hyeunseok Kang

1. Topic 6 Dimensionality Reduction Techniques

2. Overview 본 발표에서는 6가지 차원축소 기법에 대해서 수식을 바탕으로 개념과 방법에 대해서 소개하고, 각각의 방식에 대한 차이점에 대해 알아본다.

스터디를 통해 차원축소 기법을 주요 매커니즘에 따라 크게 2분류로 나누어 소개하고, 각각의 기법을 활용되는 대표적인 대해 알아본다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 6 Dimensionality Reduction Techniques [link]

PAPER

2023.02.22

Post hoc Uncertainty Learning using a Dirichlet Meta Model

SungRyeol Kim

1. Topic Post-hoc Uncertainty Learning using a Dirichlet Meta-Model

2. Overview Dirichlet Meta-Model을 통해 Uncertainty Learning을 학습한다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Poster [link]

PAPER

2023.02.07

Diffusion-LM Improves Controllable Text Generation

Hyein Seo

1. Topic Diffusion-LM Improves Controllable Text Generation

2. Overview 이미지나 오디오 도메인에서 많이 사용되던 diffusion model을 자연어에 적용할 수 있는 diffusion-lm 모델을 제안한다. 텍스트의 discrete한 성질로 인하여 diffusion model을 직접 적용하기 어려웠으나, continuous한 latent representation을 위해 몇 가지 수정을 진행하였고, gradient에 기반하여 diffusion-lm을 제어할 수 있는 방식을 제안하였다.

diffusion process에 embedding step과 rounding step 추가
embedding을 학습할 수 있는 목적 함수 설계
rounding을 향상 시킬 수 있는 기술 제안

논문에서는 diffusion-lm을 통해 6가지 control task에 적용 가능함을 보였고, fine-tuning 방법론과 비교했을 때도 탁월한 성능을 보였다. 다만 perplexity(lm-score)가 높게 나오며, 디코딩 시간이 오래 걸리고, training converge가 느리다는 한계점이 존재하나 이는 향후 연구에서 최적화를 진행할 계획이다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Paper [link] Github [link]

PAPER

2023.02.01

MOAT: ALTERNATING MOBILE CONVOLUTION AND ATTENTION BRINGS STRONG VISION MODELS

Hyeunseok Kang

1. Topic MOAT: ALTERNATING MOBILE CONVOLUTION AND ATTENTION BRINGS STRONG VISION MODELS

2. Overview 본 발표에서는 Computer vision 분야에서 Convolution Network와 Transformer block의 Self-attention을 함께 적용한 MOAT Block에 대해 소개하고, MOAT block을 사용한 Model Architecture와 Baseline model과의 3가지 Task에서의 성능을 비교하며 MOAT block의 이점에 대해 알아본다.

논문에서 소개된 MOAT Block을 구성하기 위해 MoBile Convolution(MBConv) block과 Transformer block을 어떠한 방식으로 활용하였는지에 대해 소개하고, Block과 Model Architecture의 내부 구조에 대해 알아본다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 MOAT(Alternating Mobile Convolution and Attention Brings Strong Vision Models) Paper [link] Vision Transformer(An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale) Paper [link]

SKILL

2023.01.17

ChatGPT Part 2. Dataset and Use-case

Chihyeon Lee

1. Topic ChatGPT Part 2. Dataset and Use-case

2. Overview ChatGPT 형제모델인 InstructGPT에 사용된 데이터셋의 구성과 번역, 코드작성, 작문, 컨텐츠제작등 ChatGPT Usecase 소개

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Training language models to follow instructions with human feedback [link] 20 Entertaining Uses of ChatGPT You Never Knew Were Possible [link]

SKILL

2023.01.10

ChatGPT Part 1. Reinforcement Learning from Human Feedback

Hyuk Namgoong

1. Topic ChatGPT Part 1. Reinforcement Learning from Human Feedback

2. Overview ChatGPT에 대한 간단한 소개와 함께 ChatGPT를 학습 하기 위해 사용된 방법에 대해 이야기한다. Reinforcement Learning from Human Feedback(RLHF)에 대한 과정 3단계를 InstructGPT 외 다른 2개의 모델을 예시로 설명하고 ChatGPT와 InstructGPT에 대해 간단히 비교한다. RLHF를 하기 위한 간단한 오픈소스 tool 3개와 data를 소개한다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Illustrating Reinforcement Learning from Human Feedback (RLHF) [link] LoRA: Low-Rank Adaptation of Large Language Models [link] Proximal Policy Optimization(PPO)- A policy-based Reinforcement Learning algorithm [link] Kullback–Leibler (KL) divergence [link] Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback [link] Offline RL for Natural Language Generation with Implicit Language Q Learning [link]

SKILL

2023.01.04

Active Learning

SungRyeol Kim

1. Topic Active Learning

2. Overview Active Learning에 관한 개요와 세 가지 Active Learning에 대한 설명

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌

PAPER

2022.12.28

A Survey on Curriculum Learning

Jeesu Jung

1. Topic A Survey on Curriculum Learning

2. Overview 최근 모델을 위한 다양한 데이터의 효율적인 학습법에 대한 연구가 늘어나고 있다. 이러한 방법의 일환으로, 데이터의 양, 질 뿐만 아니라 순서를 제어하여 학습하는 형태인 Curriculum Learning에 대한 간단한 개요를 소개한다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Paper: A Survey on Curriculum Learning [link]

PAPER

2022.12.14

SimCSE: Simple Contrastive Learning of Sentence Embeddings

Hyein Seo

1. Topic SimCSE: Simple Contrastive Learning of Sentence Embeddings

2. Overview SimCSE는 unlabeled 데이터와 labeled 데이터에 모두 적용 가능한 sentence embedding 방법론이며, unsupervised와 supervised 두 방식에 대해 모두 제안한다. Unsupervised SimCSE의 경우, 입력 문장에 noise로 dropout을 적용하여 positive pairs로 취하며, negative pairs는 mini-batch 내에서 선택하여 학습 진행한다. Dropout을 통해 minimal data augmentation 효과를 볼 수 있음 Supervised SimCSE는 NLI(Natural Language Inference) 데이터셋을 활용하여, positive pairs로는 entailment 문장을, negative pairs로는 contradiction 문장을 취한다. 실험 결과, 논문에서 제안한 SimCSE 프레임워크가 기존 방법론보다 uniformity, alignment 측면에서 모두 성능 향상됨을 보였다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Paper : https://aclanthology.org/2021.emnlp-main.552/ Github : https://github.com/princeton-nlp/SimCSE

SKILL

2022.12.07

Auto-Sklearn 소개

Chihyeon Lee

1. Topic Apply 100 ML Models with Hyperparameter tuning | Auto-Sklearn 소개

2. Overview 데이터셋 Pre processing 과 모델 선택, 하이퍼 파리미터 튜닝 과정을 3줄 정도의 코드로 정리 가능한 툴을 소개한다. 100가지가 넘는 ML모델과 그에 따른 다양한 하이퍼 파라미터 값을 일일히 적용하는 과정을 Auto sklearn 툴을 통해 간단하게 자동화할 수 있다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] Colab 링크 : [link] [4] 참고 문헌 Apply 100 ML Models with Hyperparameter tuning using 3 lines of code [link]

PAPER

2022.11.23

ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators

Joonhee Jeong

1. Topic ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators

2. Overview ELECTRA 모델은 교체된 토큰 탐지(Replaced Token Detection, RTD)라고 하는 새로운 언어모델 사전학습 태스크를 제안한다. 기존의 마스킹 된 언어 모델(Masked Language Model, MLM) 사전학습에 비해 학습 효율과 다운스트림 태스크 성능상에 비교우위를 보인다. MLM이 채용한 생성기(소프트맥스)에 덧붙여 판별기(이진분류)를 사용하여 학습을 진행 후 다운스트림 태스크로 파인튜닝 시에는 판별기만을 사용한다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Paper [link] Brief Review - ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators [link]

SKILL

2022.10.26

Apply Gradient Boosting to Natural Language Processing

Hyuk Namgoong, Hyeunseok Kang

1. Topic Apply Gradient Boosting to Natural Language Processing

2. Overview Gradient Boosting, XGBoost, CatBoost 소개 기존 NLP 문제들에 대해 Boost 적용 사례 소개 (자연어 분류, 이미지 분류, 두 질문 간 유사도) 한국어 NLP 문장 간 유사도 문제에 Boost 적용 과정 (Tokenization, Model setting, Training, Test) 한국어 NLP 문장 간 유사도 boosting 성능 평가

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 XGBoost [link] CatBoost [link] Classification with NLP, XGBoost and Pipelines [link] Deep XGBoost Image Classifier [link] Quora Question pair similarity [link] Semantic Textual Similarity [link] Ｕnconventional Sentiment Analysis: BERT vs. Catboost [link]

SKILL

2022.09.13

ZeRO & DeepSpeed: New system optimizations enable training models with over 100 billion parameters

Jeesu Jung

1. Topic ZeRO & DeepSpeed: New system optimizations enable training models with over 100 billion parameters

2. Overview 대용량 모델 훈련을 위한 연산, 메모리 최적화 기법 라이브러리를 소개한다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Huggingface Model Parallelism [link] Distributed Deep Learning with ChainerMN [link] Nvidia TF32[link] Deepspeed on PyTorch Lightning [link]

PAPER

2022.09.06

CatBoost: gradient boosting with categorical features support

Hyuk Namgoong

1. Topic CatBoost: gradient boosting with categorical features support

2. Overview 기존 Gradient Boosting의 문제점을 개선한 Categorical 문제에 특화된 CatBoost에 대해 소개한다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Paper [link] Github [link]

SKILL

2022.08.22

Mito: Using pandas as a spreadsheet

SungRyeol Kim

1. Topic Mito: Using pandas as a spreadsheet

2. Overview Jupyter Notebook에서 활용할 수 있는 Excel 라이브러리이다. Excel로 불가능하거나, 파일이 커서 비정상 종료되는 등 Excel의 부족함을 Python이라는 강력한 언어를 통해 Jupyter Notebook에서 spreadsheet 활용 가능하다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Mito [link] Goodbye Excel. Hello Spreadsheets in Python! [link]

SKILL

2022.08.03

JAX: Autograd and XLA

Hyein Seo

1. Topic JAX: Autograd and XLA

2. Overview 2018년 구글에서 선보인 JAX에 대해 소개한다. 최근 딥마인트 및 다른 연구소에서 머신러닝 성능 최적화 및 가속화를 위해 JAX 사용률이 증가하는 추세다. JAX는 CPU, GPU, TPU 환경에서 작동되는 Numpy이며, automatic differentiation이 가능하다. 또한, JIT 컴파일 기법과 XLA 컴파일러를 사용하여 기존의 Numpy보다 훨씬 속도가 빠른 것이 가장 큰 장점이다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Github [link] Documents [link] Jax - Numpy on GPUs and TPUs [link] GOOGLE JAX CAN OUTPERFORM NUMPY IN MACHINE LEARNING RESEARCH [link]

SKILL

2022.07.13

What is the difference between sklearn’s LinearRegression and TweedieRegressor

Yoonmin Lee

1. Topic Sklearn-TweedieRegressor

2. Overview Sklearn에서 제공하는 TweedieRegressor와 LinearRegression의 차이점에 대해 설명한다. TweedieRegressor란 Tweedie 분포를 사용하는 일반회된 선형 모델이며, Tweedie 분포란 순수 연속 정규 분포, 감마 및 역 가우수 분포, 순수 이산 스케일 포아송 분포 등을 포함하는 확률 분포의 계열이다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌

PAPER

2022.06.22

Focal Modulation Networks

SungRyeol Kim

1. Topic Focal Modulation Networks

2. Overview 기존 ViT들(Self Attention 기반, Swin Transformers, ConvNet기반, Focal Attention)보다 성능이 뛰어난 Focal Modulation Network에 대해 소개한다. Self Attention 기반 transformer들의 1. Query 계산 2. Aggregation 의 순서와 반대로 Focal Modulation Network 모델은 1. Aggregation(gating mechanism) 2. Query 계산을 통해 SOTA 달성하였다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Paper [link] Microsoft’s FocalNets Replace ViTs’ Self-Attention With Focal Modulation to Improve Visual Modelling [link]

PAPER

2022.06.01

Big Bird: Transformers for Longer Sequences

Hyuk Namgoong

1. Topic Big Bird: Transformers for Longer Sequences

2. Overview 기존 트랜스포머 모델은 attention 연산에 대한 시간, 공간 복잡도를 가진다. 그렇기 때문에 모델의 크기나 입력 토큰의 수가 증가할때 복잡도가 증가한다.

BigBird는 block sparse attention을 적용해서 4096 토큰까지 사용할 수 있게 했다.

BigBird의 경우 기존의 BERT 모델이 사용한 full attention이 아닌 block sparse attention을 사용했으며 다양한 태스크에서 SOTA를 달성했다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Paper : Big Bird: Transformers for Longer Sequences [link]

PAPER

2022.05.18

pNLP-Mixer: an Efficient all-MLP Architecture for Language

Hyeunseok Kang

1. Topic pNLP-Mixer: an Efficient all-MLP Architecture for Language

2. Overview 본 발표에서는 MLP-Mixer Architecture를 NLP task에서 적용에 대해 소개한 ‘pNLP-Mixer: an Efficient all-MLP Architecture for Language’ 논문에서의 pNLP-Mixer에 대해 알아본다.

논문에서 MLP-Mixer를 NLP Task에 적용하기 위해 제안된 Token Feature 추출하는 projection layer에 대해 소개하였으며, 이 구조를 통해 transformer based model과의 성능 비교를 통해 pNLP-Mixer가 NLP task에서 가질 수 있는 이점에 대해 알아본다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Paper : pNLP-Mixer: an Efficient all-MLP Architecture for Language [link]

SKILL

2022.05.11

Sentence Transformer Fine-Tuning (SetFit)

Jeesu Jung

1. Topic Sentence Transformer Fine-Tuning (SetFit): Outperforming GPT-3 on few-shot Text-Classification while being 1600 times smaller

2. Overview Sentence transformer는 text classification에 특화된 모델이다. 이러한 문장 단위 transformer를 fine-tuning하는 방법을 소개한다. 이러한 방법으로 훈련해, few-shot learning text classification 벤치마크 RAFT[1]에 대해 SOTA를 달성하였다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Alex, Neel, et al. “RAFT: A real-world few-shot text classification benchmark.” arXiv preprint arXiv:2109.14076 (2021). [link] Sentence Transformer Fine-Tuning (SetFit): Outperforming GPT-3 on few-shot Text-Classification while being 1600 times smaller [link]

PAPER

2022.05.06

Patch-based inference for TinyML

SungRyeol Kim

1. Topic Patch-based inference for TinyML

2. Overview MicroController Units(MCUs)와 같은 기기는 딥러닝 모델을 사용하기에 메모리 제약이 있다. Profiling 결과, MobileNet의 초기 block들에 Memory Bottlenect 확인. 따라서 본 논문에서는 Patch-based Inference, Receptive Field Redistribution, MCUNetV1 사용 의 세 가지를 제안. 위를 통해 같은 메모리에서 높은 성능, 적은 메모리 사용, 더 나은 성능을 보임.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Paper : Memory-efficient Patch-based Inference for Tiny Deep Learning [link]

PAPER

2022.05.04

MLP-Mixer: An all-MLP Architecture for Vision

Hyein Seo

1. Topic MLP-Mixer: An all-MLP Architecture for Vision

2. Overview 본 논문은 컴퓨터 비전 분야에서 MLP layer만 사용된 Mixer를 제안한다. 컴퓨터 비전 분야에서 CNN이 표준으로 사용되고 있으며, 최근 Attention 기반 모델인 Vision Transformer(ViT)가 SOTA 성능을 냈다. MLP Mixer는 SOTA 성능에 미치진 못하지만 그에 준하는 성능을 내면서도 두 개의 MLP layer만 사용하여 간단한 구조와 학습 속도가 빠른 장점을 갖고 있다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Paper : MLP-Mixer: An all-MLP Architecture for Vision [link] Github [link]

PAPER

2022.04.13

Logic Explained Networks

Hyuk Namgoong

1. Topic Logic Explained Networks (LENs)에 대한 간단한 소개

2. Overview Logic Explained Networks (LENs)에 대해 소개한다. LENs가 여러 목적에 맞는 동작하는 방식에 대해 설명한다. 설명의 수준을 위해 활용하는 3개의 network에 대해 설명하고 성능을 평가한다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Paper [link] Logic Explained Deep Neural Networks: A General Approach to Explainable AI [link]

SKILL

2022.04.01

Attention Flow

Hyeunseok Kang

1. Topic Attention Flow

2. Overview 본 발표에서는 Attention을 바탕으로 한 모델들의 결정을 해석하기 위해 내부 동작을 시각화하고 확인할 수 있는 방식 중 ‘Quantifying Attention Flow in Transformers’ 논문에서 소개한 Attention flow에 대해 알아본다. 논문에서는 High Layer에서 Input Token의 Attention을 확인하기 위한 기법으로 Attention Rollout과 Attention Flow 두 가지 방법에 대해 소개하였으며, 이 두 방식에 대한 매커니즘과 차이점을 알아보고 Attention flow를 코드로 구현하는 방법을 예제를 통해 알아본다.

3. References [1] 발표자료 : 하단첨부 [2] 발표영상 : [link] [3] 참고논문 Quantifying Attention Flow in Transformers [link] Github [link]

SKILL

2022.03.23

Aim 3.7 : An easy-to-use & supercharged open-source experiment tracker

Yoonmin Lee

1. Topic Aim3.7 사용법

2. Overview 훈련 시킨 내용을 기록하고, 보기 좋은 UI로 훈련된 내용을 비교할 수 있는 tracking tool인 Aim3.7 사용법에 대해 소개한다. 실험한 내용을 쿼리를 사용해 원하는 조건에 대해서만 조회할 수 있는 기능이 있으며, 하나의 페이지에서 파라미터, 메트릭, 시스템 등에 대한 세부 정보를 자세히 살펴보는데 도움이 된다. Pytorch-lightning과 호환되어 프로젝트에서 사용할 수 있는 방법에 대해서도 설명한다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Website [link] Github [link]

PAPER

2022.03.17

When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanism

Jeesu Jung

1. Topic When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanism

2. Overview Computer vision processing 분야에서의 Transformer의 적용과 attention mechanism을 shift 연산으로 대체한 구조에 대한 논문이다. shifted-window를 활용한 swin-Transformer에 이어 Shift-Transformer로써 확장한 실험을 통해, attention mechanism 대신 shift block을 활용하는 방식은 충분히 유의미함을 증명했다. 3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanism [link]

PAPER

2022.03.14

Hyper Clova

Taewook Hwang

1. Topic Hyper Clova

2. Overview 최근 자연처리 연구에서 대규모 선학습 모델을 많이 활용하고 있으나, 아래와 같은 문제점을 제기하고 이에 대한 기여를 하였음.

문제점 1.영어 모델이 대다수임 2.중간 규모 크기의 모델이 없음 3.Prombt-based(P-tuning)에 대한 실험이 없음

Hyper Clova의 기여 1.선학습용 대규모 한국어 데이터 및 대규모 한국어 선학습 모델 구축 2.한국어 특화 토큰화 방법 제안 및 검증 3.Few-shot learning 및 P-tuning 효과 검증

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Paper - What Changes Can Large-scale Language Models Bring? Intensive Study on HyperCLOVA: Billions-scale Korean Generative Pretrained Transformers - ACL Anthology[link]

PAPER

2022.03.10

Masked Autoencoders Are Scalable Vision Learners

Hyein Seo

1. Topic Masked Autoencoders Are Scalable Vision Learners

2. Overview 본 논문은 자연어처리 분야에서 사용되는 self-supervised pre-training 방식을 컴퓨터 비전 분야에 적용하기 위한 MAE(Masked Autoencoder)를 제안한다.

Masked Autoencoding이 비전 분야와 자연어 분야에서 크게 3가지 차이를 보인다. 첫번째는 구조적 차이로 비전 분야에선 CNN 구조가 지배적으로 NLP에서 사용되는 masked token이나 position embedding을 적용하는 것이 어려웠으나 이는 Vision Transfomer(ViT)의 도입으로 해결되었다. 두번째는 information density가 다른데, 언어는 인간이 만든 신호로 highly semantic, information-dense한 특징을 갖고 있어 단어 하나하나에 굉장히 많은 의미를 갖고 있어 문장에서 일부 단어를 제외하고 맞추는 식으로 학습해도 이해하는 것처럼 보이나, 이미지의 경우 픽셀 하나하나가 큰 의미를 갖고 있는 것이 아니기 때문에 공간 중복성이 높은 자연적인 신호로 높은 수준의 이해가 없는 상태에서도 주변에 인접한 patch들을 통해 누락된 patch를 복원하는 일이 어렵지 않다. 세번째는 autoencoder에서의 디코더 역할이 비전과 자연어 분야에서 다르다는 것이다. 이미지 분야에서 디코더는 latent representation으로부터 semantic level을 결정하는 핵심 역할을 한다.

논문에서는 높은 마스킹 비율(75%)과 asymmetric encoder-decoder 구조를 사용하여 visual representation learning을 위한 MAE를 제안하고, 이와 관련하여 다양한 실험을 통해 성능을 입증하였다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Paper - Masked Autoencoders Are Scalable Vision Learners [link]

PAPER

2022.02.16

Document Ranking with a Pretrained Sequence-to-Sequence Model

Yoonmin Lee

1. Topic Document Ranking with a Pretrained Sequence-to-Sequence Model

2. Overview 본 논문에서는 relevance label을 “target words”로 생성하도록 sequence-to-sequence 모델을 훈련할 수 있는 방법과 “target words”의 기본 logits이 순위에 대한 relevance probabilities로 해석될 수 있는 방법을 제안한다. MS MARCO passage ranking task에서의 실험 결과는 이 접근 방식이 이전 classification-based 모델과 적어도 동등하며, 더 크고 최신 모델에서 이를 능가할 수 있음을 보여준다. TREC 2004 Robust Track의 테스트 컬렉션에서 데이터세트 교차 검증이 필요한 이전의 SOTA 모델을 능가하는 제로샷 transfer-based approach를 보여준다. 이 접근 방식은 데이터가 부족한 영역에서 encoder-only 모델보다 훨씬 우수한 성능을 보인다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Paper - Document Ranking with a Pretrained Sequence-to-Sequence Model [link]

PAPER

2022.02.09

Microsoft’s New Ideas About Generative Models : Optimus

Hyeunseok Kang

1. Topic Microsoft’s New Ideas About Generative Models : Optimus

2. Overview 본 발표에서는 Generative Model이 가진 낮은 모델 용량을 보완하기 위해 Pretrained Language Model을 적용하는 것으로 두 모델이 가진 한계점을 보완하고 학습 성능을 높이는 아이디어로부터 착안한 기술인 Optimus를 소개한다. Optimus Model의 바탕이 된 VAE(Variational AutoEncoder) 모델에 대해 공통으로 적용된 구조와 주요 수식에 대해 설명하고, 이를 기반으로 논문에서 말하는 PLM의 적용 방법과 훈련 과정, 그리고 성능 향상 효과에 대해 알아본다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Optimus: Organizing Sentences via Pre-trained Modeling of a Latent Space [link]

LECTURE

2022.01.28

Part 4. NLP 101 - 3 | N2M Problem with Transformer

Prof. Sangkeun Jung

1. Topic Deep Learning NLP 101 > NLP 101 > N2M Problem with Transformer

2. Overview N2M 문제 즉, N개의 token 을 입력으로 받고 M개(임의의 숫자)의 Output을 내놓는 자연어 처리 문제를 Transformer 를 이용해 어떻게 풀어내는지에 대한 실습입니다.

대표적으로 번역, 대화등의 문제들이 이에 해당합니다.

3. 자료 [1] 발표 영상 : [link] [2] 소스코드 : [link]

LECTURE

2022.01.28

Part 4. NLP 101 - 2 | N2N Problem with Transformer

Prof. Sangkeun Jung

1. Topic Deep Learning NLP 101 > NLP 101 > N2N Problem with Transformer

2. Overview N2N 문제 즉, N개의 token 을 입력으로 받고 N개의 Output을 내놓는 자연어 처리 문제를 Transformer 를 이용해 어떻게 풀어내는지에 대한 실습입니다.

대표적으로 Named Entity Recognition 문제들이 이에 해당합니다.

3. 자료 [1] 발표 영상 : [link] [2] 소스코드 : [link]

LECTURE

2022.01.28

Part 4. NLP 101 - 1 | N21 Problem with Transformer

Prof. Sangkeun Jung

1. Topic Deep Learning NLP 101 > NLP 101 > N21 Problem with Transformer

2. Overview N21 문제 즉, N개의 token 을 입력으로 받고 1개의 Ouput을 내놓는 자연어 처리 문제를 Transformer 를 이용해 어떻게 풀어내는지에 대한 실습입니다.

대표적으로 Sentence Classification 문제들이 이에 해당합니다.

3. 자료 [1] 발표 영상 : [link] [2] 소스코드 : [link]

LECTURE

2022.01.28

Part 4. NLP 101 | Overview

Prof. Sangkeun Jung

1. Topic Deep Learning NLP 101 > NLP 101 > Overview

2. Overview Transformer를 활용한 NLP 구현이 어떤식으로 진행되는지에 대한 전체적인 개요입니다.

3. 자료 [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link]

LECTURE

2022.01.28

Part 3. Transformer - 12 | (Practice) Transformer Decoder Only - GPT2, KoGPT2

Prof. Sangkeun Jung

1. Topic Deep Learning NLP 101 > Transformer > (Practice) Transformer Decoder Only - GPT2, KoGPT2

2. Overview Practice 동영상입니다.

Part 3. Transformer - 12 | (Practice) Transformer Decoder Only - GPT2, KoGPT2

Transformer 에서 Decoder 만 활용하는 GPT2 의 구조에 대해 살펴보고, 이를 구현해보도록 합니다. 특히, 직접 구현한 GPT2 의 모델에 Huggingface 의 파라미터를 불러와 적용해보는 실습을 해봅니다.

3. 자료 [1] 발표 영상 : [link] [2] 소스코드 : [link]

LECTURE

2022.01.28

Part 3. Transformer - 11 | (Practice) Transformer Encoder - Decoder Implementation

Prof. Sangkeun Jung

1. Topic Deep Learning NLP 101 > Transformer > (Practice) Transformer Encoder - Decoder Implementation

2. Overview Practice 동영상입니다.

Part 3. Transformer - 11 | (Practice) Transformer Encoder - Decoder Implementation

Original Transformer 논문에서 제시한 Transformer Encoder 와 Decoder를 이번 실습에서 그대로 구현해봅니다.

특히 Cross-Attention 과 Decoder 구현시의 masking 이 어떻게 활용되는지 잘 살펴보시기 바랍니다.

3. 자료 [1] 발표 영상 : [link] [2] 소스코드 : [link]

LECTURE

2022.01.28

Part 3. Transformer - 10 | (Practice) Transformer BERT Implementation

Prof. Sangkeun Jung

1. Topic Deep Learning NLP 101 > Transformer > (Practice) Transformer BERT Implementation

2. Overview Practice 동영상입니다.

Part 3. Transformer - 10 | (Practice) Transformer BERT Implementation

Transformer Encoder를 이해하고 구현할 수 있으면 드디어 BERT를 직접 구현해볼 수 있습니다.

이번 실습에서는 BERT를 구현해보고, Huggingface의 BERT 훈련모델을 가져와서 사용하는 방법에 대해 살펴봅니다.

3. 자료 [1] 발표 영상 : [link] [2] BERT 소스코드 : [link] [3] BERT Module 소스코드 : [link]

LECTURE

2022.01.28

Part 3. Transformer - 9 | (Practice) Transformer Encoder - Multi-Layer

Prof. Sangkeun Jung

1. Topic Deep Learning NLP 101 > Transformer > (Practice) Transformer Encoder - Multi-Layer

2. Overview Practice 동영상입니다.

Part 3. Transformer - 9 | (Practice) Transformer Encoder - Multi-Layer

이제 제대로 된 Transformer Encoder 하나를 만들 수 있습니다. Multilayer로 기초 Block들을 쌓아올리는 과정을 실습합니다.

3. 자료 [1] 발표 영상 : [link] [2] 소스코드 : [link]

LECTURE

2022.01.28

Part 3. Transformer - 8 | (Practice) Transformer Encoder - Single Layer

Prof. Sangkeun Jung

1. Topic Deep Learning NLP 101 > Transformer > (Practice) Transformer Encoder - Single Layer

2. Overview Practice 동영상입니다.

Part 3. Transformer - 8 | (Practice) Transformer Encoder - Single Layer Encoder의 기초 Block을 만들어봅니다.

Multi-layer를 제외한 핵심 Transfoarmer개념을 모두 구현해봅니다.

3. 자료 [1] 발표 영상 : [link] [2] 소스코드 : [link]

LECTURE

2022.01.28

Part 3. Transformer - 7 | (Practice) Dot-Product, QKV and Multi-head

Prof. Sangkeun Jung

1. Topic Deep Learning NLP 101 > Transformer > (Practice) Dot-Product, QKV and Multi-head

2. Overview Practice 동영상입니다. 앞서 배운 기초 개념들을 직접 구현 해봅니다.

Part 3. Transformer - 7 | (Practice) Dot-Product, QKV and Multi-head Attention

Dot-Product, QKV pattern, Multi-head attention 을 모두 이해한 상태에서, 이를 직접 PyTorch를 이용해 구현해봅니다. Attention 101 의 구현 과정이면서 동시에 Transformer 101의 초입부에 해당하는 과정입니다.

3. 자료 [1] 발표 영상 : [link] [2] 소스코드 : [link]

LECTURE

2022.01.28

Part 3. Transformer - 6 | (Advanced) Pre-Layer Normalization 및 기타 개선된 최신 Transformer 구조들

Prof. Sangkeun Jung

1. Topic Deep Learning NLP 101 > Transformer > (Advanced) Pre-Layer Normalization 및 기타 개선된 최신 Transformer 구조들

2. Overview 오리지널 Transformer 의 구조에서 개선된 구조들이 최근에 많이 사용되고 있습니다. 이러한 몇몇 구조를 살펴봅니다.

3. 자료 [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link]

LECTURE

2022.01.28

Part 3. Transformer - 5 | Scaling, Normalization and Residual Connection

Prof. Sangkeun Jung

1. Topic Deep Learning NLP 101 > Transformer > Scaling, Normalization and Residual Connection

2. Overview Transformer 에서 다뤄지는 몇몇 기타 개념들을 이 동영상에서 한번에 살펴봅니다.간략히

3. 자료 [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link]

LECTURE

2022.01.28

Part 3. Transformer - 4 | Masking

Prof. Sangkeun Jung

1. Topic Deep Learning NLP 101 > Transformer > Masking

2. Overview Transformer 를 구현하기 위해서는 Masking에 대해 잘 알아야 합니다. 핵심 개념에 대해 살펴봅니다.

3. 자료 [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link]

LECTURE

2022.01.28

Part 3. Transformer - 3 | Self Attention, Cross Attention

Prof. Sangkeun Jung

1. Topic Deep Learning NLP 101 > Transformer > Self Attention, Cross Attention

2. Overview Transformer 의 핵심인 Self Attention 과 Cross Attention 의 기본 개념에 대해 살펴봅니다.

3. 자료 [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link]

LECTURE

2022.01.28

Part 3. Transformer - 2 | Multi-head Attention

Prof. Sangkeun Jung

1. Topic Deep Learning NLP 101 > Transformer > Multi-head Attention

2. Overview Multi-head attention 에 대해 살펴봅니다.

3. 자료 [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link]

LECTURE

2022.01.28

Part 3. Transformer - 1 | Dot-Product and Query Key Value Pattern

Prof. Sangkeun Jung

1. Topic Deep Learning NLP 101 > Transformer > Dot-Product and Query Key Value Pattern

2. Overview Transformer 의 기본 Attention 구조에 대해 살펴봅니다.

3. 자료 [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link]

LECTURE

2022.01.28

Part 3. Transformer - Overview

Prof. Sangkeun Jung

1. Topic Deep Learning NLP 101 > Transformer > Overview

2. Overview Transformer Lecture 의 전체 개요입니다.

3. 자료 [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link]

LECTURE

2022.01.28

Part 2. Attention 101 - 4 | (Practice) Multiplicative Attention

Prof. Sangkeun Jung

1. Topic Deep Learning NLP 101 > Attention 101 > (Practice) Multiplicative Attention

2. Overview Attention 구현 실습입니다. Multiplicative Attention 구현을 진행합니다.

3. 자료 [1] 발표 영상 : [link] [2] 소스코드 : [link]

LECTURE

2022.01.28

Part 2. Attention 101 - 3 | (Practice) Additive Attention

Prof. Sangkeun Jung

1. Topic Deep Learning NLP 101 > Attention 101 > (Practice) Additive Attention

2. Overview Attention 구현 실습입니다. Additive Attention 구현을 진행합니다.

3. 자료 [1] 발표 영상 : [link] [2] 소스코드 : [link]

LECTURE

2022.01.28

Part 2. Attention 101 - 2 | Understanding Attention

Prof. Sangkeun Jung

1. Topic Deep Learning NLP 101 > Attention 101 > Understanding Attention

2. Overview Attention mechanism 의 기초에 대해 살펴봅니다.

3. 자료 [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link]

LECTURE

2022.01.28

Part 2. Attention 101 | Sequence to Sequence Learning

Prof. Sangkeun Jung

1. Topic Deep Learning NLP 101 > Attention 101 > Sequence to Sequence Learning

2. Overview Sequence to Sequence Learning 에 대해 살펴봅니다.

3. 자료 [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link]

LECTURE

2022.01.27

Part 1. Neural Network 기초 | Hello World with PyTorch Lightning

Prof. Sangkeun Jung

1. Topic Deep Learning NLP 101 > Neural Network 기초 > Hello World with PyTorch Lightning

2. Overview 딥러닝 구현 Block 에 대한 소개입니다. Pytorch Lightning 에 대한 간단한 소개도 진행합니다.

3. 자료 [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 소스코드 : [link]

LECTURE

2022.01.27

Part 1 - Neural Network 기초 | Tensor Operations

Prof. Sangkeun Jung

1. Topic
Deep Learning NLP 101 > Neural Network 기초 > Tensor Operations

2. Overview Part 1 - Neural Network 기초의 첫번째 동영상입니다.

3. 자료 [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 소스코드 : [link]

LECTURE

2022.01.27

DL NLP - Course Overview

Prof. Sangkeun Jung

1. Topic Deep Learning NLP 101 > Course Overview

2. Overview Deep Learning NLP 101 전체 강의 소개 동영상입니다.

3. 자료 [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link]

PAPER

2022.01.26

Interpretable Multi-dataset Evaluation for Named Entity Recognition

Jeesu Jung

1. Topic Interpretable Multi-dataset Evaluation for Named Entity Recognition

2. Overview 개체명 인식(Named entity recognition, NER)에 대해서 Spearman, standard deviation과 같은 상관계수를 구하여 데이터의 속성에 대해 분석하는 방법론을 제시한다. 해당 방법은 모델, 데이터 속성(attribute), 속성의 기준으로 데이터셋을 쪼개어 분석하는 bucket의 관점에서 결과 분석을 진행한다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Interpretable Multi-dataset Evaluation for Named Entity Recognition [link]

SKILL

2022.01.14

WandB (Weight & Biases) 사용법

Hyunji Kim

1. Topic WandB (Weight & Biases) 사용법

2. Overview 더 나은 모델을 빨리 만들 수 있도록 도와주는 머신러닝 실험 tracking tool인 wandb 사용법에 대해 소개한다. 실험 추적을 위한 대시보드, dataset 및 model의 버전 관리를 할 수 있는 아티펙트, 테이블, hyper-parameter 튜닝을 통해 모델 최적화를 도와주는 스윕, 실험을 문서화하는 리포트 총 5가지의 유용한 도구를 제공한다. 본 스터디에선 대시보드와 Sweeps을 메인으로 조사하였다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 WandB [link]

PAPER

2022.01.12

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

Hyein Seo

1. Topic Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

2. Overview 본 논문은 Text-to-Text Transfer Transformer (T5) 모델에 대해 소개한다. 논문에서는 모든 자연어처리 태스크를 “text-to-text” 문제로 처리할 수 있는 관점에서 바라보고, 이러한 접근 방식을 사용하면 동일한 model, objective, training strategy, decoding 등을 사용할 수 있다고 제안한다. T5는 일반적인 트랜스포머 인코더-디코더의 구조를 따르고 있으며, 목적함수의 경우 denoising objective를 통해 사전 학습을 진행하였다. 다양한 실험을 통해 T5의 선학습 모델 및 downstream task에 대한 성능을 비교하였다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer [link]

BOOK

2022.01.05

How to write a good scientific paper

Taewook Hwang, Hyunji Kim, Hyein Seo, Jeesu Jung, Yoonmin Lee, Hyeunseok Kang

1. Topic How to write a good scientific paper Study 기간 : 2022.01.05 ~ 2022.01.14

2. Overview

- Chapter 1~3 (강현석) [1장] ◦ 대다수의 연구는 논문과 같은 출간물 형식으로 결과물을 만들고 게재하며, 이때 개인의 이익이라는 이기적 측면의 동기에 치우지치 않도록 하는 것이 중요함. ◦ 출간물 게재는 문헌검색을 통해 공개된 연구와 남은 과제를 파악하여 진행하는 것이 필요함. ◦ 과학 논문과 같은 출간물은 연구 계획과 추론, 성과 그리고 결과에 대한 데이터를 제공하여 연구의 신뢰성을 주고 다른 연구자가 재현할 수 있도록 정리하여 구성할 것을 강조함.

[2장] ◦ 과학 논문은 좁은 분야의 전공 지식을 갖춘 사람을 대상으로 쓴 글로써, 지식의 전달이라는 목적을 위해 고유의 스타일을 가짐. ◦ 일반적으로 Introduction, Method, Result and Discussion, Conclusion으로 구성된 “IMRaD”구조를 가짐. ◦ 각 Section간의 내용이 중복되지 않도록 기재하는것이 필요하며, Section별로 가지는 고유의 양식이나 주제를 지켜 작성하는것이 중요함.

[3장] ◦ 일반적인 글쓰기와 달리 과학적 글쓰기는 장르적 특징에서 오는 독자적인 스타일을 가짐. ◦ 글을 읽는 대상이나 내용을 전달하는 방법에서 스타일이 형성되며, 이때 정확성과 명확성을 해치지 않도록 작성하는 것이 중요. ◦ 대표적으로 과학논문에서의 약어 사용에서는 7가지 규칙이 있으며, 이 규칙을 따르는 것으로 독자가 연구의 내용을 빠르고 명확하게 파악하는데 도움을 줄 수 있음.

- Chapter 4~5 (황태욱) [4장] ◦ 그림과 표는 논문에서 진실(Truth)를 전달하는데 굉장히 중요함 ◦ 그림은 흑백 버전을 고려하여 가독성 있게 제작해야함 ◦ 그림은 전체적인 경향을 명확히 볼 수 있어야하며, 애매한 경우에는 표와 수식을 활용 ◦ 그림과 표는 독자가 독립적으로 읽어도 이해할 수 있어야함 ◦ 표는 세세하고 정밀한 비교에 주로 활용되며, 각 저널의 양식을 준수해야함

[5장] ◦ 인용은 과학의 발전을 위해 굉장히 중요하며, 과학자를 평가하는 지표로 활용됨 ◦ 무분별한 인용은 독자에게 혼란을 줌으로, 각자의 양심과 내용에 맞는 인용이 중요함 ◦ 인용은 자신과 다른 과학자의 공로를 위한 것도 있지만, 독자를 도와야 한다는 것도 명심할 것

- Chapter 6~8 (김현지) How to write a good scientific paper 중 6~8장에 대해 소개한다. 6장에서는 초록 및 제목 작성법, 7장에서는 논문 제출 시 에디터가 어떤 점들을 보는지, 8장에서는 내 논문을 출판할 저널을 고르는 법에 대해 다루고 있다. [6장] ◦ 초록을 잘 작성하기 위해 “구조화된 초록” 접근 방식 설명 ◦ 논문의 제목은 작업의 전체 범위를 구체적으로 설명하되 가능한 짧게 작성해야 함 ◦ 초록과 논문은 잠재적 독자와 논문을 연결하는 첫번째이자 가장 중요한 방법이므로 관심을 기울여 작성해야 함

[7장] ◦ 과학 저널에 게재하기 위해선 논문이 4가지의 중요한 기준을 충족해야 한다. 논문의 내용이 학술지의 범위와 일치해야하며, 논문의 질(연구 방법과 실험, 작문)이 충분히 높아야 하며, 새로운 결과를 제시해야 하고 (Review 논문 제외) 그 결과가 읽을 가치가 있고, 출판할 가치가 있을 만큼 충분히 중요해야 한다.

[8장] ◦ 저널의 주제가 세분화될 수록 논문에 관심이 있는 독자의 수는 늘어나지만 저널의 독자 수가 줄어든다. ◦ 저널의 IF Score와 실제 청중의 관심 범위를 잘 조율하여 제출하고자 하는 저널을 선택해야 한다.

- Chapter 9~11 (정지수) Chapter 9~11까지의 내용으로, cover letter의 필요성과 목적, 어떻게 쓰는지, peer review의 진행과정과 해당 과정의 당사자들의 마음가짐, review paper의 목적, 구성, 어떻게 써야하는지 에 대해 설명한다.

- Chapter 12~14 (서혜인) How to write a good scientific paper 중 12~14장에 대해 소개한다. 12장에서는 출판 시 지켜야 할 윤리, 13장에서는 저자권(Authorship), 14장에서는 표절(Plagiarism)에 대해 다루고 있다. [12장] ◦ 출판 전/peer-review 기간 동안/출판 후 저자의 책임에 대해 설명

[13장] ◦ 과학 논문에서 저자란 참신한(novel) 아이디어에 기여한 사람으로 정의 ◦ 부적절한 저자 사례로는 ghost author와 guest author가 있으며 두 경우 모두 윤리적 위반 사항에 해당 ◦ funding 받은 경우 자금 출처 잊지 않고 acknowledgement에 언급 ◦ 저자를 나열하는 방법에는 상대적 기여도, 알파벳순 등의 방법이 있음

[14장] ◦ 타인의 아이디어, 이미지, 단어(문장)를 사용하기 위해 인용 필요 ◦ 이중게재 및 자기표절은 심각한 연구 윤리 위반으로 본인의 문장이나 그림 재사용할 경우 반드시 인용

- Chapter 15~16, Appendix (이윤민) How to write a good scientific paper 중 15~~16장에 대해 소개한다. 15장에서는 이중 출판(Double Publication), 16에서는 편집 윤리(Editorial Ethics), Appendix(부록)에서는 앞에서 설명한 1장~~16장까지의 요약에 대해 다루고 있다. [15장] ◦ 적절한 인용(자기 인용 포함)의 중요성에 대해 언급 ◦ 이중 출판의 개념과 이중 출판으로 평가되는 기준에 대해 설명함

[16장] ◦ 편집자의 윤리적 책임에 대해 언급함

[Appendix] ◦ 원고를 거부해야 할 경우 참고해야 할 체크리스트를 설명함 ◦ 원고를 거부되지 않았을 경우 게재가 허용되도록 변경해야 하는 사항에 대해 설명함

References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 How to write a good scientific paper [link]

SKILL

2022.01.05

Information Retrieval Evaluation

Yoonmin Lee

1. Topic Information Retrieval Evaluation

2. Overview 본 발표에서는 정보 검색을 위한 평가지표(Evaluation Metrics For Information Retrieval )에 대해 설명한다. Binary Relevance에 관한 평가지표 중 Order-Unaware Metrics으로는 Precision@k, Recall@k, F1Score@k가 있고, Order-Aware Metrics으로는 MRR@k, AP@k, MAP@k가 있다. 결과의 우선순위를 고려한 성능 평가를 위해서는 MRR@k, MAP@k를 사용하는 것이 좋다. Graded Relevance에 관한 평가지표는 CG@k, DCG@k, NDCG@k가 있으며, NDCG@k의 경우 정규화 된 점수이기 때문에 다른 쿼리의 NDCG 점수와 비교 가능하다는 장점이 있다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Evaluation Metrics For Information Retrieval [link]

SKILL

2021.12.01

Lower-precision Arithmetic Technique

Hyeunseok Kang

1. Topic Lower-precision Arithmetic Technique

2. Overview 본 발표에서 High Performance의 DNN(Deep Neural Networks)가 만드는 높은 계산 복잡성과 Resouce 요구량에 의한 하드웨어적인 한계를 해결하기 위한 방법으로써, float16 및 Brain Floating Point Format(bfloat16)을 활용한 Mixed-Precision Technique을 소개하고 Example Code를 통해 적용 방법을 알아본다.

3. References [1] 발표 자료 : 하단 첨부 [2] 참고 문헌 Training with Mixed Precision [link] Automatic Mixed Precision Training [link] Introducing Faster Training with Lightning and Brain Float16 [link]

PAPER

2021.10.13

Research on Efficient Transformers

Hyeunseok Kang

1. Topic Research on Efficient Transformers

2. Overview 본 발표에서는 Vanilla Transformer의 Attention 구조가 가지는 높은 Resource 요구량을 해결하기 위한 기술로써, Attention Mechanism을 개선하는 방법과 GPU Computation Optimization을 사용한 방법을 소개한다. 논문을 통해서 각 연구들이 적용한 Attention Mechanism의 구조를 알고, Benchmark 결과를 통해 Vanilla Transformer와 성능을 비교하여 Task별로 적용하기 좋은 Attention Mechanism을 알아본다. GPU Computation Optimization 기법을 사용하여 Memory에 접근을 최소화하는 것으로 Resource 사용을 줄이는 방법을 소개하고, 모델에 적용하였을 때 SpeedUp을 기준으로 성능 향상 효과를 알아본다.

3. References [1] 발표 자료 : 하단 첨부 [2] 발표 영상 : [link] [3] 참고 문헌 Long Range Arena: A Benchmark for Efficient Transformers [link] Longformer: The Long-Document Transformer [link] Rethinking Attention with Performers [link] Reformer: The Efficient Transformer [link] Faster Transformer: CUDA-Centric BERT Inference Optimization [link]

SKILL

2021.10.13

Text Annotation Tools for NLP

Hyunji Kim

Topic Text Annotation Tools for NLP
Overview NLP 관련 데이터셋의 label 관리를 위해 도구가 필요하며, 이에 관련된 도구들에 대해 소개한다. Doccano, Prodigy, TagTog, INCEpTION 들에 대해 설명한다.
References [1] 발표 자료 : 하단 첨부

SKILL

2021.10.05

Imbalanced Label Problem

Taewook Hwang

1. Topic 라벨 불균형 문제 해결 방법

2. Overview Imbalanced Label : 데이터의 라벨 비율이 균일하지 않고 편향되어 있음 Imbalanced Label 문제를 해결하는 보편적인 방법

Undersampling : 높은 비율의 라벨 개수를 낮은 비율의 라벨 개수와 비슷하게 맞추는 것
Oversampling : 낮은 비율의 라벨 개수를 높은 비율의 라벨 개수와 비슷하게 맞추는 것
ImbalancedDatasetSampler : Undersampling + Oversampling
loss weight : 로스 함수 계산 시 라벨 비율에 따라 가중치 부여
K-fold Cross Validation : 학습 데이터를 최대한 활용하여 과적합을 방지하고자 활용, 라벨 비율을 조절하며 활용할 수 있음

3. References [1] 발표 자료 : 하단 첨부

SKILL

2021.09.13

Hash Neural Networks

Jeesu Jung

1. Topic Hash Neural Networks

2. Overview Hashing을 이용한 constraint를 주는 Neural Network, 그리고 유사도에 따라 유리한 위치에 Key를 배정하는 Neural Network for hash에 대한 간단한 소개입니다.

3. References [1] 발표 자료 : 하단 첨부 [2] 참고 문헌 https://ieeexplore.ieee.org/document/8109467 https://dl.acm.org/doi/abs/10.1145/3366423.3380266

SKILL

2021.08.02

Hyperparameter Optimization

Hyein Seo

1. Topic Hyperparameter Optimization

2. Overview Hyperparameter optimization이란 최적의 하이퍼파라미터를 찾아가는 방법으로 모델 학습 전에 여러 가지 하이퍼파라미터를 설정하고, 최적의 하이퍼파라미터의 조합들을 찾아기 위해 탐색 범위를 좁혀 최적의 값에 도달하도록 하는 과정이다. Hyperparameter optimization 방법으로는 manual search, grid search, random search, bayesian optimization이 있으며 각각의 방법 및 장단점에 대해 소개한다.

3. References [1] 발표자료 : 하단첨부 [2] 발표영상 : [link] [3] 참고 문헌 COMBO: An efficient Bayesian optimization library for materials science [link] Optuna: A Next-generation Hyperparameter Optimization Framework [link] Best Tools for Model Tuning and Hyperparameter Optimization [link]