BERT에 관련하여 - Ai 언어모델 로컬 채널

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3404명 알림수신 168명 @바바리맨

제한없는 언어모델을 위한 채널

질문 BERT에 관련하여

ㅇㅇ (121.166)

추천 0 비추천 0 댓글 3 조회수 494 작성일 2024-05-10 01:18:03

⚠️ 이 게시물은 작성자가 삭제할 수 없도록 설정되어 있습니다.

https://arca.live/b/alpaca/105821614

안녕하세요.

다들 금요일 하루 잘 시작하셨나요~!

혼자서 생각하고 찾아보다 잘 모르겠어서 BERT와 관련한 질문을 드리려고 합니다.

제가 하려고 하는 것은 특정 문장이나 혹은 구와 같은 자연어를 임베딩을 시키려고 합니다!

이렇다 보니 대표적으로 BERT기반의 모델들을 떠올리게 되었습니다.

BERT의 사전학습은 mlm, nsp와 같은 objective function으로 모델을 학습시키기 위해 pair로 입력이 주어지는 것으로 알고 있습니다.

여기서 제가 하려고 하는 것(단일 문장 or 구를 넣고 벡터를 구하는 것)과 사전학습 입력의 형태가 매칭이 안됩니다.

과거에는 단순히 사전학습된 BERT를 사용하여 단일 문장을 입력으로 문장벡터(cls, mean, max pooling)를 사용해왔었는데 오늘 문득 이렇게 사용해도 되는지? 이게 왜 가능한건지? 이런 원론적인 내용이 궁금합니다.

BERT 이후에, RoBERTa (nsp 제거)나 S-BERT와 같은 모델들이 나오고 사용되고 있는데 S-BERT같은 경우 bi-encoding을 사용하여 BERT의 cross-encoding보다는 성능이 떨어진다는 결과도 있더라구요.

두서없이 작성하여 이해하기 힘드시겠지만, BERT의 사전학습 과정과 실제 사용하려는 목적과의 데이터 입력의 괴리가 발생하는게 이상이 없는지 궁금합니다. 혹시 관련된 지식이 있으시다면 좋은 말씀 부탁드립니다.

감사합니다

댓글 [3] 글쓰기

hkhk

2024-05-10 03:41:28 답글

*수정됨

방법이 mlp 이건 어떤 다른 것이건 간에 얻고자 하는 것은 임베딩들이지요. 근데 임베딩은 모델의 입장에서 보면 부산물에 가깝습니다. 주어진 환경 (대량의 학습데이터와 한정된 파라메터의 대비) 과 학습목표 (마스킹된 부분 복원 등..) 를 달성해야 하는 프로세스를 거치고 난 부산물에는 실제 언어의 구조와 데이터의 패턴 (상식등..) 이 원래의 전체 공간 안에 임베딩된 latent공간의 형태로 남게됩니다.

펼쳐보기▼

hkhk

2024-05-10 03:45:33 답글

*수정됨

주어진 모델의 학습과, 실 사용환경에서의 입력에는 괴리가 있다고 하더라도, 학습된 모델의 추론과정을 통해 같은 latent space로 변환되고 나면 그 공간 안에서는 semantic 하게 가깝다, 멀다라는 관계를 활용할 수 있습니다.  그러한 latent space 가 manifold 를 형성하게 되면 '모델의 학습이 잘 이루어졌다' 라고 판단할 수 있습니다. manifold 를 형성하지 못한다면 (임베딩 벡터들이 끊어져 있거나 제대로 응집되어있지 않거나 한 경우들) 학습이 실패한 경우라고 할 수 있습니다

딥러닝의 학습과 추론은 두개의 서로 다른 공간 (입력된 토큰의 공간과 latent 공간) 간의 변환을 가능하게 하는 모델에 의해 이루어지는 것입니다.

펼쳐보기▼

ㅇㅇ (121.166)

2024-05-10 05:04:34 삭제 수정 답글

무슨 말인지 이해가 되었습니다. 단순히 입력 데이터의 형태가 다르다로 끝나는게 아니고 벡터 공간에 대해서 생각을 했었어야 했네요. 감사합니다!

펼쳐보기▼

글쓰기

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 28554753

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 6010

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 27089

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 8905

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

4242 일반 오늘부로 deepseek에 대한 지지를 철회한다 [8]

maywell 2024.05.24 173 4

4241 일반 오픈소스 8b 모델이 업스테이지 솔라를 추월 [4]

maywell 2024.05.24 165 4

4240 일반 Vicuna에서 답변받은 내용을 가공할수있음 ? [3]

ㅇㅇ (211.118) 2024.05.24 176 -2

4239 질문 간단한 질문드립니다! [1]

ㅇㅇ (121.166) 2024.05.24 129 0

4238 일반 우바부가 잘아는사람있음? [2]

ㅇㅇ (211.118) 2024.05.24 183 0

4237 질문 회사에 RAG 쓰시는 분들에게 질문 [13]

ㅇㅇ (1.232) 2024.05.24 424 0

4236 일반 akallama ollama Modlefile template 오류

억장이 2024.05.24 107 0

4235 일반 앤트로픽이 밑에 소넷 작동원리를 파악한거를 금문교 클로드로 공개했네요 [4]

그래요 2024.05.24 340 6

4234 정보 Cohere에서 신규 모델(Aya 23 8B/35B) 나왔네요 [4]

ㅇㅇ 2024.05.23 526 7

4233 일반 중국발 ai 덤핑에 대해서 말이 많긴 하네요. [6]

감별사 2024.05.23 543 5

4232 스터디 llama2.c 모델 학습 결과 [2]

zzzzz5 2024.05.23 370 10

4231 일반 llama 3 70B -> 4x8B [1]

zzzzz5 2024.05.23 563 8

4230 정보 MacOS chatgpt app waitlist 우회하는 방법

jackofmaster 2024.05.23 279 6

4229 질문 프롬프트 엔지니어링이라는 용어의 범주? [2]

초당옥수꾸 2024.05.23 357 0

4228 일반 흥미로운 일/영 번역모델이 나왔네요 [6]

한가운데 2024.05.23 417 5

4227 질문 unsloth에서 device map 설정 방법 아시는 분 계실까요? [2]

ㅇㅇ (58.234) 2024.05.23 218 0

4226 질문 전력공학이나 전기공학 학습용 데이터같은것도있을까요? [1]

ㅇㅇ (1.235) 2024.05.22 198 0

4225 정보 mistral 7b 0.3출시 [5]

jackofmaster 2024.05.22 672 8

4224 일반 영향 있는 Lora 만드려면 몇번쯤 돌려야 하는거임? [1]

세법상법 2024.05.22 301 1

4223 스터디 딥러닝모델의 망각증상 (Catastrophic Forgetting)에 대한 고찰 [11]

hkhk 2024.05.22 723 31

글쓰기

전체글 개념글

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.