모델에는 1,800억 개의 매개변수가 있습니다.
3조 5천억 개의 토큰으로 훈련됨(Llama 2의 거의 2배!)
700만 GPU 시간으로 훈련됨(4x Llama 2)
베이스 모델과 채팅 모델이 모두 출시되었습니다
품질은 13개 벤치마크에서 Llama 2 및 GPT-3.5보다 높은 PaLM-2 Large와 동등하므로 이 모델은 대중에게 알려진 최고의 모델 중 하나입니다.
라이선스에는 제한적인 조건이 있습니다. -> 타사에 API 서비스를 제공할 수 없습니다.
채팅 모델은 매우 간단한 형식을 가지고 있습니다.
System: Add an optional system prompt here User: This is the user input Falcon: This is what the model generates User: This might be a second turn input Falcon: and so on
훈련을 위해서는 많은 GPU가 필요합니다. 추론을 위해 GPTQ/int4를 사용하면 8개의 A100이 필요합니다.
Transformers 지원(오늘 발생한 기존 릴리스 4.33 포함)
비트샌드바이트, PEFT 및 GPTQ와 통합됩니다.
RoPE 스케일링
추측적 디코딩 지원
4비트와 8비트에서는 성능 저하가 거의 나타나지 않습니다. 벤치마크 전반에 걸친 성능은 안정적으로 유지됩니다.
* 작업별 필요한 리소스
데모링크: https://huggingface.co/spaces/tiiuae/falcon-180b-demo
허깅링크: https://huggingface.co/tiiuae/falcon-180B
---
유저들의 평가로는 프롬프트 인식률부터 다르다는거 같음
실성능이 gpt3.5 터보에 가까운듯
그런데 필요한 리소스가 추론만 해도 ㄷㄷ