• 모델에는 1,800억 개의 매개변수가 있습니다.

  • 3조 5천억 개의 토큰으로 훈련됨(Llama 2의 거의 2배!)

  • 700만 GPU 시간으로 훈련됨(4x Llama 2)

  • 베이스 모델과 채팅 모델이 모두 출시되었습니다

  • 품질은 13개 벤치마크에서 Llama 2 및 GPT-3.5보다 높은 PaLM-2 Large와 동등하므로 이 모델은 대중에게 알려진 최고의 모델 중 하나입니다.

  • 라이선스에는 제한적인 조건이 있습니다. -> 타사에 API 서비스를 제공할 수 없습니다.

  • 채팅 모델은 매우 간단한 형식을 가지고 있습니다.

System: Add an optional system prompt here
User: This is the user input
Falcon: This is what the model generates
User: This might be a second turn input
Falcon: and so on
  • 훈련을 위해서는 많은 GPU가 필요합니다. 추론을 위해 GPTQ/int4를 사용하면 8개의 A100이 필요합니다.

  • Transformers 지원(오늘 발생한 기존 릴리스 4.33 포함)

    • 비트샌드바이트, PEFT 및 GPTQ와 통합됩니다.

    • RoPE 스케일링

    • 추측적 디코딩 지원

  • 4비트와 8비트에서는 성능 저하가 거의 나타나지 않습니다. 벤치마크 전반에 걸친 성능은 안정적으로 유지됩니다.



* 작업별 필요한 리소스



데모링크: https://huggingface.co/spaces/tiiuae/falcon-180b-demo

허깅링크: https://huggingface.co/tiiuae/falcon-180B



---

유저들의 평가로는 프롬프트 인식률부터 다르다는거 같음
실성능이 gpt3.5 터보에 가까운듯

그런데 필요한 리소스가 추론만 해도 ㄷㄷ