ich💤iel

OddFed@feddit.de · 11 months ago

ich💤iel

Mixel@feddit.de · 11 months ago

Ich kann dies mit meinen noch schlechter Halbwissen bestätigen 😄 Bei Trainingsdaten geht fast immer Qualität vor Quantität stand zumindest auch so in llama 2 paper. Eine Sache fand ich noch interessant du sagtest das llama2 mpt Falcon usw ein MoE modell sein aber ich glaube das stimmt nicht, es gab jetzt von stability ai ein MoE modell von 7B*10 (das heißt das Modell wäre 70B groß, wenn man das bei llama2 7B hätte wäre das Modell ja viel zu winzig um irgendwas zu verstehen gefühlt) oder so, oder gibt es noch etwas anderes was ich nicht kenne? 😅

TiKa444@feddit.de · 11 months ago

Ich glaube da habe ich mich missverständlich ausgedrückt. Von Llama 2.0 existieren seitens META je zwei Modelle. Das gewöhnliche 7b, 13b und 70b und die chat Variante in 7b, 13b, 70b (die chat variante ist auf chats feinabgestimmt). Dazu kommt dass Llama wie MPG und Falcon Open Source ist und frei zur Verfügung stehen. Das führt dazu, dass diverse Nutzer und Unternehmen ihre eigenen Modelle fein abgestimmt haben, weshalb auf Hugging Face bsw. Story-Writer, Codier, weitere Chat, ect. Versionen verfügbar sind.

Ein MoE Modell ist, wenn ich das richtig im Kopf habe ein Modell, das von Haus aus auf verschiedene Szenarien (Experts) abgestimmt ist, die zusammen geliefert werden. Man kann mehrere oder alle Experts gleichzeitig laden und nutzen, wenn ich mich nicht täusche.

Im Prinzip hat die Community und die Wirtschaft die Feinabstimmung zu den verschiedenen Experts bei den genannten Open Source Modellen übernommen. Nur das diese nicht als Paket kommen sondern einzeln geladen (und verwendet) werden müssen. Natürlich schwankt auch die Qualität abhängig von der Quelle.

Ich meine allerdings, dass es speziell von MPT ein MoE Modell gäbe, sicher bin ich mir da gerade nicht.

Kann natürlich gut sein, dass ich gerade völlig falsch damit liege was MoEs sind. Habe mich noch nicht allzu ausgiebig mit solchen beschäftigt.