F Lite: Giới thiệu mô hình ảnh nguồn mở từ Freepik & Fal.ai
2025-05-02 16:47:27

Trí tuệ nhân tạo tạo ra đang phát triển với tốc độ chóng mặt, được thúc đẩy bởi sự hợp tác mạnh mẽ của nguồn mở. Tuy nhiên, việc phát triển các mô hình AI chất lượng cao, quy mô lớn chỉ được đào tạo trên dữ liệu được cấp phép vẫn là một thách thức đáng kể. Hôm nay, Freepik và Fal.ai giới thiệu F Lite, một mô hình chuyển văn bản thành hình ảnh mạnh mẽ và là một cột mốc quan trọng trong AI mở và có trách nhiệm.
Các nhóm nghiên cứu AI của freepik và Fal.ai đã hợp tác để xây dựng F Lite. Được đào tạo độc quyền trên các hình ảnh chất lượng cao, an toàn bản quyền từ thư viện stock của Freepik, F Lite khám phá những gì có thể với một tập dữ liệu nhỏ hơn (chỉ 80 triệu hình ảnh, so với hơn một tỷ hình ảnh thông thường). Điều này khiến nó có khả năng trở thành mô hình chuyển văn bản thành hình ảnh lớn nhất có sẵn công khai được đào tạo hoàn toàn trên nội dung hợp pháp của freepik.
Gặp gỡ F Lite
F Lite tận dụng kiến trúc 10 tỷ tham số dựa trên DiT, kết hợp nhiều cải tiến. Mặc dù được đào tạo với ít tài nguyên tính toán hơn – 64 GPU H100 trong hai tháng – và dữ liệu so với các mẫu máy hàng đầu thông thường, nhưng mẫu máy này vẫn có khả năng cao và sẵn sàng cho sự đổi mới hơn nữa của cộng đồng.
Hiệu suất ấn tượng
F Lite nổi trội trong việc tạo ra các hình ảnh đa dạng, có độ trung thực cao, đặc biệt mạnh về phong cách minh họa và vector phản ánh dữ liệu đào tạo của nó. Là bản phát hành đầu tiên, nó có một số hạn chế đã biết:
Chi tiết siêu mịn: Hình ảnh siêu thực đôi khi bỏ lỡ các kết cấu cực mịn.
Các cảnh phức tạp: Các thành phần hoặc giải phẫu phức tạp có thể tạo ra các khiếm khuyết.
Độ nhạy của lời nhắc: Kết quả tối ưu yêu cầu lời nhắc mô tả; lời nhắc ngắn hơn với ít chi tiết hơn có thể hoạt động kém.
Kết xuất văn bản: Văn bản chính xác trong hình ảnh vẫn là một thách thức đã biết.
Sau khi thử nghiệm và xem xét kỹ lưỡng, chúng tôi tin rằng kiến trúc cốt lõi và phương pháp đào tạo của F Lite là hợp lý. Những hạn chế này chủ yếu phản ánh ranh giới của dữ liệu và tính toán được sử dụng.
Phù hợp với nhu cầu của bạn
Freepik đang phát hành hai biến thể của F Lite. F Lite Regular lý tưởng cho mục đích sử dụng chung, trong khi F Lite Textured cung cấp chất lượng thẩm mỹ được cải thiện và kết cấu phong phú hơn, phù hợp nhất với các lời nhắc chi tiết hơn (ít hiệu quả hơn với các vectơ và lời nhắc ngắn).
Hãy thử các bản demo này tại đây:
F Lite Regular:Hugging Face space and Fal
F Lite Texture:Hugging Face space and Fal
Cả hai mô hình đều được cấp phép mở, với trọng số thông thường và có kết cấu có sẵn trên Hugging Face. Mã của mô hình cũng là mã nguồn mở, cho phép bạn sử dụng F Lite trong ComfyUI, tích hợp vào quy trình làm việc Python của bạn thông qua bộ khuếch tán hoặc tinh chỉnh và tạo LoRA tùy chỉnh.
Đi sâu vào các chi tiết kỹ thuật
Đối với những người đam mê và nghiên cứu AI, chúng tôi đã xuất bản Báo cáo kỹ thuật F Lite chi tiết giải thích các phương pháp cải tiến được sử dụng trong quá trình đào tạo, bao gồm µ-Parameterization, lập lịch WSD, Register Tokens, Residual Value Connections, Sequence Dropout, MaPO và GRPO cùng nhiều phương pháp khác.
Hãy cùng nhau xây dựng
Chúng tôi rất mong chờ xem cộng đồng phản hồi như thế nào về F Lite! Cho dù là tinh chỉnh cho các phong cách nghệ thuật cụ thể, tạo IP-Adapters hoặc ControlNets hay tối ưu hóa các phiên bản lượng tử, chúng tôi luôn ở đây để hỗ trợ sự sáng tạo của bạn.
Một "phiên bản vi mô" nhỏ hơn, thân thiện với GPU cũng đang được triển khai, với mục tiêu mang sức mạnh của F Lite đến với nhiều nhà sáng tạo hơn nữa.
Tham gia hành trình
Việc phát hành F Lite chứng minh rằng ngay cả khi không có nguồn lực vô hạn, sự đổi mới tập trung và sự hợp tác trong cộng đồng nguồn mở vẫn có thể tạo ra các mô hình nền tảng đáng chú ý. Hãy cùng nhau định hình tương lai của AI tạo sinh!
Theo Freepik