# **Bài toán Yến sào & Generative AI** **https://www.facebook.c…


Xem bài viết trên Group | Tác giả:  
Like: 40 | Comment: 5 | Share: 3

# **Bài toán Yến sào & Generative AI**

**https://www.facebook.com/groups/bdtd.vn/posts/1321922365147096/?__cft__[0]=AZXZGElvCmMK5IMCv0tdFCXKrkSaKuiqK1hBiOfYdBSUYXPf_h1RjrenfsdSNUyuFhDspbnhe035QYQnz5vBAd1AR6Wvp4KW8bNBlzyqdrN3FaNRTmoyuncvztGPIjs-py59X4CxcY2-OS-Fees9xkPoM9D3ajePs9mBDEyIzmWbjmt8OLi2pd03XjuwppzNdd7kMEV2dDXpjqVgXr7OIHe4iNaiM6uoHOkPxS0DjIycSA&__tn__=-UK-R]-R**

Tại sao hầu hết chúng ta không thể vẽ được yến sào bằng AI?

Lý do chỉ có một: Model mà các con AI hiện tại mọi người đang sử dụng gần như không có đủ dữ liệu cần thiết để hiểu tổ yến sào là gì.

Vậy là AI bó tay? Câu trả lời là không. AI hoàn toàn có thể làm được, tuy nhiên nó cần phải có dữ liệu để hiểu (AI chuyên ngành thường gọi là “đánh nhãn”). Chỉ cần người đánh nhãn phía sau những con AI kia cập nhật dữ liệu hình yến sào chụp thật và đánh nhãn thì sau này chúng ta có thể dễ dàng vẽ hình yến sào hơn hiện tại.

Tuy nhiên, yến sào không phổ thông so với những món ăn khác như pizza, spagetti,… nhất là với đội ngũ đánh nhãn người nước ngoài, nên thời gian chờ đợi này chắc cũng phải tính theo năm.

Vậy để làm sao để rút ngắn thời gian chờ đợi này?

**Hãy tự train model**

Đây là phương pháp tốt nhất (theo khả năng tôi hiểu được cho tới thời điểm hiện tại). Vì bản chất của những con AI tạo ảnh hiện tại là AI tạo sinh ***(Generative AI)***, nó chỉ có thể sáng tác dựa trên kho dữ liệu đầu vào mà mình cung cấp cho nó.

**Train model**

Ở thời điểm hiện tại, để train model thì chúng ta phải sử dụng Stable Diffusion (SD). SD là một mô hình trí tuệ nhân tạo tạo sinh được phát triển bởi công ty Stability AI và ra mắt công khai vào năm 2022.

SD là “tool” đặc thù và khó nhằn nhất trong danh sách Generative AI hiện tại. Vì ngoài việc “viết prompt” chúng ta còn phải tùy chỉnh các thông số đầu vào cho AI, đổi lại thì kết quả sẽ đúng ý người sử dụng nhất (kiểu dáng, màu sắc,…).

Ngoài SD thì hầu hết tất cả các Generative AI khác đều chỉ cần viết prompt để mô tả nhu cầu của người dùng, dẫn đến các kết quả được tạo ra thường có độ chính xác không cao (so với ý tưởng của người sử dụng). Tuy nhiên SD không phải là tất cả, mà mỗi con Generative AI sẽ có ưu nhược điểm riêng, tôi sẽ đề cập ở phần tiếp theo. ## **Các loại Generative AI thông dụng**

Ở đây mình chia ra làm 3 loại chính: Midjourney (MJ), Stable Diffusion (SD) và Dall-E. Bởi vì hầu hết các AI trên thị trường hiện tại đều sử dụng một trong ba nền tảng này để phát triển.

**1. Dall-E**

*Đây là nền tảng mà mình thấy mọi người trong group thường sử dụng. Bing Creator hay ChatGPT thì cũng đều base từ Dall-E. Quan điểm cá nhân thì Dall-E 3 là con AI dễ sử dụng nhất và đưa ra các kết quả khá tốt. Tuy nhiên ngoài việc viết prompt mô tả thì hầu hết bạn không thể làm được gì thêm với nó, như: Đưa hình mẫu để nó học theo để vẽ hay tùy chỉnh một số style. Ngoài ra nó cũng cho ra những bức ảnh khá nhỏ, và cố định về tỉ lệ khung hình: 1024×1024 px, Không thể zoom xa gần.*

**Đánh giá:** * Dễ dùng: 7/10 * Chất lượng: 6/10 * Tùy chỉnh: 4/10 * Giá: Miễn phí (Nếu sử dụng Bing chat hoặc ChatGPT) * Cài đặt: Không

**2. Midjourney**

*Midjourney cũng gần tương tự với Dall-E vì lấy prompt làm chủ đạo, tuy nhiên MJ gây ấn tượng ở độ chân thực trong mảng photographic cũng như sự đa dạng trong mảng nghệ thuật. Ở phiên bản 5.2 MJ có khả năng tuỳ biến ‘style’ khá cao,phong cách nghệ thuật phong phú , cũng như chất lượng hình ảnh tạo ra tương đối tốt, Nhiều tỉ lệ khung hình, có thêm 1 số addon hữu ích. Nhưng nhược điểm là không thể kiểm soát dáng pose của nhân vật một cách chính xác.*

**Đánh giá: ** * Dễ dùng: 6/10 * Chất lượng: 8/10 * Tuỳ chỉnh: 6/10 * Giá: gói thấp nhất 10$/ tháng * Cài đặt: Không

3. Stable Diffusion

*Đây là nền tảng có thể custom theo ý tưởng của người sử dụng cao nhất. Đa dạng phong cách vẽ từ trừu tượng tới hình thực tế.  Ở mức độ kiểu soát đầu ra rất tốt, có thể coi là tốt nhất ở thời điểm hiện tại. Nhưng đổi lại là khá khó dùng & phải cài đặt (PC, Colab) hoặc sử dụng các dịch vụ bên thứ 3: Tensor, Civitai, seaart,….. Tại SD, prompt không phải là tối thượng, mà phần Model , Lora mới là cái ảnh hưởng nhiều nhất tới hình ảnh đầu ra. Ngoài ra SD còn có 1 điểm mạnh hơn hẳn so với 2 ông phía trên là bộ add-on phong phú giúp kiểm soát đầu ra cực đỉnh: Bắt ngồi là ngồi, bắt đứng là đứng, hay có thể tạo ra những hình ảnh có kích thước siêu lớn…. *

**Đánh giá: ** * Dễ dùng: 4/10 * Chất lượng: 8/10 * Tuỳ chỉnh: 8/10 * Cài đặt: Có * Giá: Miễn phí

# **KẾT: **

Để giải bài toán Yến sào thì chúng ta cần sử dụng tới SD. Hiện tại thì đây là cách giải tối ưu nhất. Nhưng cũng khiến người giải toán đau ví, đau thận :)) Không khuyến cáo cho người tiết kiệm 😀 Tuy nhiên biết đâu đấy, trong 1 thời gian ngắn nữa sẽ có những lời giải hay hơn, hợp ví hơn thì sao. Cùng hi vọng về 1 tương lai AI tươi sáng :))

#chiaseAI

Xem bài viết trên Group

Trả lời