**Có thể nghe và nhìn, mang lại cho người mẫu các giác quan khác nhau để hiểu thế giới! **
Các mô hình ngôn ngữ quy mô lớn hiện tại, chẳng hạn như ChatGPT, chỉ có thể chấp nhận văn bản làm đầu vào, ngay cả phiên bản nâng cấp của GPT-4 cũng chỉ thêm chức năng nhập hình ảnh và không thể xử lý dữ liệu phương thức khác, chẳng hạn như video và âm thanh.
Gần đây, các nhà nghiên cứu từ Đại học Cambridge, Viện Khoa học và Công nghệ Tiên tiến Nara và Tencent đã cùng nhau đề xuất và mã nguồn mở hướng dẫn chung theo mô hình PandaGPT, đây cũng là mô hình đầu tiên hiện thực hóa sáu phương thức (hình ảnh/video, văn bản, âm thanh, độ sâu, nhiệt và IMU) thực hiện các hướng dẫn theo mô hình cơ bản của dữ liệu.
Liên kết giấy:
Liên kết mã:
Không có sự giám sát đa phương thức rõ ràng, PandaGPT thể hiện khả năng đa phương thức mạnh mẽ để thực hiện các tác vụ hiểu/lập luận phức tạp, chẳng hạn như tạo mô tả hình ảnh chi tiết, viết các câu chuyện lấy cảm hứng từ video và trả lời các câu hỏi về âm thanh hoặc nhiều vòng đối thoại, v.v.
Nói tóm lại, cải tiến cốt lõi của PandaGPT là nó có thể chấp nhận nhiều đầu vào phương thức cùng một lúc và kết hợp tự nhiên ngữ nghĩa của các phương thức khác nhau, vượt qua phân tích đơn phương thức truyền thống, mở rộng các kịch bản ứng dụng xuôi dòng và tiến gần hơn đến việc triển khai của AGI.
Ví dụ
Hỏi đáp dựa trên hình ảnh:
Trả lời câu hỏi nhiều vòng dựa trên hình ảnh:
Hỏi đáp dựa trên video:
Viết sáng tạo lấy cảm hứng từ hình ảnh/video:
Khả năng suy luận trực quan:
Khả năng suy luận âm thanh:
Khả năng hiểu đa phương thức về hình ảnh + âm thanh:
Khả năng hiểu đa phương thức của video + âm thanh:
PandaGPT đa phương thức
So với mô hình AI bị mắc kẹt trong máy tính, con người có nhiều giác quan để hiểu thế giới, họ có thể nhìn thấy một bức tranh và nghe thấy nhiều âm thanh khác nhau trong tự nhiên, nếu máy móc cũng có thể nhập thông tin đa phương thức, nó có thể toàn diện hơn .giải các bài toán khác nhau.
Hầu hết các nghiên cứu đa phương thức hiện nay chỉ giới hạn ở một phương thức duy nhất, hoặc sự kết hợp giữa văn bản và các phương thức khác, thiếu tính toàn vẹn và bổ sung cho việc nhận và hiểu đầu vào đa phương thức.
Để làm cho đầu vào đa phương thức của PandaGPT có khả năng, các nhà nghiên cứu đã kết hợp bộ mã hóa đa phương thức của ImageBind với mô hình ngôn ngữ quy mô lớn Vicuna, cả hai đều đạt được hiệu suất rất cao trong các tác vụ làm theo chỉ dẫn dựa trên hình ảnh và âm thanh.
Đồng thời, để làm cho các không gian đặc trưng của hai mô hình nhất quán, các nhà nghiên cứu đã sử dụng 160.000 dữ liệu theo dõi hướng dẫn ngôn ngữ hình ảnh mã nguồn mở để đào tạo PandaGPT, trong đó mỗi phiên bản đào tạo bao gồm một hình ảnh và một bộ đa ngôn ngữ. dữ liệu hội thoại vòng và hội thoại chứa từng lệnh của Con người và phản hồi của hệ thống.
Để giảm số lượng tham số có thể đào tạo, các nhà nghiên cứu chỉ đào tạo biểu diễn ImageBind được sử dụng để kết nối Vicuna và các trọng số LoRA bổ sung trên mô-đun chú ý của Vicuna.
Trong quá trình đào tạo, dựa trên tài nguyên tính toán của GPU 8×A100 40G, nếu đặt độ dài chuỗi tối đa của Vicuna-13B là 400, quá trình đào tạo sẽ mất khoảng 7 giờ.
Điều đáng chú ý là phiên bản hiện tại của PandaGPT chỉ được đào tạo với dữ liệu văn bản hình ảnh được căn chỉnh, nhưng bằng cách sử dụng sáu phương thức (hình ảnh/video, văn bản, âm thanh, độ sâu, nhiệt và IMU) được kế thừa trong bộ mã hóa ImageBind bị đóng băng, PandaGPT thể hiện sự nổi lên , khả năng đa phương thức zero-shot.
giới hạn
Mặc dù khả năng đáng kinh ngạc của PandaGPT trong việc xử lý nhiều phương thức và sự kết hợp của các phương thức, vẫn có một số cách mà PandaGPT có thể được cải thiện hơn nữa:
Quá trình đào tạo của PandaGPT có thể được làm phong phú hơn bằng cách giới thiệu nhiều dữ liệu căn chỉnh hơn, chẳng hạn như các phương thức khác (văn bản âm thanh) phù hợp với văn bản
Các nhà nghiên cứu chỉ sử dụng một vectơ nhúng để biểu thị nội dung phương thức khác với văn bản và cần có nhiều nghiên cứu hơn về các biến dạng trích xuất tính năng chi tiết.
PandaGPT hiện chỉ sử dụng thông tin đa phương thức làm đầu vào và trong tương lai, nó có thể giới thiệu nội dung đa phương tiện phong phú hơn về mặt tạo, chẳng hạn như tạo hình ảnh và phản hồi văn bản bằng âm thanh.
Cũng cần có các tiêu chuẩn mới để đánh giá khả năng kết hợp các đầu vào đa phương thức
PandaGPT cũng có thể bộc lộ một số cạm bẫy phổ biến của các mô hình ngôn ngữ hiện có, bao gồm ảo giác, tính độc hại và sự rập khuôn.
Các nhà nghiên cứu cũng chỉ ra rằng PandaGPT hiện chỉ là nguyên mẫu nghiên cứu và không thể được sử dụng trực tiếp cho các ứng dụng trong thế giới thực.
Những tài liệu tham khảo:
Xem bản gốc
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
Nhóm Cambridge Trung Quốc mã nguồn mở PandaGPT: mô hình cơ bản quy mô lớn đầu tiên quét qua "sáu chế độ"
Nguồn: Xinzhiyuan
Các mô hình ngôn ngữ quy mô lớn hiện tại, chẳng hạn như ChatGPT, chỉ có thể chấp nhận văn bản làm đầu vào, ngay cả phiên bản nâng cấp của GPT-4 cũng chỉ thêm chức năng nhập hình ảnh và không thể xử lý dữ liệu phương thức khác, chẳng hạn như video và âm thanh.
Gần đây, các nhà nghiên cứu từ Đại học Cambridge, Viện Khoa học và Công nghệ Tiên tiến Nara và Tencent đã cùng nhau đề xuất và mã nguồn mở hướng dẫn chung theo mô hình PandaGPT, đây cũng là mô hình đầu tiên hiện thực hóa sáu phương thức (hình ảnh/video, văn bản, âm thanh, độ sâu, nhiệt và IMU) thực hiện các hướng dẫn theo mô hình cơ bản của dữ liệu.
Liên kết mã:
Không có sự giám sát đa phương thức rõ ràng, PandaGPT thể hiện khả năng đa phương thức mạnh mẽ để thực hiện các tác vụ hiểu/lập luận phức tạp, chẳng hạn như tạo mô tả hình ảnh chi tiết, viết các câu chuyện lấy cảm hứng từ video và trả lời các câu hỏi về âm thanh hoặc nhiều vòng đối thoại, v.v.
Ví dụ
Hỏi đáp dựa trên hình ảnh:
PandaGPT đa phương thức
So với mô hình AI bị mắc kẹt trong máy tính, con người có nhiều giác quan để hiểu thế giới, họ có thể nhìn thấy một bức tranh và nghe thấy nhiều âm thanh khác nhau trong tự nhiên, nếu máy móc cũng có thể nhập thông tin đa phương thức, nó có thể toàn diện hơn .giải các bài toán khác nhau.
Hầu hết các nghiên cứu đa phương thức hiện nay chỉ giới hạn ở một phương thức duy nhất, hoặc sự kết hợp giữa văn bản và các phương thức khác, thiếu tính toàn vẹn và bổ sung cho việc nhận và hiểu đầu vào đa phương thức.
Để làm cho đầu vào đa phương thức của PandaGPT có khả năng, các nhà nghiên cứu đã kết hợp bộ mã hóa đa phương thức của ImageBind với mô hình ngôn ngữ quy mô lớn Vicuna, cả hai đều đạt được hiệu suất rất cao trong các tác vụ làm theo chỉ dẫn dựa trên hình ảnh và âm thanh.
Đồng thời, để làm cho các không gian đặc trưng của hai mô hình nhất quán, các nhà nghiên cứu đã sử dụng 160.000 dữ liệu theo dõi hướng dẫn ngôn ngữ hình ảnh mã nguồn mở để đào tạo PandaGPT, trong đó mỗi phiên bản đào tạo bao gồm một hình ảnh và một bộ đa ngôn ngữ. dữ liệu hội thoại vòng và hội thoại chứa từng lệnh của Con người và phản hồi của hệ thống.
Để giảm số lượng tham số có thể đào tạo, các nhà nghiên cứu chỉ đào tạo biểu diễn ImageBind được sử dụng để kết nối Vicuna và các trọng số LoRA bổ sung trên mô-đun chú ý của Vicuna.
Điều đáng chú ý là phiên bản hiện tại của PandaGPT chỉ được đào tạo với dữ liệu văn bản hình ảnh được căn chỉnh, nhưng bằng cách sử dụng sáu phương thức (hình ảnh/video, văn bản, âm thanh, độ sâu, nhiệt và IMU) được kế thừa trong bộ mã hóa ImageBind bị đóng băng, PandaGPT thể hiện sự nổi lên , khả năng đa phương thức zero-shot.
giới hạn
Mặc dù khả năng đáng kinh ngạc của PandaGPT trong việc xử lý nhiều phương thức và sự kết hợp của các phương thức, vẫn có một số cách mà PandaGPT có thể được cải thiện hơn nữa:
Quá trình đào tạo của PandaGPT có thể được làm phong phú hơn bằng cách giới thiệu nhiều dữ liệu căn chỉnh hơn, chẳng hạn như các phương thức khác (văn bản âm thanh) phù hợp với văn bản
Các nhà nghiên cứu chỉ sử dụng một vectơ nhúng để biểu thị nội dung phương thức khác với văn bản và cần có nhiều nghiên cứu hơn về các biến dạng trích xuất tính năng chi tiết.
PandaGPT hiện chỉ sử dụng thông tin đa phương thức làm đầu vào và trong tương lai, nó có thể giới thiệu nội dung đa phương tiện phong phú hơn về mặt tạo, chẳng hạn như tạo hình ảnh và phản hồi văn bản bằng âm thanh.
Cũng cần có các tiêu chuẩn mới để đánh giá khả năng kết hợp các đầu vào đa phương thức
PandaGPT cũng có thể bộc lộ một số cạm bẫy phổ biến của các mô hình ngôn ngữ hiện có, bao gồm ảo giác, tính độc hại và sự rập khuôn.
Các nhà nghiên cứu cũng chỉ ra rằng PandaGPT hiện chỉ là nguyên mẫu nghiên cứu và không thể được sử dụng trực tiếp cho các ứng dụng trong thế giới thực.
Những tài liệu tham khảo: