Nếu muốn AI trở nên tốt hơn, nó sẽ phải làm được nhiều việc hơn với ít tài nguyên hơn.
Nói về "Mô hình ngôn ngữ lớn" (LLM), chẳng hạn như GPT (Generative Pre-training Transformer) của OpenAI - lực lượng cốt lõi thúc đẩy các chatbot phổ biến ở Hoa Kỳ - cái tên đã nói lên tất cả. Các hệ thống AI hiện đại như vậy được hỗ trợ bởi các mạng thần kinh nhân tạo rộng lớn bắt chước hoạt động của bộ não sinh học theo một cách rộng rãi. GPT-3, được phát hành vào năm 2020, là một mô hình ngôn ngữ khổng lồ với 175 tỷ "tham số", là tên gọi của các kết nối mô phỏng giữa các nơ-ron. GPT-3 được huấn luyện bằng cách xử lý hàng nghìn tỷ từ văn bản trong vài tuần bằng cách sử dụng hàng nghìn GPU hỗ trợ AI, với chi phí ước tính hơn 4,6 triệu USD.
Tuy nhiên, sự đồng thuận trong nghiên cứu AI hiện đại là: "càng lớn càng tốt và càng lớn càng tốt". Do đó, tốc độ tăng trưởng quy mô của mô hình đã có bước phát triển nhanh chóng. Được phát hành vào tháng 3, GPT-4 ước tính có khoảng 1 nghìn tỷ tham số—tăng gần gấp sáu lần so với thế hệ trước. Giám đốc điều hành OpenAI Sam Altman ước tính chi phí phát triển hơn 100 triệu USD. Và toàn bộ ngành công nghiệp đang cho thấy xu hướng tương tự. Công ty nghiên cứu Epoch AI dự đoán vào năm 2022 rằng sức mạnh tính toán cần thiết để đào tạo những người mẫu hàng đầu sẽ tăng gấp đôi sau mỗi sáu đến mười tháng (xem biểu đồ bên dưới).
Kích thước ngày càng tăng của các tham số mô hình AI đặt ra một số vấn đề. Nếu dự đoán của Epoch AI là chính xác và chi phí đào tạo tăng gấp đôi sau mỗi mười tháng, thì chi phí đào tạo có thể vượt quá một tỷ đô la vào năm 2026 -- và đó chỉ là giả định rằng dữ liệu không bị cạn kiệt trước. Một phân tích vào tháng 10 năm 2022 đã dự đoán rằng văn bản chất lượng cao dùng để đào tạo có thể cạn kiệt trong cùng một khoảng thời gian. Ngoài ra, ngay cả sau khi đào tạo mô hình hoàn tất, chi phí thực tế để chạy một mô hình lớn có thể rất tốn kém.
Đầu năm nay, Morgan Stanley ước tính rằng nếu một nửa số lượt tìm kiếm của Google được xử lý bởi các chương trình loại GPT hiện tại, công ty có thể phải trả thêm 6 tỷ USD mỗi năm. Con số này có thể sẽ tiếp tục tăng khi quy mô của mô hình tăng lên.
Do đó, quan điểm của nhiều người rằng các mô hình AI là "lớn thì tốt hơn" đã không còn giá trị. Nếu họ tiếp tục cải thiện các mô hình AI (chưa nói đến việc hiện thực hóa những giấc mơ AI vĩ đại hơn), các nhà phát triển cần tìm ra cách đạt được hiệu suất tốt hơn với nguồn lực hạn chế. Như ông Altman đã nói vào tháng 4 này khi nhìn lại lịch sử của AI quy mô lớn: "Tôi nghĩ chúng ta đã đi đến cuối một kỷ nguyên."
Giản định lượng
Thay vào đó, các nhà nghiên cứu bắt đầu tập trung vào cách cải thiện hiệu quả của mô hình, chứ không chỉ theo đuổi quy mô. Một cách là đạt được sự đánh đổi bằng cách giảm số lượng tham số nhưng sử dụng nhiều dữ liệu hơn để huấn luyện mô hình. Vào năm 2022, bộ phận DeepMind của Google đã đào tạo một LLM 70 tỷ tham số có tên là Chinchilla trên một kho văn bản gồm 1,4 nghìn tỷ từ. Mặc dù có ít tham số hơn 175 tỷ từ của GPT-3 và dữ liệu đào tạo chỉ 300 tỷ từ, mô hình này vượt trội so với GPT-3. Cung cấp một LLM nhỏ hơn với nhiều dữ liệu hơn có nghĩa là sẽ mất nhiều thời gian hơn để đào tạo, nhưng kết quả là một mô hình nhỏ hơn, nhanh hơn và rẻ hơn.
Một tùy chọn khác là giảm độ chính xác của các số dấu phẩy động. Việc giảm số chữ số chính xác trong mỗi số trong mô hình, tức là làm tròn số, có thể giảm đáng kể các yêu cầu về phần cứng. Các nhà nghiên cứu tại Viện Khoa học và Công nghệ Áo đã chứng minh vào tháng 3 rằng việc làm tròn số có thể giảm đáng kể mức tiêu thụ bộ nhớ của kiểu máy giống GPT-3, cho phép kiểu máy đó chạy trên một GPU cao cấp thay vì năm GPU với "độ chính xác giảm đáng kể". " ".
Một số người dùng tinh chỉnh LLM có mục đích chung để tập trung vào các nhiệm vụ cụ thể như tạo tài liệu pháp lý hoặc phát hiện tin tức giả mạo. Mặc dù điều này không phức tạp như lần đầu tiên đào tạo LLM, nhưng nó vẫn có thể tốn kém và mất thời gian. Việc tinh chỉnh mô hình LLaMA 65 tỷ tham số mã nguồn mở của Meta (công ty mẹ của Facebook) yêu cầu nhiều GPU và mất từ vài giờ đến vài ngày.
Các nhà nghiên cứu tại Đại học Washington đã phát minh ra một cách hiệu quả hơn để tạo ra một mẫu Guanaco mới từ LLaMA trên một GPU duy nhất trong một ngày với mức giảm hiệu suất không đáng kể. Một phần của thủ thuật là một kỹ thuật làm tròn tương tự như kỹ thuật được sử dụng bởi các nhà nghiên cứu người Áo. Nhưng họ cũng sử dụng một kỹ thuật có tên là Thích ứng với thứ hạng thấp (LoRA), bao gồm việc sửa các tham số hiện có của mô hình và sau đó thêm một tập hợp tham số mới, nhỏ hơn vào mô hình. Tinh chỉnh được thực hiện bằng cách chỉ thay đổi các biến mới này. Điều này đơn giản hóa mọi thứ đến mức ngay cả một máy tính tương đối yếu, chẳng hạn như điện thoại thông minh, cũng có thể thực hiện được. Nếu LLM có thể chạy trên thiết bị của người dùng thay vì trung tâm dữ liệu khổng lồ hiện tại, nó có thể mang lại khả năng cá nhân hóa cao hơn và bảo vệ quyền riêng tư tốt hơn.
Trong khi đó, một nhóm tại Google đang cung cấp các tùy chọn mới cho những người có thể sống với các mô hình nhỏ hơn. Cách tiếp cận này tập trung vào việc khai thác kiến thức cụ thể từ một mô hình chung lớn và chuyển đổi nó thành một mô hình nhỏ hơn và chuyên biệt hơn. Mô hình lớn đóng vai trò là giáo viên và mô hình nhỏ đóng vai trò là học sinh. Các nhà nghiên cứu đã yêu cầu các giáo viên trả lời các câu hỏi và chứng minh lập luận của họ. Cả câu trả lời và suy luận từ mô hình giáo viên (mô hình lớn) đều được sử dụng để huấn luyện mô hình học sinh (mô hình nhỏ). Nhóm đã đào tạo thành công một mô hình học sinh chỉ với 7,7 tỷ tham số (mô hình nhỏ) để vượt trội hơn mô hình giáo viên với 540 tỷ tham số (mô hình lớn) trong các nhiệm vụ suy luận cụ thể.
Một cách tiếp cận khác là thay đổi cách xây dựng mô hình thay vì tập trung vào những gì mô hình đang làm. Hầu hết các mô hình AI được phát triển bằng ngôn ngữ Python. Nó được thiết kế để dễ sử dụng, giúp lập trình viên không phải suy nghĩ về cách chương trình vận hành con chip trong khi nó đang chạy. Cái giá của việc che giấu những chi tiết này là mã chạy chậm hơn. Chú ý nhiều hơn đến các chi tiết triển khai này có thể mang lại lợi ích lớn. Như Thomas Wolf, giám đốc khoa học của công ty AI nguồn mở Hugging Face, nói, đây là "một khía cạnh quan trọng của nghiên cứu hiện tại về trí tuệ nhân tạo."
mã được tối ưu hóa
Ví dụ: vào năm 2022, các nhà nghiên cứu tại Đại học Stanford đã phát hành một phiên bản cải tiến của "thuật toán chú ý" cho phép các mô hình ngôn ngữ lớn (LLM) tìm hiểu mối liên hệ giữa các từ và khái niệm. Ý tưởng là sửa đổi mã để tính đến những gì đang xảy ra trên con chip mà nó đang chạy, đặc biệt là để theo dõi khi nào thông tin cụ thể cần được truy xuất hoặc lưu trữ. Thuật toán của họ đã tăng gấp ba lần tốc độ đào tạo của GPT-2, một mô hình ngôn ngữ lớn ban đầu và cũng nâng cao khả năng xử lý các truy vấn dài hơn.
Mã sạch hơn cũng có thể đạt được bằng các công cụ tốt hơn. Đầu năm nay, Meta đã phát hành phiên bản mới của khung lập trình AI, PyTorch. Bằng cách khiến các lập trình viên suy nghĩ nhiều hơn về cách tổ chức tính toán trên các chip thực tế, nó có thể tăng gấp đôi tốc độ mà các mô hình có thể được đào tạo bằng cách thêm một dòng mã. Modular, một công ty khởi nghiệp được thành lập bởi các cựu kỹ sư của Apple và Google, vào tháng trước đã phát hành một ngôn ngữ lập trình tập trung vào AI mới có tên Mojo, dựa trên Python. Mojo cung cấp cho các lập trình viên quyền kiểm soát tất cả các chi tiết từng được bảo vệ và trong một số trường hợp, mã được viết bằng Mojo có thể chạy nhanh hơn hàng nghìn lần so với một khối mã tương đương được viết bằng Python.
Tùy chọn cuối cùng là cải tiến con chip chạy mã. Mặc dù ban đầu được thiết kế để xử lý đồ họa phức tạp có trong các trò chơi điện tử hiện đại, GPU hoạt động tốt một cách đáng ngạc nhiên khi chạy các mô hình AI. Một nhà nghiên cứu phần cứng tại Meta cho biết đối với "suy luận" (nghĩa là thực thi thực tế của một mô hình sau khi nó được đào tạo), GPU không được thiết kế hoàn hảo. Kết quả là, một số công ty đang thiết kế phần cứng chuyên dụng hơn của riêng họ. Google đã chạy hầu hết các dự án AI của mình trên chip "TPU" nội bộ. Meta với chip MTIA và Amazon với chip Inferentia cũng đang thử một thứ tương tự.
Có thể ngạc nhiên rằng đôi khi những thay đổi đơn giản như làm tròn số hoặc chuyển đổi ngôn ngữ lập trình có thể mang lại hiệu suất rất lớn. Nhưng điều này phản ánh sự phát triển nhanh chóng của các mô hình ngôn ngữ lớn (LLM). Trong nhiều năm, các mô hình ngôn ngữ lớn chủ yếu là một dự án nghiên cứu và trọng tâm chủ yếu là làm cho chúng hoạt động và tạo ra kết quả hợp lệ, thay vì sự sang trọng trong thiết kế của chúng. Chỉ gần đây chúng mới được biến thành sản phẩm thương mại, thị trường đại chúng. Hầu hết các chuyên gia đồng ý rằng có rất nhiều chỗ để cải thiện. Như Chris Manning, một nhà khoa học máy tính tại Đại học Stanford, cho biết: “Không có lý do gì để tin rằng kiến trúc nơ-ron (ám chỉ cấu trúc mạng nơ-ron hiện tại) đang được sử dụng là tối ưu và không loại trừ khả năng sẽ xuất hiện những kiến trúc cao cấp hơn. trong tương lai."
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Mô hình AI quan điểm "lớn là tốt hơn" không còn hiệu quả
Tác giả |The Economist Translator |
Phụ trách biên tập | Xia Meng
Liệt kê | CSDN (ID: CSDNnews)
Nếu muốn AI trở nên tốt hơn, nó sẽ phải làm được nhiều việc hơn với ít tài nguyên hơn.
Nói về "Mô hình ngôn ngữ lớn" (LLM), chẳng hạn như GPT (Generative Pre-training Transformer) của OpenAI - lực lượng cốt lõi thúc đẩy các chatbot phổ biến ở Hoa Kỳ - cái tên đã nói lên tất cả. Các hệ thống AI hiện đại như vậy được hỗ trợ bởi các mạng thần kinh nhân tạo rộng lớn bắt chước hoạt động của bộ não sinh học theo một cách rộng rãi. GPT-3, được phát hành vào năm 2020, là một mô hình ngôn ngữ khổng lồ với 175 tỷ "tham số", là tên gọi của các kết nối mô phỏng giữa các nơ-ron. GPT-3 được huấn luyện bằng cách xử lý hàng nghìn tỷ từ văn bản trong vài tuần bằng cách sử dụng hàng nghìn GPU hỗ trợ AI, với chi phí ước tính hơn 4,6 triệu USD.
Tuy nhiên, sự đồng thuận trong nghiên cứu AI hiện đại là: "càng lớn càng tốt và càng lớn càng tốt". Do đó, tốc độ tăng trưởng quy mô của mô hình đã có bước phát triển nhanh chóng. Được phát hành vào tháng 3, GPT-4 ước tính có khoảng 1 nghìn tỷ tham số—tăng gần gấp sáu lần so với thế hệ trước. Giám đốc điều hành OpenAI Sam Altman ước tính chi phí phát triển hơn 100 triệu USD. Và toàn bộ ngành công nghiệp đang cho thấy xu hướng tương tự. Công ty nghiên cứu Epoch AI dự đoán vào năm 2022 rằng sức mạnh tính toán cần thiết để đào tạo những người mẫu hàng đầu sẽ tăng gấp đôi sau mỗi sáu đến mười tháng (xem biểu đồ bên dưới).
Đầu năm nay, Morgan Stanley ước tính rằng nếu một nửa số lượt tìm kiếm của Google được xử lý bởi các chương trình loại GPT hiện tại, công ty có thể phải trả thêm 6 tỷ USD mỗi năm. Con số này có thể sẽ tiếp tục tăng khi quy mô của mô hình tăng lên.
Do đó, quan điểm của nhiều người rằng các mô hình AI là "lớn thì tốt hơn" đã không còn giá trị. Nếu họ tiếp tục cải thiện các mô hình AI (chưa nói đến việc hiện thực hóa những giấc mơ AI vĩ đại hơn), các nhà phát triển cần tìm ra cách đạt được hiệu suất tốt hơn với nguồn lực hạn chế. Như ông Altman đã nói vào tháng 4 này khi nhìn lại lịch sử của AI quy mô lớn: "Tôi nghĩ chúng ta đã đi đến cuối một kỷ nguyên."
Giản định lượng
Thay vào đó, các nhà nghiên cứu bắt đầu tập trung vào cách cải thiện hiệu quả của mô hình, chứ không chỉ theo đuổi quy mô. Một cách là đạt được sự đánh đổi bằng cách giảm số lượng tham số nhưng sử dụng nhiều dữ liệu hơn để huấn luyện mô hình. Vào năm 2022, bộ phận DeepMind của Google đã đào tạo một LLM 70 tỷ tham số có tên là Chinchilla trên một kho văn bản gồm 1,4 nghìn tỷ từ. Mặc dù có ít tham số hơn 175 tỷ từ của GPT-3 và dữ liệu đào tạo chỉ 300 tỷ từ, mô hình này vượt trội so với GPT-3. Cung cấp một LLM nhỏ hơn với nhiều dữ liệu hơn có nghĩa là sẽ mất nhiều thời gian hơn để đào tạo, nhưng kết quả là một mô hình nhỏ hơn, nhanh hơn và rẻ hơn.
Một tùy chọn khác là giảm độ chính xác của các số dấu phẩy động. Việc giảm số chữ số chính xác trong mỗi số trong mô hình, tức là làm tròn số, có thể giảm đáng kể các yêu cầu về phần cứng. Các nhà nghiên cứu tại Viện Khoa học và Công nghệ Áo đã chứng minh vào tháng 3 rằng việc làm tròn số có thể giảm đáng kể mức tiêu thụ bộ nhớ của kiểu máy giống GPT-3, cho phép kiểu máy đó chạy trên một GPU cao cấp thay vì năm GPU với "độ chính xác giảm đáng kể". " ".
Một số người dùng tinh chỉnh LLM có mục đích chung để tập trung vào các nhiệm vụ cụ thể như tạo tài liệu pháp lý hoặc phát hiện tin tức giả mạo. Mặc dù điều này không phức tạp như lần đầu tiên đào tạo LLM, nhưng nó vẫn có thể tốn kém và mất thời gian. Việc tinh chỉnh mô hình LLaMA 65 tỷ tham số mã nguồn mở của Meta (công ty mẹ của Facebook) yêu cầu nhiều GPU và mất từ vài giờ đến vài ngày.
Các nhà nghiên cứu tại Đại học Washington đã phát minh ra một cách hiệu quả hơn để tạo ra một mẫu Guanaco mới từ LLaMA trên một GPU duy nhất trong một ngày với mức giảm hiệu suất không đáng kể. Một phần của thủ thuật là một kỹ thuật làm tròn tương tự như kỹ thuật được sử dụng bởi các nhà nghiên cứu người Áo. Nhưng họ cũng sử dụng một kỹ thuật có tên là Thích ứng với thứ hạng thấp (LoRA), bao gồm việc sửa các tham số hiện có của mô hình và sau đó thêm một tập hợp tham số mới, nhỏ hơn vào mô hình. Tinh chỉnh được thực hiện bằng cách chỉ thay đổi các biến mới này. Điều này đơn giản hóa mọi thứ đến mức ngay cả một máy tính tương đối yếu, chẳng hạn như điện thoại thông minh, cũng có thể thực hiện được. Nếu LLM có thể chạy trên thiết bị của người dùng thay vì trung tâm dữ liệu khổng lồ hiện tại, nó có thể mang lại khả năng cá nhân hóa cao hơn và bảo vệ quyền riêng tư tốt hơn.
Trong khi đó, một nhóm tại Google đang cung cấp các tùy chọn mới cho những người có thể sống với các mô hình nhỏ hơn. Cách tiếp cận này tập trung vào việc khai thác kiến thức cụ thể từ một mô hình chung lớn và chuyển đổi nó thành một mô hình nhỏ hơn và chuyên biệt hơn. Mô hình lớn đóng vai trò là giáo viên và mô hình nhỏ đóng vai trò là học sinh. Các nhà nghiên cứu đã yêu cầu các giáo viên trả lời các câu hỏi và chứng minh lập luận của họ. Cả câu trả lời và suy luận từ mô hình giáo viên (mô hình lớn) đều được sử dụng để huấn luyện mô hình học sinh (mô hình nhỏ). Nhóm đã đào tạo thành công một mô hình học sinh chỉ với 7,7 tỷ tham số (mô hình nhỏ) để vượt trội hơn mô hình giáo viên với 540 tỷ tham số (mô hình lớn) trong các nhiệm vụ suy luận cụ thể.
Một cách tiếp cận khác là thay đổi cách xây dựng mô hình thay vì tập trung vào những gì mô hình đang làm. Hầu hết các mô hình AI được phát triển bằng ngôn ngữ Python. Nó được thiết kế để dễ sử dụng, giúp lập trình viên không phải suy nghĩ về cách chương trình vận hành con chip trong khi nó đang chạy. Cái giá của việc che giấu những chi tiết này là mã chạy chậm hơn. Chú ý nhiều hơn đến các chi tiết triển khai này có thể mang lại lợi ích lớn. Như Thomas Wolf, giám đốc khoa học của công ty AI nguồn mở Hugging Face, nói, đây là "một khía cạnh quan trọng của nghiên cứu hiện tại về trí tuệ nhân tạo."
mã được tối ưu hóa
Ví dụ: vào năm 2022, các nhà nghiên cứu tại Đại học Stanford đã phát hành một phiên bản cải tiến của "thuật toán chú ý" cho phép các mô hình ngôn ngữ lớn (LLM) tìm hiểu mối liên hệ giữa các từ và khái niệm. Ý tưởng là sửa đổi mã để tính đến những gì đang xảy ra trên con chip mà nó đang chạy, đặc biệt là để theo dõi khi nào thông tin cụ thể cần được truy xuất hoặc lưu trữ. Thuật toán của họ đã tăng gấp ba lần tốc độ đào tạo của GPT-2, một mô hình ngôn ngữ lớn ban đầu và cũng nâng cao khả năng xử lý các truy vấn dài hơn.
Mã sạch hơn cũng có thể đạt được bằng các công cụ tốt hơn. Đầu năm nay, Meta đã phát hành phiên bản mới của khung lập trình AI, PyTorch. Bằng cách khiến các lập trình viên suy nghĩ nhiều hơn về cách tổ chức tính toán trên các chip thực tế, nó có thể tăng gấp đôi tốc độ mà các mô hình có thể được đào tạo bằng cách thêm một dòng mã. Modular, một công ty khởi nghiệp được thành lập bởi các cựu kỹ sư của Apple và Google, vào tháng trước đã phát hành một ngôn ngữ lập trình tập trung vào AI mới có tên Mojo, dựa trên Python. Mojo cung cấp cho các lập trình viên quyền kiểm soát tất cả các chi tiết từng được bảo vệ và trong một số trường hợp, mã được viết bằng Mojo có thể chạy nhanh hơn hàng nghìn lần so với một khối mã tương đương được viết bằng Python.
Tùy chọn cuối cùng là cải tiến con chip chạy mã. Mặc dù ban đầu được thiết kế để xử lý đồ họa phức tạp có trong các trò chơi điện tử hiện đại, GPU hoạt động tốt một cách đáng ngạc nhiên khi chạy các mô hình AI. Một nhà nghiên cứu phần cứng tại Meta cho biết đối với "suy luận" (nghĩa là thực thi thực tế của một mô hình sau khi nó được đào tạo), GPU không được thiết kế hoàn hảo. Kết quả là, một số công ty đang thiết kế phần cứng chuyên dụng hơn của riêng họ. Google đã chạy hầu hết các dự án AI của mình trên chip "TPU" nội bộ. Meta với chip MTIA và Amazon với chip Inferentia cũng đang thử một thứ tương tự.
Có thể ngạc nhiên rằng đôi khi những thay đổi đơn giản như làm tròn số hoặc chuyển đổi ngôn ngữ lập trình có thể mang lại hiệu suất rất lớn. Nhưng điều này phản ánh sự phát triển nhanh chóng của các mô hình ngôn ngữ lớn (LLM). Trong nhiều năm, các mô hình ngôn ngữ lớn chủ yếu là một dự án nghiên cứu và trọng tâm chủ yếu là làm cho chúng hoạt động và tạo ra kết quả hợp lệ, thay vì sự sang trọng trong thiết kế của chúng. Chỉ gần đây chúng mới được biến thành sản phẩm thương mại, thị trường đại chúng. Hầu hết các chuyên gia đồng ý rằng có rất nhiều chỗ để cải thiện. Như Chris Manning, một nhà khoa học máy tính tại Đại học Stanford, cho biết: “Không có lý do gì để tin rằng kiến trúc nơ-ron (ám chỉ cấu trúc mạng nơ-ron hiện tại) đang được sử dụng là tối ưu và không loại trừ khả năng sẽ xuất hiện những kiến trúc cao cấp hơn. trong tương lai."