Tuần này, một phòng thí nghiệm nhỏ về trí tuệ nhân tạo ở Trung Quốc đã làm thế giới ngạc nhiên khi tiết lộ công thức kỹ thuật cho mô hình tiến bộ của nó. Điều này đã khiến hướng dẫn dành riêng của mình trở thành một anh hùng dân tộc, người đã thách thức những nỗ lực của Hoa Kỳ để chứa tham vọng công nghệ cao của Trung Quốc.
Deepseek, công ty được thành lập bởi người quản lý quỹ phòng hộ Liang Wenfeng, đã trình bày mô hình R1 của mình vào thứ Hai, cùng với một tờ giấy trắng chi tiết, cho thấy cách xây dựng một mô hình ngôn ngữ lớn với ngân sách bắt đầu. Điều đặc biệt là mô hình này có khả năng tự động học và cải thiện mà không cần sự can thiệp của con người.
Các công ty Mỹ như Openaai và Google Deepmind đã tiên phong trong việc phát triển các mô hình lập luận, một lĩnh vực nghiên cứu AI tương đối mới, nhằm mục đích giới thiệu suy nghĩ về các máy móc gần với trí thông minh của con người. Vào tháng 12, công ty Openai có trụ sở tại San Francisco đã xuất bản phiên bản đầy đủ của mô hình O1, nhưng vẫn giữ bí mật phương pháp phát triển.
Thông báo về mô hình R1 của Deepseek đã kích hoạt một cuộc tranh luận ở Thung lũng Silicon cho dù các công ty AI được trang bị tốt như Meta và Anthropic có thể giữ vị trí dẫn đầu kỹ thuật của họ.
Biểu tượng quốc gia
Trong khi đó, Liang Wenfeng ở Trung Quốc đã trở thành một biểu tượng của niềm tự hào dân tộc. Tuần này, ông là nhà lãnh đạo AI duy nhất được mời tham dự một cuộc họp công khai với ông Li Qiang. Tại cuộc họp, các doanh nhân được yêu cầu “tập trung nỗ lực của họ vào các công nghệ hạt nhân đột phá”.
Năm 2021, Liang Wenfeng bắt đầu mua hàng ngàn chip đồ họa Nvidia cho dự án AI của mình, trong khi anh vẫn đang đứng đầu quỹ thương mại định lượng. Các chuyên gia trong ngành nghĩ rằng đây là hành động kỳ lạ của một tỷ phú đang tìm kiếm một sở thích mới.
Khi tôi gặp anh ấy lần đầu tiên, Liang Wenfeng là một anh chàng trông rất giống với một kiểu tóc lộn xộn, luôn nói về việc xây dựng một cụm gồm 10.000 con chip để đào tạo mô hình của chính anh ấy. “Chúng tôi không thúc đẩy ý tưởng này”, một đối tác kinh doanh của ông Liang Wenfeng nói.
“Anh ấy không thể nói rõ tầm nhìn của mình: Tôi muốn xây dựng thứ này và nó sẽ thay đổi trò chơi.”
Tuy nhiên, việc ông Liang Wenfeng đã không ra khỏi ngành công nghiệp AI đã chứng tỏ là một lợi thế bất ngờ. Tại High Flyer, anh ta đã xây dựng một gia tài lớn với sự giúp đỡ của AI và các thuật toán để nhận ra các xu hướng có thể ảnh hưởng đến giá cổ phiếu. Nhóm của ông thống trị việc sử dụng chip NVIDIA để tối ưu hóa giao dịch chứng khoán.
Đến năm 2023, Liang Wenfeng đã thành lập Deepseek và công bố mục tiêu phát triển AI theo cách mà nó đạt đến cấp độ với con người.
“Liang Wenfeng đã xây dựng một nhóm cơ sở hạ tầng xuất sắc thực sự hiểu cách thức hoạt động của chip”, một người sáng lập của một mô hình giọng nói lớn cạnh tranh. “Anh ấy đã đưa những người giỏi nhất từ quỹ phòng hộ đến Deepseek.”
Sau khi Washington Nvidia đã cấm xuất khẩu các chip mạnh nhất của mình sang Trung Quốc, các công ty AI trong nước đã buộc phải tìm ra những cách sáng tạo để tối đa hóa sức mạnh tính toán từ số lượng chip trong nước hạn chế-một nhóm DeepSeek đã biết làm thế nào để giải quyết.
“Các kỹ sư của Deepseek biết cách khai thác toàn bộ tiềm năng của GPU này, ngay cả khi đó không phải là công nghệ tiến bộ nhất”, một nhà nghiên cứu AI gần gũi với công ty cho biết.
Các chuyên gia trong ngành nói rằng sự tập trung độc đáo của Deepseek vào nghiên cứu làm cho công ty trở thành đối thủ cạnh tranh nguy hiểm vì nó sẵn sàng chia sẻ những đột phá của mình thay vì giữ bí mật cho họ vì lý do thương mại. Deepseek đã không chiếm được số vốn của các quỹ bên ngoài và không thực hiện bất kỳ bước quan trọng nào để thương mại hóa các mô hình của mình.
“Deepseek hoạt động giống như những ngày đầu của Deepmind”, một nhà đầu tư AI nhận xét ở Bắc Kinh. “Công ty tập trung hoàn toàn vào nghiên cứu và công nghệ.”
Đến với thế giới
Liang Wenfeng, người trực tiếp tham gia vào nghiên cứu của Deepseek, sử dụng lợi nhuận của quỹ phòng hộ cao để trả mức lương hàng đầu của Ki Talents. Cùng với Bytedance, công ty thuộc về Tikok, Deepseek được biết là trả mức lương cao nhất cho các kỹ sư AI ở Trung Quốc, với các chi nhánh ở Hàng Châu và Bắc Kinh.
“Văn phòng Deepseek giống như một trường đại học cho các nhà nghiên cứu nghiêm túc,” một đối tác kinh doanh nói. “Nhóm này tin vào tầm nhìn của Liang Wenfeng: để chứng minh với thế giới rằng người Trung Quốc có thể sáng tạo và xây dựng mọi thứ từ đầu.”
Liang Wenfeng đã biến Deepseek thành một công ty “hoàn toàn của Trung Quốc” với một nhóm sinh viên tiến sĩ đã nhận bằng tiến sĩ từ các trường đại học trong nước như Bắc Kinh, Tsinghua và hàng không Bắc Kinh thay vì tuyển dụng các chuyên gia từ các tổ chức Hoa Kỳ.
Trong một cuộc phỏng vấn với báo chí trong nước vào năm ngoái, ông Liang Weng nói rằng nhóm cốt lõi của ông “không có ai học ở nước ngoài.”
Danh tính này đã góp phần vào Deepseek ở Đức và trở thành biểu tượng của một công ty mô hình giọng nói lớn (LLM) hoàn toàn là người Trung Quốc.
Deepseek chỉ ra rằng chỉ có 2.048 chip NVIDIA H800 và 5,6 triệu đô la được sử dụng để đào tạo một mô hình với 671 tỷ tham số-một số lượng ít hơn nhiều so với OpenAI và Google để phát triển các mô hình của họ có kích thước đầu ra.
Ritwik Guppa, một nhà nghiên cứu chính sách AI tại Đại học California ở Berkeley, nói rằng ấn phẩm mô hình mới nhất từ Deepseek cho thấy “không có khả năng nào trong khả năng AI”.
“Đầu tiên thường phải chi nhiều nguồn lực để đạt được mục tiêu của mình”, Guppa nói. “Nhưng Stragglers có thể đạt được nó rẻ hơn và nhanh hơn.”
Guppa cũng chỉ ra rằng Trung Quốc có nguồn nhân lực lớn hơn nhiều trong lĩnh vực công nghệ hệ thống so với Hoa Kỳ. Họ có thể tối ưu hóa các tài nguyên số học để đào tạo và vận hành các mô hình với chi phí thấp hơn.
Mặc dù kết quả ấn tượng đạt được với các nguồn lực hạn chế, các chuyên gia trong ngành vẫn tự hỏi liệu Deepseek có thể duy trì tính cạnh tranh hay không, trong khi ngành công nghiệp AI tiếp tục phát triển.
Hiệu suất của những người bay cao, quỹ phòng hộ lớn nhất ở Deepseek, đã giảm vào năm 2024. Một người gần Liang Weng nói rằng sự suy giảm một phần là do thực tế là người sáng lập đã dành phần lớn thời gian để tập trung vào việc đi đến Deepseek.
Trong khi đó, các đối thủ cạnh tranh ở Hoa Kỳ vẫn đang gia tăng. Các công ty xây dựng các cụm siêu máy tính khổng lồ với chip Blackwell của Nvidia từ thế hệ tiếp theo và do đó tạo ra sức mạnh tính toán có thể làm tăng sự khác biệt về hiệu suất cho các đối thủ của Trung Quốc.
Tuần này, Openai đã công bố hợp tác với Ngân hàng Soft Nhật Bản trong một liên doanh mới có tên Stargate, với kế hoạch chi ít nhất 100 tỷ đô la cho việc phát triển cơ sở hạ tầng AI ở Hoa Kỳ. Đồng thời, Elon Musks XAI mở rộng siêu máy tính Colossus lên hơn 1 triệu GPU để hỗ trợ đào tạo các mô hình Grok AI.
“Deepseek hiện có một trong những cụm máy tính tiên tiến lớn nhất ở Trung Quốc”, một đối tác kinh doanh của Liang Wenfeng cho biết. “Hiện tại bạn có đủ công suất, nhưng điều đó sẽ không mất nhiều thời gian.”
Kể từ khi cuộc cạnh tranh của Hoa Kỳ tăng thêm các khoản đầu tư vào cơ sở hạ tầng AI, câu hỏi đặt ra liệu Deepseek có thể khẳng định sự dẫn đầu của mình trong một môi trường cạnh tranh ngày càng khó hơn hay không. Sự phát triển của ngành công nghiệp không chỉ đòi hỏi sự sáng tạo, mà còn cả các nguồn lực tài chính và công nghệ tuyệt vời để theo kịp tốc độ đổi mới.
Theo: Thời báo tài chính