07/03/2026
Kỷ nguyên scale-out đang chạm trần: Khi AI buộc hạ tầng phải xoay trục sang memory-centric
Scale-out đang đi tới giới hạn tự nhiên
Trong hơn một thập kỷ, scale-out mở rộng theo chiều ngang gần như là đáp án mặc định của data center. Cần thêm dung lượng thì thêm server. Thiếu hiệu năng thì bổ sung node. Muốn tăng khả năng chịu lỗi thì nhân bản thêm. Mô hình này vận hành trơn tru vì phần lớn workload truyền thống bị giới hạn bởi compute và có thể chia nhỏ tương đối dễ dàng.
Memory tăng trưởng theo cách khá dự đoán, mạng đóng vai trò kết nối, còn bài toán chi phí tương đối ổn định. Hạ tầng phình to cùng nhu cầu kinh doanh, nhưng vẫn giữ được tỷ lệ hiệu quả chấp nhận được.
Nhưng giai đoạn đó đang kết thúc. AI đã làm thay đổi tận gốc logic vận hành của hạ tầng.

Memory đã trở thành yếu tố chi phối hệ thống
Các workload hiện đại như suy luận LLM, hệ thống gợi ý thời gian thực, vector database, graph analytics, genomics pipeline hay AI xử lý trong bộ nhớ ngày càng ít bị giới hạn bởi raw compute. Thay vào đó, điểm nghẽn chính nằm ở memory.
Key value cache của mô hình liên tục phình to. Embedding store gần như không có điểm dừng. Feature pipeline giữ ngày càng nhiều dữ liệu thường trú trong RAM và VRAM. Mô hình lớn đòi hỏi working set khổng lồ và tồn tại lâu dài trong bộ nhớ.
Memory không còn là một thành phần hỗ trợ trong hệ thống.
Memory đang trở thành nền tảng của toàn bộ hệ thống.
Vấn đề là mô hình hạ tầng hiện tại chưa được thiết kế cho một thế giới bị chi phối bởi memory.
Scale-out chưa từng được thiết kế cho hệ thống memory-driven
Scale-out giả định rằng mọi nhu cầu tăng trưởng đều có thể giải quyết bằng cách nhân bản server. Trong môi trường memory-driven, giả định này bắt đầu lệch pha.
Nhiều tổ chức buộc phải mua thêm server không phải vì thiếu compute, mà vì thiếu RAM hoặc VRAM. Kết quả là memory bị phân mảnh, bị kẹt rải rác trong các cluster, không thể chia sẻ hoặc tận dụng hiệu quả. GPU đắt tiền phải chờ dữ liệu vì vướng dung lượng và locality. Số lượng server tăng nhanh hơn giá trị sử dụng thực tế.
Chi phí điện, không gian rack và mạng phình ra, trong khi hiệu suất hệ thống không tăng tương ứng. Chu kỳ làm mới hạ tầng ngắn lại nhưng không mang lại bước nhảy về hiệu quả.
Scale-out làm tăng inventory, chứ không làm tăng utilization. Khi phải triển khai thêm server chỉ để “lấy memory”, kiến trúc đó không còn thực sự mở rộng, mà chỉ đang vá lỗi kiến trúc bằng phần cứng.
Chi phí ẩn của việc scale sai chiều
Sự mất cân bằng này đã trở thành vấn đề mang tính hệ thống. Đầu tư GPU hàng tỷ đô bị nhàn rỗi vì vướng memory. Biến động giá DRAM và HBM khiến mua sắm trở thành bài toán rủi ro. Data center chạm trần điện và không gian sớm hơn trần khối lượng workload.
Doanh nghiệp không chỉ mua thừa server, mà còn tự làm hạ tầng phức tạp hơn mức cần thiết. Đây không phải lỗi vận hành. Đây là lỗi kiến trúc.
Đây là điểm uốn của ngành, không phải bài toán tối ưu nhỏ
Không nên nhìn vấn đề này như một bài toán tuning hay điều chỉnh chiến lược mua sắm. Đây là một inflection point thực sự.
Memory quyết định năng lực hệ thống.
Utilization quyết định hiệu quả kinh tế.
Kiến trúc quyết định lợi thế cạnh tranh.
Scale-out là câu trả lời đúng cho kỷ nguyên cũ. Trong kỷ nguyên AI, nó ngày càng trở thành câu trả lời sai.

Hạ tầng tiếp theo sẽ được định nghĩa bởi memory, không phải server
Thế hệ hạ tầng mới sẽ không được đo bằng số lượng server triển khai, mà bằng khả năng scale, chia sẻ và tận dụng memory hiệu quả đến mức nào.
Sự chuyển dịch từ server-centric sang memory-centric đã bắt đầu. AI và các hệ thống dữ liệu hiện đại khiến memory trở thành bottleneck số một. Thêm server không còn giải quyết vấn đề gốc, thậm chí còn khuếch đại nó.
Với CTO và lãnh đạo hạ tầng, đây không phải viễn cảnh xa vời. Nó đang diễn ra ngay lúc này. Cluster phình to nhanh hơn năng lực hữu ích. GPU bị giới hạn bởi dung lượng và vị trí dữ liệu. Feature store, vector database và inference pipeline cần working set lớn, tăng liên tục và không khớp với ranh giới server truyền thống.
Memory-centric không phải là đập đi làm lại
Phản ứng phù hợp không thể là tối ưu lặt vặt. Cần thay đổi cách định nghĩa tài nguyên hạng nhất của hệ thống. Kiến trúc memory-centric đặt memory làm trung tâm, không còn coi server là đơn vị tối cao.
Về mặt triển khai, điều này đồng nghĩa với việc xác định rõ những workload đã bị giới hạn bởi memory, đưa memory pooling và disaggregation song hành với cluster hiện tại, thiết kế fabric kết nối tốc độ cao để memory có thể scale độc lập, coi memory là hạ tầng dùng chung thay vì tài sản bị kẹt, và đo thành công bằng utilization, efficiency và thông lượng toàn hệ thống thay vì chỉ đếm node.
Đây là một quá trình tiến hóa kiến trúc, có thể bắt đầu ngay trên môi trường hiện hữu, với workload thật và số liệu thật.
Những tổ chức đi đầu sẽ xây dựng hạ tầng mở rộng bằng cách tăng usable memory thay vì nhân số lượng server. Họ đạt GPU utilization cao hơn, lập kế hoạch dung lượng đơn giản hơn và duy trì hiệu quả kinh tế khi AI tiếp tục tăng trưởng.
Ngược lại, những tổ chức không thay đổi sẽ tiếp tục phình to hạ tầng để che giấu một vấn đề kiến trúc, lớn hơn nhưng không tốt hơn. Câu hỏi còn lại không phải là có chuyển sang memory-centric hay không, mà là ai sẽ chuyển trước và ai sẽ bị mắc kẹt trong việc scale sai chiều.



