Tại sự kiện Google I/O 2025, hãng công nghệ hàng đầu thế giới đã giới thiệu hàng loạt công cụ AI mới, trong đó nổi bật là Gemini Flash 2.5 – phiên bản nâng cấp hiện đã sẵn sàng cho mọi đối tượng sử dụng. Tuy nhiên, điểm thu hút đặc biệt khác chính là Gemma 3n, mô hình ngôn ngữ lớn (LLM) được tinh chỉnh để vận hành trực tiếp trên thiết bị cá nhân có cấu hình phổ thông.
Gemma 3n tích hợp công nghệ Per-Layer Embeddings (PLE) do DeepMind phát triển, giúp giảm đáng kể lượng bộ nhớ cần thiết trong khi vẫn duy trì số lượng tham số lớn – 5 và 8 tỷ. Nhờ đó, mô hình này chỉ cần RAM 2–3 GB để hoạt động ổn định, phù hợp với điện thoại tầm trung và giá rẻ.
Không dừng lại ở việc tiết kiệm tài nguyên, Gemma 3n còn được trang bị các kỹ thuật như chia sẻ KVC và lượng tử hóa kích hoạt nâng cao, giúp tăng tốc phản hồi gấp 1,5 lần so với phiên bản Gemma 3 4B. Đồng thời, chất lượng đầu ra cũng được cải thiện rõ rệt. Mô hình hỗ trợ linh hoạt trong việc tạo các phiên bản rút gọn phục vụ từng mục đích sử dụng cụ thể.
Một điểm mạnh đáng chú ý khác của Gemma 3n là khả năng xử lý cục bộ – toàn bộ quá trình vận hành diễn ra ngay trên thiết bị mà không cần gửi dữ liệu lên đám mây. Điều này giúp nâng cao tính bảo mật và hỗ trợ hoạt động kể cả khi không có kết nối internet.
Ngoài ra, mô hình mới còn tăng cường khả năng hiểu đa phương thức, cho phép tiếp nhận và xử lý đồng thời các dạng dữ liệu như âm thanh, văn bản, hình ảnh và video. Nhờ đó, các tác vụ như phiên âm, dịch ngôn ngữ hay giao tiếp đa định dạng được thực hiện trơn tru hơn. Đáng chú ý, hiệu suất của Gemma 3n trong các ngôn ngữ phi tiếng Anh như Nhật, Hàn, Đức, Pháp và Tây Ban Nha cũng đã được cải thiện rõ rệt.
Gemma 3n hiện đã có thể dùng trực tiếp thông qua Google AI Studio mà không cần cài đặt phức tạp. Đồng thời, các nhà phát triển cũng có thể tiếp cận nền tảng Google AI Edge để tích hợp mô hình này vào sản phẩm, mở ra nhiều cơ hội sáng tạo trong lĩnh vực xử lý ngôn ngữ và hình ảnh.