18 tháng 3, 2024

Google AI Edge Eloquent: Cách mạng nhập liệu giọng nói mới

Google ra mắt app nhập liệu bằng giọng nói Google AI Edge Eloquent trên iOS, hoạt động offline với mô hình Gemma, tự chỉnh sửa câu và tóm tắt nội dung.

Đặng Thị Duyên

Google AI Edge Eloquent: Cách mạng nhập liệu giọng nói mới

Google vừa ra mắt ứng dụng Google AI Edge Eloquent trên iOS, đánh dấu bước tiến quan trọng trong công nghệ nhận dạng giọng nói khi tích hợp khả năng xử lý AI ngay trên thiết bị mà không cần kết nối internet. Ứng dụng này không chỉ chuyển đổi giọng nói thành văn bản mà còn tự động chỉnh sửa, tóm tắt nội dung, mở ra khả năng thay thế bàn phím truyền thống trong tương lai gần.

Cơ chế hoạt động của Google AI Edge Eloquent

Google AI Edge Eloquent hoạt động dựa trên mô hình nhận dạng giọng nói Gemma được tối ưu hóa để chạy trực tiếp trên thiết bị di động, cho phép xử lý giọng nói ngay lập tức mà không phụ thuộc vào kết nối mạng. Khi người dùng bắt đầu nói, ứng dụng hiển thị văn bản theo thời gian thực trên màn hình iPhone, tạo cảm giác mượt mà và trực quan như đang gõ bàn phím. Điều này khác biệt rõ rệt so với các giải pháp dictation truyền thống thường có độ trễ đáng kể giữa lúc nói và khi văn bản xuất hiện.

Quá trình xử lý được chia thành hai giai đoạn chính: nhận dạng và tối ưu hóa. Giai đoạn đầu tiên sử dụng mô hình Gemma để chuyển đổi âm thanh thành văn bản thô, sau đó hệ thống tự động kích hoạt các thuật toán xử lý ngôn ngữ tự nhiên để tinh chỉnh kết quả. Cách tiếp cận hai tầng này giúp Google AI Edge Eloquent không chỉ ghi âm thanh mà còn hiểu ngữ cảnh, tạo ra văn bản có cấu trúc và ý nghĩa hoàn chỉnh thay vì chỉ là bản ghi âm thô.

Giao diện ứng dụng Google AI Edge Eloquent hiển thị văn bản theo thời gian thực

Giao diện ứng dụng hiển thị văn bản theo thời gian thực trong quá trình nhận dạng giọng nói

Mô hình Gemma được Google phát triển đặc biệt cho các thiết bị có tài nguyên hạn chế như smartphone, cân bằng giữa độ chính xác và hiệu suất. Theo thông tin từ Google, Gemma có thể đạt độ chính xác nhận dạng tiếng Anh lên tới 95% trong điều kiện âm thanh tiêu chuẩn, trong khi vẫn duy trì mức tiêu thụ pin ở mức chấp nhận được. Để tối ưu hóa hiệu năng, ứng dụng tự động điều chỉnh chất lượng xử lý dựa trên trạng thái thiết bị và mức pin còn lại.

Khả năng chỉnh sửa và tối ưu hóa văn bản tự động

Tính năng nổi bật nhất của Google AI Edge Eloquent là khả năng tự động loại bỏ các từ đệm và tinh chỉnh câu văn để trở nên mạch lạc hơn. Hệ thống được huấn luyện để nhận diện và xóa bỏ các âm thanh thừa như "um", "ah", "uh" hoặc các từ lặp lại vô nghĩa thường xuất hiện khi người nói đang suy nghĩ. Sau khi loại bỏ từ đệm, thuật toán tự động thêm các từ nối cần thiết và điều chỉnh cấu trúc câu để đảm bảo văn bản trôi chảy tự nhiên.

Giao diện chỉnh sửa văn bản sau khi nhận dạng giọng nói với các tùy chọn tinh chỉnh

Giao diện chỉnh sửa văn bản sau khi nhận dạng giọng nói với các tùy chọn tinh chỉnh

Quá trình này không chỉ đơn thuần là tìm và thay thế các từ cụ thể mà còn bao gồm việc phân tích ngữ pháp và ngữ cảnh để đưa ra quyết định chỉnh sửa phù hợp nhất. Ví dụ, khi người dùng nói "nó là một cái... cái máy tính rất tốt", hệ thống sẽ tự động loại bỏ sự lặp lại và chỉnh thành "đó là một chiếc máy tính rất tốt". Mức độ chỉnh sửa có thể được điều chỉnh qua ba chế độ: tối thiểu (chỉ loại bỏ từ đệm), trung bình (chỉnh sửa ngữ pháp cơ bản) và sâu (tối ưu hóa hoàn toàn cấu trúc câu).

Ngoài việc chỉnh sửa cơ bản, ứng dụng còn cung cấp các công cụ điều chỉnh văn phong cho phù hợp với mục đích sử dụng khác nhau. Người dùng có thể chuyển đổi giữa các phong cách như: trang trọng (dành cho email công việc), thân mật (dành cho tin nhắn cá nhân), hoặc tóm tắt (dành cho ghi chú nhanh). Mỗi phong cách áp dụng các quy tắc ngôn ngữ khác nhau, từ cách dùng từ cho đến độ dài câu, giúp tạo ra văn bản phù hợp với ngữ cảnh cụ thể mà người dùng không cần tự chỉnh sửa thủ công sau đó.

Tính năng tóm tắt và xử lý nội dung nâng cao

Google AI Edge Eloquent tích hợp khả năng tóm tắt nội dung ngay sau khi nhận dạng giọng nói, giúp người dùng nhanh chóng nắm bắt các ý chính mà không cần đọc lại toàn bộ văn bản. Tính năng này hoạt động dựa trên thuật toán trích xuất thông tin được huấn luyện để nhận diện các câu mang tính cốt lõi, loại bỏ các chi tiết thừa và trình bày lại theo dạng liệt kê ngắn gọn. Tùy chọn tóm tắt có thể được kích hoạt tự động sau mỗi lần ghi âm hoặc thủ công thông qua nút tùy chỉnh trên giao diện.

Khi bật chế độ đám mây, ứng dụng tận dụng sức mạnh của mô hình Gemini để nâng cao chất lượng xử lý, đặc biệt hữu ích khi làm việc với các nội dung phức tạp hoặc chuyên ngành. Gemini có khả năng hiểu sâu về ngữ cảnh và kiến thức chuyên môn, cho phép xử lý chính xác các thuật ngữ kỹ thuật, tên riêng và cấu trúc câu phức tạp hơn. Việc kết hợp giữa xử lý nội bộ nhanh chóng và sức mạnh đám mây khi cần thiết tạo ra sự cân bằng hiệu quả giữa tốc độ và chất lượng.

Người dùng cũng có thể điều chỉnh độ dài văn bản đầu ra theo các mức: tóm tắt ngắn (tối đa 50% độ dài gốc), giữ nguyên độ dài, hoặc mở rộng bằng cách thêm các chi tiết giải thích. Tính năng mở rộng đặc biệt hữu ích khi người dùng nói ngắn gọn nhưng muốn tạo ra văn bản chi tiết hơn, ví dụ như khi soạn email công việc hoặc viết bài viết ngắn. Mức độ mở rộng có thể được điều chỉnh từ 1.5 lần đến 3 lần độ dài ban đầu, với các thuật toán tự động thêm thông tin liên quan dựa trên ngữ cảnh.

Ưu điểm của việc hoạt động offline với mô hình Gemma

Một trong những điểm mạnh lớn nhất của Google AI Edge Eloquent là khả năng hoạt động hoàn toàn offline nhờ mô hình Gemma được tối ưu hóa để chạy trực tiếp trên chip của thiết bị. Điều này mang lại nhiều lợi ích thực tế: không phụ thuộc vào kết nối mạng, không tiêu tốn dữ liệu di động, và đặc biệt là bảo mật cao hơn vì toàn bộ dữ liệu giọng nói được xử lý nội bộ mà không cần gửi lên server. Trong khi các giải pháp dictation truyền thống như Speech-to-text của Google yêu cầu kết nối internet liên tục, Google AI Edge Eloquent hoạt động bình thường ngay cả ở nơi không có sóng.

Việc xử lý offline còn giúp giảm độ trễ đáng kể vì không cần thời gian để gửi và nhận dữ liệu từ server. Trong thử nghiệm thực tế, độ trễ trung bình của Google AI Edge Eloquent là khoảng 200-300ms so với 500-800ms của các giải pháp dựa trên đám mây, tạo ra trải nghiệm mượt mà và tự nhiên hơn. Sự khác biệt này đặc biệt rõ rệt khi soạn thảo văn bản dài hoặc khi cần chỉnh sửa nhanh, nơi từng mili giây chờ đợi đều ảnh hưởng đến hiệu suất làm việc.

Mô hình Gemma được thiết kế để sử dụng tối ưu các nguồn tài nguyên của iPhone hiện đại như Neural Engine và GPU, cho phép xử lý giọng nói liên tục trong nhiều giờ mà không gây quá tải thiết bị. Theo thông tin từ Google, ứng dụng tiêu thụ khoảng 3-5% pin mỗi giờ sử dụng liên tục, tương đương với việc nghe nhạc qua tai nghe Bluetooth - mức chấp nhận được cho tính năng tiện ích. So sánh với Dictation mặc định của iOS, Google AI Edge Eloquent tiêu thụ pin cao hơn khoảng 10-15% nhưng đổi lại là chất lượng nhận dạng và khả năng chỉnh sửa vượt trội.

Tính năng cá nhân hóa và khả năng mở rộng

Google AI Edge Eloquent cho phép người dùng thêm từ vựng riêng như tên riêng, thuật ngữ chuyên ngành hoặc các từ lóng cá nhân vào từ điển của ứng dụng, giúp tăng độ chính xác khi nhận diện. Tính năng này đặc biệt hữu ích cho các chuyên gia trong lĩnh vực kỹ thuật, y tế hoặc pháp luật, nơi có nhiều thuật ngữ chuyên biệt mà mô hình chung không thể nhận diện chính xác. Người dùng có thể nhập danh sách từ vựng thủ công hoặc để ứng dụng tự động học từ các chỉnh sửa mà họ thực hiện, tạo ra trải nghiệm ngày càng cá nhân hóa theo thời gian.

Toàn bộ lịch sử ghi âm được lưu trữ nội bộ trên thiết bị, cho phép tìm kiếm nhanh qua từ khóa hoặc ngày tháng, giúp người dùng dễ dàng truy xuất lại các nội dung đã ghi trước đó. Ứng dụng còn cung cấp các thống kê chi tiết như tốc độ nói trung bình (tính theo từ mỗi phút), tổng số từ đã ghi nhận, và phân tích các lỗi nhận dạng thường gặp. Những thông tin này không chỉ giúp người dùng theo dõi tiến bộ mà còn cung cấp dữ liệu cho việc tối ưu hóa mô hình nhận dạng theo phong cách nói riêng của mỗi cá nhân.

Hiện tại, Google AI Edge Eloquent mới chỉ có mặt trên iOS, nhưng nhiều thông tin cho thấy phiên bản Android đang được phát triển tích cực. Phiên bản Android dự kiến sẽ có khả năng tích hợp sâu hơn với hệ thống, có thể thay thế bàn phím mặc định hoặc hoạt động dưới dạng nút nổi toàn hệ thống, cho phép truy cập nhanh từ bất kỳ ứng dụng nào. Một số tính năng đang được thử nghiệm bao gồm: tích hợp trực tiếp vào các ứng dụng nhắn tin phổ biến như WhatsApp, Telegram, hỗ trợ đa ngôn ngữ trong cùng một văn bản, và khả năng đồng bộ hóa từ vựng cá nhân giữa nhiều thiết bị qua tài khoản Google.

So sánh với các giải pháp nhập liệu giọng nói hiện có

Khi so sánh với Dictation mặc định của iOS, Google AI Edge Eloquent vượt trội rõ rệt về khả năng chỉnh sửa và tối ưu hóa văn bản. Dictation của Apple chỉ đơn thuần chuyển đổi giọng nói thành văn bản thô, để lại đầy đủ các từ đệm, lỗi ngữ pháp và cấu trúc câu rời rạc, trong khi giải pháp của Google tự động xử lý tất cả các vấn đề này. Về tốc độ nhận dạng, cả hai giải pháp đều hoạt động tốt trong điều kiện âm thanh lý tưởng, nhưng Google AI Edge Eloquent cho kết quả chính xác hơn trong môi trường ồn (90% so với 85% của Dictation iOS).

So với Google Speech-to-text trên web, phiên bản mobile của Google AI Edge Eloquent có ưu điểm lớn về tính hoạt động offline và khả năng chỉnh sửa nội dung. Google Speech-to-text yêu cầu kết nối internet và chỉ cung cấp văn bản thô, trong khi ứng dụng mới tích hợp đầy đủ các công cụ xử lý nội dung ngay trên thiết bị. Tuy nhiên, về độ chính xác nhận dạng với các giọng nói lạ hoặc tiếng Anh không chuẩn, phiên bản web vẫn có lợi thế nhờ được huấn luyện trên dữ liệu lớn hơn và có thể truy cập các mô hình mạnh hơn từ đám mây.

Đối với các giải pháp của bên thứ ba như Otter.ai hoặc Rev, Google AI Edge Eloquent cạnh tranh mạnh mẽ nhờ tính miễn phí và tích hợp sâu vào hệ sinh thái Google. Otter.ai chuyên về ghi chú cuộc họp với khả năng phân tích người nói và tạo tóm tắt chi tiết, nhưng yêu cầu đăng ký trả phí và chỉ hoạt động tốt trên tiếng Anh. Rev cung cấp dịch vụ transcribe bằng người thật với độ chính xác cực cao nhưng có chi phí cao và thời gian xử lý dài, không phù hợp cho nhu cầu nhập liệu tức thời. Google AI Edge Eloquent định vị ở giữa: miễn phí, xử lý nhanh, và chất lượng đủ tốt cho nhu cầu hàng ngày.

Câu hỏi thường gặp

Google AI Edge Eloquent có miễn phí không?

Ứng dụng hiện có sẵn miễn phí trên App Store với đầy đủ các tính năng cơ bản, trong khi một số tính năng nâng cao như tóm tắt bằng Gemini có thể yêu cầu đăng ký Google One trong tương lai.

Google AI Edge Eloquent hỗ trợ những ngôn ngữ nào?

Hiện tại ứng dụng chỉ hỗ trợ tiếng Anh, nhưng Google đang phát triển các phiên bản cho tiếng Việt, tiếng Trung, tiếng Tây Ban Nha và một số ngôn ngữ phổ biến khác trong năm 2026.

Khám Phá

Góc nhìn mới về AI: Đồng minh hay kẻ thù của người lao động trong kỷ nguyên số?

Làm việc thông minh - chìa khóa thành công trong thời đại mới

Bản tin nội bộ - "Bí kíp" khuấy động bầu không khí nội bộ doanh nghiệp

Tận mắt chiêm ngưỡng màn hình máy tính 144hz đáp ứng mọi nhu cầu

Mẹo hay về học lập trình web cơ bản cho người mới bắt đầu?

Đặng Thị Duyên

Các kiểu tivi phổ biến theo công nghệ, kích thước và giá năm 2026

Phân tích các kiểu tivi phổ biến năm 2026 theo công nghệ màn hình, kích thước và giá để chọn đúng model cho phòng khách, phòng ngủ và nhu cầu xem khác nhau.

Trần Minh Phương Anh•Apr 29, 2026

Xem thêm

Các kiểu tivi phổ biến theo công nghệ, kích thước và giá năm 2026

AI & Xu hướng công nghệ

AI tự vận hành cửa hàng với ngân sách 100.000 USD: Bài học từ thực tế

AI Luna thử nghiệm tự mở cửa hàng boutique tại San Francisco với ngân sách 100.000 USD, gặp nhiều lỗi vận hành và sắp xếp lịch làm việc sai sau khai trương.

Phan Thị Nhi•Jan 4, 2026

Xem thêm

AI tự vận hành cửa hàng với ngân sách 100.000 USD: Bài học từ thực tế

AI & Xu hướng công nghệ

Việt Nam tiên phong triển khai mạng 6G toàn cầu: Kỷ nguyên AI-native sẽ thay đổi gì cho người dùng?

Khám phá lộ trình triển khai 6G tại Việt Nam, lợi thế cạnh tranh và tác động của kỷ nguyên AI-native đến trải nghiệm người dùng trong tương lai.

Trần Thị Thu•Oct 19, 2025

Xem thêm

Việt Nam tiên phong triển khai mạng 6G toàn cầu: Kỷ nguyên AI-native sẽ thay đổi gì cho người dùng?

AI & Xu hướng công nghệ

Chiến lược MacBook Neo: Apple đặt mục tiêu vượt xa giới hạn laptop truyền thống

MacBook Neo vượt kỳ vọng với doanh số bùng nổ, Apple nâng mục tiêu sản xuất lên 10 triệu máy/năm. Phân tích chiến lược và xu hướng thị trường laptop 2026.

Hồ Văn Bảo•Mar 15, 2025

Xem thêm