Trong bối cảnh công nghệ AI phát triển vượt bậc, khái niệm về các tác nhân AI (AI agent) có khả năng điều khiển trình duyệt web và thực hiện các tác vụ như con người đang dần trở thành hiện thực. Các công cụ như ChatGPT Operator mang lại sức mạnh đáng kinh ngạc, nhưng đi kèm với một mức giá không hề nhỏ. Thay vì phải chi trả một khoản phí lớn, chúng tôi đã tìm kiếm một giải pháp thay thế miễn phí (hoặc chi phí cực thấp) và bất ngờ phát hiện ra một lựa chọn hoạt động hiệu quả đến kinh ngạc. Bài viết này sẽ đi sâu vào tìm hiểu công cụ này, cách cài đặt và đánh giá khả năng thực tế của nó.
Browser Use: Giải Pháp AI Agent Mã Nguồn Mở Tối Ưu Cho Trình Duyệt
ChatGPT Operator nổi tiếng với khả năng điều khiển trình duyệt web, tự động thực hiện các hành động như nhấp chuột, cuộn trang. Bạn chỉ cần ra lệnh cho ChatGPT về những gì cần làm, ví dụ như đặt vé máy bay hay viết văn bản trong Google Docs, và nó sẽ tự động hoàn thành. Tuy nhiên, để có được quyền truy cập vào tính năng này, người dùng phải chi trả một mức phí khá cao, lên tới 200 USD mỗi tháng cho gói ChatGPT Pro. Đối với nhiều người, đây là một khoản đầu tư không hề nhỏ. Chính vì vậy, nhu cầu tìm kiếm một giải pháp thay thế hiệu quả mà vẫn tối ưu chi phí là rất lớn.
Trong quá trình tìm kiếm, chúng tôi đã khám phá ra Browser Use. Browser Use là một AI agent mã nguồn mở, hoạt động tương tự như ChatGPT Operator. Nó có thể tương tác với trình duyệt web, điều hướng qua các trang web và thực hiện nhiều hành động khác nhau. Điều đáng chú ý là chi phí sử dụng Browser Use chỉ bằng một phần nhỏ so với dịch vụ của ChatGPT. Hơn nữa, người dùng có hai tùy chọn linh hoạt để lựa chọn. Tùy chọn đầu tiên là đăng ký gói dịch vụ với mức phí 30 USD mỗi tháng, khi đó AI agent sẽ chạy trên dịch vụ đám mây của họ. Lựa chọn thứ hai, và cũng là lựa chọn tiết kiệm nhất, là tự thiết lập và chạy AI agent cục bộ trên máy tính của bạn, chỉ phải trả phí cho việc sử dụng API. Chúng tôi đã chọn phương án tiết kiệm chi phí nhất để trải nghiệm.
Giao diện trang web Browser Use, hiển thị các gói dịch vụ và mức giá của AI agent mã nguồn mở, bao gồm tùy chọn đám mây và tự cài đặt tiết kiệm.
Mặc dù việc thiết lập Browser Use không đơn giản như ChatGPT Operator, nhưng chỉ với vài dòng lệnh cơ bản, chúng tôi đã có thể khởi chạy và sử dụng nó một cách trơn tru. Nếu chúng tôi có thể làm được, chắc chắn bạn cũng sẽ làm được!
Hướng Dẫn Cài Đặt Browser Use Trên Máy Tính Cá Nhân
Để bắt đầu với Browser Use, bạn sẽ cần chuẩn bị hai yếu tố chính: Python 3.11 đã được cài đặt trên máy tính và quyền truy cập API từ OpenAI (hoặc một mô hình ngôn ngữ lớn – LLM – được lưu trữ cục bộ nếu bạn muốn).
Vì Browser Use là một AI agent, nó cần một mô hình ngôn ngữ lớn (LLM) để hoạt động. Bạn có thể nhận quyền truy cập API từ trang web của OpenAI hoặc bất kỳ API nào khác tương thích với Browser Use. Lợi ích của việc sử dụng API là bạn có sự linh hoạt trong việc lựa chọn giữa các mô hình khác nhau (như GPT-3.5 và GPT-4), và bạn chỉ phải trả phí cho những gì bạn sử dụng, thay vì một khoản phí đăng ký trả trước.
Trong quá trình thử nghiệm, chúng tôi đã sử dụng mô hình ChatGPT 4-o. Tổng chi phí cho bảy tác vụ mà chúng tôi yêu cầu Browser Use thực hiện là chưa đến 1 USD. Nếu bạn kết hợp nó với API của DeepSeek, chi phí thậm chí sẽ còn rẻ hơn đáng kể. Mặc dù bạn có thể sử dụng một LLM cục bộ trên máy tính, nhưng việc chạy một LLM có hiệu suất tương đương ChatGPT 4-o đòi hỏi sức mạnh tính toán đáng kể mà hầu hết người dùng thông thường khó có thể đáp ứng. Chúng tôi đã thử nghiệm mô hình DeepSeek 7B LLM trên máy tính của mình, và hiệu suất không bất ngờ là khá tệ. Vì vậy, chúng tôi khuyến nghị nên gắn bó với việc sử dụng API để đạt được hiệu quả tốt nhất.
Sau khi đã có quyền truy cập API, bạn có thể tạo một môi trường ảo trong VS Code. Bạn truy cập vào View
> Command Palette
và gõ create environment
. Tiếp theo, mở một terminal mới và cài đặt Browser-use bằng lệnh pip
:
pip install browser-use
Tạo một tệp .env
trong thư mục và thêm khóa API của bạn vào đó:
OPENAI_API_KEY="Your API Here"
Cuối cùng, tạo một tệp Python mới với tên app.py
và dán đoạn mã sau vào:
from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
from dotenv import load_dotenv
load_dotenv()
async def main():
agent = Agent(
task="Go to Reddit, search for 'browser-use', click on the first post and return the first comment.",
llm=ChatOpenAI(model="gpt-4o"),
)
result = await agent.run()
print(result)
asyncio.run(main())
Bạn có thể thay thế lời nhắc (task
) trong đoạn mã trên bằng nhiệm vụ của riêng mình, ví dụ: “Search for Albert Einstein and open his Wikipedia page.” Cuối cùng, chạy tệp python app.py
bằng terminal:
python app.py
Đánh Giá Thực Tế: Browser Use Hoạt Động Hiệu Quả Đến Đâu?
Chúng tôi bắt đầu thử nghiệm với các tác vụ đơn giản như tìm kiếm “Albert Einstein” trên Google và mở trang Wikipedia của ông ấy. Khi chạy script, AI agent đã mở một cửa sổ trình duyệt mới và thực hiện tác vụ một cách hoàn hảo.
Tiếp theo, chúng tôi yêu cầu nó tìm kiếm các mẫu laptop gaming trên Amazon và mở kết quả đầu tiên. Một lần nữa, AI agent đã hoàn thành tác vụ thành công mà không gặp bất kỳ trở ngại nào.
Tại thời điểm này, chúng tôi đã bị thuyết phục rằng Browser Use có khả năng điều hướng web một cách thông minh. Để đẩy giới hạn của nó đi xa hơn, chúng tôi hướng dẫn nó truy cập Yahoo News và tóm tắt năm bài báo hàng đầu. Điều bất ngờ là Browser Use đã hoàn thành tác vụ này chỉ trong vài phút. Các bản tóm tắt ngắn gọn và đi thẳng vào vấn đề, cho thấy khả năng xử lý thông tin đáng kể.
Tuy nhiên, mọi thứ trở nên phức tạp hơn đối với Browser Use khi chúng tôi yêu cầu nó tìm kiếm chuyến bay từ London đến Paris trên skyscanner.com. Ban đầu, trang web đã chặn quyền truy cập do phát hiện bot, vì vậy chúng tôi phải can thiệp thủ công để bỏ qua lớp bảo vệ này. Dù vậy, Browser Use vẫn gặp khó khăn khi nó nhấp vào nút tìm kiếm mà không điền chính xác “London” và “Paris” vào các trường tương ứng. Điều này cho thấy công cụ còn cần cải thiện trong việc xử lý các form phức tạp hoặc các tình huống cần tương tác đa bước.
Một khả năng thú vị khác là bạn có thể kết nối Browser Use với trình duyệt chính của mình, nơi tất cả các tài khoản của bạn đã được đăng nhập. Điều này cho phép AI agent nhập dữ liệu vào Google Sheet hoặc dán các bản tóm tắt tin tức từ Yahoo News vào Google Doc. Tuy nhiên, chúng tôi gặp một số vấn đề trong việc thiết lập nó với trình duyệt đang hoạt động của mình, nên đã tạm gác lại tính năng này để nghiên cứu thêm.
Nhìn chung, đây là một thử nghiệm rất thú vị. Việc quan sát một AI agent tự động điều hướng web và thực hiện các tác vụ thật sự hấp dẫn. Mặc dù Browser Use chưa hoàn hảo và vẫn còn một chặng đường dài để trở thành một AI agent duyệt web hoàn chỉnh, nhưng những gì nó thể hiện đã rất ấn tượng.
Công nghệ này vẫn còn ở giai đoạn sơ khai, vì vậy chúng ta hoàn toàn có thể mong đợi những cải tiến đáng kể trong tương lai. Hiện tại, nếu bạn là người thích mày mò công nghệ và không ngại đối mặt với một vài trục trặc nhỏ trong quá trình thiết lập, hãy thử cài đặt và trải nghiệm Browser Use trên máy tính của mình. Đừng ngần ngại để lại bình luận nếu bạn gặp khó khăn và cần sự hỗ trợ từ cộng đồng thuthuat360.net.