Computer >> Máy Tính >  >> Lập trình >> Java

Làm thế nào để đọc nội dung của một trang web mà không cần sử dụng bất kỳ thư viện bên ngoài nào trong Java?

URL lớp của gói java.net đại diện cho Bộ định vị tài nguyên đồng nhất được sử dụng để trỏ một tài nguyên (tệp hoặc, thư mục hoặc tham chiếu) trong world wide web.

openStream () phương thức của lớp này mở một kết nối đến URL được đại diện bởi đối tượng hiện tại và trả về một đối tượng InputStream sử dụng mà bạn có thể đọc dữ liệu từ URL.

Do đó, để đọc dữ liệu từ trang web (sử dụng lớp URL) -

  • Khởi tạo lớp java.net.URL bằng cách chuyển URL của trang web mong muốn làm tham số cho hàm tạo của nó.

  • Gọi phương thức openStream () và truy xuất đối tượng InputStream.

  • Khởi tạo lớp Máy quét bằng cách chuyển đối tượng InputStream đã truy xuất ở trên làm tham số.

Ví dụ

import java.io.IOException;
import java.net.URL;
import java.util.Scanner;
public class ReadingWebPage {
   public static void main(String args[]) throws IOException {
      //Instantiating the URL class
      URL url = new URL("https://www.something.com/");
      //Retrieving the contents of the specified page
      Scanner sc = new Scanner(url.openStream());
      //Instantiating the StringBuffer class to hold the result
      StringBuffer sb = new StringBuffer();
      while(sc.hasNext()) {
         sb.append(sc.next());
         //System.out.println(sc.next());
      }
      //Retrieving the String from the String Buffer object
      String result = sb.toString();
      System.out.println(result);
      //Removing the HTML tags
      result = result.replaceAll("<[^>]*>", "");
      System.out.println("Contents of the web page: "+result);
   }
}

Đầu ra

<html><body><h1>Itworks!</h1></body></html>
Contents of the web page: Itworks!