Tìm hiểu về hashCode khi so sánh 2 đối tượng trong Java

Giới thiệu:

- Trong java, có các kiểu dữ liệu như int, char, String, Date … đã được dựng sẵn … ta chỉ cần sử dụng. Nhưng đôi khi chính các đối tượng này được xây dựng sẵn, khiến cho ta hay bị lầm lẫn giữa các khái niệm như: bằng nhau, lớn – nhỏ hơn khi ta tự xây dựng các đối tượng.

- Bài viết này hi vọng có thể giúp các bạn phần nào điều đó.

Vấn đề:

- Với các kiểu dữ liệu có sẵn, mình không bàn tới, nếu nó là int, char… thì có thể dùng dấu == để so sánh. Còn với các đối tượng khác, như String hay Date thì gọi hàm equals(), hai cách đem lại cùng một kết quả.

- Nhưng với các đối tượng bạn tự tạo ra thì sao? Xét đoạn chương trình sau:

//vd1

import java.util.Comparator;
import java.util.HashSet;
public class HelloWorld {
public static void main(String[] agrs) {
Person a = new Person();
Person b = new Person();

a.name=new String(“hiepnq”);
b.name=”hiepnq”;

a.age=22;
b.age=22;

HashSet set = new HashSet();
set.add(a);
set.add(b);

System.out.println(set.size());
}
}

class Person {
public String name;
public int age;
}

-> mặc dù 2 instance a và b có các cặp thuộc tính tương ứng bằng nhau (a.name.equals(b.name) ==true và a.age==b.age), nhưng khi in ra màn hình, HashSet set lại coi a và b là 2 đối tượng khác nhau, nên set.size() in ra lại là 2.

- Vấn đề này thoạt nhìn thì tưởng như chẳng có gì, nhưng nếu sử dụng trong kĩ thuật lập trình hiện đại, thì lại là một điều vô cùng tai hại: bạn sẽ khó có thể kiểm soát được việc so sánh 2 đối tượng, điều này khiến cho một số chức năng khác có liên quan tới so sánh sẽ không thực hiện được (vd: sắp xếp – tìm kiếm).

Vấn đề: Tại sao lại có hiện tượng như trên? Cơ chế nào khiến cho 2 đối tượng được gọi là bằng nhau?

- Trả lời cho vấn đề này, chúng ta tìm hiểu kĩ một chút về java nói riêng và các ngôn ngữ lập trình hiện đại nói chung (C# cũng tuân theo nguyên tắc này…). Trong bộ nhớ, khác với C/C++, Java quản lí đối tượng theo mã băm (hashCode), có nghĩa là: địa chỉ bộ nhớ các đối tượng sẽ được “băm” (hash) theo một công thức nào đó, trở thành một số int duy nhất, không trùng lặp khi trên cùng 1 máy tính.

- Tất cả các đối tượng trong Java đều có 1 gốc đối tượng cha duy nhất là Object, bản thân đối tượng Object có 2 phương thức: equals() và hashCode(). equals() sẽ dùng để so sánh các đối tượng, các lớp dẫn xuất từ Object có thể định nghĩa thế nào là bằng nhau nhờ Override hàm này (vd: String, Date …) và nếu chúng ta sử dụng thông thường, chúng ta cũng vẫn có thể sử dụng hàm này để so sánh, tham khảo đoạn code sau:

//vd2

import java.util.Comparator;
import java.util.HashSet;

public class HelloWorld {

public static void main(String[] agrs) {

Person a = new Person();
Person b = new Person();

a.name=new String(“hiepnq”);
b.name=”hiepnq”;

a.age=22;
b.age=22;

System.out.println(a.equals(b));
}
}

class Person {
public String name;
public int age;

@Override
public boolean equals(Object obj){
if(obj instanceof Person){
if(((Person)obj).name.equals(this.name)){
return true;
}
}
return false;
}
}

-> kết quả trả về là true, tốt rồi…

- Vấn đề kế tiếp được đặt ra: trong vd1 thì sao? nếu ta override hàm equals()? Lớp Person sẽ có dạng:

class Person {
public String name;
public int age;

@Override
public boolean equals(Object obj){
if(obj instanceof Person){
if(((Person)obj).name.equals(this.name)){
return true;
}
}
return false;
}
}

-> nhưng nếu thay vào vd1, thì set.size() vẫn là 2 – có nghĩa là: khi ta sử dụng, thì ta có thể coi là bằng nhau khi Perso.name bằng nhau, nhưng với các collection Set và Map (cả HashTable) thì chúng không cho rằng 2 đối tượng trên đã bằng nhau? tại sao vậy?

- Như đã nói ở trên, Object còn có hàm hashCode() trả về mã băm của đối tượng, mặc định, hai đối tượng được coi là bằng nhau, nếu chúng có hashCode() bằng nhau, có nghĩa là, chúng trỏ tới cùng 1 đối tượng trên vùng nhớ HEAP… Vậy, để khắc phục điều này, ta cần phải override cả hàm hashCode() nữa…

import java.util.Comparator;
import java.util.HashSet;

public class HelloWorld {

public static void main(String[] agrs) {

Person a = new Person();
Person b = new Person();

a.name=new String(“hiepnq”);
b.name=”hiepnq”;

a.age=22;
b.age=22;

HashSet set = new HashSet();
set.add(a);
set.add(b);

System.out.println(set.size());
}
}

class Person {
public String name;
public int age;

@Override
public boolean equals(Object obj){
if(obj instanceof Person){
if(((Person)obj).name.equals(this.name)){
return true;
}
}
return false;
}

@Override
public int hashCode(){
return age;
}
}

-> giờ thì kết quả là 1 rồi

- Vậy, muốn đối tượng bằng nhau trọn vẹn khi và chỉ khi: hàm equals() trả về true, và hàm hashCode() trả về cùng một giá trị.

Kết luận:

- Định nghĩa 2 đối tượng bằng nhau được coi là 1 trong những vấn đề cốt lõi và then chốt nhất trong Core Java và cả C# căn bản nữa, nắm bắt được yếu tố này, các bạn có thể tự định nghĩa các đối tượng bằng nhau một các rất mềm dẻo

- Chúc các bạn thành công!

 

1 Nhận xét

  1. Nhưng mà khi ghi đè lại hashCode đối với một properties trong một lớp thì nó chỉ trả về hash = một số cụ thể.

    Ví dụ: lớp sinhvien có properties maSV khi em ghi đè hashCode
    {
    int hash = 7;
    hash = 17 * hash + this.maSV;
    return hash;
    }
    Như vậy thì nó đâu có liên quan gì đến heap đâu anh ơi. Kiểu dữ liệu String thì em thấy nó băm còn kiểu Boolean thì + thêm với 0 hoặc 1.

    Trả lờiXóa

Đăng nhận xét

Mới hơn Cũ hơn