Java
2022.03.31
Javaの正規表現の使い方!数字や文字列のチェック方法をサンプル付きで解説
2023.11.15

Javaを学習するうえで、

「正規表現の使い方がわからない」と悩んでいる方も多いのではないでしょうか?


「Javaでの正規表現の使い方は?」

「正規表現でどうやって文字列を操作するのだろうか?」


といった疑問に対して、本記事ではJavaの正規表現の使い方をサンプルを交えて解説していきます。


※本記事で紹介するサンプルコードは、OpenJDK-11.0.13で動作確認しています。


1.正規表現とは?

正規表現とは、文字列の集合(パターン)を表す汎用的な記法です。


主に文字列の中から電話番号や住所など、検索したい文字を発見するために使われ、条件に一致するものをひとつの形式で表現します。


例えば、正規表現を使うと郵便番号は以下のようなパターンで定義できます。

^[0-9]{3}-[0-9]{4}$

テキストボックスなどに入力された文字列が、[0-9]{3}-[0-9]{4}と一致するかどうかを調べることで、郵便番号かどうかチェックできます。

2.Javaの正規表現


Javaには正規表現に関する機能を実現するためのパッケージjava.util.regexがあり、そのなかにPatternクラスとMatcherクラスがあります。


Patternクラスは正規表現の「パターン」を表現し、Matcherクラスで検査したい文字列と正規表現との「マッチング」を行います。

①Patternクラス

Patternクラスは、正規表現の「パターン」を表すクラスです。


Javaで正規表現を使う時は、java.util.regex.Patternクラスのcompileメソッドを呼び出し、正規表現をコンパイルします。正規表現が構文のルールに従ってない場合は、例外をスローします。


Pattern.compileメソッドの詳細です。

public static Pattern compile(String regex)

指定された正規表現をパターンにコンパイルします。


パラメータ:regex – コンパイルされる表現

戻り値:パターンにコンパイルする指定された正規表現

例外:PatternSyntaxException – 表現の構文が無効である場合

参考:公式リファレンス

②Matcherクラス

正規表現のマッチングは、Pattern.matcherメソッドに対象文字列を渡して、Matcherクラスのインスタンスを取得しマッチしたか調べます。


メソッドの詳細は以下の通りです。

public Matcher matcher(CharSequence input)

指定された入力と、このパターンをマッチする正規表現エンジンを作成します。


パラメータ:input – マッチされる文字シーケンス

戻り値:このパターンの新しい正規表現エンジン

参考:公式リファレンス




3.正規表現の使い方


正規表現の使い方をサンプルコードを用いて解説します。

①Patternオブジェクトを作成する

正規表現のPatternオブジェクトを作成するには、Pattern.compileメソッドの引数に正規表現パターンを指定します。


では、Patternクラスのサンプルコードを見ていきましょう。


次の例は、郵便番号形式にマッチする正規表現をPattern.compileメソッドに指定し、patternインスタンスを作成するコードです。

import java.util.regex.Pattern;

public class App {
    public static void main(String[] args) {
        Pattern pattern = Pattern.compile("^[0-9]{3}-[0-9]{4}$"); 
    }
}

②matchesメソッドを使用する

Patternオブジェクトを作成したら、次は文字列と正規表現をマッチングします。マッチングするには、Pattern.matcherメソッドで得られるmatcherインスタンスのfindメソッドで調べます。

import java.util.regex.Pattern;
import java.util.regex.Matcher;

public class App {
    public static void main(String[] args) {
        Pattern pattern = Pattern.compile("^[0-9]{3}-[0-9]{4}$");
        String postno = "100-0001";
        Matcher matcher = pattern.matcher(postno);
        if (matcher.find()) {
            System.out.println("正規表現にマッチしました。");
        } else {
            System.out.println("マッチしませんでした。");
        } 
    }    
}

実行結果:

正規表現にマッチしました。




4.よく使う正規表現一覧


ここでは、よく使う正規表現を紹介します。

正規表現意味表現例合致する文字列の例
*0回以上繰り返しa*␣,a,aa,aaa
+1回以上繰り返しab+ab,abab,ababab,abb
?0回 or 1回繰り返しba?b,ba
^直後の文字が行の先頭にある場合にマッチ^JavaJava Programming
$直前の文字が行の末尾にある場合にマッチPrograming$Java Programming
.改行以外の任意の1文字にマッチ.A,1
|OR条件として使用0(7|8|9)0070,080,090
{N}N回繰り返し(abc){3}abcabcabc
{M,N}M回以上N回以下繰り返しa{2,4}aa,aaa,aaaa
[A-Z]英大文字A-Zの任意1文字にマッチa[A-Z]aA,aB,aX,aY
[a-z]英小文字a-zの任意1文字にマッチb[a-z]ba,bc,bx,by,bz
[0-9]数字0-9の任意1文字にマッチc[0-9]c1,c9,c0

①正規表現で特殊文字を使う際はエスケープが必要

正規表現では*、?、{}、[]などいくつかの文字を特別な意味として用います。これらの特殊文字を正規表現のパターンで指定したい場合は「\バックスラッシュ」を使って無効化(エスケープ)させます。



5.正規表現の組み合わせ


複数の正規表現を組み合わせると、複雑な判定を行うことが可能です。

①すべての条件に一致するかチェックする場合

英大文字で始まり、英小文字で終わるローマ字表記の名前かどうかをチェックしたい場合は次のようになります。

^[A-Z][A-Za-z]*$

「.*」は任意の文字が0個以上続く、という意味です。このように複数の正規表現を組み合わせることで、and判定ができます。

②どれかひとつの条件に一致するかチェックする場合

携帯番号かどうかチェックする場合、上3桁は「090」か「080」か「070」になります。このようにどれかひとつの条件に一致するかどうかをチェックする正規表現は次のようになります。

0(7|8|9)0-[0-9]{4}-[0-9]{4}

「|(パイプ)」は、正規表現では、or条件を意味し、文字列のパターンを区切って表現します。



6.正規表現の活用例・サンプル

ここでは、正規表現の活用例やサンプルを紹介します。

①数字をチェックする

数字をチェックする正規表現のパターンは次の通りです。

^[0-9]+$

サンプルコードで確認してみましょう。

import java.util.regex.Pattern;
import java.util.regex.Matcher;

public class App {
    public static void main(String[] args) {
        Pattern pattern = Pattern.compile("^[0-9]+$");
        String numericno = "01234";
        Matcher matcher = pattern.matcher(numericno);
        if (matcher.find()) {
            System.out.println("正規表現にマッチしました。");
        } else {
            System.out.println("マッチしませんでした。");
        } 
    }    
}

実行結果:

正規表現にマッチしました。

②英数字をチェックする

英数字をチェックする正規表現のパターンです。

^[0-9a-zA-Z]+$

サンプルコードで確認しましょう。

import java.util.regex.Pattern;
import java.util.regex.Matcher;

public class App {
    public static void main(String[] args) {
        Pattern pattern = Pattern.compile("^[0-9a-zA-Z]+$");
        String charno = "2022YearCalendar";
        Matcher matcher = pattern.matcher(charno);
        if (matcher.find()) {
            System.out.println("正規表現にマッチしました。");
        } else {
            System.out.println("マッチしませんでした。");
        } 
    }    
}

実行結果:

正規表現にマッチしました。

③全角のみかチェックする

全角のみかどうかをチェックする正規表現のパターンです。

^[  ]*[^ -~。-゚]*[  ]*$

この正規表現は、全角文字や全角数字だけでなく、全角スペースにも対応しています。

サンプルコードで確認してみます。

import java.util.regex.Pattern;
import java.util.regex.Matcher;

public class App {
    public static void main(String[] args) {
        Pattern pattern = Pattern.compile("^[  ]*[^ -~。-゚]*[  ]*$");
        String postno = "100-0001 東京都中央区銀座4丁目";
        Matcher matcher = pattern.matcher(postno);
        if (matcher.find()) {
            System.out.println("正規表現にマッチしました。");
        } else {
            System.out.println("マッチしませんでした。");
        } 
    }    
}

実行結果:

正規表現にマッチしました。

④日付をチェックする

日付をチェックする正規表現は以下です。

^[0-9]{4}/(0[1-9]|1[0-2])/(0[1-9]|[1-2][0-9]|3[0-1])$

サンプルコードで確認してみましょう。

import java.util.regex.Pattern;
import java.util.regex.Matcher;

public class App {
    public static void main(String[] args) {
        Pattern pattern = Pattern.compile("^[0-9]{4}/(0[1-9]|1[0-2])/(0[1-9]|[1-2][0-9]|3[0-1])$");
        String date = "2022/03/01";
        Matcher matcher = pattern.matcher(date);
        if (matcher.find()) {
            System.out.println("正規表現にマッチしました。");
        } else {
            System.out.println("マッチしませんでした。");
        } 
    }    
}

実行結果:

正規表現にマッチしました。

日付を正規表現のみでチェックすると、閏年や月末日付など大変なので、実務においては日付型オブジェクトに変換しチェックする方が実用的です。

⑤メールアドレスをチェックする

メールアドレスをチェックする正規表現は以下の通りです。

^([a-zA-Z0-9])+([a-zA-Z0-9._-])*@([a-zA-Z0-9_-])+([a-zA-Z0-9._-]+)+$

サンプルコードで確認してみましょう。

import java.util.regex.Pattern;
import java.util.regex.Matcher;

public class App {
    public static void main(String[] args) {
        Pattern pattern = Pattern.compile("^([a-zA-Z0-9])+([a-zA-Z0-9._-])*@([a-zA-Z0-9_-])+([a-zA-Z0-9._-]+)+$");
        String mailaddress = "username@domain.co.jp";
        String mailaddress2 = "user1domain.co.jp";
        
        Matcher matcher = pattern.matcher(mailaddress);
        if (matcher.find()) {
            System.out.println("正規表現にマッチしました。");
        } else {
            System.out.println("マッチしませんでした。");
        }
        
        matcher = pattern.matcher(mailaddress2);
        if (matcher.find()) {
            System.out.println("正規表現にマッチしました。");
        } else {
            System.out.println("マッチしませんでした。");
        }
    }    
}

実行結果:

正規表現にマッチしました。
マッチしませんでした。

変数mailaddress2は、@記号が存在しないため、正規表現にマッチしないことがわかりますね。

⑥電話番号をチェックする

電話番号をチェックする正規表現のパターンです。

^[0-9]{3}-[0-9]{3}-[0-9]{4}$

区切り桁数を変えることで携帯電話番号のパターンにも対応できます。

サンプルコードで確認してみましょう。

import java.util.regex.Pattern;
import java.util.regex.Matcher;

public class App {
    public static void main(String[] args) {
        Pattern pattern = Pattern.compile("^[0-9]{3}-[0-9]{4}-[0-9]{4}$");
        String phone = "090-123-4567";
        String phone2 = "090-1234-5678";
        
        Matcher matcher = pattern.matcher(phone);
        if (matcher.find()) {
            System.out.println("正規表現にマッチしました。");
        } else {
            System.out.println("マッチしませんでした。");
        }
        
        matcher = pattern.matcher(phone2);
        if (matcher.find()) {
            System.out.println("正規表現にマッチしました。");
        } else {
            System.out.println("マッチしませんでした。");
        }
    }    
}

実行結果:

マッチしませんでした。
正規表現にマッチしました。

変数phoneの電話番号形式は”3桁-3桁-4桁”のため、正規表現にマッチしないことがわかります。

⑦郵便番号をチェックする

郵便番号をチェックする正規表現のパターンは以下の通りです。

^[0-9]{3}-[0-9]{4}$

次のサンプルコードで確認してみましょう。

import java.util.regex.Pattern;
import java.util.regex.Matcher;

public class App {
    public static void main(String[] args) {
        Pattern pattern = Pattern.compile("^[0-9]{3}-[0-9]{4}$");
        String postno = "001-0003";
        String postno2 = "0010003";
        
        Matcher matcher = pattern.matcher(postno);
        if (matcher.find()) {
            System.out.println("正規表現にマッチしました。");
        } else {
            System.out.println("マッチしませんでした。");
        }
        
        matcher = pattern.matcher(postno2);
        if (matcher.find()) {
            System.out.println("正規表現にマッチしました。");
        } else {
            System.out.println("マッチしませんでした。");
        }
    }    
}

実行結果:

正規表現にマッチしました。
マッチしませんでした。

postno2は、郵便番号に”-(ハイフン)“がないため、正規表現にマッチしません。

⑧URLをチェックする

URLをチェックする正規表現のパターンです。

(https?|ftp|file)://[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|]

サンプルコードで確認してみましょう。

import java.util.regex.Pattern;
import java.util.regex.Matcher;

public class App {
    public static void main(String[] args) {
        Pattern pattern = Pattern.compile("(https?|ftp|file)://[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|]");
        String url = "https://www.yahoo.co.jp";
        String url2 = "www.yahoo.co.jp";
        
        Matcher matcher = pattern.matcher(url);
        if (matcher.find()) {
            System.out.println("正規表現にマッチしました。");
        } else {
            System.out.println("マッチしませんでした。");
        }
        
        matcher = pattern.matcher(url2);
        if (matcher.find()) {
            System.out.println("正規表現にマッチしました。");
        } else {
            System.out.println("マッチしませんでした。");
        }
    }    
}

実行結果:

正規表現にマッチしました。
マッチしませんでした。

変数url2は”https”、”ftp”、”file”で開始されていないので、正規表現のパターンとマッチしないことがわかります。

⑨IPアドレスをチェックする

IPアドレスのチェック方法をIPv4とIPv6でそれぞれ解説します。

IPv4のIPアドレスをチェック

IPv4のIPアドレスをチェックする正規表現のパターンは以下の通りです。

^(([1-9]?[0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5]).){3}([1-9]?[0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])$

サンプルコードで確認してみましょう。

import java.util.regex.Pattern;
import java.util.regex.Matcher;

public class App {
    public static void main(String[] args) {
        Pattern pattern = Pattern.compile("^(([1-9]?[0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5]).){3}([1-9]?[0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])$");
        String ipv4 = "192.168.0.254";
        String ipv4_2 = "216.126.2.256";
        
        Matcher matcher = pattern.matcher(ipv4);
        if (matcher.find()) {
            System.out.println("正規表現にマッチしました。");
        } else {
            System.out.println("マッチしませんでした。");
        }
        
        matcher = pattern.matcher(ipv4_2);
        if (matcher.find()) {
            System.out.println("正規表現にマッチしました。");
        } else {
            System.out.println("マッチしませんでした。");
        }
    }    
}

実行結果:

正規表現にマッチしました。
マッチしませんでした。

変数ipv4_2はアドレス範囲(0〜255)を超えているため、正規表現とマッチしなかったことがわかりますね。

IPv6のIPアドレスをチェック

IPv6のIPアドレスをチェックする正規表現のパターンです。

^s*((([0-9A-Fa-f]{1,4}:){7}([0-9A-Fa-f]{1,4}|:))|(([0-9A-Fa-f]{1,4}:){6}(:[0-9A-Fa-f]{1,4}|((25[0-5]|2[0-4]d|1dd|[1-9]?d)(.(25[0-5]|2[0-4]d|1dd|[1-9]?d)){3})|:))|(([0-9A-Fa-f]{1,4}:){5}(((:[0-9A-Fa-f]{1,4}){1,2})|:((25[0-5]|2[0-4]d|1dd|[1-9]?d)(.(25[0-5]|2[0-4]d|1dd|[1-9]?d)){3})|:))|(([0-9A-Fa-f]{1,4}:){4}(((:[0-9A-Fa-f]{1,4}){1,3})|((:[0-9A-Fa-f]{1,4})?:((25[0-5]|2[0-4]d|1dd|[1-9]?d)(.(25[0-5]|2[0-4]d|1dd|[1-9]?d)){3}))|:))|(([0-9A-Fa-f]{1,4}:){3}(((:[0-9A-Fa-f]{1,4}){1,4})|((:[0-9A-Fa-f]{1,4}){0,2}:((25[0-5]|2[0-4]d|1dd|[1-9]?d)(.(25[0-5]|2[0-4]d|1dd|[1-9]?d)){3}))|:))|(([0-9A-Fa-f]{1,4}:){2}(((:[0-9A-Fa-f]{1,4}){1,5})|((:[0-9A-Fa-f]{1,4}){0,3}:((25[0-5]|2[0-4]d|1dd|[1-9]?d)(.(25[0-5]|2[0-4]d|1dd|[1-9]?d)){3}))|:))|(([0-9A-Fa-f]{1,4}:){1}(((:[0-9A-Fa-f]{1,4}){1,6})|((:[0-9A-Fa-f]{1,4}){0,4}:((25[0-5]|2[0-4]d|1dd|[1-9]?d)(.(25[0-5]|2[0-4]d|1dd|[1-9]?d)){3}))|:))|(:(((:[0-9A-Fa-f]{1,4}){1,7})|((:[0-9A-Fa-f]{1,4}){0,5}:((25[0-5]|2[0-4]d|1dd|[1-9]?d)(.(25[0-5]|2[0-4]d|1dd|[1-9]?d)){3}))|:)))(%.+)?s*$

サンプルコードで確認してみましょう。

import java.util.regex.Pattern;
import java.util.regex.Matcher;

public class App {
    public static void main(String[] args) {
        Pattern pattern = Pattern.compile("^s*((([0-9A-Fa-f]{1,4}:){7}([0-9A-Fa-f]{1,4}|:))|(([0-9A-Fa-f]{1,4}:){6}(:[0-9A-Fa-f]{1,4}|((25[0-5]|2[0-4]d|1dd|[1-9]?d)(.(25[0-5]|2[0-4]d|1dd|[1-9]?d)){3})|:))|(([0-9A-Fa-f]{1,4}:){5}(((:[0-9A-Fa-f]{1,4}){1,2})|:((25[0-5]|2[0-4]d|1dd|[1-9]?d)(.(25[0-5]|2[0-4]d|1dd|[1-9]?d)){3})|:))|(([0-9A-Fa-f]{1,4}:){4}(((:[0-9A-Fa-f]{1,4}){1,3})|((:[0-9A-Fa-f]{1,4})?:((25[0-5]|2[0-4]d|1dd|[1-9]?d)(.(25[0-5]|2[0-4]d|1dd|[1-9]?d)){3}))|:))|(([0-9A-Fa-f]{1,4}:){3}(((:[0-9A-Fa-f]{1,4}){1,4})|((:[0-9A-Fa-f]{1,4}){0,2}:((25[0-5]|2[0-4]d|1dd|[1-9]?d)(.(25[0-5]|2[0-4]d|1dd|[1-9]?d)){3}))|:))|(([0-9A-Fa-f]{1,4}:){2}(((:[0-9A-Fa-f]{1,4}){1,5})|((:[0-9A-Fa-f]{1,4}){0,3}:((25[0-5]|2[0-4]d|1dd|[1-9]?d)(.(25[0-5]|2[0-4]d|1dd|[1-9]?d)){3}))|:))|(([0-9A-Fa-f]{1,4}:){1}(((:[0-9A-Fa-f]{1,4}){1,6})|((:[0-9A-Fa-f]{1,4}){0,4}:((25[0-5]|2[0-4]d|1dd|[1-9]?d)(.(25[0-5]|2[0-4]d|1dd|[1-9]?d)){3}))|:))|(:(((:[0-9A-Fa-f]{1,4}){1,7})|((:[0-9A-Fa-f]{1,4}){0,5}:((25[0-5]|2[0-4]d|1dd|[1-9]?d)(.(25[0-5]|2[0-4]d|1dd|[1-9]?d)){3}))|:)))(%.+)?s*$");
        
        String ipv6 = "2001:000A:AC01:EF10:0000:0000:0000:0000";
        String ipv6_2 = "1002:000C:CA01:FE00";
        
        Matcher matcher = pattern.matcher(ipv6);
        if (matcher.find()) {
            System.out.println("正規表現にマッチしました。");
        } else {
            System.out.println("マッチしませんでした。");
        }
        
        matcher = pattern.matcher(ipv6_2);
        if (matcher.find()) {
            System.out.println("正規表現にマッチしました。");
        } else {
            System.out.println("マッチしませんでした。");
        }
    }    
}

実行結果:

正規表現にマッチしました。
マッチしませんでした。

変数ipv6_2はアドレス構造が正しくないため、正規表現とマッチしなかったことがわかりますね。


7.正規表現で文字列を操作する方法


ここまで説明した正規表現は、検索したい文字を発見する方法ですが、他にもさまざまな使い方があります。

①文字列を分割する

Patternクラスのsplitメソッドを使用すると、正規表現のパターンとマッチする部分で文字列を分割できます。


サンプルコードで確認してみましょう。

import java.util.regex.Pattern;

public class App {
    public static void main(String[] args) {
        String str = "Red,Green,Blue";
        String regex =",";
        Pattern pattern = Pattern.compile(regex);
        for(String result : pattern.split(str)){
            System.out.println(result);
        }
    }    
}

実行結果:

Red
Green
Blue

実行結果から、文字列”Blue,Green,Red”を”,”(カンマ)で区切って出力しているのがわかりますね。

②文字列を検索する

Matcherクラスのfindメソッドは対象の文字列の中に、パターンとマッチする文字があるか調べます。


使い方をサンプルコードで確認しましょう。以下は数値が3つ続く文字を検索し、マッチした文字部分を出力するコードです。


findメソッドを繰り返し実行する場合、最初に実行するときは文字列の先頭部分から検索します。マッチしたあと、再度findメソッドを実行すると、前回マッチした次の文字から検索します。

import java.util.regex.Pattern;
import java.util.regex.Matcher;

public class App {
    public static void main(String[] args) {
        String str = "192.168.100.254";
        String regex ="[0-9]{3}";
        Pattern pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(str);
        while(matcher.find()){
            System.out.println(matcher.group());
        }
    }    
}

実行結果:

192
168
100
254

実行結果から、数値が3つ続く文字が出力されているのが確認できます。

③文字列を置き換える

MatcherクラスのreplaceAllメソッドは、正規表現のパターンで文字列を検索し、マッチした文字列を指定した文字列で置き換えます。


サンプルコードで確認してみましょう。以下のサンプルは、”.java”を検索し、マッチした部分を”.class”に置き換えるプログラムです。

import java.util.regex.Pattern;
import java.util.regex.Matcher;

public class App {
    public static void main(String[] args) {
        String str = "SampleProgram.java";
        String regex ="\\.java";
        Pattern pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(str);
        String newStr = matcher.replaceAll(".class");
        System.out.println(newStr);
    }    
}

実行結果:

SampleProgram.class

実行結果から、SampleProgram.javaがSampleProgram.classにリネームされているのが確認できます。

④空白や区切り文字を除去・置換する

空白を除去するサンプルコードです。行頭のスペースのみ除去する正規表現にしています。

import java.util.regex.Pattern;
import java.util.regex.Matcher;

public class App {
    public static void main(String[] args) {
        String str = "   I am learning Java.";
        String regex ="^ +";
        Pattern pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(str);
        String newStr = matcher.replaceAll("");
        System.out.println(newStr);
    }    
}

実行結果:

I am learning Java.

行頭のスペースが除去されていることが確認できますね。


以下は区切り文字を除去するサンプルコードです。

“.”(ピリオド)を表す正規表現は、”\\.”になります。“.”は特殊文字のため、” \”でエスケープする必要があります。

import java.util.regex.Pattern;
import java.util.regex.Matcher;

public class App {
    public static void main(String[] args) {
        String str = "I am learning Java.";
        String regex ="\\.";
        Pattern pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(str);
        String newStr = matcher.replaceAll("");
        System.out.println(newStr);
    }    
}

実行結果:

I am learning Java

実行結果では、行末の”.”が除去されています。





この記事をシェア