Я хочу извлечь имена доменов верхнего уровня и доменные имена верхнего уровня страны из строки с помощью Regex. Я тестировал много Regex, например, этот код:

var linkParser = new Regex(@"\b(?:https?://|www\.)\S+\b", RegexOptions.Compiled | RegexOptions.IgnoreCase);
Match m = linkParser.Match(Url);
Console.WriteLine(m.Value);

Но ни один из этих кодов не мог сделать это должным образом. Текстовая строка, вводимая пользователем, может состоять из следующих операторов:

jonasjohn.com
http://www.jonasjohn.de/snippets/csharp/
jonasjohn.de
www.jonasjohn.de/snippets/csharp/
http://www.answers.com/article/1194427/8-habits-of-extraordinarily-likeable-people
http://www.apple.com
https://www.cnn.com.au
http://www.downloads.news.com.au
https://ftp.android.co.nz
http://global.news.ca
https://www.apple.com/
https://ftp.android.co.nz/
http://global.news.ca/
https://www.apple.com/
https://johnsmith.eu
ftp://johnsmith.eu
johnsmith.gov.ae
johnsmith.eu
www.jonasjohn.de
www.jonasjohn.ac.ir/snippets/csharp
http://www.jonasjohn.de/
ftp://www.jonasjohn.de/
https://subdomain.abc.def.jonasjohn.de/test.htm

Регулярное выражение, которое я тестировал:

^(?:https?:\/\/)?(?:[^@\/\n]+@)?(?:www\.)?([^:\/\n]+)"

\b(?:https?://|www\.)\S+\b

://(?<host>([a-z\\d][-a-z\\d]*[a-z\\d]\\.)*[a-z][-a-z\\d]+[a-z])

А также слишком много, мне просто нужно доменное имя, и мне не нужен протокол или поддомен. Например: Domainname.gTLD или DomainName.ccTLD или DomainName.xyz.ccTLD

Я получил их список из PUBLIC SUFFIX

Конечно, я видел много сообщений на stackoverflow.com, но ни один из них мне не ответил.

1
Feri 5 Июл 2021 в 14:51

3 ответа

Лучший ответ

Согласно ответу Lidqy, я написал эту функцию, которая, как мне кажется, поддерживает большинство возможных ситуаций, и если входное значение выходит за пределы это можно сделать исключением.

public static string ExtractDomainName(string Url)
        {
            var regex = new Regex(@"^((https?|ftp)://)?(www\.)?(?<domain>[^/]+)(/|$)");

            Match match = regex.Match(Url);

            if (match.Success)
            {
                string domain = match.Groups["domain"].Value;
                int freq = domain.Where(x => (x == '.')).Count();
                while (freq > 2)
                {
                    if (freq > 2)
                    {
                        var domainSplited = domain.Split('.', 2);
                        domain = domainSplited[1];
                        freq = domain.Where(x => (x == '.')).Count();
                    }
                }
                return domain;
            }
            else
            {
                return String.Empty;
            }
        }
2
Faraz 5 Июл 2021 в 13:49

Вам не нужно Regex для синтаксического анализа URL-адреса. Если у вас есть действующий URL-адрес, вы можете использовать один из конструкторов Uri или Uri.TryCreate, чтобы проанализировать его:

if(Uri.TryCreate("http://google.com/asdfs",UriKind.RelativeOrAbsolute,out var uri))
{
    Console.WriteLine(uri.Host);
}

Однако www.jonasjohn.de/snippets/csharp/ и jonasjohn.de/snippets/csharp/ не являются действительными URL-адресами. TryCreate все еще может анализировать их как относительные URL-адреса, но чтение Host вызывает System.InvalidOperationException: This operation is not supported for a relative URI.

В этом случае вы можете использовать UriBuilder , чтобы проанализировать и изменить URL-адрес, например:

var bld=new UriBuilder("jonasjohn.com");
Console.WriteLine(bld.Host);

Это печатает

jonasjohn.com

Установка свойства Scheme дает действительный полный URL:

bld.Scheme="https";
Console.WriteLine(bld.Uri);

Это производит:

https://jonasjohn.com:80/
3
Panagiotis Kanavos 5 Июл 2021 в 12:56
var rx = new Regex(@"^((https?|ftp)://)?(www\.)?(?<domain>[^/]+)(/|$)");
var data = new[] {           "jonasjohn.com",
                             "http://www.jonasjohn.de/snippets/csharp/",
                             "jonasjohn.de",
                             "www.jonasjohn.de/snippets/csharp/",
                             "http://www.answers.com/article/1194427/8-habits-of-extraordinarily-likeable-people",
                             "http://www.apple.com",
                             "https://www.cnn.com.au",
                             "http://www.downloads.news.com.au",
                             "https://ftp.android.co.nz",
                             "http://global.news.ca",
                             "https://www.apple.com/",
                             "https://ftp.android.co.nz/",
                             "http://global.news.ca/",
                             "https://www.apple.com/",
                             "https://johnsmith.eu",
                             "ftp://johnsmith.eu",
                             "johnsmith.gov.ae",
                             "johnsmith.eu",
                             "www.jonasjohn.de",
                             "www.jonasjohn.ac.ir/snippets/csharp",
                             "http://www.jonasjohn.de/",
                             "ftp://www.jonasjohn.de/",
                             "https://subdomain.abc.def.jonasjohn.de/test.htm"
                         };

        foreach (var dat in data) {
            var match = rx.Match(dat);
            if (match.Success)
                Console.WriteLine("{0} => {1}", dat, match.Groups["domain"].Value);
            else {
                Console.WriteLine("{0} => NO MATCH", dat);
            }
        }
1
lidqy 5 Июл 2021 в 12:09