Tutorial

Индексация и разделение строк в Python 3

Published on March 19, 2021

Русский

Индексация и разделение строк в Python 3

Введение

Тип строки данных Python представляет собой последовательность, составленную из одного или нескольких отдельных символов, в том числе букв, чисел, пробелов или специальных символов. Поскольку строка представляет собой последовательность, к ней можно получить доступ посредством индексации и разделения, как и к другим типам данных на базе последовательностей.

В этом учебном модуле вы узнаете, как получать доступ к строкам через индексацию, как разделять их через последовательности символов и как использовать методы подсчета и определения расположения символов.

Индексация строк

Как и тип данных списка, который содержит элементы, соответствующие индексу, строки также содержат символы, которым соответствуют индексы, начиная с 0.

Для строки Sammy Shark! индекс выглядит следующим образом:

S	a	m	m	y		S	h	a	r	k	!
0	1	2	3	4	5	6	7	8	9	10	11

Как видите, первая S начинается с индекса 0, а заканчивается строка символом ! с индексом 11.

Также отметим, что символу пробела между Sammy и Shark также соответствует собственный индекс. В данном случае пробелу соответствует индекс 5.

Восклицательному знаку (!) также соответствует индекс. Все другие специальные символы и знаки препинания, в том числе *#$&. ;?, также являются символами и будут иметь свои индексы.

Поскольку каждый символ в строке Python имеет свой индекс, мы можем получать доступ к строкам и совершать с ними манипуляции так же, как и с другими типами последовательных данных.

Доступ к символам через положительный числовой индекс

Используя ссылки на числовые индексы, мы можем изолировать один из символов в строке. Для этого мы поместим индекс в квадратные скобки. Давайте декларируем строку, выведем ее и вызовем индекс в квадратных скобках:

ss = "Sammy Shark!"
print(ss[4])

Outputy

Когда мы ссылаемся на определенный числовой индекс строки, Python возвращает символ, находящийся на соответствующей позиции. Поскольку букве y соответствует индекс 4 строки ss = "Sammy Shark!", когда мы выводим ss[4], мы получаем y в качестве вывода.

Числовые индексы позволяют получать доступ к определенным символам в строках.

Доступ к символам через отрицательный индекс

Если у нас имеется длинная строка, и мы хотим использовать символ ближе к концу строки, мы также можем использовать обратный отсчет от конца строки, начиная с индекса -1.

Для той же строки Sammy Shark! отрицательная разбивка индекса выглядит следующим образом:

S	a	m	m	y		S	h	a	r	k	!
-12	-11	-10	-9	-8	-7	-6	-5	-4	-3	-2	-1

Используя отрицательные индексы, мы можем вывести символ r, используя ссылку на его положение в индексе -3, как показано в следующей последовательности:

print(ss[-3])

Outputr

Использование отрицательных индексов может быть полезно для изоляции отдельных символов ближе к концу длинной строки.

Разделение строк

Также мы можем вызвать ряд символов из строки. Допустим, мы хотим вывести слово Shark. Для этого мы можем создать срез, представляющий собой последовательность символов в исходной строке. С помощью срезов мы можем вызывать несколько значений символов, создавая диапазоны символов, разделенные двоеточием [x:y]:

print(ss[6:11])

OutputShark

При построении среза, такого как [6:11], первый индекс соответствует началу среза (включительно), а второй — окончанию среза (не включительно). Поэтому в нашем примере конец диапазона обозначается индексом позиции сразу после конца строки.

При разделении строк на срезы мы создаем подстроки, то есть, строки внутри других строк. Вызывая ss[6:11], мы вызываем подстроку Shark, существующую в строке Sammy Shark!.

Если мы хотим включить любой конец строки, мы можем пропустить одно из чисел в синтаксисе string[n:n]. Например, если нам нужно вывести первое слово строки ss — “Sammy”, мы можем сделать это так:

print(ss[:5])

OutputSammy

Мы пропустили индекс перед двоеточием в синтаксисе среза и указали только индекс после двоеточия, обозначающий конец подстроки.

Чтобы вывести подстроку, начинающуюся в середине строки и идущую до конца строки, мы можем указать только индекс перед двоеточием:

print(ss[7:])

Outputhark!

Если мы укажем только индекс перед двоеточием и не укажем второй индекс, подстрока будет идти от соответствующего первому индексу символа до конца строки.

Для создания срезов также можно использовать отрицательные индексы. Как мы уже говорили раньше, отрицательные индексы строки начинаются с -1 и отсчитываются далее к началу строки. При использовании отрицательных индексов, мы начинаем с меньшего числа, потому что соответствующий ему символ идет раньше.

Давайте используем два отрицательных индекса для создания среза строки ss:

print(ss[-4:-1])

Outputark

Подстрока “ark” выводится из строки “Sammy Shark!”, потому что символ “a” соответствует индексу -4, а символ “k” находится перед позицией индекса -1.

Определение шага при создании срезов строк

В дополнение к двум индексам при создании срезов можно использовать третий параметр. Третий параметр указывает шаг, означающий, на сколько символов нужно сдвинуться после извлечения первого символа из строки. В предыдущих примерах мы не использовали параметр шага, а по умолчанию Python использует значение шага 1, выводя все символы между двумя индексами.

Давайте снова посмотрим на пример выше, который выводит подстроку “Shark”:

print(ss[6:11])

OutputShark

Мы можем получить те же результаты, добавив третий параметр шага со значением 1:

print(ss[6:11:1])

OutputShark

Если шаг равен 1, выводятся все символы между двумя индексами среза. Если мы опустим параметр шага, Python будет по умолчанию использовать значение 1.

Если же мы увеличим значение шага, некоторые символы будут пропущены:

print(ss[0:12:2])

OutputSmySak

Если мы зададим шаг 2 как последний параметр в синтаксисе Python ss[0:12:2], будет пропущен каждый второй символ. Выводимые символы обозначены красным цветом:

Sammy Shark!

Обратите внимание, что символ пробела с индексом 5 также пропускается, если задан шаг 2.

Если мы используем более крупное значение шага, подстрока будет значительно короче:

print(ss[0:12:4])

OutputSya

Если мы укажем шаг 4 как последний параметр синтаксиса Python ss[0:12:4], будет выведен только каждый четвертый символ. Выводимые символы также обозначены красным цветом:

Sammy Shark!

В этом примере символ пробела тоже пропускается.

Поскольку мы выводим всю строку, мы можем опустить два индекса и оставить два двоеточия в синтаксисе, чтобы получить тот же результат:

print(ss[::4])

OutputSya

Если мы пропустим два индекса и оставим запятые, мы включим в диапазон всю строку, а последний параметр будет определять шаг, то есть, количество пропускаемых символов.

Также мы можем указать отрицательное значение шага и использовать его для вывода исходной строки в обратном порядке, если зададим шаг -1:

print(ss[::-1])

Output!krahS ymmaS

Два двоеточия без параметров означают вывод всех символов первоначальной строки, шаг 1 означает вывод всех символов без пропуска, а отрицательное значение шага изменяет порядок вывода символов на противоположный.

Давайте повторим эту команду, но используем шаг -2:

print(ss[::-2])

Output!rh ma

В этом примере, ss[::-2], мы включаем в диапазон всю первоначальную строку, поскольку индексы не указаны, и задаем обратный порядок вывода отрицательным значением шага. Кроме того, с шагом -2 мы пропускаем каждую вторую букву строки, выводимой в обратном порядке:

! krahS[пробел]ymmaS

В этом примере выводится символ пробела.

Задавая третий параметр синтаксиса среза Python, мы указываем шаг подстроки, которую извлекаем из первоначальной строки.

Методы подсчета

Когда мы говорим об индексах символов в строках, стоит упомянуть о некоторых методах подсчета строк или вывода индексов. Это может быть полезно для того, чтобы ограничить количество символов, которые мы хотим включить в форму ввода, или чтобы сравнивать строки. Для подсчета строк, как и других символов последовательных данных, можно использовать несколько методов.

Вначале мы рассмотрим метод len(), который поможет определить длину любого типа данных упорядоченной или неупорядоченной последовательности, включая строки, списки, кортежи и словари.

Давайте выведем длину строки ss:

print(len(ss))

Output12

Длина строки “Sammy Shark!” составляет 12 символов, включая символ пробела и символ восклицательного знака.

Вместо использования переменной мы также можем передать строку прямо в метод len():

print(len("Let's print the length of this string."))

Output38

Метод len() подсчитывает общее количество символов в строке.

Если нам нужно подсчитать, сколько раз в строке встречается определенный символ или последовательность символов, мы можем использовать метод str.count(). Давайте возьмем нашу строку ss = "Sammy Shark!" и подсчитаем, сколько раз в ней встречается символ “a”:

print(ss.count("a"))

Output2

Мы можем поискать и другой символ:

print(ss.count("s"))

Output0

Хотя в строке есть буква “S”, важно понимать, что при подсчете учитывается регистр. Если мы хотим найти все буквы в строке независимо от регистра, мы можем использовать метод str.lower(), чтобы предварительно конвертировать все символы строки в нижний регистр. Вы можете узнать больше об этом методе в учебном модуле Введение в методы строк в Python 3.

Давайте попробуем использовать str.count() с последовательностью символов:

likes = "Sammy likes to swim in the ocean, likes to spin up servers, and likes to smile."
print(likes.count("likes"))

Output3

В строке likes последовательность символов, эквивалентная “likes”, встречается в исходной строке 3 раза.

Также мы можем определить позицию символа или последовательности символов в строке. Для этого мы можем использовать метод str.find(), который выводит позицию символа на базе номера индекса.

Мы можем посмотреть, где появляется первый символ “m” в строке ss:

print(ss.find("m"))

Ouput2

Первый символ “m” появляется в строке “Sammy Shark!” на позиции с индексом 2. Мы можем проверить позиции индекса в строке ss выше.

Давайте посмотрим, где встречается первая последовательность символов “likes” в строке likes:

print(likes.find("likes"))

Ouput6

Первый экземпляр последовательности символов “likes” начинается с индекса 6, соответствующего позиции символа l в последовательности likes.

Что делать, если, если мы хотим увидеть, где начинается вторая последовательность “likes”? Для этого мы можем передать второй параметр в метод str.find(), который будет начинаться с конкретного индекса. Вместо того, чтобы начинать с начала строки, начнем с индекса 9:

print(likes.find("likes", 9))

Output34

Во втором примере, который начинается с индекса 9, первая последовательность символов “likes” начинается с индекса 34.

Также мы можем указать в качестве третьего параметра конец диапазона. Как и в случае со срезами, мы можем использовать обратный отсчет, указав отрицательный индекс:

print(likes.find("likes", 40, -6))

Output64

В последнем примере мы ищем позицию последовательности “likes” между индексами 40 и -6. Поскольку последний параметр отрицательный, отсчет выполняется с конца первоначальной строки.

Методы строки len(), str.count() и str.find() можно использовать для определения длины, количества символов или последовательностей символов и индексов символов или последовательностей символов в строках.

Заключение

Возможность вызова определенных индексов строк или конкретного среза строки дает дополнительную гибкость при работе с этим типом данных. Поскольку строки относятся к последовательному типу данных, как списки и кортежи, для доступа к ним можно использовать индексы и срезы.

Чтобы продолжить изучение строк, вы можете прочитать дополнительные материалы по форматированию строк и методам строк.

Thanks for learning with the DigitalOcean Community. Check out our offerings for compute, storage, networking, and managed databases.

Learn more about our products