在 Pandas 中獲取列與特定值匹配的行的索引

本文演示了 Pandas 中如何獲取符合特定條件的行的索引。
在特徵工程中,查詢行的索引的必要性是很重要的。這些技能對於去除 Dataframe 中的離群值或異常值很有用。索引,也就是行標籤,可以在 Pandas 中使用幾個函式找到。在下面的例子中,我們將處理使用以下程式碼段建立的 DataFrame。
import pandas as pd import numpy as np np.random.seed(0) df = pd.DataFrame(np.random.randint(1, 20, size=(20, 4)), columns=list("ABCD")) print(df)
輸出:
A B C D 0 13 16 1 4 1 4 8 10 19 2 5 7 13 2 3 7 8 15 18 4 6 14 9 10 5 17 6 16 16 6 1 19 4 18 7 15 8 1 2 8 10 1 11 4 9 12 19 3 1 10 1 5 6 7 11 9 18 16 5 12 10 11 2 2 13 8 10 4 7 14 12 15 19 1 15 15 4 13 11 16 12 5 7 5 17 16 4 13 5 18 9 15 16 4 19 16 14 17 18
在 Pandas 中獲取包含整數/浮點數的行的索引
pandas.DataFrame.loc
函式可以通過其標籤/名稱訪問行和列。它直接返回與作為標籤傳遞的給定布林條件相匹配的行。請注意片段中 df.loc
旁邊的方括號。
import pandas as pd import numpy as np np.random.seed(0) df = pd.DataFrame(np.random.randint(1, 20, size=(20, 4)), columns=list("ABCD")) print(df.loc[df["B"] == 19])
對應於布林條件的行將以 Dataframe 格式的輸出返回。
輸出:
A B C D 6 1 19 4 18 9 12 19 3 1
多個條件可以被串聯起來並一起應用到函式中,如下所示。這有助於根據特定條件隔離行。
import pandas as pd import numpy as np np.random.seed(0) df = pd.DataFrame(np.random.randint(1, 20, size=(20, 4)), columns=list("ABCD")) print(df.loc[(df["B"] == 19) | (df["C"] == 19)])
輸出:
A B C D 6 1 19 4 18 9 12 19 3 1 14 12 15 19 1
用 pandas.DataFrame.index()
獲取行的索引
如果你想只查詢滿足作為引數傳遞的布林條件的 DataFrame 的匹配索引,pandas.DataFrame.index()
是最簡單的實現方式。
import pandas as pd import numpy as np np.random.seed(0) df = pd.DataFrame(np.random.randint(1, 20, size=(20, 4)), columns=list("ABCD")) print(df.index[df["B"] == 19].tolist())
在上面的程式碼段中,列 A
中與布林條件 == 1
相匹配的行以輸出的方式返回,如下所示。
輸出:
[6, 9]
我們之所以把 tolist()
放在 index()
方法後面,是為了把 Index
轉換為列表,否則,結果就是 Int64Index
資料型別。
Int64Index([6, 9], dtype='int64'
也可以根據多個條件只檢索索引。這段程式碼可以寫成如下。
import pandas as pd import numpy as np np.random.seed(0) df = pd.DataFrame(np.random.randint(1, 20, size=(20, 4)), columns=list("ABCD")) print(df.index[(df["B"] == 19) | (df["C"] == 19)].tolist())
輸出:
[6, 9, 14]
在 Pandas 中獲取包含字串的行的索引
字串值可以根據兩種方法進行匹配。上一節中所示的兩種方法都可以使用,除了條件變化。
在下面的例子中,我們將使用以下片段。
import pandas as pd df = pd.DataFrame( { "Name": ["blue", "delta", "echo", "charlie", "alpha"], "Type": ["Raptors", "Raptors", "Raptors", "Raptors", "Tyrannosaurus rex"], } ) print(df)
輸出:
Name Type 0 blue Raptors 1 delta Raptors 2 echo Raptors 3 charlie Raptors 4 alpha Tyrannosaurus rex
用精確字串匹配獲取行的索引
上一節中使用的相等條件可以用來尋找 Dataframe 中的精確字串匹配。我們來尋找兩個字串。
import pandas as pd df = pd.DataFrame( { "Name": ["blue", "delta", "echo", "charlie", "alpha"], "Type": ["Raptors", "Raptors", "Raptors", "Raptors", "Tyrannosaurus rex"], } ) print(df.index[(df["Name"] == "blue")].tolist()) print("\n") print(df.loc[df["Name"] == "blue"]) print("\n") print(df.loc[(df["Name"] == "charlie") & (df["Type"] == "Raptors")])
輸出:
[0] Name Type 0 blue Raptors Name Type 3 charlie Raptors
如上所示,索引和符合條件的行都可以被接收。
獲取具有部分字串匹配條件的行的索引
通過將 DataFrame 與 str.contains
函式進行鏈式連線,可以部分匹配字串值。在下面的例子中,我們將在 charlie 和 alpha中尋找字串 ha
。
import pandas as pd df = pd.DataFrame( { "Name": ["blue", "delta", "echo", "charlie", "alpha"], "Type": ["Raptors", "Raptors", "Raptors", "Raptors", "Tyrannosaurus rex"], } ) print(df.index[df["Name"].str.contains("ha")].tolist()) print("\n") print(df.loc[df["Name"].str.contains("ha")]) print("\n") print(df.loc[(df["Name"].str.contains("ha")) & (df["Type"].str.contains("Rex"))])
輸出:
[3, 4] Name Type 3 charlie Raptors 4 alpha Tyrannosaurus rex Name Type 4 alpha Tyrannosaurus rex
這個函式在對 DataFrame 的多列進行部分字串匹配時非常有用。
相關文章 - Pandas DataFrame
- 如何將 Pandas DataFrame 列標題獲取為列表
- 如何刪除 Pandas DataFrame 列
- 如何在 Pandas 中將 DataFrame 列轉換為日期時間
- 如何在 Pandas DataFrame 中將浮點數轉換為整數
- 如何按一列的值對 Pandas DataFrame 進行排序
- 如何用 group-by 和 sum 獲得 Pandas 總和