當使用 Pandas 做數據分析的時,需要讀取事先準備好的數據集,這是做數據分析的第一步。Panda 提供了多種讀取數據的方法:
本節(jié)將對上述方法做詳細介紹。
CSV 又稱逗號分隔值文件,是一種簡單的文件格式,以特定的結構來排列表格數據。 CSV 文件能夠以純文本形式存儲表格數據,比如電子表格、數據庫文件,并具有數據交換的通用格式。CSV 文件會在 Excel 文件中被打開,其行和列都定義了標準的數據格式。
將 CSV 中的數據轉換為 DataFrame 對象是非常便捷的。和一般文件讀寫不一樣,它不需要你做打開文件、讀取文件、關閉文件等操作。相反,您只需要一行代碼就可以完成上述所有步驟,并將數據存儲在 DataFrame 中。
下面進行實例演示,首先您需要創(chuàng)建一組數據,并將其保存為 CSV 格式,數據如下:
Name,Hire Date,Salary,Leaves Remaining
John Idle,08/15/14,50000.00,10
Smith Gilliam,04/07/15,65000.00,6
Parker Chapman,02/21/14,45000.00,7
Jones Palin,10/14/13,70000.00,3
Terry Gilliam,07/22/14,48000.00,9
Michael Palin,06/28/13,66000.00,8
注意:將上述數據保存到.txt的文本文件中,然后將文件的擴展名后綴修改為 csv,即可完成 csv 文件的創(chuàng)建。
接下來,我們使用下列代碼讀寫數據:
import pandas
#僅僅一行代碼就完成了數據讀取,但是注意文件路徑不要寫錯
df = pandas.read_csv('C:/Users/Administrator/Desktop/hrd.csv')
print(df)
輸出結果:
Name Hire Date Salary Leaves Remaining 0 John Idle 08/15/14 50000.0 10 1 Smith Gilliam 04/07/15 65000.0 6 2 Parker Chapman 02/21/14 45000.0 7 3 Jones Palin 10/14/13 70000.0 3 4 Terry Gilliam 07/22/14 48000.0 9 5 Michael Palin 06/28/13 66000.0 8
在下一節(jié)會對 read_csv() 函數做詳細講解。
您可以通過下列方法來讀取一個 json 文件,如下所示:
import pandas as pd
data = pd.read_json('C:/Users/Administrator/Desktop/hrd.json')
print(data)
輸出結果:
Name Hire Date Salary Leaves Remaining 0 John Idle 08/15/14 50000.0 10 1 Smith Gilliam 04/07/15 65000.0 6 2 Parker Chapman 02/21/14 45000.0 7 3 Jones Palin 10/14/13 70000.0 3 4 Terry Gilliam 07/22/14 48000.0 9 5 Michael Palin 06/28/13 66000.0 8
如果想要從 SQL 數據庫讀取數據,首先您應該使用 Python 和數據庫建立連接,然后將查詢語句傳遞給 read_sql_query() 方法,下面做簡單地演示:
?pip install pysqlite3
?
import sqlite3
con = sqlite3.connect("database.db")
在 SQLite 數據庫中創(chuàng)建一張信息表,您可以隨意添加一些信息,最后使用下列方法讀取數據即可:
#con參數指定操作數據庫的引擎,可以指定,也可默認
df = pd.read_sql_query("SELECT * FROM information",con)
更多建議: