Python实现读取HTML表格 pd.read_html()(Python读取HTML表格)

Python读取HTML表格

数据部门提供的数据是xls格式的文件，但是执行读取xls文件的脚本报错。

xlrd报错：

xlrd.biffh.XLRDError: Unsupported format, or corrupt file: Expected BOF record; found b'<html xm'

读取xlrd的脚本

data_lines = read_excel_file(self.file_path)
def read_excel_file(file_path):
 """
 读取excel文件
 """
 import xlrd
 print('[Info] excel file: {}'.format(file_path))
 book = xlrd.open_workbook(file_path)
 sheet = book.sheet_by_index(0)
 data_lines = []
 for row in range(0, sheet.nrows):
  line_data = []
  for column in range(0, sheet.ncols):
val = sheet.cell(row, column).value
line_data.append(val)
  data_lines.append(line_data)
 return data_lines  # 二维数组

原因是文件格式是HTML表格，参考python xlrd unsupported format, or corrupt file.

使用pandas的read_html读取文件，同时替换nan为空字符，数据格式保持一致。

def read_html_table(file_path):
    """
    读取html表格
    """
    import pandas as pd
    pd_table = pd.read_html(file_path)
    df = pd_table[0]
    # num_col = df.shape[1]
    # num_row = df.shape[0]
    df_data = df.values.tolist()
    df_data = df_data[1:]
    for r_idx, row in enumerate(df_data):
        for c_idx, value in enumerate(row):
            # 判断nan，参考https://stackoverflow.com/questions/944700/how-can-i-check-for-nan-values
            if value != value:
                df_data[r_idx][c_idx] = ""
    return df_data

读取问题解决。