import pandas as pd
import numpy as np
import requests
from datetime import datetime, timedelta
import json
import sqlite32 Truy cập và quản lý dữ liệu tài chính VN
Chương này cung cấp hướng dẫn về cách tổ chức, truy cập và quản lý dữ liệu tài chính được thiết kế riêng cho thị trường Việt Nam. Trong khi các cơ sở dữ liệu tài chính toàn cầu như CRSP và Compustat là nguồn tài nguyên tiêu chuẩn cho các thị trường phát triển, các thị trường mới nổi như Việt Nam đòi hỏi một cách tiếp cận khác do các nguồn dữ liệu, cấu trúc thị trường và môi trường pháp lý độc đáo. Hiểu rõ những điểm khác biệt này là điều cần thiết để tiến hành nghiên cứu thực nghiệm nghiêm túc về cổ phiếu, trái phiếu và các chỉ số kinh tế vĩ mô của Việt Nam.
Thị trường tài chính Việt Nam đã trải qua sự tăng trưởng vượt bậc kể từ khi thành lập Sở Giao dịch Chứng khoán Thành phố Hồ Chí Minh (HOSE) năm 2000 và Sở Giao dịch Chứng khoán Hà Nội (HNX) năm 2005. Hiện nay, thị trường bao gồm hơn 1.600 công ty niêm yết trên ba sàn giao dịch: HOSE dành cho các cổ phiếu vốn hóa lớn, HNX dành cho các cổ phiếu vốn hóa trung bình và UPCoM (Thị trường các công ty chưa niêm yết) dành cho các công ty nhỏ hơn đang trong quá trình niêm yết chính thức. Sự đa dạng này tạo ra cả cơ hội và thách thức cho các nhà nghiên cứu tài chính đang tìm kiếm sự bao quát toàn diện về thị trường chứng khoán Việt Nam.
Thị trường Việt Nam có nhiều đặc điểm riêng biệt mà các nhà nghiên cứu cần phải xem xét. Giới hạn sở hữu nước ngoài (thường là 49% cho hầu hết các ngành, với một số ngoại lệ cho ngành ngân hàng và các ngành chiến lược nhất định), hạn chế về biên độ giao dịch (ví dụ, hiện tại là \(\pm\) 7% cho HOSE và \(\pm\) 10% cho HNX) và chu kỳ thanh toán T+2 đều ảnh hưởng đến cấu trúc vi mô và động lực lợi nhuận của thị trường. Ngoài ra, thị trường hoạt động bằng Đồng Việt Nam (VND), đòi hỏi sự chú ý cẩn thận đến các tác động của tỷ giá khi so sánh kết quả với các nghiên cứu quốc tế.
Chúng tôi cũng xác định khoảng thời gian thu thập dữ liệu của mình, kéo dài từ những ngày đầu của thị trường chứng khoán Việt Nam đến hiện tại. Thời gian kéo dài này cho phép chúng tôi nắm bắt sự phát triển của thị trường qua nhiều chu kỳ kinh tế khác nhau, bao gồm cuộc khủng hoảng tài chính toàn cầu năm 2008, cuộc khủng hoảng ngân hàng trong nước năm 2011-2012 và giai đoạn đại dịch COVID-19.
start_date = "2000-07-28" # HOSE establishment date
end_date = "2024-12-31"2.1 Tổng quan về các nguồn dữ liệu tài chính Việt Nam
Trước khi đi sâu vào triển khai kỹ thuật, điều quan trọng là phải hiểu rõ bức tranh tổng quan về các nhà cung cấp dữ liệu tài chính phục vụ thị trường Việt Nam. Không giống như các thị trường phát triển, nơi một vài nhà cung cấp hàng đầu (Bloomberg, Refinitiv, FactSet) cung cấp phạm vi phủ sóng toàn diện, dữ liệu tài chính Việt Nam từ trước đến nay vẫn phân tán trên nhiều nguồn khác nhau, mỗi nguồn đều có những điểm mạnh và hạn chế riêng.
Các nguồn dữ liệu tài chính chính của Việt Nam bao gồm dữ liệu giao dịch chính thức từ HOSE và HNX, cung cấp dữ liệu giao dịch thời gian thực và lịch sử. Ủy ban Chứng khoán Nhà nước Việt Nam (SSC) công bố các báo cáo quản lý, thông báo của doanh nghiệp và số liệu thống kê thị trường. Các nhà cung cấp dữ liệu thương mại như FiinGroup, StoxPlus (nay thuộc FiinGroup) và VNDirect cung cấp các bộ dữ liệu được chọn lọc với mức độ bao phủ và chất lượng dữ liệu khác nhau. Ngoài ra, Ngân hàng Nhà nước Việt Nam (SBV) và Tổng cục Thống kê (GSO) cung cấp các chỉ số kinh tế vĩ mô cần thiết cho nghiên cứu định giá tài sản.
Đối với các nhà nghiên cứu học thuật, sự phân mảnh này theo truyền thống liên quan đến những sự đánh đổi khó khăn giữa chi phí, phạm vi bao phủ, chất lượng dữ liệu và tính dễ tiếp cận. Các nhà cung cấp thương mại như FiinGroup cung cấp dữ liệu sạch, được chuẩn hóa nhưng yêu cầu phí đăng ký có thể là rào cản đối với các nhà nghiên cứu cá nhân và các tổ chức nhỏ hơn. Các giải pháp thay thế mã nguồn mở cung cấp quyền truy cập miễn phí nhưng thường yêu cầu nỗ lực làm sạch và xác thực dữ liệu đáng kể. Việc thu thập dữ liệu thủ công từ các trang web của chính phủ tốn thời gian và dễ xảy ra sai sót.
May mắn thay, bức tranh tổng thể đã được cải thiện đáng kể với sự xuất hiện của Datacore như một nền tảng dữ liệu thống nhất cho thị trường tài chính Việt Nam. Qua kinh nghiệm làm việc với dữ liệu tài chính Việt Nam trong nhiều dự án nghiên cứu, Datacore đã chứng minh là giải pháp thiết thực nhất cho nghiên cứu học thuật. Nền tảng này hợp nhất dữ liệu từ nhiều nguồn khác nhau, bao gồm giá cổ phiếu, thông tin cơ bản về doanh nghiệp, chỉ số thị trường, các chỉ số kinh tế vĩ mô và dữ liệu thay thế, vào một giao diện duy nhất, dễ truy cập với API được tài liệu hóa đầy đủ.
Điều làm nên sự khác biệt giữa Datacore và các nhà cung cấp thương mại truyền thống như FiinGroup không chỉ đơn thuần là việc tổng hợp dữ liệu. Trong khi FiinGroup từ lâu đã là nhà cung cấp hàng đầu trong lĩnh vực này, một số yếu tố khiến Datacore trở nên đặc biệt hấp dẫn đối với các nghiên cứu thực nghiệm nghiêm túc:
Kiến trúc ưu tiên API: Datacore được xây dựng từ đầu để truy cập lập trình, giúp tích hợp liền mạch với Python, R và các quy trình nghiên cứu khác. Ngược lại, việc truy cập dữ liệu của FiinGroup thường yêu cầu tải xuống thủ công hoặc giao diện dựa trên Excel rườm rà, gây khó khăn cho việc tái tạo kết quả.
Hiệu quả chi phí: Các nhà nghiên cứu học thuật thường hoạt động trong điều kiện ngân sách hạn chế. Datacore cung cấp cấu trúc giá cả cạnh tranh, giúp tiếp cận phạm vi thị trường toàn diện mà không cần trả phí đăng ký cao như các nhà cung cấp truyền thống.
Xử lý các hoạt động của công ty: Một thách thức dai dẳng với dữ liệu Việt Nam là việc điều chỉnh chính xác các trường hợp chia tách cổ phiếu, phát hành cổ phiếu thưởng và phát hành quyền mua cổ phiếu. Datacore triển khai các phương pháp điều chỉnh minh bạch với tài liệu rõ ràng, trong khi các nhà cung cấp truyền thống thường áp dụng các điều chỉnh không nhất quán hoặc không có giải thích đầy đủ.
Tần suất cập nhật: Datacore duy trì cập nhật dữ liệu gần như thời gian thực với dấu thời gian rõ ràng, cho phép nghiên cứu sự kiện và tái cân bằng danh mục đầu tư kịp thời. Các nhà cung cấp truyền thống thường gặp phải tình trạng chậm trễ công bố dữ liệu, điều này có thể ảnh hưởng đến các nghiên cứu cần dữ liệu hiện hành.
Phạm vi bao phủ: Ngoài dữ liệu giá cả và dữ liệu cơ bản tiêu chuẩn, Datacore tích hợp dữ liệu thay thế và các chỉ số kinh tế vĩ mô vào một lược đồ thống nhất. Điều này loại bỏ nhu cầu hợp nhất các tập dữ liệu từ nhiều nguồn khác nhau, một quy trình tiềm ẩn nguy cơ sai sót và tiêu tốn thời gian nghiên cứu quý báu.
Trong suốt chương này, chúng tôi sử dụng Datacore làm nguồn dữ liệu chính. Bằng cách tập trung thu thập dữ liệu thông qua một nền tảng duy nhất, chúng tôi được hưởng lợi từ các định dạng dữ liệu nhất quán, điều chỉnh hành động doanh nghiệp đáng tin cậy và phạm vi bao phủ thị trường toàn diện bao gồm HOSE, HNX và UPCoM. Các ví dụ mã sau đây minh họa cách thức nghiên cứu tài chính Việt Nam trở nên đơn giản hơn khi các rào cản truy cập dữ liệu được giảm thiểu.
Bảng dưới đây tóm tắt các nguồn dữ liệu chính cho nghiên cứu tài chính Việt Nam:
| Nguồn dữ liệu | Phạm vi phủ sóng | Loại truy cập | Điểm mạnh chính | Hạn chế |
|---|---|---|---|---|
| Datacore | Giá cả, yếu tố cơ bản, chỉ số, kinh tế vĩ mô, phái sinh | API | Nền tảng thống nhất, truy cập lập trình, phạm vi phủ sóng toàn diện, phương pháp luận minh bạch | Nền tảng mới hơn |
| FiinGroup | Phạm vi thị trường toàn diện | Thương mại | Uy tín đã được khẳng định, được các tổ chức tin dùng | Chi phí cao, truy cập thủ công, API hạn chế |
| Trang web HOSE/HNX | Dữ liệu giao dịch chính thức | Miễn phí (thủ công) | Chính xác, thời gian thực | Không cần API, không cần thu thập thủ công |
| Tổng cục Thống kê Quốc gia (GSO) (gso.gov.vn) | Các chỉ số kinh tế vĩ mô | Miễn phí (thủ công) | Thống kê chính thức của chính phủ | Cập nhật không thường xuyên, không có API |
| Ngân hàng Nhà nước Việt Nam (sbv.gov.vn) | Chính sách tiền tệ, lãi suất | Miễn phí (thủ công) | Dữ liệu ngân hàng trung ương | Chỉ tải xuống thủ công |
| CafeF/VnExpress | Tin tức, thông báo | Miễn phí | Tâm lý thị trường, sự kiện | Dữ liệu không cấu trúc, cần xử lý bằng NLP |
Nguồn dữ liệu tài chính Việt Nam {#tbl-data-sources}
2.2 Dữ liệu thị trường chứng khoán
DataFrame kết quả chứa các mã định danh an toàn thiết yếu bao gồm mã chứng khoán, tên công ty bằng cả tiếng Việt và tiếng Anh, thị trường giao dịch, phân loại ngành theo Hệ thống Phân loại ngành công nghiệp Việt Nam (VSIC), và nhiều cờ chỉ thị trạng thái đặc biệt như hạn chế sở hữu nước ngoài hoặc đình chỉ giao dịch.
2.2.1 Dữ liệu giá lịch sử
2.2.2 Thông tin cơ bản và Báo cáo tài chính
Ngoài dữ liệu giá cả, phân tích cơ bản đòi hỏi phải tiếp cận báo cáo tài chính của doanh nghiệp, bao gồm bảng cân đối kế toán, báo cáo kết quả kinh doanh và báo cáo lưu chuyển tiền tệ. Các công ty niêm yết công khai của Việt Nam phải công bố báo cáo tài chính hàng quý và hàng năm theo Chuẩn mực Kế toán Việt Nam (VAS), có một số điểm khác biệt so với Chuẩn mực Báo cáo Tài chính Quốc tế (IFRS). Hiểu rõ những khác biệt này rất quan trọng khi so sánh các công ty Việt Nam với các công ty cùng ngành trên thế giới hoặc khi áp dụng các mô hình được phát triển bằng dữ liệu của Mỹ hoặc châu Âu.
Những điểm khác biệt chính giữa VAS và IFRS ảnh hưởng đến phân tích tài chính bao gồm:
- Ghi nhận doanh thu: VAS cho phép linh hoạt hơn về thời điểm ghi nhận doanh thu so với IFRS 15.
- Công cụ tài chính: VAS có hướng dẫn chưa toàn diện về việc đo lường giá trị hợp lý.
- Kế toán thuê tài sản: VAS không yêu cầu vốn hóa thuê hoạt động theo IFRS 16.
- Lợi thế thương mại: VAS yêu cầu khấu hao trong khi IFRS chỉ yêu cầu kiểm tra suy giảm giá trị.
2.2.3 Các hoạt động và sự kiện của công ty
Việc xử lý chính xác các hành động của công ty là rất quan trọng để tính toán lợi nhuận chính xác và duy trì tính toàn vẹn của dữ liệu. Các công ty Việt Nam thường xuyên tham gia vào các hành động của công ty bao gồm tiền cổ tức, cổ tức thưởng (cổ phiếu quà tặng), phát hành thêm cổ phiếu theo quyền và chia cổ phiếu.
2.3 Các Chỉ Số Thị Trường và Tiêu Chuẩn
Việc xây dựng các tiêu chuẩn tham chiếu phù hợp là yếu tố cơ bản trong đánh giá hiệu suất và ước lượng mô hình nhân tố. Thị trường Việt Nam có một số chỉ số phục vụ các mục đích khác nhau trong nghiên cứu tài chính.
| Mục lục | Sàn giao dịch | Mô tả | Trường hợp sử dụng |
|---|---|---|---|
| Chỉ số VN | HOSE | Tất cả cổ phiếu niêm yết trên HOSE | Chỉ số tham chiếu thị trường chung |
| Chỉ số VN30 | HOSE | 30 công ty lớn nhất, có tính thanh khoản cao nhất | Chuẩn mực đầu tư |
| Chỉ số HNX | HNX | Tất cả cổ phiếu niêm yết trên HNX | Chỉ số tham chiếu vốn hóa trung bình |
| HNX30-Index | HNX | 30 cổ phiếu lớn nhất HNX | HNX vốn hóa lớn |
| VNAllShare | Kết hợp | HOSE + HNX | Tổng thị trường |
| VN100 | Tổng hợp | 100 cổ phiếu hàng đầu | Vốn hóa lớn/trung bình |
Chỉ số thị trường Việt Nam {#tbl-indices}
Chỉ số VN-Index, theo dõi tất cả các cổ phiếu niêm yết trên Sở giao dịch chứng khoán Hà Nội (HOSE), là chỉ số chuẩn được theo dõi rộng rãi nhất và là thước đo chính về hiệu suất tổng thể của thị trường. Chỉ số HNX-Index bao gồm các cổ phiếu trên sàn giao dịch Hà Nội, trong khi chỉ số VN30-Index theo dõi 30 cổ phiếu lớn nhất và có tính thanh khoản cao nhất trên HOSE.
Đối với nghiên cứu định giá tài sản, chỉ số VN30 đặc biệt có giá trị vì nó đại diện cho phạm vi đầu tư của các nhà đầu tư tổ chức và là tài sản cơ sở cho các hợp đồng phái sinh có tính thanh khoản cao nhất tại Việt Nam. Các cổ phiếu thành phần được xem xét định kỳ nửa năm một lần dựa trên vốn hóa thị trường, tính thanh khoản và yêu cầu về tỷ lệ cổ phiếu lưu hành tự do.
# Retrieve VN-Index historical data2.3.1 Dữ liệu thành phần chỉ số
Để xây dựng mô hình nhân tố và phân tích danh mục đầu tư, việc truy cập vào danh sách các thành phần chỉ số và trọng số của chúng là thiết yếu. Mặc dù dữ liệu thành phần chính thức yêu cầu đăng ký nguồn dữ liệu giao dịch, chúng ta có thể ước tính thành viên chỉ số bằng cách sử dụng bộ lọc về vốn hóa thị trường và thanh khoản.
2.4 Dữ liệu kinh tế vĩ mô từ các nguồn Việt Nam
Các mô hình định giá tài sản thường kết hợp các biến số kinh tế vĩ mô làm yếu tố dự báo lợi nhuận kỳ vọng hoặc làm biến số trạng thái trong các mô hình có điều kiện. Đối với thị trường Việt Nam, dữ liệu kinh tế vĩ mô liên quan chủ yếu đến từ hai nguồn: Tổng cục Thống kê (GSO) và Ngân hàng Nhà nước Việt Nam (SBV).
2.4.1 Các chỉ số kinh tế vĩ mô chính
Các biến số kinh tế vĩ mô sau đây đặc biệt quan trọng đối với nghiên cứu tài chính Việt Nam:
Chỉ số giá tiêu dùng (CPI): Cần thiết để tính toán lợi nhuận thực tế và định giá điều chỉnh theo lạm phát. Việt Nam đã trải qua các giai đoạn lạm phát cao, đặc biệt là trong giai đoạn 2008 và 2011 khi CPI hàng năm vượt quá 20%.
Chỉ số sản xuất công nghiệp (IPI): Đại diện cho hoạt động kinh tế và điều kiện chu kỳ kinh doanh.
Cung tiền (M2): Chỉ số thể hiện lập trường chính sách tiền tệ và điều kiện thanh khoản.
Tăng trưởng tín dụng: Tăng trưởng cho vay của ngân hàng, một động lực chính của hoạt động kinh tế trong hệ thống tài chính do ngân hàng chi phối tại Việt Nam.
Tỷ giá hối đoái USD/VND: Rất quan trọng đối với các nhà đầu tư quốc tế và các công ty có rủi ro ngoại tệ.
Đầu tư trực tiếp nước ngoài (FDI): Chỉ số về dòng vốn quốc tế và niềm tin kinh tế.
Cán cân thương mại: Động thái xuất nhập khẩu ảnh hưởng đến lợi nhuận doanh nghiệp.
Đáng tiếc là, không giống như cơ sở dữ liệu FRED của Cục Dự trữ Liên bang Mỹ, dữ liệu kinh tế vĩ mô của Việt Nam không có sẵn thông qua các API tiêu chuẩn. Các nhà nghiên cứu thường phải tải dữ liệu thủ công từ trang web của Tổng cục Thống kê (GSO) và Ngân hàng Nhà nước Việt Nam (SBV) hoặc sử dụng các kỹ thuật thu thập dữ liệu từ web.
# Structure for Vietnamese macroeconomic data2.4.2 Xấp xỉ lãi suất phi rủi ro
Việc xác định lãi suất phi rủi ro phù hợp cho Việt Nam đặt ra những thách thức không gặp phải ở các thị trường phát triển. Không giống như thị trường trái phiếu kho bạc Mỹ, thị trường trái phiếu chính phủ Việt Nam tương đối kém thanh khoản với giao dịch thứ cấp hạn chế. Có một số phương án thay thế:
Lãi suất tái cấp vốn của Ngân hàng Nhà nước Việt Nam: Lãi suất chính sách do Ngân hàng Nhà nước Việt Nam quy định. Không dùng để đầu tư trực tiếp nhưng phản ánh lập trường chính sách tiền tệ.
Lợi suất trái phiếu chính phủ: Lợi suất trái phiếu chính phủ kỳ hạn một năm trở lên dựa trên kết quả đấu giá. Có tính đầu tư cao hơn nhưng tính thanh khoản thấp hơn so với trái phiếu kho bạc Mỹ.
Lãi suất liên ngân hàng: Lãi suất cho vay liên ngân hàng qua đêm hoặc kỳ hạn. Phản ánh chi phí huy động vốn ngắn hạn nhưng bao gồm rủi ro tín dụng.
Lãi suất điều chỉnh của Mỹ: Lãi suất trái phiếu kho bạc Mỹ cộng với dự báo giảm giá trị của VND, theo nguyên tắc ngang giá lãi suất không được bảo hiểm.
def calculate_risk_free_rate(macro_data, method="refinancing"):
"""
Calculate risk-free rate proxy for Vietnamese market.
Parameters
----------
macro_data : pd.DataFrame
DataFrame with macroeconomic data
method : str
Method for risk-free rate: 'refinancing', 'bond', or 'adjusted_us'
Returns
-------
pd.DataFrame
DataFrame with date and monthly risk-free rate
"""
if method == "refinancing":
# Use SBV refinancing rate, convert annual to monthly
rf = macro_data[["date", "refinancing_rate"]].copy()
rf["rf_monthly"] = rf["refinancing_rate"] / 12 / 100
elif method == "adjusted_us":
# US rate + expected VND depreciation
# Requires additional data on US rates and exchange rate expectations
pass
return rf[["date", "rf_monthly"]]2.5 Thiết lập cơ sở dữ liệu cho dữ liệu tài chính Việt Nam
Quản lý dữ liệu tài chính từ nhiều nguồn và định dạng khác nhau đòi hỏi một phương pháp lưu trữ dữ liệu có hệ thống. Chúng tôi khuyến nghị sử dụng SQLite làm công cụ cơ sở dữ liệu chính vì một số lý do: nó không yêu cầu thiết lập máy chủ, lưu trữ toàn bộ cơ sở dữ liệu trong một tệp duy nhất có thể di chuyển được, hỗ trợ các truy vấn SQL chuẩn và tích hợp liền mạch với Python thông qua mô-đun sqlite3 tích hợp sẵn.
2.5.1 Thiết kế lược đồ cơ sở dữ liệu
Sơ đồ cơ sở dữ liệu của chúng tôi được thiết kế để hỗ trợ các truy vấn hiệu quả cho các tác vụ nghiên cứu thông thường đồng thời duy trì tính toàn vẹn dữ liệu. Chúng tôi tạo các bảng riêng biệt cho các loại dữ liệu khác nhau với các mối quan hệ phù hợp.
import os
import sqlite3
# Create data directory if it doesn't exist
if not os.path.exists("data"):
os.makedirs("data")
# Initialize SQLite database connection
tidy_finance_python = sqlite3.connect(
"data/tidy_finance_python.sqlite"
)2.5.2 Lưu trữ dữ liệu
Sau khi thiết lập lược đồ cơ sở dữ liệu, chúng ta có thể lưu trữ dữ liệu đã thu thập bằng phương thức to_sql() của thư viện pandas.
# Store stock listing data
common_stocks.to_sql(
name="stock_master",
con=tidy_finance_python,
if_exists="replace",
index=False
)
# Store stock price data
stock_prices.to_sql(
name="stock_prices_daily",
con=tidy_finance_python,
if_exists="replace",
index=False
)
# Store market indices
vn_index.to_sql(
name="market_indices",
con=tidy_finance_python,
if_exists="replace",
index=False
)
# Store factor returns
factors_vietnam.to_sql(
name="factors_monthly",
con=tidy_finance_python,
if_exists="replace",
index=False
)2.6 Truy vấn và cập nhật cơ sở dữ liệu
Sau khi dữ liệu được lưu trữ trong cơ sở dữ liệu, việc truy xuất rất đơn giản bằng cách sử dụng các truy vấn SQL. Hàm read_sql_query() của thư viện pandas thực thi một câu lệnh SQL và trả về kết quả dưới dạng DataFrame.
# Query stock prices for specific symbols and date range
query = """
SELECT date, symbol, close, volume
FROM stock_prices_daily
WHERE symbol IN ('VNM', 'VIC', 'FPT', 'VHM', 'VCB')
AND date >= '2020-01-01'
ORDER BY symbol, date
"""
selected_stocks = pd.read_sql_query(
sql=query,
con=tidy_finance_python,
parse_dates=["date"]
)
# Query factor data merged with market returns
query_factors = """
SELECT f.date, f.mkt_rf, f.smb, f.hml, f.rf,
m.cpi_yoy, m.credit_growth
FROM factors_monthly f
LEFT JOIN macro_monthly m ON f.date = m.date
WHERE f.date >= '2015-01-01'
ORDER BY f.date
"""
factor_data = pd.read_sql_query(
sql=query_factors,
con=tidy_finance_python,
parse_dates=["date"]
)2.6.1 Bảo trì cơ sở dữ liệu
Việc bảo trì cơ sở dữ liệu thường xuyên đảm bảo hiệu suất tối ưu và tính toàn vẹn của dữ liệu.
# Optimize database
tidy_finance_python.execute("VACUUM")
# Check database integrity
integrity_check = pd.read_sql_query(
"PRAGMA integrity_check",
tidy_finance_python
)
print(f"Integrity check: {integrity_check.iloc[0, 0]}")
# Get database statistics
table_stats = pd.read_sql_query("""
SELECT name,
(SELECT COUNT(*) FROM stock_prices_daily) as price_rows,
(SELECT COUNT(*) FROM stock_master) as stock_count,
(SELECT COUNT(*) FROM factors_monthly) as factor_months
FROM sqlite_master
WHERE type='table' AND name='stock_master'
""", tidy_finance_python)
print(table_stats)
# Close connection when done
tidy_finance_python.close()2.7 Các nguồn dữ liệu thay thế cho thị trường Việt Nam
Ngoài các dữ liệu truyền thống về giá cả và cơ bản, các nhà nghiên cứu ngày càng kết hợp nhiều nguồn dữ liệu thay thế để có được những hiểu biết độc đáo về động thái thị trường.
2.7.1 Dữ liệu về dòng vốn đầu tư nước ngoài
Dữ liệu về dòng vốn đầu tư nước ngoài đặc biệt có giá trị do vai trò quan trọng của vốn nước ngoài trên thị trường chứng khoán Việt Nam. Ủy ban Chứng khoán Nhà nước công bố số liệu thống kê sở hữu nước ngoài theo từng loại chứng khoán hàng ngày.
2.7.2 Dữ liệu tin tức và tâm lý
Phân tích tâm lý thị trường từ các nguồn tin tài chính Việt Nam cung cấp một hướng nghiên cứu khác. Các trang tin lớn như CafeF, VnExpress Finance và Vietstock đăng tải tin tức thời gian thực, có thể được phân tích để nắm bắt tâm lý thị trường.
2.8 Những điểm chính cần ghi nhớ
Hiểu biết về cấu trúc thị trường: Thị trường tài chính Việt Nam hoạt động trên ba sàn giao dịch (HOSE, HNX, UPCoM) với những đặc điểm riêng biệt bao gồm giới hạn sở hữu nước ngoài, hạn chế biên độ giao dịch và chu kỳ thanh toán T+2. Các nhà nghiên cứu phải tính đến những đặc điểm thể chế này trong phân tích thực nghiệm.
Những thách thức về dữ liệu kinh tế vĩ mô: Không giống như các thị trường phát triển với các API tiêu chuẩn hóa (ví dụ: FRED), dữ liệu kinh tế vĩ mô của Việt Nam đòi hỏi phải thu thập thủ công từ các nguồn chính phủ (Tổng cục Thống kê, Ngân hàng Nhà nước). Các nhà nghiên cứu cần lên kế hoạch cho nỗ lực thu thập dữ liệu bổ sung này và triển khai các phương pháp quản lý dữ liệu một cách có hệ thống.
Quy trình làm việc tập trung vào cơ sở dữ liệu: SQLite cung cấp giải pháp cơ sở dữ liệu hiệu quả và dễ di chuyển để quản lý dữ liệu tài chính Việt Nam trong các dự án nghiên cứu. Cách tiếp cận cơ sở dữ liệu có cấu trúc cho phép các quy trình nghiên cứu có thể tái tạo, các truy vấn hiệu quả và việc chia sẻ dữ liệu dễ dàng giữa các cộng tác viên.
Yếu tố then chốt về chất lượng dữ liệu: Việc xác thực chất lượng dữ liệu đặc biệt quan trọng đối với dữ liệu thị trường mới nổi. Thực hiện các kiểm tra có hệ thống đối với các giá trị thiếu, lợi nhuận bất thường, các mục trùng lặp và xác thực chéo nguồn giúp đảm bảo độ tin cậy và khả năng tái tạo của nghiên cứu.
Cơ hội từ các nguồn dữ liệu thay thế: Dòng vốn đầu tư nước ngoài, thông báo của các công ty và tâm lý truyền thông cung cấp những cơ hội nghiên cứu độc đáo trên thị trường Việt Nam, có thể bổ sung cho phân tích giá và phân tích cơ bản truyền thống. Các nguồn dữ liệu này có thể tiết lộ những hiểu biết về động thái thị trường mà các bộ dữ liệu tiêu chuẩn không thể nắm bắt được.
Bảo trì liên tục: Cơ sở dữ liệu tài chính cần được bảo trì liên tục, bao gồm cập nhật tăng dần, kiểm tra tính toàn vẹn và tối ưu hóa. Việc thiết lập các quy trình cập nhật có hệ thống đảm bảo tính cập nhật của dữ liệu và hiệu suất cơ sở dữ liệu theo thời gian.